闭关4年 投入8亿资金 500位科学家夯实中国医疗市场的基础

来源: 新浪医药新闻  Mon Apr 16 17:24:05 CST 2018 A- A+

翻开众多媒体曾经追捧的“互联网医疗”公司名单,尽管种种创新层出不穷。从挂号、支付、给药等提升医患端效率的运营模式,到飞刀、医生社区等帮助医生抓市场化机遇的运营模式,再到医疗图像辅助识别、基层医生辅助诊疗的运营模式,数字技术对于医疗的改革和推动不断的从外围的简单资源调配向内部扩大效能演变,然而对于医疗行业的整体推动作用,仍然局限在单点的优化上。

对于医疗,这个影响着数十亿人口,产值上万亿美金的行业,人们所期待的颠覆式创新却迟迟没有到来。

其中一个非常重要的原因就是,医疗行业大数据技术应用发展面临着“先天”和“后天”的挑战:首先医疗数据数字化程度不高,标准不统一,数据孤岛问题导致数据无法大规模使用。其次,医疗数据本身敏感度高,为医疗大数据的应用形成一道无形的障碍。最后,医疗行业本身人才极度匮乏问题由来已久。

许多人有所不知的是,国内现有的信息化系统已经超过4000个,平均每家医院使用的有超过100个,这些系统对数据的结构和表达存在很大差异,这其中有超过半数数据是自然语言的文本,而每家医院的科室甚至医生对信息的书写方式都可能不同,这种极度复杂性让计算机无法理解数据且进行计算。

如果人工执行,500人终其一生也无法处理数十亿的病历。但是有人确实做到了。

有一家公司,经过4年的不懈努力、8亿元的巨额投入,500位科学家的执着,纵深大量疾病研究,“在泥泞中砥砺前行,打造未来数字医疗的基础设施”,最终获得了近百家中国顶级医疗研究机构和政府机构的信任,这家公司就是医渡云。

低调的“20 人、8 亿元、12 亿份、2000 万个”

2013年,医渡云成立了一支20人的团队。他们凭着一股“以可用数据作为基础的新型医疗才是未来”的信念,花了3年半时间、8 亿资金只做一件事:埋首于医疗大数据、人工智能基础平台研发。

至今,他们协助医疗机构完成超过12亿余份病历资料的数字化与数据化处理,从中建立超过2000多万个诊断名的标准化,这意味着每天的病历处理数量高达70万份、每天至少需建立超过1.5万个标准化诊断名。国内排名前150家医院中三分之二是它的合作客户。今年,他们还将与10个省市政府机构,合作建立起区域化医疗数据平台。

“20 人、8 亿元、12亿笔、2000万个”,这些数字,代表着一家中国原创公司的崛起。或许这些数字在大多数人眼中并不特别,但正是这些数字背后的力量在推动中国医疗改革,用数据人工智能改善民生。

医渡云正在改变中国医疗行业的样貌。

这一波人工智能的复兴,在中国出现了许多赢得巨额融资的初创公司,没有镁光灯照射的医渡云在公众界显得有点“默默无名”。尽管获得大型投资机构投资,从技术开发、落地、到串起产学研三大环节,早已超过独角兽的身价,但他们从未对外公布。

而且,他们所做事情的起点,实际上也是整个医疗过程中相当辛苦的部分——把原始数据变成可用数据,即“大数据的基础处理”。

“医疗这件事,大家都想做,比如说挂号、帮你找专家等,我不否认他们的价值,但最最基础的工作,把原始数据变成可用数据这种‘脏活’,没人愿意做,”医渡云创始人宫如璟开玩笑的说。但事实的确如此,建立基础的活最难做,就像盖房子打地基一样,因此很少有初创公司会像医渡云一样选择切入技术门槛很高的基础系统。

所以,他们为中国医疗体系打“地基”的进展如何呢?医渡云处理病历数累计12亿余份,整理出2000多万个诊断名。能把分散的、非结构、非标准化的数据自动转化成标准可用的,而且聚集起来,这就是医渡云的技术本事。

有了这个一致化的数据集后,基础架构平台可以发挥效用的空间就被彻底打开了。

敢啃“硬骨头”,才能构建起庞大规模平台

感到难以置信的,除了他们的低调作风和成绩以外,还有其市场战线。

在过去采访诸多公司里,大多数是选定一、两个领域切入,鲜少看到一家公司像医渡云一样,战线拉得这么远:开发的“医学数据智能平台”(DPAP)涵盖从基础科研、临床系统、医院管理系统,再到跨院跨区的合作共享,但却又能全盘统筹、协作有秩,而非“PPT造车”式的纸上谈兵。

众所周知,医疗保健是一个高度专业、范畴相当广泛的领域,从疾病研究、制药、医材、诊断、治疗、保健、保险,在这大健康产业链中每一个环节都是大学问。每一个环节都被各种数据严密地包裹着,而且这些数据还在疯狂地快速生长。但也只有在数据领域产生质的突破,才能解密整个产业链。这也是产业链中最“硬“的骨头。

面对“硬骨头”,医渡云决定迎难而上,把数据作为第一突破口。但是这一点其实大家都已注意到,毕竟,医疗机构迈向数字化早已是大势所趋,医疗资讯系统(HIS)、建立电子病历等在国际间也推行了十多年,但具体如何突破?

实际发展其实困难重重,原因除了重视隐私保护的行业特性,使得对科技的评估、导入相对较慢之外,很多数据是属于非结构化甚至医生个性化的自然语言文本,例如医生主观撰写的病历、巡诊纪录,而且信息散落院内各部门,也导致了数据运用之难。

要突破这个瓶颈,第一件事就是得有一个基础设施平台,接着再让平台上长出各种智能模块,并且能与医院现有的系统对接。

因此,医渡云用三年半的时间专注开发出一个整合性极强的医疗数据处理系统,能把原始零散的不可计算数据变成高质量可计算可应用数据,平台上聚集了大量知识图谱、300种以上的智能处理模块以及二十余种专病库。

为什么医渡云所从事的事情会如此重要?因为,人类的数字化医疗数据不是这几年才变大的, 它本来是一只“巨兽”,但其本身并不是全部可用的,而可用数据才是一切人工智能技术的基础。另一方面,计算机对数据的分析、学习和人类孩童的学习一样,要给其正确的规范的指导。因此想做大数据分析,包括训练神经网络模型,不是把所有资料通通倒进去就行,得仰赖清理过、符合行业标准的数据才行。否则机器回馈给人类的也将是错误的结论和模型。

那这件事有多难?医渡云首席技术官徐济铭举了一个具体的例子,同一个疾病,每位医生的写法可能都不同,例如“二型糖尿病”的二,有人写汉字、阿拉伯数字、罗马字体,还有人会写糖尿病二型、或是 Type 2 Diabetes ,这还只是最简单的一种,很多拗口的疾病有更多复杂的写法,尽管在医疗诊断里有所谓的国际疾病分类编码标准(ICD),不过 ICD 编码也才 2 万多种,不足以应付实际情形的发展。

想要解决这个问题,就必须让机器看懂不同说法其实都是指同一种疾病。而这个问题还只是DPAP平台上数不清的问题中的一个“小”问题,解决它都都需要计算机对自然语言中词语的结构和语义有深刻的理解才能做得到。

除此之外,医疗研究相关数据的稽核性、可被检验是非常重要的,因此不论是医院或医事人员对于数据的整理、质量控管、保护、处理,就得更仰赖科技的协助。这跟过去从U盘、 Excel拿数据,经过很多人工整理,在资料的稽核性、安全性、效率上完全是不同的等级。

而医渡云开发的基础平台可以把过去分散的、来自不同厂商的数据等,快速转变为标准化,而且符合 CFDA 和美国食品药物监督管理局(FDA)认可的数据。

300个模块功能背后的超长战线

在接受采访时,医渡云的四位创始人不断提及的一个理念就是:“改善人类与疾病的关系”,但具体要如何”改善”?这个重任实际上就落到了他们的医疗大数据平台上。

其实,市场对于医疗大数据平台的需求一直存在,而且近年来更是有增无减,可市场上的大部分解决方案却不尽人意:医院花大钱建设的数据平台,有些遥遥无期,有些建成后实际效果很差;很多医院有需求、有预算,但找不到好的解决方案,只好观望等待。

总结这些案例可以发现,真正制约医疗大数据发挥价值的主要瓶颈,在于数据平台从集成到处理,再到应用这三个维度的能力。这就意味着,仅仅将数据从不可用变为可用,只是医渡云使命的起点,如何在可用数据的基础上构建出相应的应用,同样是至关重要的一个环节。

如今,在数据智能驱动下,其核心基础“医学数据智能平台“已经搭载了300多个应用模块,贯穿整个医疗过程。这些模块既有面向日常应用场景的基础模块,涉及医院管理、科研管理和临床辅助诊疗。同时也有一部分定制化的应用模块,例如说专病库等。

例如在临床辅助诊疗上,结构化数据按照不同的功能模块呈现,准确反映每个患者在其整个治疗周期中的病情进展,DPAP通过对散落的数据整合,构建患者的时间轴模块,以诊疗事件时间为主线,完成疾病数据建模;从疾病的角度来看,DPAP还能够提供疾病数据模型,其意义在于,只有模型化之后医生们才能了解“这是一个什么样的患者”、“哪些是相似的患者”、“这是一种什么疾病”等问题。而无论是疾病数据模型,还是患者诊疗模型,这都是临床科研、路径挖掘、疗效评价、辅助诊断应用的基础。

另外,根据国际国内医学标准,目前医渡云已经完成了对不少疾病的不同核心信息的整合和识别,构建出25个大病种、3000多个疾病的模型,而这个成果数字还在不断扩大。

以DPAP为基础,医渡云还研发了“医渡云医院精益化管理平台”、“医渡云专科数据平台”及“医渡云政务数据平台”等产品,以便为用户提供更好地模块智能定制化解决方案。例如说,医渡云医院精益化管理平台不仅可以管理DRGs病种专科,在医院的运营指标监测、智能病案数据的质控、病种过程管理等方面均提供了一体化的解决方案。

可见,DPAP上的应用模块研发都是围绕着医疗研究、服务与管理进行,并延伸至医、教、研、管等各个应用场景。

目前,支撑医渡云所拥有的300多个功能模块的技术,涵盖了近年来颇为关键的基础算法和人工智能技术,涉及到医学自然语言处理、医学影像处理、医学知识图谱构建、医疗大数据挖掘、大规模(深度)机器学习模型及应用等,这其中有多个项目,更是目前全球学术研究发展的热点所在。

而且在很多技术关键点,医渡云的研发团队都有其独到的理解和技术专利。

例如,在医学自然语言处理方面,医渡云结合医疗行业专业性强的特点,构建了大量领域知识图谱,而后建立知识嵌入的深度学习模型进行医学自然语言理解以达到单纯深度学习无法达到的效果。在医学影像方面,医渡云在观察到高质量标注数据获取难这一行业瓶颈后,结合其自然语言理解的技术优势,进行影像与文本监督信息结合的弱监督学习,极大节省数据标注成本。在大数据挖掘与机器学习模型构建方面,医渡云的机器学习“永动机”每天都在帮助合作医院进行不间断知识发现并积累到知识库,并利用增强学习技术不断进化提升学习效率。这一工作已经开始改变“医生有想法在先”,机器再过来辅助验证的传统模式,而是机器主动发现知识,挖掘科研灵感,加快科研进程。

爬过15座山之后迎来质变,现团队8成人员做研发

系统开发完成后,新的挑战就是落地。医渡云在2017年开始将产品推向商业化,现在国内排名前150的大医院有超过三分之二成了它的客户。

“究竟是怎么办到的?”这个问题得到的答案很诚恳,“就是慢慢做,第一家是最难的,花了1年2个月才上线,前15家几乎没有网络效应,产能上不去,很痛苦,”宫如璟回忆说。

医渡云在2013年成立时,尽管行业能接受这种大数据、AI创新的理念,但部分医院的策略仍偏保守。起初,团队去拜访某家排名前十的医院,对方兴趣度不高,有顾虑,但当他们看到医渡云和一些医院合作后的成绩后,他们也放下了心中的”包袱“。

对于开始时的艰难,究其原因,除了医院对AI技术的观望、对结果产出的不确定性质疑,更大程度上是出于与商业公司进行数据合作在数据安全性与合规性上的担心和不安。直到医渡云的数据安全技术,数据合规保障机制一步步被医院感知,这一瓶颈才被打破。

如今,医渡云已连续获得公安部信息系统安全等级保护三级备案、国际质量体系认证(ISO9001)、国际信息技术服务管理体系认证(ISO20000)、国际信息安全管理体制认证(ISO27000)等资质认定,同时相关技术已获得软件著作权及国家发明专利数十项。

就这样,医渡云的应用产品一步一步吸引了许多专家、医院,当用户越来越多,其他医院或研究机构想做某项疾病研究,希望跟这些专家合作时,就会来到这个平台,磁吸效应逐渐产生,而且机器看多了、学多了,系统就变得更聪明。例如中山大学附属肿瘤医院携手医渡云进行大数据战略合作,并在业内知名的《柳叶刀》(The Lancet)期刊上发表了与鼻咽癌相关的论文《Development and validation of a gene expression-based signature to predict distant metastasis in locoregionally advanced nasopharyngeal carcinoma: a retrospective, multicentre, cohort study》。目前双方在鼻咽癌、结直肠癌和肺癌等方面都有科研合作。

“在跨越了15家客户后,平台网络的价值就快速扩大,量变产生质变”。现在医渡云的机器已处理医院 10几年的数据,完全不用人工,最快两周就可以完工上线。

“学霸公司”也要和互联网公司抢人才

医疗行业是一个门槛很高的行业,再加上科技巨头、初创公司全都聚集于此,竞争更加激烈,但宫如璟毫不畏惧,她的信心来源是什么,答案很简单也很困难,就是团队的技术实力。

医渡云的基础建设平台完全是自主研发,光是去年就建了数十个专病库,靠的就是强大的团队阵容。宫如璟在英国求学期间蝉联了五年全英数学冠军,在华尔街投行14年的历练,CEO孙喆曾联合创立北京惠旭金信,主要关注医疗行业投资,在医疗行业有丰富的投资和经营实践经验。

CTO徐济铭则是中国科学院研究生院计算机应用专业硕士,之前任职百度时,就是负责百度搜索服务团队、框计算团队等核心技术团队负责人,也曾获选百度最有价值员工。首席战略官(CSO)何直,早先曾是阿里巴巴集团产品总监,领导了天猫大数据平台建设,在连续创业的历程中,先后创立了专攻大数据挖掘的精准营销软件及服务的杭州数云信息等四家公司。

宫如璟笑着说,现任首席数据科学家彭涛,“还是当时跟今日头条抢的,他加入的原因是他觉得我们的东西更难,有挑战”。很多员工都是基于想要一起改变中国医疗现状的这股热情而加入。

去年底,医渡云找来了前微软亚洲研究院资深研究经理,专攻自然语言处理与知识工程研究的闫峻,出任首席人工智能科学家,并且延揽了美国斯坦福大学统计系教授王永雄,担任首席数据科学顾问,强化了这家学霸公司的阵容。

随着业务快速增长,团队人数过去几年都是翻倍的增长,到了今年底预计会达到800余人,其中研发团队占比高达60%以上,大部分都是来自全球/国内的知名互联网公司和顶尖实验室;还有20%的团队是完全专注在医学领域,因此整家公司有高达80%以上的人力资源都是在做医疗领域研发。

跨区整合,数据智能辐射至药物研发、医保制定

在与医疗机构的顺利合作之后,医渡云将目光放得更远。孙喆透露,建立跨区的数据中心将是今年的工作重点,预计建立10个左右省级层面的区域医疗数据中心。

一家医院有了可用数据,在内部也运用得宜后,若能把不同医院、区域的数据进一步整合,可以预见数据散发的力量一定会比在单家医院内能量更大,而这种跨院、跨区的医疗数据整合的想法同样是全球性的发展趋势。

医疗数据中心会把当地的三甲医院、二级、三级医院的数据通通集中到这个区域的云平台上,因为跨院数据的集中共享,帮助患者能够建立起一个完整的患者健康档案,患者不必带着病历到处跑,医院之间也能有效的为患者做全面的健康类服务,患者也更能了解到自己的健康状态,这是第一个可达到的效果。

第二个,对于药物研发的效益,医渡云希望推动医院和医院之间的联合,例如每一家医院现在都有自己的新药研发基地,当制药企业某个新药研发项目联合区域的时候,承接能力会变得更强,将会加快新药上市。“在这个过程,区域创造的价值会比单家医院更大,同时也可对政府提供整个公共决策的支撑,”孙喆强调。

例如,医渡云在去年与重庆医科大学联合共建了重庆医科大学医渡云医学数据研究院,成为国家首个医学数据二级学院。一同与国家食品药品监督管理总局(CFDA)展开了药品不良反应的合作,基于整个重庆区域人群分析基础之上,有效分析出该区域的药品使用情况、具有重庆特殊性的不良反应等,这就是区域平台的庞大效能。

通过这样的合作,除了了解中国药品不良反应的发生情况,还有一个很大的意义在于拉动制药产业,以及建立一个聚集产管学研力量的优质监测机制。

由此可见,医渡云的服务已经从最初只面向医疗机构,走到了区域平台、辅助公共决策的层次上。

不久前,医渡云也与南京医科大学签约,作为合作伙伴承建江苏省转化研究院国家级新药创制项目的信息平台,致力于“让药品的研发必须朝品质更好、更安全、更便宜”。

除此之外,医渡云为南京医科大学和合作医院建立的临床试验平台,已经完全可以基于标准化的数据集和真实世界的病历进行临床试验的监控,进而提高效能。

除了临床试验外,新药上市后的不良反应监管一直也是业界的难题。

传统模式下,这种监管依赖于医生的主动上报,或者企业需要调动非常多的人力资源,在新药上市后去医院采集相关的信息。整个过程高度容易产生错误、疏漏。为了解决这个问题,医渡云承接了重庆医科大学和CFDA不良反应管理中心的专项课题,研发基于大数据和算法的智能监察系统。

监察系统帮助CFDA和医院药剂科连接在一起,通过对于合作医院的病历,采用AI算法,对于不同类型的不良反应自动做扫描和抓取,并汇聚到不良反应数据中心,帮助不良反应中心的专家团第一时间获取到不良反应信息并作出处理,极大的提高了政府监管效能,也可以帮助医疗机构和企业对于不良反应作出及时的处理,提高新药用药的安全性。

而制约医疗行业变革的另一个核心因素则是医保的管理。只有医保作为支付方能更加科学的去评估一个疾病的支付方式和定价,才能从根本上帮助整个医疗市场形成良性循环。

孙喆表示,内部已经在规划更细致、精确的升级版“疾病相关组”(DRGs,Diagnosis Related Groups)系统。 DRGs是一种住院给付制度,其基本精神是“论病例计酬”,和以往“论量计酬”的给付方式有很大的不同。在论量计酬的制度中,付费者(病人或健保组织)按照医院所做的每一项处置(如手术)、服务(如检验、病房费)和所使用的医药材料来加总费用,并支付给医院。

在DGRs制度里,是将医师诊断为同一类疾病、采取类似治疗的疾病分在同一组,再依病人的年龄、性别、有无合并症或并发症、出院状况等再细分组,并将同分组的疾病组合依过去医界提供服务的数据为基础,计算未来保险人应给付医院之住院费用。

近期,医渡云即将宣布与清华大学自动化系合作建立智慧医疗自主系统联合研究中心,针对医保领域的应用从理论和方法上进一步深入创新。未来面向医保的应用不论是核心技术或系统架构设计将会不停向上升级。

总而言,医渡云现在正在做的,就是帮助医疗产业和外部产业融合,这不仅牵涉到14亿人民的健康,而且发展得顺利,我们甚至可以期待中国可以为全人类做出贡献,毕竟,大数据+AI的力量已经为中国医疗行业的变革奏响前奏。

收藏
扫描二维码,关注新浪医药(sinayiyao)公众号
360°纵览医药全局,365天放送新闻时事,医药资讯轻松一览,
精彩不容错过。
文章评论
综合资讯

综合资讯

即时更新医药相关资讯,打造及时、鲜活资讯平台。

印象笔记
有道云笔记
微信
二维码
意见反馈