深圳立法开放病历引热议：看美国如何“玩转”医疗大数据

责任编辑：editor006 |来源：企业网D1Net 2016-09-08 17:53:28 本文摘自：贝壳社

上周，《深圳经济特区医疗条例》(俗称“深圳医疗基本法”)全文披露。该条例要求医院要向患者公开全部病历。然而，就全国而言，关于医疗大数据的隐私保护、开发与应用的法律仍存在空白。

近日，松禾资本精品论坛之“医疗大数据&智慧医疗”在深圳举行。松禾资本创始合伙人厉伟在为活动致欢迎辞中表示，现在各个单位、各个机构都在做大数据，但是如何让大数据共享、串起这些数据孤岛，是下一步推动精准医疗、智慧医疗的关键。

本文为上述论坛的演讲实录，较速记稿略有删改。本文作者是论坛演讲嘉宾、杭州数睿(MDQ)首席技术官黄泱博士。在美国凯撒医疗集团工作期间，黄泱博士主持开发了该集团首个全集团使用的临床数据挖掘系统，并主导实现了该集团首个基于自然语言处理的实时临床决策支持系统。美国凯撒医疗集团是全球“航母级”的医疗集团。融合保险和医院于一体的凯撒医疗(Kaiser Permanente)凯撒医疗有950万会员，旗下拥有38家医院，主要集中在加州。2013年的年收入是531亿美元。

　　实录正文

今天，我们从中美差异来看我们如何做智慧医疗，以实现安全、优质和高效的医疗服务与支付。

美国为开放医疗健康数据做了哪些准备?

我会从以下这几个方面来谈一下美国智慧医疗的现状。首先提到法律法规，美国有一个《健康保险携带和责任法案》(Health Insurance Portability and Accountability Act，简称HIPPA)，它是一个专门针对医疗健康数据的法案，隐私保护是这个法案最有名的一部分。但是这只是它其中的一章。HIPPA更多背后的含义是保障病人有这个权益，他的电子病历他自己能拿得到，能带到其他的医疗机构和保险公司去。这就是为什么法案的名字有“保险携带”四个字。这个法案如今已是国际上关于医疗健康信息隐私保护的金标准，包括欧洲，这个法案的国际影响非常大。

隐私保护部分中最重要的概念就是受保护的健康信息。在美国，HIPPA允许把这18个敏感的健康隐私信息去掉以后，将健康数据既可以做研究用，也可以做商务用。这对美国的医疗健康的研发、数据市场培育的影响非常深远。

还有一个法案叫HITECH(Health Information Technology for Economic and Clinical Health，致力于经济和诊疗健康的健康信息技术)，它是在2008年美国面临经济危机，作为一个美国经济复兴法案中的一个小的法案获得通过。这个背景也很有意思。它一方面带着美国政府的期待，能刺激经济，为美国经济复兴起到杠杆作用，同时政府也希望能用信息技术帮助美国减低医疗费用，降低成本。法案给医生和医院有意义地使用电子病历提供财务激励。美国认为有效使用电子病历意义深远，值得在经济不好的时候由政府投资的。

美国有很多数据交换和存储标准。这些标准很多都已经变成国际标准，也有电子病历系统的评级，就是大家熟悉的医疗卫生信息与管理协会的HIMSS(医疗卫生信息和管理系统协会，Healthcare Information and Management Systems Society)七级评级。还有它的受控术语集及医学本体。数据整合有标准，不止涉及基于某个定义都有哪些数据源。实际上，这些受控术语集是每一个数据元下面有哪些值，它的语义是什么，颗粒度非常细致，可以做到语义上的统一。有了这种编码并统一标准以后，对后面做数据分析、推动人工智能的影响是非常非常深远的。比如UMLS(一体化医学语言系统，Unified Medical Language System)这个项目整合医学术语系统，是他们历时十年、投资上千万美元做的医学本体库。这是非常有远见的一个投资。

从人才方面看，美国在智慧医疗上很早以前就有准备。从上个世纪90年代开始，他们就专门有重点学科，这个学科在全美一开始有8所大学开设，后来是16所大学。由美国政府提供所有的学费跟生活费，让美国人特别是医生还有搞科学、搞数据的人，只要有美国的绿卡或者是国籍的人都可以免费学习医学信息化专业。因为那时候医学信息化是冷门，知道的人很少，这是政府出资去培养的。本身美国也有比较好的跨专业人才培养的传统和机制，医学信息化是开放的跨领域学科。我自己的经历就是这样，在斯坦福大学很受益的一点是工学院、科学院、医学院和商学院都在一起，选课交叉，各个学科的人都在一起，可以随便听一个课。政府除了提供专项奖学金，还有行业协会给在职人员提供函授服务，进一步加速人才培养。

美国的医院有一个电子健康档案(electronic health record，EHR)，也和中国遇到同样的问题，各个地方之间，特别是小诊所跟大医院之间，无论是从资源、人才上分配都是不均衡的。所以美国的EHR普及度相比欧洲国家来说普及率一直偏低，他们也花了很多力气做了这些方面的工作。

还有一点，美国对电子病历系统非常看重，跟中国不同的很重要一点是，它是以临床为重点，所有的设计都是为提供更好的临床服务，提高医疗质量。围绕这个目标，EHR中的智能临床决策系统的地位，就非常重要。这个临床决策系统的使用非常普遍。

美国有比较完善和便捷的保险支付系统。受益于拥有很多医疗数据，无论是政府数据还是企业数据，同时有一个成熟的数据市场。在美国，无论是开发支付系统，还是做风险定价评估，都是有数据的。当然，美国现在也有控费压力，从保险公司的角度讲，需要更多的电子病历数据，有这些数据之后，可以用系统智能地判定一个检查是不是必要，一个治疗是不是必要。

美国还有一个开放付款项目。美国社会是很注重隐私保护的。当时，这是美国政府的一个医保项目，它抽取了5%的病人数据，做脱敏处理以后，把这个数据开放给社会，这个开放也要求企业或者研究机构有一定资质，有一个准入过程。在此之后，相关机构就可以分析这些数据——真实的数据。在这个数据库里面，医生、医院的信息是不保密的。所以，大家通过数据挖掘，一方面教育广大消费者，告诉他们每项付款大概多少成本;另一方面鼓励一些公司在里面找到欺诈行为。这个数据公开以后不久，就找到好几个比较恶劣、数额巨大的欺诈案子，确实给保险支付带来很大程度的改善。

开放健康医疗数据还有一个作用，就是为药物研发，有基因分析、药物副作用检测、药物疗效跟踪，提供很多的帮助。

中国立法不全条件下，如何“玩转”医疗大数据?

中国现行法规有对公司隐私权的保护条款，但是没有特别详细的规范，特别是没有一个医疗数据保护的规范。所以在很多事情上，做还是不做，开放还是不开放，仍是模糊地带。不像美国HIPPA规定，把18种敏感信息拿掉，电子病历数据就肯定可以开放。这就在政策上留有解释的余地。我们不能因为担心安全，就什么事也不做。我们需要借助一些先进的经验和技术，进行有益探索。

中国也有“非法获取计算机信息系统数据罪”，还有关于“统方”(指的是医院中个人或部门，为医药营销人员提供医生或部门一定时期内临床用药量信息，供其发放药品回扣的行为。——作者注)的禁止性条款。在缺乏一部医疗数据保护法案的情况下，我国政府是根据性质的恶劣程度，对“统方”一个具体的数据案例做了规定。

我们开发数据交换和存储标准方面，相对于美国要晚一些，可以借鉴的，不仅有国际先进标准，也有国内各地的不少标准。更大的难度可能还是标准执行、厂商实施环节。电子病历评级这方面，几年前我们国家也有了自己的电子病历评级标准，这个标准对我们国家电子病历系统发展的规范化起了很好的推动作用。受控术语集和医学本体，这个是我们国家跟美国相比差距最大的一方面。我们有疾病分类、药品分类，但很多其他类型的医疗信息，以及标准统一、系统普及率，我们还有很长的路要走。

大数据及智慧医疗在我国的应用，我会从安全、基本技术、临床研究，以及提供安全优质的服务等角度来讲。

首先，系统及数据的安全性，涉及系统的权限管理。这在技术上已经很成熟了。我们还有

首先，系统及数据的安全性，涉及系统的权限管理。这在技术上已经很成熟了。我们还有大数据文件系统，在我们使用新技术的时候，首先要考虑的是安全。这里面可以借助美国的开源技术，也有一些现成技术可以提供保证。

其次是数据脱敏，欧洲也比较多地借鉴了HIPPA的内容。结构化的数据，有数据替换。比如使用HIPPA列明的技术，或者数字化签字技术，保证这个数据转变但不会丢失唯一性，从而可以做关联分析。我们很大一部分困难，是如何将非结构化数据(主要是文本)转换成结构化数据。这个可以用医学自然语言处理技术。

还有数据共享和加密。我们怎样才能在保持原数据不泄露的情况下，又能支持多方的合作、参与和计算?数据商可以提供数据，但是它的数据是加了密的，在传统加密的框架下，如果需要计算，就需要对加密数据进行解密。中间的计算平台会看到我们的原数据。如果这第三个平台是多方参与，源数据就有可能泄露给多方，但源数据泄露一次以后，使用价值就大打折扣。我们公司——杭州数睿科技的加密数据在参与计算的时候也是加密的，所以第三方开发程序是始终看不到解密的数据。这给我们原数据的安全性有很大的提高。

我们可以使用大数据技术构建统计模型、知识库。比如咳嗽、发热主要有哪些症状伴随，跟时间、人的年龄段都有什么关系。传统教科书上，我们可能只能拿到一个定性的列表，通过大数据技术就可以做定量分析，提供个体化诊断的支持。不仅辅助诊断，而且可以挑选出比较精准的治疗方案。这个知识库建立起来，就不再只是一个简单的规则库，而是有统计模型在背后、由机器学习构建的模型在背后支撑。

接下来是构建医学知识图谱。过去，通常情况下，是根据文献、教科书构建图谱，或者医生根据自己的经验来构建图谱。而我们会根据海量的数据挖掘关联性，经过验证以后，构建医学知识图谱，特别是治疗、疗效的知识。这部分知识很多在教科书上是没有的。图谱如何构建，涉及到技术的融合，我们既要有自然语言处理技术，这些可以在阅读文献、病历的时候，把大量非结构化、描述性的语言让机器“看懂”，提供出关键词，经过语义分析以后，跟已知的知识库建立关联。通过机器学习的方式，对源数据、知识库的关系结构进行一定的训练，训练出模型。对后面的主体关系，对一些比较模糊或者我们缺乏数据的时候，可以提供比较好的结果。

我们有知识库、扩充关系图谱，同时还能挖掘病理。再就是我们有临床自然语言处理、数据挖掘和建模、数据可视化等关键技术。

简单讲一下自然语言处理技术。它不仅能帮助我们理解教科书，它的重要任务是帮助医生、生物学家处理从各个方向涌来的海量数据。当我没时间、没办法读文献、病历的时候，有一个方法，就是让机器替我“读懂”。我们在一个项目里，提取的信息包括：症状、医学发现、患者医疗结果等。这还包括时间，症状发生的时间有先有后，前后关系对诊治很有价值。除此之外，还包括一些检查手段、生命体征、身体部位、治疗操作、药品、疾病，凡是这些在病程记录里面提到的，我们都可以提取出来。在中国，我们的医生已经非常忙了，如果他在输入病历的时候还被要求对数据进行结构化，这会很低效地占用医生的宝贵时间，对医生很不尊重。我们想做的，就是医生可以按照他觉得最有效率、最方便、最准确的方式描述病情，描述治疗方案。我们用计算机来把这些信息结构化，用来支持后面的分析和功能，这样就不会给医生制造不必要的负担。

大数据应用：发现新病情，降低误诊率，病人决定治疗方案

这个是我们在国内做的医用中文自然语言处理系统。它包含多个模块，可以构建知识图谱中的概念的属性和相互关系。这里面举了一份病历的例子：文本是通常的记录，通过结构化提取，可以得出结论——病人是“神志清”的，这是一个有意义的病人的发现，还有“精神可”和睡眠欠佳。这种方式跟传统方式不一样。以前我们需要做研究，要先把数据定义好，然后结构化输入;现在不需要了，计算机可以自动提取，就算在某个方面目前看来可能不是太重要，也可以提取出来，为以后的研究做准备。

结构化数据的优势是，它可以做大量的统计分析，由于在结构化的过程中做了语义上的统计，可以节省医生的病历审阅时间，也能快速选出他们要找的符合特定条件的病人。

还有数据分析平台，用来建模用的。建立数据结构、确立分析的疾病对照人群、数据处理、整合、变量选取，有一套方式方法。比如，有一些充血性心力衰竭没有被诊断出来，我们在病历上通过症状、检测、检查结果，开发出一个数学模型，帮助完成这方面的诊断。这是一个在线信息数据系统，整合了我们数据的可视化，能看到病人随着时间变化，指标、检查结果会有什么变化，可以很方便很高效的供医生来看。

这种技术对临床研究的帮助还有一个案例——药物不良反应。我们在凯撒集团的时候，做过这么一个研究：有一家药厂想做一个疫苗的安全性研究。它大概耗时3个月到半年时间做数据收集，数据分析花了一年时间，而且花了上百万美元，大部分花在病历审阅方面。他们使用我们大数据系统之后，只要花三个星期就能把这部分的病历分析完成，经过多次迭代，把准确率提得很高，做人工对比的时候发现，计算机结果比人工结果的质量更高。这是因为，对疫苗安全性要求比较高，病历阅读量非常大，医务人员会疲劳，而计算机不会疲劳。

另外，电子处方系统，背后也是关于用药的知识库。它能满足规范性、安全性、快捷性。咱们国家现在也在倡导合理用药，包括用药的安全性、必要性。

大数据还能帮助提供安全优质的医疗服务，以及计算机辅助诊断。美国的平均误诊率和漏诊率大概30%-40%，国内的数据比这个还高。随着医学知识的快速增长和已知疾病类型的丰富，给疾病诊断提出更高的要求。而计算机可以使用大量数据来快速提高诊断的准确率。如果我们很快就得到正确的诊断，不仅减少了检查的成本，而且也减少了医疗治疗成本，对病人来讲是更好的临床结果。计算机辅助诊断已经有一些比较成功的案例。我们根据败血症做了一个临床辅助诊断系统。在急诊科或者住院的时候，败血症是死亡率比较高的，在美国死亡数排第九。这个疾病发展变化很快，早期诊断和治疗就非常重要。这个疾病的诊断确实很复杂，影响因子很多，对不同病人的情况又不同，所以做诊断是临床上很难的问题。通过开发这个模型，建立这种早期诊断系统，可以降低差不多20%左右的死亡率。

其他的临床决策支持，有一个临床路径系统。我们已经推临床路径挺长时间了，也花了很多资源。但是医院的临床路径能使用比例可能不到10%。其中一个原因是病人的情况不同，他通常不会只得一个病。受制于各种各样的因素，我们往往没法做简单的、基于规则的临床路径。大数据也可以做临床路径，根据统计模型，根据病人的实际情况来判断检查、治疗的合理性，判断什么时候应该出院。

关于保险服务跟支付，通过数据分析，我们可以做到欺诈监测，以及用药合理检查的监测。这里有一个简单的控费例子。美国怎么做到以病人为中心。传统模式是医生让你做什么就做什么，有医嘱就执行。其实病人的情况不同，家庭情况也不同，对他来说，可能最好的医疗决定是不同的。所以这个模式可以通过分析，提出不同的医疗决定对身体上有哪些不同的影响，包括费用也是病人做自己的医疗决定的一个很重要的因素。通过数据分析，我们可以把这个权利交给病人本身，让他知道，如果得了这个病，大概会住多长时间院，大概费用是多少，他会选择对他来说更合适的方案。保险公司也不希望所有的病人都选取比较昂贵的治疗——这可以降低医疗成本。

关键字：数据替换临床路径