大数据分析与远程医疗

作者:王昌元 (刊登于中国医学文摘 皮肤科学 第33卷 第1期)

近无论是在报章杂志、电视新闻、网络分享、或是专业刊物,大数据的曝光率极高,就好像现在如果没有谈到大数据或跟大数据扯上一点边,就显得落伍一般,随着大数据被越来越多的提及,很多人都在惊呼大数据时代已经到来,当然事实也是如此,2012年《纽约时报》的一篇专栏中写到:「大数据」时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。大数据究竟是什么?跟我们的远程医疗到底有什么关系?本文中将会按部就班、循序渐进地说明。

在说明大数据分析与远程医疗的关系之前,我们首先来解释一下什么是大数据。大数据(Big data),也称为巨量数据、海量数据,指的是所涉及的数据量之规模巨大到无法透过人工方式在合理的时间内达到撷取、管理、处理、并整理成为人类所能解读的形式的信息,举凡此类资料,我们皆广义地统称之为大数据。那么数据到底要大到多大才算是大数据?其实在每一个时期,随着计算机硬件的进步,都会有不同的定义,所以我认为那并不是重点,真正的重点在于我们透过一些方式将大数据整理成人类可以阅读并理解的形式,才是其价值所在。

为何远程医疗与大数据会有关连?这跟病历数据的特性有关系。每一位医师都知道,基于法律以及道德层面,病人的病历数据是绝对不可以对外泄漏的,因此,病历数据库可以算是一个几乎完全对外封闭的体系。这种情况在台湾尤其严重,由于病历数据受医师法以及个人资料保护法的双重保护,即使因为转诊而必须将病历数据从甲医院转到乙医院,都要经过严格的申请程序,然而在一般的情况下,医院之间的病历数据几乎无法互通。如果是这种情况,这些存在于每家医院里面的病历资料,就会是一个个独立的小数据,而成不了大数据,自然就不会有大数据所带来的价值。

 

远程医疗刚好解决了这个问题,由于这是一个合法的转诊医疗平台,地方医院的医生可以将各地的病例上传,这些经年累月上传的数据,数量巨大,自然就成为了名符其实的大数据。为何远程医疗平台如此重要,因为它绝对不只是一个转诊系统,而是一个大数据累积平台。

在使用大数据之前,有一件事情不可不知,就是大数据时代的来临虽然带来无数的机遇,但是与此同时,个人或机构的隐私权也极有可能受到冲击。大数据中包含了各式各样的个人信息数据,现有存在于各国的隐私保护法律或政策常常会无力解决这些新出现的问题。2014513日欧盟法院就「被遗忘权」(right to be forgotten)一案作出裁定,判决谷歌(Google)应根据使用者请求删除不完整的、无关紧要的、不相关的数据以保证数据不会出现在搜寻结果中。这说明在大数据时代,加强对用户个人权利的尊重才是时势所趋的潮流。

所以,这些存放于远程医疗平台里面的大数据,在医师与专家之前使用当然没有问题,因为有病人与医师之间的同意书,但是用于大数据分析的时后必须格外小心,绝对不可以直接使用,使用前的第一步必须经过"去识别化"处理,这是基于个人资料保护,必须把所有含有可以识别出病人身分的部分内容都必须去除,大到病人的个人资料,小到患者身上的一颗可以是别身份的痣,都必须加以处理。这样所得到的数据,就是一份巨大的医学样例,这份样例在医生眼里,无疑是一份很好的教材,因为人类有超凡的分析理解和整理的能力,可以将数据转成知识,但是对于计算机而言,就完全不是那么回事,为了让计算机可以分析这些数据,我们就必须引进另一项技术,机器学习。

机器学习的出现其实比大数据还要早,是在20多年前兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。它被分类在人工智能的科学领域中,该领域的主要研究内容是如何在经验学习中改善具体算法的性能。

机器学习理论主要是设计和分析一些让计算机可以自动「学习」的运算法则。机器学习利用这些运算法则,从大数据中自动分析学习进而获得规律,并利用此规律对未知数据进行预测。在大数据开始蓬勃发展之后,机器学习的发展速度也开始加快,因为学习过程中涉及了大量的学习样例,而大数据刚好提供了大量的样例,当有效或是正面学习样例增加的时候,对未知数据的预测自然就比较准确。前面一直在强调远程医疗平台的重要性,就是因为这个平台可以提供大量的学习样例,可以大幅增加机器学习的正确性。当然,一切的源头还是需要所有医师都能够不辞辛劳地将数据输入以及上传到远程医疗系统,这个大数据平台的基础才得以建构完整。

回顾一下,前面我们从远程医疗连接了大数据分析,再引进了人工智能中机器学习的理论,接下来我们就来谈建构机器学习理论所使用的算法,而这些算法,或称为演算法则,我们将之归类为数据挖掘 (Data Mining)

数据挖掘也是因为大数据所提供的大量的数据而得以快速进展的产物。它的发展更早,早在1960年使用代数字方式采集数据就已经实现。到了1980年代,随着关系数据库的兴起,搭配结构化查询语言的使用而发展起来。一开始的数据源是数据仓储 (Data Warehouse)。现今的数据挖掘(Data Mining)则是在探讨用以解析大数据的方法。

谈到数据挖掘,有一件世纪大事不可不知,就是国际权威的学术组织IEEE 数据挖掘国际会议 (ICDM) 200712月评选出了数据挖掘领域的十大经典运算法则,不仅仅是十大运算法则,其实参加评选的18,每一种都可以称得上是经典它们在数据挖掘领域都产生了极为深远的影响。忠于 IEEE 的票选结果,我还是把这十种算法则简单列出,分别是:C4.5 决策树、K-均值 (k-Means)、支持向量机 (SVM)Apriori、最大期望算法 (EM)PageRank算法、AdaBoost 算法、k-近邻算法 (kNN)朴素贝叶斯算法 (Naive Bayes)、和分类回归树 (CART)

在远程医疗的实际运算中,当然不会同时使用十种算法,因为每一种算法都有其特性,分别适合运用在不同的领域。例如k-近邻算法 (kNN)C4.5 决策树、朴素贝叶斯算法 (Naive Bayes)支持向量机 (SVM)、以及AdaBoost 算法,都属于分类算法。分类回归树 (CART) 是属于回归预测算法。K-均值 (k-Means)Apriori 则属于无监督学习的范畴。

为何大数据分析的数据挖掘如此重要?我们可以引用谷歌公司的首席经济学家Hal Varian所说的话来说明:

我不断地告诉大家,未来十年最热门的职业是统计学家。很多人认为我是开玩笑,但谁又能想到计算机工程师会是20世纪90年代最诱人的职业呢?如何解释数据、处理数据、从中抽取价值、展示和交流数据结果,在未来十年将是最重要的职业技能,甚至是大学、中学、小学的学生也必须具备的技能,因为我们无时无刻都在接触大量的免费信息,如何解释数据、从中抽取有价值的信息才是其中的关键。这里统计学专家只是其中的一个关键环节,我们还需要合理的展示数据、交流和利用数据。我确实认为,能够从数据分析中领悟到有价值信息是非常重要的。职业经理人尤其需要能够合理使用和理解自已部门产生的数据。

经济学家Hal Varian说的话绝对非只适用于企业,在科学的领域,包含了医学领域一样适用。

看了这么多的名词解释,诸位看官一定觉得没有搔到痒处,接下来我就用一个我个人非常喜欢的例子,来解释一下大数据分析是如何协助医生做更精确的判断。这个简单的范例实际运用到前面所提到的贝叶斯法则,来运算出一个可以协助医生做出正确判断的分析结果。范例中所引用的都是简单的概率公式与基本运算,一般理工科背景的人应该都可以轻易理解,所以请大家务必耐心的看完。

场景是这样的,有一种癌症的检验器,会显示(+)(-)两种结果,(+)代表有癌症,(-)代表没有癌症。此检测器的准确度如下:透过检测器的检测,对于确实罹患癌症的病人,98%会显示(+),然而对于没有患病的病人,则有97%会显示(-)。基于这样的数据,今天来了一个病人到您的诊所检验癌症,按照以上的数据,您只能告诉病人,他有98%的概率得了癌症,此时这个病人大概万念俱灰,准备接受癌症的事实。

其实就场景所显示的资讯而言,这样的判断是没有错的。然而事实真的是如此吗?我们就用大数据分析中的贝叶斯法则来算一下这位检验呈阳性反应的病人得癌症的概率是多少。透过大数据的机器学习,会从学习样例中学习出一个先验知识:在所有人口中有0.008的人会患此癌症。接下来我们就用贝叶斯公式来计算:

P(h|D)=P(D|h) P(h) /P(D)

将其写成

P(cancer | (+)) = P((+) | cancer) P(cancer) / P((+))

P(cancer | (+))代表的意义就是在检验器验出为(+)的前提下得癌症的概率

人口中得癌症的概率P(cancer)=0.008

那不得癌症的概率P(~cancer)=0.992 (PS: 其中~代表NOT)

癌症病患验出(+)的概率P((+)|cancer)=0.98

没有癌症的人验出(-)的概率P((-)|~cancer)=0.97

反之,没有癌症验出(+)的概率P((+)|~cancer)=0.03

由于 cancer ~cancer是互斥事件,利用全概率法则将贝叶斯公式的分母P((+))展开为P((+)|cancer) P(cancer) + P((+)|~cancer) P(~cancer)

最后,我们把所有数字带入公式

验出(+)而得癌症的概率P(cancer|(+))= 0.98×0.008 / (0.98×0.008 + 0.03×0.992)

= 0.0078 / (0.0078 + 0.0298)

= 0.21 (21%)

其实当初我看到这样的结果自己也下一跳,如果大数据分析可以透过机器学习的先验知识告诉医师即使验出阳性反应,实际患有癌症的概率是 21%,这时医师自然就可以给出更进一步正确的诊断措施,例如让病人做进一步检查等,而不会一下子就吓坏病人。

上个星期我参加了北京清华大学举办的“图形图像处理与大数据技术”论坛,不免俗的此次论坛主题也把大数据分析放了进来,其中有谈到针对图像的运算有三个层次,最低阶的是处理,中阶的是分析,最高阶的则是认知。目前的发展状况,已经从处理转向分析,认知的部份由于人工智能远不及人类智能,所以还是启蒙阶段。

把这三个阶段对照到我们的远程医疗,目前的系统所做的就是资料处理,在众多医师与专家的共同支持与经营之下,不久的将来我们就可以进入分析的阶段,透过大数据分析与机器学习,可以从中挖掘出更多有用的资料提供给专家,进而达成医疗大数据共享的目的,到时候远程医疗云医院就会跨入一个全新的智能医疗的领域。

发表回响