位置:首页 > PC电脑 >

AI可以是杀戮的武器,也可以是救世的良方

作者:四川新闻 | 发布时间:2018-12-22 00

本文主要讲述了吴恩达团队最新成果——用深度学习来改善临终关怀服务,希望可以给你带来启发和思考。

上周,在日内瓦举行联合国特定常规武器公约会议上,伯克利大学教授Stuart Russell向大众发出了警告:基于AI杀人机器人将会对人类造成极大威胁。

与此同时,吴恩达所在斯坦福团队又将AI在医疗领域作用往前推进了一不。与此前“AI看片”不同,这次,吴恩达希望利用深度学习技术,为那些身患绝症、时日不多病人,更好地提供临终关怀服务,让他们更有尊严地度过剩下日子。

听起来似乎有点不可思议,那么吴恩达团队到底是怎么做呢?下面这篇论文或许可以给我们一些思考和启迪。

摘要

为住院病人提供更高质量姑息治疗一直是医疗保健机构重点工作之一。研究表明,医生们往往会过高估计预后效果,加之治疗手段惯性,导致病人实际得到姑息治疗不如预期。为此,我们提出了一种解决方案:利用深度学习技术加上电子健康档案(EHR)数据。目前一家学术医疗中心已得到机构审查委员会批准,正在对这种方法进行试验。算法会自动评估住院病人EHR数据,帮助姑息治疗怀团队判断哪些病人可能需要姑息治疗。该算法实际上是用病人先前HER数据训练出来一个神经网络,它可以预测出病人由于各种原因在3至12个月内死亡几率,以此作为是否为其提供姑息治疗一个指标。我们预测可以让姑息治疗团队以积极主动方式找到此类病人,而不是依赖主治医师推介,或花时间研究所有病人病例。另外,我们还提出了一种新解释方法,用以诠释模型作出预测。

引言

研究表明,大约80%美国人希望能在自己家中度过生命最后时光,但是如愿只有20%。事实上,超过60%死亡发生在医院急诊病房,而病人在临终前最后一段时间会接受侵入性治疗。在过去10年间,可以提供姑息治疗医院一直在增加。在2008年,全美所有病床数超过50张医院中,有53%医院设有姑息治疗团队,2015年这一比例已攀升至67%。虽然可以提供姑息治疗医院越来越多,但是根据国家姑息治疗登记处(National Palliative Care Registry)数据,在所有需要接受姑息治疗病人(占所有住院病人7% – 8%)中,只有不到一半人真正接受了这种治疗。造成这种情况主要原因是姑息治疗专业人员短缺以及缺乏让医疗系统聘用这些人员激励措施。通过相关技术我们可以高效地识别出最需要姑息治疗病人,但是在现有治疗模式下人们可能会忽视技术应用。

在本文中,我们主要从两个角度探讨这个问题。首先,医生不推荐病人接受姑息治疗原因有很多,例如:对病情预估过度乐观、时间压力或治疗惯性。这可能会导致病人在临终前无法按照自己意愿生活,反而接受过度侵入式治疗。其次,姑息治疗专业人员短缺严重,这使得通过人工审查病例方法对候选病人进行筛选既昂贵又耗时。

人们可能很难明确地规定一个标准,用来判定哪些病人能从姑息治疗中获益。在本论文中,我们使用深度学习算法对住院病人进行筛选,识别出最有可能需要接受姑息治疗病人。该算法处理是一个代理(proxy)问题:预测某一病人在未来12个月内死亡几率,根据预测结果作出关于接受姑息治疗建议。这样姑息治疗团队就可以根据病人EHR数据作出客观建议,帮助抵消主治医师潜在诊断偏差,而且还不需要人工对每个病例都进行审查。当前用于识别此类病人工具存在一些局限,我们会在下一部分进行讨论。

相关工作

准确预后信息对病人、护理人员和临床医生都是有价值。一些研究表明,临床医生一般都对自己绝症患者预后效果估计过于乐观。这里有几种解决方案试图使病人预后信息更加客观和智能化。在这些解决方案中,许多都是根据患者临床和生物学两种参数来构建模型产生一个评分,而这个评分可以用来估计预期存活率。

用于姑息治疗预后方法

姑息性表现尺度是针对姑息治疗,修改了人体机能状态量表(KPS)而发展得来。它是基于例如活动度、活动能力、自理能力、食物和体液摄入量、意识状态等可观察因子来计算。姑息性预后评分(PPS)也是为姑息治疗制定一种评分机制,它重点是放在晚期癌症患者身上。PPS是基于以下变量来进行多元回归分析计算:临床预测生存期(CPS)、卡氏评分(KPS)、厌食、呼吸困难、总白细胞数量(WBC)和淋巴细胞百分比。而另一种与PPS在相同时期内发展起来指标,姑息预后指数(PPI),也是基于性能状态指标进行了一个多元回归分析来得到了评分,例如口服摄入、水肿基础得分、休息时呼吸困难和谵妄(急性脑综合征)。这些分数难以在大规模上进行实现,因为它们涉及面对面临床评估,涉及临床医生对生存者状态预测。此外,这些评分是在姑息治疗中来使用,而那时病人已经处于疾病晚期阶段,不能达到更早鉴别他们疾病状态

加护病房ICU预后方法

也有一些常常用在ICU上预后评分模型。APACHE-II评分(急性生理、年龄、慢性健康评测)是用来预测ICU中危重住院患者住院死亡危险程度。这种模型最近已经被APACHE-III改进了,主要是细化了评分项,采用了ICU入院之前诸如主要内科和外科疾病分类、急性生理异常、年龄、原有功能局限性、主要合并症和治疗地点等因素。另一个在ICU中常用评分系统是简化急性生理评分,也称作SAPS II,它是根据病人生理和潜在疾病这些变量来计算。当病人已经转入ICU时,虽然这些评分对治疗组来说是有用,但是他们在确定患者是否是有长期死亡风险方面是有限。但是这些评分仍然能够让他们对其目标和价值进行有意义讨论,以便他们确定另一种护理方式。

早期识别预后方法

为了尽早发现绝症患者,为其制定一个临终计划并确保其有意义,现在这方面已经有许多研究和开发方法了。CriSTAL (适当照顾和养护筛选标准)就是一种用来确定老年患者是否接近生命尽头,以及量化在住院时死亡风险或出院后不久死亡风险方法。为了识别濒死病人,CriSTAL 提供了一个采用十八个预测因子检查表。

CARING是一种用于识别可以从姑息治疗中获益患者方法。其目标是使用六个简单标准来判断1年内有死亡风险患者。PREDICT也是基于六项预后指标,这些指标是从CARING中提炼出来。该模型根据976名患者情况建立

Intermountain死亡风险评分是一种基于实验室常规检查针对所有原因进行死亡率预测评分机制。该模型提供了30天、1年和5年死亡风险评分,它训练集包含71921人数据,测试集包含47458人数据。

大数据时代预后信息

医疗保健系统中电子病历系统普及和针对高维数据方面机器学习技术进步,为我们在医疗上作出贡献提供了一个特殊机会,特别是在疾病预后方面。上面描述所有方法,以及我们所回顾方法,至少有以下缺陷之一。他们都是采用了规模较小数据集(仅限于特定研究或一群人),或用太少变量(故意使模型简单化,或是为了避免过拟合),或模型太简单而不能捕捉人类健康复杂性和微妙之处,或者局限于某些亚群体(根据疾病类型,年龄等)。而我们在这篇工作中解决了这些限制。

方法

姑息治疗团队在很大程度上不清楚疾病类型、阶段和严重程度(病人是否被送入加护病房进行治疗)以及病人年龄等要素,我们从他们角度探讨了如何预测死亡率问题。我们采用一种由数据驱动方法,构建了一个考虑每位病人EHR(长时间内病例)深度学习模型,并且确保分析不会局限于任何亚群体或类同群体。我们要解决问题是识别需要接受姑息治疗病人,为了是这一问题便于处理,我们使用了下面这个代理(proxy)问题陈述:

给定某一病人和日期,使用该病人上一年EHR数据,预测其在自该日期起12个月之内死亡率。

我们将这个问题看作为一个二分类问题,然后通过构建深度学习监督模型来解决。我们目标不只是构建出可以很好地解决上述问题模型,我们还希望探讨该模型在解决以下这个子问题(即:预测住院病人死亡率)时表现。因为姑息治疗工作者往往更容易介入住院病人治疗。

为监督学习构建数据集

我们将已登记死亡日期病人作为positive实例,将其他病人作为negative实例。然后,我们将病人预期死亡时间作为分界点,将健康档案上时间线划分为虚拟未来(virtual future)和过去事件。我们利用每位病人在虚拟过去(virtual past)数据来预测他们在未来3-12个月内死亡几率。注意:在定义预测日期时,必须避免违反常识性限制条件(见下文),不然话标签就会无效。我们只针对可以在满足这些约束情况前提下找到预测日期病人。

Positive实例:positive实例限制条件确定基于这一理论基础:在死亡之前3-12个月内被推荐接受姑息治疗病人最能从中获益。我们认为在病人死亡前3个月内对其进行死亡几率预测为时太晚,因为病人在接受姑息治疗前需要一定筹备时间;这一时间超过12个月也不可行,因为预测病人在很长时间范围内死亡几率非常困难。更重要是,姑息治疗介入协助是有限,最好主要用于满足较为迫切需求。

Positive实例预测日期必须满足以下限制条件:

预测日期必须为记录在案问诊日期。 预测日期必须至少比病人死亡日期早 3 个月(否则死亡日期会太靠近预测日期)。 预测日期最多只能比病人死亡日期早 12 个月(否则死亡日期会离预测日期太远)。 预测日期必须比首次问诊日期至少晚 12 个月(否则病人就没有足够历史数据来作为预测依据)。 预测对象最好为住院病人,前提是他们必须满足上述条件(因为相较于其他类型病人,住院病人更愿意接受姑息治疗建议) 预测日期必须早于满足上述限制条件其他所有候选日期。

negative 案例:对于negative案例(未记录死亡日期病人),必须确保案例中病人在自预测日期起 12 个月内没有死亡。我们选择预测日期必须满足以下所有条件:

预测日期必须为记录在案问诊日期。 预测日期必须至少比最后一次接触病人日期早 12 个月(以避免发生拍摄 EHR 快照后死亡日期不明确情况)。 预测日期必须至少比首次问诊日期晚 12 个月(否则无法获得足够历史数据)。 预测对象最好为住院病人(优先于其他类型病人),前提是他们满足上述限制条件(作为 positive 实例对照组) 预测日期必须早于满足上述限制条件其他所有可能候选日期。

图 1. 以病人存活图表示右删失长度

纵坐标:病人比例;横坐标:天数 红线:死亡病人(死亡前存活天数) 绿线:存活病人(确认存活时间) 黑色虚线:分割线 蓝色虚线:最少存活时间

住院病人(admitted patients):预测日期与住院日期相对应病人为住院病人,其余病人为非住院病人。(注意:非住院病人治疗历史中可能还有其他记录在案住院经历)。对住院病人预测日期进行再调整: 将住院后第二天作为预测日期。这样做理论根据是:在住院后24小时内,医院通常会用最新数据(初步检测数据、诊断数据等)对病人记录进行更新,住院后第二天更适合作为预测日期。注意:住院病人是本试验所有病人一个子集(而不是一个单独数据集)。positive实例和negative实例都对预测日期后收集所有数据进行审核。

表1:病人人数划分

图2.  预测时病人年龄

特征提取

我们将每位病人预测日期之前12个月作为观察期。在每位病人观察期内,我们使用ICD9(国际疾病分类第9修订版)诊断和计费编码、《当代操作术语集》(Current Procedural Terminology,CPT)操作编码、RxNorm处方编码以及观察期内医患接触来生成特征。

我们按照以下方法生成特征。为了捕获数据纵向性质,我们将每位病人观察期划分为4个观察阶段,表III显示了这四个阶段与预测日期(PD)对比,阶段1最靠近预测日期,阶段4离预测日期最远。我们对各观察阶段分配不均匀时间长度,目是为了让模型更多关注靠近预测日期数据。在每个病人各观察阶段中,我们记录了每个编码类别中每个编码出现次数(开处方、计费等)。我们将这些编码出现次数作为一个单独特征。

我们还考虑了病人人口统计数据(年龄、性别、种族、民族)以及观察期内各编码类别汇总数据(如下所示):

类别内特殊编码出现次数。 类别内编码出现总次数。 在任一天所分配编码最大数量。 在任一天所分配编码最小数量(非零)。 一天内分配编码数量范围。 一天内分配编码数量均值。 一天内分配编码数量方差。

我们将所有这些特征(各观察阶段中编码出现次数,观察期内各类别汇总数据,以及人口数据)连接起来形成特征集。在特征集中,我们去除只在100或少于100位病人群体中出现特征。最后得出特征集共有13654条特征。在这些特征中,每位病人平均有74个非零特征值(标准差为62),最多有892个特征值。总特征矩阵稀疏值大约为99.5%。

图3. 在测试集数据上模型输出概率可靠性曲线(标定线)

纵轴:positive实例比例;横轴:预测值均值 虚线:校准线 蓝线:所有病人(0.042)

算法和训练

我们模型是由一个输入层(13654个维度)、18个隐藏层(每层 512 个维度)和一个标量输出层构成深度神经网络(DNN)。我们在输出层应用逻辑损失函数(logistic loss function),在模型每层上都应用缩放指数线性单元(Scaled Exponential Linear Unit ,SeLU)。我们使用 Adam optimizer 和大小为128个样本 mini-batch 对模型进行了优化。然后,我们对每250 个mini-batch迭代提取中间体模型snapshot(Intermediate model snapshots),选择在验证集上表现最好snapshot作为最终模型。我们发现没有必要进行明确正则化操作。通过对各种网络深度(从2到32)和激活函数(tanh、ReLU和SeLU)进行广泛超参数搜索,我们得到了最终网络架构。

评估

由于数据是不均衡,将准确度作为评价指标是不可行。在不均衡问题中ROC曲线有时可能会有误导作用。因此,我们使用平均准确度(AP)分数作为评价指标,也称为模型选择AUPRC曲线( Area Under Precision-Recall Curve )。

结论

在本节中,我们将根据在验证集上获得最好AP分数选择模型,来给出在测试集上获得技术评估结果。我们观察到模型根据0.042Brier score进行了合理校正(如图3所示)。在我们感兴趣高阈值规则下,该模型在估计概率方面是一个比较保守(显得信心不足)模型,但是这应该不会有什么坏影响。

图4是插值精度召回曲线( Interpolated Precision-Recall curve)

水平虚线表示0.9精度水平。 垂直虚线表示曲线达到0.9精度时召回率。

图5是模型在测试集上表现情况受试者工作特性曲线(ROC)

插值精度召回曲线如图4所示。该模型AP评分为0.69(入院病人为0.65)。早期召回这个结果是可取,因此可以认为在精确为0.9时召回是一个度量指标。该模型在0.9精度上实现了召回率为0.34(入院病人召回率达到0.32即可)。受试者工作特性曲线如图5所示。该模型实现了0.93正确率(0.87即可判定是患者)。ROC和精密召回图都显示出,该模型显示出强烈早期召回行为。

定性分析

值得一提是,预测死亡率是确定能从姑息治疗中获益病人一个代理(proxy)问题。为了评估模型在原始问题上性能,我们检验了高输出概率假阳性患者情况。我们注意到,虽然这样患者并没有在他们预测日期12个月内死亡,但是他们经常被诊断为疾病晚期和/或需要高标准医疗服务。这在第五节所示阳性和假阳性例子中可以看到。

在达到精度为0.9患者中,姑息治疗小组对其中50个随机选择患者进行进行了图表检查,发现所有这些人在其预测日期内都适合转诊,即使他们存活了一年多。这表明,在解决代理(proxy)问题方面,死亡率预测是一个合理(和易处理)选择。

随机阳性患者高概率评分预测解释。表格仅显示导致概率下降因素。

随机阳性患者高概率评分预测解释。表格仅显示导致概率下降因素。

 

论文地址:https://arxiv.org/abs/1711.06402

翻译:AI科技大本营(ID:rgznai100);参与:尚岩奇,刘畅

译文地址:微信公众号“AI科技大本营”(ID:rgznai100)

本文由 @AI科技大本营 授权发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自 unsplash