从传统 CAD 到深度学习驱动的影像系统：智能医疗落地三大技术挑战-阿里云开发者社区

图像识别是深度学习等 AI 技术最先突破的领域，而在 AI 与医疗场景的结合中，目前看来，基于深度学习技术的医疗影像的识别与分析，也很可能会在整个智能医疗、精准医疗领域一枝独秀，率先进入大规模应用阶段。

传统 CAD 不受医生的欢迎

实际上，计算机辅助检测（computeraided detection，简称CAD）很早就进入了人们尤其是医疗工作者的视线。有意思的是，很早以前就已经尝试使用过CAD系统的放射科专家们，在这一波智能医疗影像新技术的推广中并不热心，因为在他们的印象中，过去的CAD 主要是靠专家手工编写判定规则，并不好用。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

中华放射学会候任主任委员、北京协和医院放射科主任金征宇

“起码15年到20年前，CAD就开始了，为什么没有成功?……我们的计算机当时没有足够的强大，我们没有出现领军人物，没有社会需求，就没有成功，CAD那个时候有很有名的公司，后来就没有了，那个时候CAD简直不得了。但是，就没过几年慢慢就淡出我们视野了。”中华放射学会候任主任委员、北京协和医院放射科主任金征宇这样表示。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

中华放射学会副主任委员、上海长征医院放射科主任刘士远

中华放射学会副主任委员、上海长征医院放射科主任刘士远说：“20年前，我们和一些搞计算机的专家就有过合作，当时他们请我为肺癌做一个专家诊断，我来给肺癌做一些诊像，根据我定义的诊像，把它做成一个系统，计算机系统根据我定义的诊像，判断病灶是良性还是恶性，后来证实这个方法开始有一定准确率，但是到一定程度以后没法提高，因此就没有继续下去。其实各个厂家在临床工作当中跟我们合作，包括厂家设备里面也带了一些软件，目的也是让临床工作当中能够更容易的发现病变，更容易对病灶定量。当然，这些CAD 解决了一些问题，包括对于一些小病灶的发现，包括对于一些病灶形态的分析和病变。但是，大多数的 CAD 耗时比较长，常规临床应用存在很大的难度”。

然而医疗影像的识别分析工作，对于人工智能的需求已然越来越强烈。目前我国医学影像数据的年增长率约为30%，而放射科医师数量的年增长率约为4.1%。放射科医师的数量增长远不及影像数据的增长。这意味着放射科医师在未来处理影像数据的压力会越来越大，甚至远远超过负荷。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

数据和图片来源：蛋壳研究院

“我们每天进行影像检查的人是大几千……比如说胸部 CT , 一个病人至少要200多张图片，甚至300多张图片，一张图片看3秒钟的时间，看完一个病人，最起码要十几分钟到半个小时。” 华中科技大学同济医学院附属同济医院放射科主任夏黎明教授这么告诉我们，“国内的放射科医生很苦，早上8点上班，忙到晚上10点还在写诊断报告。中午很多人都是一边吃盒饭，一边看片子。”

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

华中科技大学同济医学院附属同济医院放射科主任夏黎明教授

正在这时，深度学习和神经网络技术对 AI 的强势赋能开始了。

深度学习 AI 能够自动寻找特征，非常适合智能医疗影像

2006年，神经网络领域的大师 GeoffreyHinton 教授与其博士生在《Science》和相关期刊上发表了论文，首次提出了“深度置信网络”的概念。与传统的训练方式不同，“深度置信网络”有一个“ 预训练”（pre-training）的过程，这可以方便的让神经网络中的权值找到一个接近最优解的值，之后再使用“ 微调 ”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。他给多层神经网络相关的学习方法赋予了一个新名词——“ 深度学习 ”。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

2012年，Hinton 教授的研究团队参加了斯坦福大学李飞飞教授等组织的 ImageNetILSVRC 大规模图像识别评测任务。该任务包括120万张高分辨率图片，1000个类比。Hinton 教授团队使用了全新的多层卷积神经网络结构，突破性地将图像识别错误率从26.2%降低到了15.3%。这一革命性的技术，让神经网络深度学习以极快的速度跃入了医疗和工业领域，这才有了后来一系列使用该技术的医学影像公司的出现。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

智能医疗背后的算法演进

卷积神经网络（CNN）以及深度神经网络（DNN）等深度学习方法更真实地模拟了人体大脑对图像的识别过程，利用数据量以及计算量作为模型驱动力，通过感受野和权值共享减少了神经网络需要训练的参数个数，最终实现了超越传统方法的图像识别性能。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

对于医疗领域来说，深度学习自动寻找特征化的功能非常有用。图像有不同形态，来自不同的组织，深度学习可以进行分析与处理，让一些人为误差得到调整。通过深度学习提取最主要的特征，它也可以对疾病分类，做图像分类与分割。无需人为干涉，深度学习算法就可以从医学影像中找出许多复杂程度极高，难以用语言详尽描述出的对比特征。这些细微的特征可能是纤维瘤的象征，也可能是息肉。

想将深度学习应用于医疗影像，先搬到医院旁边去住

谈到最初将深度学习技术应用于医疗影像领域，推想科技创始人兼 CEO 陈宽告诉我们：“在 2012 年期间，我在美国芝加哥大学修读经济学和金融学双博士，那个时候非常荣幸我的几位导师都是诺贝尔奖的得主，从他们身上我学到了再简单、再抽象、再精炼的数学模式，其实它也是可以帮助我们更好的去解释，去模拟，去预测，甚至去干预我们现实社会当中的一些实际发生的现象。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

推想科技创始人兼 CEO 陈宽

“于是，在博士期间我其实就非常感兴趣知道，一些新兴的人工智能的模型，包括深度学习，如何可以在经济以及政治领域发挥作用。比如说 2012 年的时候，我就跟几位麻省理工的小伙伴一起用深度学习模型加上机器模型，预测了当年奥巴马能当选总统。

“我当时自己很想知道深度学习还能在哪一些地方发挥它的价值，于是带着这样一个问题，我就回到国内开始博士期间搜集创业的一些机会，那个时候我觉得做技术的人，很多时候就会陷入一个怪圈，比如说认为自己的技术可能天下无敌，解决什么问题都可以，但是往往当你抱着这样一个心态去创业，去寻找模式的时候，你可能会发现，你的技术可能连最基本的问题都解决不了，什么问题都解决不了。

“所以我们就觉得说既然要做这个事情，就必须能够跟行业结合的非常紧，所以这个阶段我就跟各行各业人去沟通、挖掘他们的需求，了解他们的痛点。那个时候我沟通的行业非常多，包括银行、政府、保安等等，其中有一次我做 PPT 演讲的时候，我拿出一个脸像识别来做演示，演示结束之后，有一个放射科医生走过来，说你做的脸像识别非常有价值，但是能不能帮助我们放射科医生解决这么一个问题——他当时提出来使用深度学习技术帮助放射科解决问题。于是我就走访了各家医院，发现这样一个需求是真实存在的，也是一个痛点，既影响了医生工作也影响了患者的幸福。”

于是，以此为起点，陈宽将全部注意力投入到深度学习在智能医疗影像的应用中。“在 2015 年初的时候，其实在医疗行业几乎没有什么人谈论机器学习，也没有人谈论深度学习，很多医院对新的技术特别感兴趣，但是真正愿意投入大量的时间和精力做合作的医院非常有限。所以在那个期间，我走访了非常多的医院，从北上广包括各大省会城市顶尖医院，走访了非常多的医院，但是，愿意合作的医院是比较少数的。直到2015年4月，我成功说服了四川省人民医院——这也是我们第一家合作医院——和我们全面的开始合作。当时，我们的资源也比较有限，也不像现在有这么多伙伴在支持我们，我们两三个人全部进入到了这个医院当中，在医院周围我们租了一个特别破的公寓，两三个人每天跟医生一起上班，一起下班，一起加班，一起解决医院里面IT 出现的问题，跟大家打成一片，包括假期的时候，大家都在放假，医院的急诊其实还继续开着，我们就跟着医生一起在加班。

“这个过程我觉得非常漫长，基本上工作的环境也不太好。但是，就是在这样一个过程当中，我们才逐渐摸索出了深度学习非常前沿的技术，非常先进的概念，以及我该怎么样在医院相对比较传统、相对比较保守、相对比较注重安全、隐私的一个独特的 IT 环境里面生根发芽并且产生价值。我们发展到今天，其实这样一种经验对我们来说帮助也是非常大的。

“有了四川省人民医院初步的经验、初步成果之后，我们就开始逐渐的发展，到2016年3月份阿尔法狗的出现也让深度学习逐渐走入大众的视野，所以我们的发展速度也越来越快。从2014年到2017年间，我们已经开始北京协和、武汉同济、上海长征、大连中山等医院有一个深度的合作。公司在医疗影像辅助诊断上取得的积极进展，也获得资本市场的青睐。 2016年2月，推想科技获得英诺资本、臻云创投和快的CEO 吕传伟天使轮1250万的融资。2017年1月，推想科技获得红杉资本领投、广发证券联合投资的A轮5000万融资。”

来自放射科主任的反馈：又快又准

谈到和推想科技合作的体会，同济医院放射科主任夏黎明教授说：“在上世纪90年代，我们也做过机器的辅助诊断，但它的生命力很短，它是基于人的支持。由我们描述病灶是什么大小，打分进行诊断，这个诊断是建立在人的基础上。但是后来陈宽跟我们介绍，现在的深度学习是有人工的神经网络系统，是会学习的，会增长知识的，这是第一点；

第二，这里面的知识是基于像素水平的，像素是组成图像的最基本单位。我们的图像像素分辨率越高，结果就更加科学。陈宽的团队都出自美国的名牌大学，我们当时对他很有信心，我们真正合作在去年5月份，到10月份我们就看到了软件。我们用它看了11万张的X光片，看了三千多份CT。当时的结果应该是X光片找到病灶的正确率是超过 92%，CT是超过95%，当时我们感觉很惊奇。这么短的时间，它的识别能力非常强。所以我们当时感觉这个很有前景。所以给我们的印象是，它的速度快，刚才我们讲了，我们看一个人的CT，从肺间到肺里需要十几分钟到半个小时，我们的设备需要5秒钟，这个时间大大缩短，这是第二点；

同时，对于小的病灶，三毫米以内的，人肉眼很容易遗漏掉，但是计算机识别能力比较强。还有，如果病灶密度高，我们容易看到，但如果密度只比正常稍微高一点点，这个时候人肉眼识别就比较困难，但是计算机去识别会比较容易。所以我们初步的使用感觉是相当不错的。另外，我们也经常隔一段时间交流提出我们的想法，比如说我们需要你把测量病灶的体积、面积、密度的变化，还有打了药以后对比剂强化的程度怎么样。这些会给我们的诊断提供信息。推想科技在逐步实现我们的想法，逐步在让产品不断的完善。这是我对初步合作的体会。“

上海长征医院放射科主任刘士远则如此评价和推想科技的合作效果：“从目前长征医院六千多例多中心筛查的结果来看，通过我们标记形成的模型，目前已经准确率已达到了85% 以上，这种结果还是很让我们兴奋，我相信随着设备硬件的发展，随着神经网络进一步的进化，随着数据量进一步的增加，准确性、敏感度还会进一步的提高。“

那么，从技术层面来讲，在将深度学习应用于医疗影像的识别与分析的过程中，主要面临的挑战有哪些？带着这个问题，我们对推想科技创始人兼CEO陈宽进行了专访。

需持续关注的三大技术挑战

对于这一问题，陈宽非常有发言权。

“第一，传统的 ImageNet 的影像，相对于医学影像来说，没有那么高清，而且需要识别的物体在整个图像中占据比较大的比例。比如ImageNet 的图像分辨率可能是 299 X 299，需识别物体占据图像的 70%-80%。而医学影像中，X 光的常见影像分辨率是3000 X 3000，是 ImageNet 分辨率的大约100倍；而 CT 常见的分辨率则是 512 X 512，再乘以一个300~400，甚至多至好几万个平面。它的分辨率很高，维度很高。有时是三维的，fMRI 甚至是四维的，需要配合上时间的变化。它的分辨率高，维度高，这里面的挑战在于，需要识别的结节在影像当中只占一个非常非常小的区域。这是识别中一个很大的瓶颈和难点，也是研究者一直在着手解决的问题。我们的解决方案，是找到更适用于医学影像识别的模型，去努力把检测区域变小。但这样一来又会使得假阳性增高，会把和结节相似的血管等等全部都找出来，这样医生就不会喜欢去用。所以技术上的一大挑战就是如何在提高灵敏性的同时，把假阳性降低。

“第二个挑战是，医生在诊断过程中，需要知道系统做出判断的理由。但我们知道，深度学习的过程是一个黑箱，如何增加模型的可解释性，这其实是医疗用模型一个需要解决的痛点。在这个层面，可能大家都没有什么好的解决方案。去年有一个比较火的方法，叫作注意力模型（ Attention Model）。注意力模型可以在一定程度上告诉我们，它究竟是看到了什么，才做出了相应的诊断结果。这可以带来一定的可解释性，但这仍然是我们需要持续关注、持续去研究的问题。

”第三个挑战可能和深度学习技术不直接相关，而是和技术的部署、落地有关，就是医院的 IT 环境具有一定的特殊性，它和进行深度学习研究以及其他任务的环境有很大不同。比如我们的深度学习模型升级了，有一些新的方法出现，正常情况下我们的技术人员可能会到GitHub 上去问问题，找资源。但是医院的 IT 环境非常强调安全、稳定和隐私，不允许将医院的数据，特别是将病人的数据带到医院的环境之外。现在，假如我们的一个程序升级了，我们无法直接将它加入到系统中，而是必须先走完医院相关的审批流程，符合它们IT 的生态，慢慢才能加入到系统当中。这种工作方式可能对于很多已经习惯了在开源环境下工作的开发人员来说，是一个很实际的困扰。在过去的一段时间内，我们也建立起了自己的一套机制，让我们的深度学习模型，更好地生长在医院这个比较独特的IT 环境当中。当然，这首先要基于对医院真实情况的了解。

最重要的一点就是接地气扎进去，我分享一个我们早期开始做的时候的一个故事，当时我们刚进入四川省人民医院几个月时间，两个月过去之后我们跑通了我们的模型，根据当时的情况就做了一版出来，一看那个结果，准确率99.9%，当时我第一感觉是，我们公司可能明年就可以上市了。后来一想准确率如果这么容易上去，所有人都可以做出来，后来我们仔细观察，仔细梳理，最后发现我们做错了一个非常基本的问题。问题就在于我们对于医院的IT 系统不了解，医院里面所有系统之间的数据打通，数据的互联是有背后的一套逻辑在里面，但是这个逻辑非常复杂。咱们医院里面不同科室的人，可能任何一个科室都没有办法把这个问题说清楚，当时我们不太了解这些生态，不太了解数据流动的过程，最终就做错了一件很基本的关联性的问题，所以当时就闹出了这么大的乌龙。

我觉得最关键的就是，能够深入到这个行业里面，了解专家、了解日常写报告的医生面临的痛点，了解医院IT 系统当中所有不同的生态，如何跟生态当中不同的人打交道，我觉得这其实是我们做人工智能的这些人面临的最大挑战。在美国、英国学这些专业的时候，基本上把数据清理的很干净，拿出来很不错的模型发表文章就可以了。但是真正进入这个行业的时候，就会发现太多的细节都有可能造成模型跑不出效果，或者跑不出一个很好的效果。所以在这个环节当中，我觉得真的能够扎进去，深入进去，而且能够跟咱们的用户一起来成长，这才是一个最大的挑战。”

文章转自新智元公众号，原文链接

从传统 CAD 到深度学习驱动的影像系统：智能医疗落地三大技术挑战

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景