LUNA再次夺冠,科大讯飞向世界宣告自己的实力不止于语音

824 阅读10分钟


记者 | 谷磊


近日,科大讯飞可谓喜报连连,除了日益蹿升的股价,技术方面的好消息也不绝于耳。8月7日,科大讯飞在其官方微信公众号上给外界传递了一封喜报,并附以“科大讯飞刷新LUNA医学影像国际权威评测世界记录!”这样振奋人心的标题。

提到科大讯飞,相信很多熟悉这家公司的朋友们会联想到它在语音识别、语义理解、机器翻译等领域的耕耘,但它究竟是什么时候涉足到计算机视觉和智慧医疗领域的呢?

据AI科技大本营了解,讯飞早在2010年开始在视觉领域持续投入,2015年涉足智慧医疗领域,不仅将智能语音技术应用到了医疗,业务还涉及了医疗影像,以及类似于IBM Watson的基于认知计算的辅助诊疗系统。

时隔几年,讯飞通过成绩证明了自己在视觉方面的实力,用讯飞人自己的话说就是:“讯飞在计算机视觉与医学影像相结合的重要领域亦走到了世界前列”。


关于LUNA


据AI科技大本营了解,LUNA (LUng Nodule Analysis) 评测是肺结节检测领域权威的国际评测,也是医学影像领域最具代表性、最受关注的评测任务之一。其采用的数据来自美国多家医疗机构,并且由多名专家医生共同标注完成。该评测从2016年开始,吸引了大批国内外学术界和产业界团队的参与,包括香港中文大学、北京大学、浙江大学、奈梅亨大学、阿里巴巴、Mevis以及诸多新兴创业公司。

在全球范围内,肺癌是癌症中死亡率最高的疾病之一。目前,美国正在推进用低剂量CT来扫描筛查高风险个体肺癌的方法,其他国家也有望近期跟进。

在对肺癌的CT筛查过程中,放射科的医生必须要分析数百万的CT影像,这对他们来说是个巨大的负担。因此,开发一款智能算法来优化这些筛选过程就显得很有必要了。

肺癌筛查的关键性第一步是对肺结节的检测,它可以表征出受检者到底有没有患有早期肺癌。很多计算机辅助检测系统(CAD)正致力于解决这个问题。LUNA16挑战赛聚焦在基于 LIDC/IDRI 数据库的结节大规模自动检测与评估。

LIDC / IDRI数据集是公开的,上面包含四个放射科医生的结节标注信息,它被等分成 10 个子集,参赛者要利用这 10 个子集进行交叉验证,最后的测试结果合并作为最终的结果提交系统。评价程序将 FROC 曲线(free receiver operating characteristic)在 7 个不同误报率(1/8, 1/4, 1/2, 1, 2, 4, and 8 FPs)下对应的召回率平均值作为算法性能的评价结果。

所谓的召回率,是医学影像辅助诊断系统中最主要的指标,召回率低意味着系统会漏掉患者的关键病灶信息,对患者的健康造成很大隐患。本次讯飞最新提交的召回率成绩为94.1%.


冠军几经易主


其实,LUNA16的冠军争夺异常激烈,成绩不断地被刷新。今年年初,来自中国的杭州健培科技荣登榜首,并将此记录保持了6个月,7月13日该记录被阿里iDST打破,但6天后健培科技重新夺回冠军。8月3日,该成绩又被科大讯飞团队刷新,11天后,健培科技再次夺回第一,8月17日,讯飞以0.941的召回率再次刷新纪录。目前的排名情况如下图所示。可以看出,前三名全部由中国团队包揽。


那么参加LUNA比赛的团队具体情况如何?讯飞的算法有哪些独特之处?目前在和哪些医院进行合作?AI科技大本营采访到了科大讯飞研究院刘聪副院长,以及智慧医疗常务副总经理鹿晓亮,为大家解答这些疑惑。


以下为AI科技大本营对讯飞相关负责人的采访实录:


关于团队及公司战略


AI科技大本营:请简单介绍一下参与这次比赛的团队,与讯飞其他部门的架构关系,聚焦领域。公司有无参加剔除假阳性的比赛?

刘聪:参赛团队是研究院医学影像方向和智慧医疗事业部联合团队,主要负责医学影像算法的研发和系统在医院的落地。公司没有参加剔除假阳性的比赛。

AI科技大本营:讯飞是什么时候开始切入视觉领域的研发的?提到讯飞,大家都会想到你们在语音方面的业务,为什么要选择切入视觉领域,是公司战略方面有什么改变或补充吗?

刘聪:讯飞从2010年左右开始即在视觉领域开始持续投入。作为中国人工智能领域的佼佼者,科大讯飞除了深耕智能语音领域以外,也在视觉和自然语言理解等人工智能相关领域持续布局,以期更好的发挥人工智能技术的价值、提供更好的产品体验。讯飞在计算机视觉领域主要选择和业务需求结合紧密的方向投入,具体包括手写图文、医学影像、视频分析等方向。


关于技术


AI科技大本营:检测肺结节的过程分为几步?是否是端到端的?

刘聪:在通用物体检测中,one-stage(SSD,YOLO,Focal-Loss等方法)与two-stage(Faster-RCNN等方法)也一直是讨论的热点,大家一般针对具体任务进行合适的选择。

对于肺结节检测任务,我们分析并通过实验验证two-stage有着比较明显的优势,第一步骤先给出更多的结节候选以保证召回率,第二步骤在上述结节候选中进一步去除非结节区域以改善对应的虚警率。

AI科技大本营:和其他参赛队伍相比,算法方面有哪些独特之处吗?

刘聪:3D CNN模型是讯飞此次参加LUNA评测的独特之处之一。讯飞应该是最早将3D CNN方案应用于肺结节检测的机构之一,相对于此前主流的2D或者2.5D方案,3D模型更加适合于基于CT影像的肺结节检测任务。

然而,仅仅套用3D CNN模型并不够,还需要使用合适的3D CNN模型配置并解决3D CNN的训练效率问题。

AI科技大本营:在讯飞的对外新闻稿中,有这样的描述:“讯飞采用了多尺度、多模型集成学习的方法来显著提升召回率,同时针对该方案引起的负面影响——虚警的增多和重复检测问题,我们还创新性的使用结节分割和特征图融合的策略来进行改善”,可否简述一下其中“多尺度、多模型集成学习方法”以及“结节分割和特征图融合策略”?

刘聪:这些方法主要都是借鉴传统图像识别和检测中常用的模型改进方案,当然要针对医学影像任务进行适配性改进。例如多尺度方案主要这对各种大小的结节能获得比较稳定的检测效果,而多模型集成学习则利用多个不同配置的神经网络模型进行融合决策获得效果互补的作用。

当然,如何将这些主流的技术方法针对特定任务进行合适的搭配和局部优化,则是难度更高的任务,该部分属于讯飞的核心机密,不便展开。

AI科技大本营:如果要进一步提升召回率的话还需要做哪些提升?提升空间还大不大?

刘聪:在算法方面,模型结构、训练策略等还可进行优化,但在该评测任务上的提升空间不大。

另一方面在数据方面,即使在LUNA这样高质量的评测任务上,数据标注准确性仍然有进一步的提升空间,提升标注准确性能带来召回率进一步的提升。

此外,在基于深度学习的医学影像识别框架下,持续增加训练数据的数量也会进一步带来性能的提升(只是LUNA评测目前并没有进一步扩大数据规模的计划)。我们更加关注的是在实际任务上获得更多的真实数据,来持续提升效果,我们认为在实际系统中核心效果的提升空间更大。


关于落地应用


AI科技大本营:这个模型(医学影像辅助诊断系统)能直接应用到医院了吗?效果如何?目前和哪家医院合作?

鹿晓亮:目前科大讯飞医学影像智能辅助诊断系统基于图像识别和深度学习技术,结合医学专家诊断经验和大量样本数据,能自动从医学影像中检出病灶并对良恶性作出判断,辅助医生快速、准确地完成影像诊断。

当前系统从发病率最高的肺癌入手,从胸部CT图像中自动检测肺结节并判断其良恶性,对肺癌的早期诊断和筛查有重要意义。未来还将扩展到乳腺钼靶、X光胸片、磁共振等检查方式上,让人工智能技术成为医生的第二双眼睛和第二个大脑,减少因为疏忽、疲劳等造成的误诊、漏诊。

科大讯飞与安徽省立医院等多家一流医院进行合作,此外讯飞的影像辅助诊断系统还是讯飞人工智能辅助诊疗中心的重要组成部分,能够远程实现对基层医院的辅助诊断,目前已可实现乳腺钼靶、肺部CT的辅助诊断。

目前在实际应用中科大讯飞医学影像智能辅助诊断系统已能在很大程度上能够辅助医生工作,减少误诊、漏诊。讯飞的人工智能在医疗以及所有的行业中的应用定位是非常明确的,我们的医学影像辅助诊断系统不是要去代替医生,是要辅助医生,从而达到人机协同的效果,大大提升影像诊断准确率。