▎药明康德内容团队编辑
近年来,随着生活水平的提高,人们对健康愈发重视,早期癌症的筛查也在加速普及中。为了提高癌症筛查的准确性和效率,人工智能(AI)在癌症筛查领域已做出了不少尝试,尤其是在乳腺癌筛查场景中的应用。
目前,FDA已经批准了至少16款乳房X光筛查算法,用于癌症检测、癌症风险预测和质控。但近期的一项荟萃分析显示,AI似乎还没能发挥出其在帮助癌症筛查方面应有的潜力——在乳腺癌筛查方案中使用AI进行图像分析,纳入研究的36个AI系统中有34个(94%)的准确性都低于单位放射科医生作出的判断,而且所有36个AI系统的准确性都低于2位及2位以上的放射科医生作出的共同判断。
基于这项研究,学者们对目前辅助乳腺癌筛查的AI算法作出了如下总结:“近期的证据显示,现有的AI系统在乳腺癌筛查中无论是从质量还是数量上来说,都远未达到临床应用的要求。”
AI算法在乳腺癌筛查中的表现不佳,原因在哪儿?
来自华盛顿大学医学院的放射学助理教授Aaron Mintz教授指出,尽管可能的原因有很多,但其中最重要的还是由于用于训练AI的数据集来源过于单一,缺乏不同种族、不同地域及不同社会经济地位人群的多样化的高质量数据。
目前大多数大型AI培训队列的数据都来源于欧洲,这是因为欧洲有国家性的注册和筛查计划。而美国用于AI培训的数据集往往是单中心的,在数量和多样性上存在着严重的不足,这会导致据此训练的AI产生系统性的偏倚。
2020年,一项调查了用于深度学习算法的美国队列的地理分布研究显示,纳入的76项用于图像诊断的深度学习算法研究(涉及放射学、眼科、皮肤病学、病理学、胃肠病学和心脏病学)中,有56项(76%)使用了至少1个地理上可识别的队列来训练算法。在这56项研究中,来自加利福尼亚州的队列出现了22次(39%),来自马萨诸塞州的队列出现了15次(27%),来自纽约的队列出现了14次(25%)。56项研究中共计有40项(71%)使用了来自这3个州中至少1个州的患者队列。在其余47个州中,有34个州没有贡献任何患者队列,其余的13个州分别贡献了1至5个队列。
▲用于训练临床机器学习算法的美国患者队列表(按州统计)(图片来源:参考资料[3])
也就是说,来自加利福尼亚州,马萨诸塞州和纽约州的队列被不成比例地大量用于训练临床深度学习算法,而其余47个州的人群数据就像是“数据沙漠”地带,基本上没有被覆盖到。
随着越来越多的乳腺癌筛查中开始应用这种基于多样性不足的数据集训练而成的AI算法,其在实际使用时的表现欠佳问题也逐渐被突显。尤其是乳腺癌的发病率在不同人种间存在着很大的差异,若用于AI训练的数据集缺乏对不同人群足够的代表性,将会导致大量的漏诊和误诊。
原因找到了,该如何解决?
构建大型、多样化的数据集的主要障碍之一是各医疗保健组织内部的数据都是孤立的。出于信息安全的考虑,管理患者健康数据的机构或管理者不会将这些数据分享出去。
然而,一种名为联邦学习(federated learning)的新兴AI训练技术有望突破这个困境。联邦学习不需要原始数据在各个组织间传送就可以让研究人员在本地实现信息共享。这是怎么做到的呢?
原来,联邦学习是让算法本身在各个数据提供点进行“旅游”,AI在接触到用于训练的数据后会进行加权评分,将评分结果而不是原始数据本身发送给研究人员,从而既获得了想要的数据结果,又保护了患者原始数据,这被认为是十分安全的。
如果所有的机构都愿意敞开他们数据库的大门,通过联邦学习将建立起一个生物医学数据合作研究的新世界——未来我们可以构建一个巨大的多站点联合乳腺影像学数据网络,除了标准的数字乳腺X线摄影和数字乳房断层合成信息,同时还囊括了大量的必需参数例如年龄、种族、性别、社会经济地位、地理位置、乳腺摄影设备、乳腺摄影发现、癌症诊断和患者结局等等不同的信息。
图片来源:123RF
通过来自这个多站点数据网络的数据集,可以确保目前处于边缘化的群体的数据也能被覆盖到。这种方法将解决“数据沙漠”问题,确保开发出来的AI能够适应多样的患者数据。
通过引入联邦学习,AI开发人员可以在大型真实数据集上验证他们的模型,来检验算法是否存在偏差或性能上的缺陷。一旦发现存在此类问题,研究人员可以通过深入访问该模型应用性能较差的队列对AI继续进行调整,最终建立起能在不同患者特征下都表现良好的技术。
联邦学习构建数据网络的现状与展望
目前,不少开源和商业数据平台的用户都参与搭建了这个多站点联合网络。当前的计划是,在城市和乡村代表性不足的社区站点进行推广并招聘相关人员,然后对其进行入职培训。
希望在不久的将来,为AI研究人员提供数据的机构能够把他们的数据摘要上传到类似目录的统一界面,研究人员可以通过浏览这种目录来联系想要的数据的持有者,最后通过联邦学习获取数据或是通过其他兼容的数据共享协议获得数据使用许可。
这种创新模式可以通过获取更多样的数据矫正AI对某一类人群的偏向性,加速AI适应真实世界的应用场景。在这种新形势下,医院必须认识到他们所拥有的多样化数据是一座尚待开发的宝库,并利用各种机会让这些数据发挥出更大的价值。
人们对AI帮助临床医生提高图像诊断的工作效率和准确性寄予了厚望,尽管目前还有很长的路要走,但我们相信,只要找到了问题的原因所在,有了明确的改进方向,各类机构和研究人员将会不遗余力地去解决,使新的算法更完善。期待AI在医疗领域中的应用和发展越来越好!
药明康德为全球生物医药行业提供一体化、端到端的新药研发和生产服务,服务范围涵盖化学药研发和生产、生物学研究、临床前测试和临床试验研发、细胞及基因疗法研发、测试和生产等领域。如您有相关业务需求,欢迎点击下方图片填写具体信息。