预测出地球上几乎所有蛋白质结构，AI工具真能加速新药开发吗？

▎药明康德内容团队编辑

2022年7月，DeepMind公司与欧洲生物信息研究所（EMBL-EBI）的合作团队公布了生物学领域的一项

重大飞跃

。他们利用人工智能（AI）系统AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构，几乎涵盖了地球上所有已知蛋白质。而近日，科技公司Meta宣布，其

ESMFold

成功预测了超过6亿个蛋白质三维结构，包含大量前所未见的结构。两个团队均把包含如此巨量蛋白质结构的数据库向全球的科研人员免费开放，将研究成果进行了完全的共享。

许多科学家和生物医药公司的研究员兴奋地表示，这一系列突破将加速新药开发，并为基础科学带来全新革命。与此同时，质疑的声音也不在少数，很多人认为这只是一场炒作。那么，像AlphaFold这样的AI工具，对于新药开发究竟有怎样的意义？它真的能够加速新药开发吗？

图片来源：123RF

AlphaFold在加速药物开发的过程中的价值和局限性

要回答这个问题，我们首先需要了解一下常见的药物一般是通过何种策略开发出来的。

蛋白质是药物开发的热门靶标，因为它能控制许多人体活动的进行，例如抗体攻击病原体，通过各种酶执行细胞过程，或通过信使分子（如胰岛素和生长激素）发出信号。许多人类严重疾病背后的原因是由于蛋白质的功能失调。如果要让这些功能失调的蛋白质回到“正轨”，就需要开发出能够准确识别这些“问题蛋白”并牢牢地与之结合的药物，然后发挥其治疗作用。

为了更好地设计出可以与目标蛋白结合的药物，了解目标蛋白结构就显得极为重要。我们得先摸清这个目标蛋白上有哪些位点有与药物分子结合的可能，并设计出与这些位点能够契合的药物——就像为一块边缘不规则的拼图设计能够与之匹配的另一块拼图。

科学家们从上百万甚至上亿种化合物中，通过层层筛选，发现能够与疾病相关的蛋白相结合的先导化合物，再进行逐步优化，最终确定少数几个候选药物进入临床试验。这是个耗时耗力的过程，如果能够根据目标蛋白的特征直接设计出候选药物分子，这将大幅度加快新药开发的前期步骤并降低成本。

图片来源：123RF

现在，AlphaFold实现了研究人员在几年前几乎无法想象的蛋白结构获取速度。在它出现之前，科学家们解析的蛋白结构只覆盖了17%的人类蛋白序列。而它出现后，98.5%的人类蛋白的结构已被其预测出来，其中58%的氨基酸的结构位置为可信预测，36%的氨基酸的结构预测有很高的置信度。也就是说，进行药物开发时需要完成的这张拼图，其中目标蛋白那一半的绘制速度有了飞跃性的提升，且准确性十分有保证。

新药开发领域的专家表示，这一庞大且准确的数据库能够让研究人员将更多的精力投入到确认蛋白结构的细节上面，这是很多靶向药物能否成功的关键。研究人员不再需要问“蛋白结构是什么样的？”，而是转而去回答“我们有的蛋白结构有多大作用？”的问题。此外，这个数据库能够扩展可以成药的基因组位点范围，大幅度增加了科学家们发现创新药物过程中拥有的选项。

除此以外，公开可用的AlphaFold还为以前无法接触此类科学的研究人员提供了极大的便利。对于资源不足的国家的科研人员来说，有了计算生物学，不必拥有如何获得蛋白质结构的知识和进行研究的资源，只需一台电脑甚至一台手机也能获得所需的结果了。

图片来源：123RF

不过从新药开发的整个时间周期上来说，AlphaFold对加速药物发现的帮助就比较有限了。这是因为了解蛋白质的结构只是临床药物开发过程中的限速步骤之一。

专家指出，AlphaFold并不能让临床试验变得更可预测。不论AlphaFold能以多快的速度给出这些候选药物的蛋白结构，但对蛋白结构的了解并不能减轻临床失败的风险。临床上85%的失败是因为选择了错误的靶点，或者预期外的事件，例如候选药物还存在免疫原性和毒理学方面的问题等等。

此外，就蛋白结构预测方面来说，AlphaFold也存在着局限性。其一是AlphaFold的训练是基于蛋白质数据库中晶体结构的瞬间快照，这些晶体结构实际上只是不断运动的蛋白质的某种可能构象。因为蛋白质结构在其他小分子配体存在的情况下会发生变化，这种变化有时候是微小的，有时候是剧烈的。但AlphaFold尚未具备预测这些变化的能力，这也就限制了其在设计治疗药物方面的用途。

另一大局限性在于，AlphaFold如果要完美预测出蛋白质结构用于药物对接筛选，还需要更多方面的高质量数据。因为人工智能下一个必须要回答的问题就是预测候选药物与蛋白质的结合强度。这取决于结合时的盐浓度和pH、药物溶解度以及生物效价等数据，而这些数据目前还没有，或者说有，但机器还没办法识别和利用。

不过DeepMind的研究科学家表示：“这些数据只是尚未收集。现在我们已经清楚地证明了人工智能在其中的价值，这可能会鼓励实验人员从一开始就带着机器学习的思维去进行数据集采集。”

助力新药开发，AlphaFold并非以“速度”取胜

尽管AlphaFold在新药开发“提速”方面的作用有限，它在解决蛋白折叠问题上的成就毋庸置疑依然是一项巨大突破，并给生物医药公司的研究人员们带来了更多的想象空间。

由于DeepMind公开了AlphaFold的代码，外部的研究人员也能够按自己的想法对AlphaFold进行研究和迭代，并且外部研究员对这款AI工具的研究结果和“标签外”用途方面的创造力令创造它的内部人员都咋舌。

哈佛大学的一项研究表明，AlphaFold似乎已经“理解“了蛋白质的序列和结构之间关系的一些知识——即使不给它提供一些额外的、从前被认为非常重要的信息（来自相关蛋白质序列的多序列比对协同进化数据），它仍然可以预测出高度准确的蛋白质结构。

为了解决AlphaFold无法显示蛋白质在细胞中活动时构象的局限性，DeepMind也做出了不少努力。2021年，DeepMind发布了一个名为AlphaFold-Multimer的更新，可以对多种蛋白质的复合物进行建模。DeepMind的团队用它来识别公开蛋白数据库中的上千种复合体，发现它能够预测大约70%的已知蛋白间相互作用。

这些工具已经在帮助研究人员发现新的结合蛋白。斯德哥尔摩大学Arne Elofsson博士的团队在2022年Nature Communications上发表的论文中，利用AlphaFold与实验数据相结合，他们预测了65000种可能相互作用的蛋白对（protein pairs）的结构。

对于AlphaFold的另一个局限性——还需要更多方面的高质量的数据对其做出进一步的完善，一些科学家也作出了一些初步的探索。研究人员发现，利用AlphaFold预测蛋白质结构和结合位点解剖结构，进行高通量对接以进行药物发现时，氨基酸和单个肽的位置需要非常精确，并使用其他计算方法进行优化（可能需要大量计算），以及把溶媒也纳入考量因素，可以模拟准确的相关位点结合环境，帮助提高药物设计的效率。

除了AlphaFold的研究进展以外，其他相关AI工具的重磅进展也不断涌现。近期，利用类似AlphaFold这样的人工智能工具，华盛顿大学David Baker教授团队在《科学》杂志上连发

两篇论文

，呈现了AI在从头设计功能性蛋白质分子方面的最新突破——其开发的一种全新的深度学习工具ProteinMPNN通过借鉴图像识别神经网络，能够明确与特定结构相对应的氨基酸序列，这种AI工具生成的蛋白质更可能按设计者的预期计划折叠。相比于传统手段，机器学习可以更加精准、快速地设计蛋白质分子，将设计蛋白质的时间长度从“月”缩短至“秒”。

这意味着，完成药物开发拼图的另一半——潜在药物分子设计的速度也将被大幅提升！至此，针对蛋白质设计的药物开发的早期步骤实现了初步的闭环。有了这些技术，有望在全新疫苗、药物与治疗手段开发等领域带来新的革命。

事实上目前，也已经已有一些科研团队获得了初步的成果——David Baker教授团队在《细胞》杂志上发表

论文

，利用AI技术平台精准地从头设计出能够穿过细胞膜的大环多肽分子，开辟了设计全新口服药物的新途径。

人工智能工具在极短的时间内解决了新药发现领域中一个又一个长期存在的问题，这只是研究人员明智地将机器学习应用于正确方向的几个例子。毋庸置疑的是，未来像AlphaFold这样的机器学习方法将会被越来越广泛地大规模启用，AI的巨大潜力正在被实现。相信这场AI主导的药物发现革命不论最终会走向何方，都会是更好的方向。

参考资料：

[1] Alphabet’s AI predicted the structure of 200 million proteins. Can it really speed up drug discovery? Retrieved October 13, 2022, from https://www.statnews.com/2022/10/13/can-alphabet-alphafold-really-speed-up-drug-discovery/

[2] Why AlphaFold won’t revolutionise drug discovery. Retrieved August 5，from https://www.chemistryworld.com/opinion/why-alphafold-wont-revolutionise-drug-discovery/4016051.article

[3] James P. Roney, Sergey Ovchinnikov. State-of-the-art estimation of protein model accuracy using AlphaFold. bioRxiv 2022.03.11.484043. Doi: https://doi.org/10.1101/2022.03.11.484043

[4] Richard Evans, et al. Protein complex prediction with AlphaFold-Multimer. bioRxiv 2021.10.04.463034. Doi: https://doi.org/10.1101/2021.10.04.463034

[7] Scardino V, Di Filippo JI, Cavasotto C. How good are AlphaFold models for docking-based virtual screening? ChemRxiv. Cambridge: Cambridge Open Engage; 2022; This content is a preprint and has not been peer-reviewed.

[8] B. I. M. Wicky,L. F. Milles,A. Courbet,R. J. Ragotte,J. Dauparas,E. Kinfu,S. Tipps,R. D. Kibler,M. Baek,F. DiMaio,X. Li,L. Carter,A. Kang,H. Nguyen,A. K. Bera,D. Baker,Hallucinating symmetric protein assemblies, Science, 378, 6615, (56-61), (2022). Doi: 10.1126/science.add1964

为您推荐