文|动脉网
美东时间5月8日,谷歌DeepMind与 Isomorphic Labs(DeepMind 创始人创立)宣布推出新一代AI生物分子结构模型AlphaFlod 3。
据悉,新的模型不仅局限于蛋白质结构的预测,它还能够预测DNA、RNA、配体等生命分子的结构和相互作用,甚至可以预测翻译后修饰(PTM)和离子对相应分子系统结构的影响。研究人员仅需输入一个生物分子复合体的基本描述,几秒后便能收获该复合体3D结构的准确预测。
被《Nature 》收录的《Accurate structure prediction of biomolecular interactions with AlphaFlod 3》 对模型的能力进行了详细论证。
据论文数据显示:与现有的预测方法相比,AlphaFlod 3无需输入任何结构信息的情况下,其准确性已比PoseBusters基准上的最佳传统方法高出50%(一些特殊场景可达100%),理论上优于现有的基于物理的生物分子结构预测工具。
不过,任何工具的使用都不能脱离实际。经历数天测试,已有不少专家学者引入实际问题对AlphaFlod 3的能力评估。就目前测试结果而言,AlphaFlod 3确实充满潜力,但还不足以“颠覆”这一领域。
全生命分子预测,AlphaFlod 3更接近AIDD了
与过往的AlphaFlod系列工具类似,AlphaFlod 3也采取了神经网络架构,并以蛋白质数据库(PDB)中的全球分子结构数据为基础进行训练。不过,AlphaFlod 3的预测准度在大部分场景中都远超前代产品,且在预测范畴上实现了大规模的扩充。
这些能力的升级来源于AlphaFlod 3新引入的主要组件,包括升级版的Evoformer模块(现为Pairformer 模块)、全新的Diffusion Network等。其中,Diffusion Network从点云通过概率扩散预测坐标,进而实现了更高的预测精度。
此外,一些模型上的创新也对AlphaFlod 3的预测结果进行了优化。在手性分子等形态相似结构上,算法常会发生预测错误。这类情况下,AlphaFlod 3采用了交叉蒸馏的方式,让具备Transform模型的AlphaFlod 2先行预测,再把预测数据添加到 AlphaFlod 3 的训练中,一定程度提升了预测的准确率。
论文展示了部分AlphaFlod 3的预测结果。例如对感冒病毒刺突蛋白( 蓝色 )与抗体( 绿松石色 )和单糖( 黄色 )相互作用时的结构预测,与真实结构准确匹配( 灰色的)中,它与实验室得到的结果几近完全匹配(灰色部分)。
对蛋白质和DNA结合的分子复合物(7R6R - DNA 结合蛋白)进行预测,预测模型也与实验测定的真实分子结构( 灰色 )完美匹配,且精度达到了远超其他模型的原子级。
在生成预测结果后,AlphaFlod3 还会提供一个置信度分数,评估该次预测结果的准确度,为研究人员提供参考。
论文展示的AlphaFlod3 的能力对于理解人类免疫反应的各个方面和新抗体的设计至关重要。这一新的工具显然可以通过帮助研究人员了解如何接近新的疾病靶点,进而开发新的方法来追求以前遥不可及的靶点,最终加速药物设计并提高其成功率。
此外,论文提及的RNA的预测能力同样具备极大的想象空间。
以往的药物靶点大部分都是蛋白质靶点,但实际上RNA会成为一个比较好的潜在靶点。通过阻断RNA表达或阻断RNA与蛋白质形成复合物,从而阻断蛋白质形成功能,药物的疗效或许会比蛋白质靶点表现更好。
但在过去的采用非AlphaFlod工具进行的RNA三维结构预测中,绝大部分的预测误差超过了10埃,与物理预测方式存在一定差距。理论上要实现RNA结构计算相关的应用,精度最好控制在2-3埃左右。
如果AlphaFlod 3能够攻克RNA结果预测,使其预测结果达到跟蛋白质预测差不多的水平,那么这一工具或能优化mRNA的蛋白表达,优化其稳定性,加速针对RNA target的药物设计,甚至加速将RNA本身作为新型药物的药物研发。
算法闭源,AlphaFlod 3或将开启AI分子预测付费时代
在理想情况下,原先需要花大量时间精力和资金才能观察到的现象,现在只需要在DeepMind的界面中输入参数,便能在数分钟内得到极高清晰度和准确度的生物大分子模型,甚至明确该大分子细胞系统内部的生化过程,展现如何与抗体、核酸进行反应,因而能在行业之中引起轰动。
但在实际测试中,AlphaFlod 3的能力或许不如大家期待的那样理想。
颜宁教授团队在微博上表示,AlphaFlod针对一个糖蛋白的预测不如上一代版本。“这次的server版本我觉得是一个速度和准确度的平衡,正确率不是最好的。我现在手上有三个都是比较奇怪的蛋白,之前我自己搭的AF2 multimer可以在很低的ranking position找到一两个正确的conformation,这次的server版本测试全军覆没。”
也有学者在试用AlphaFlod 3后发现DeepMind并没有将文章中引以为傲的蛋白-小分子配体预测任务公开,用户仍然不能自定义配体进行复合物结构预测(aka对接)。
此外,AlphaFlod 3也因尚未开源在学界引起激烈讨论。
目前,DeepMind仅为该模型发布了一个名为AlphaFlod Server 的公共接口,该接口对可以进行实验的分子施加了限制,仅允许每位用户每天进行10次预测,且不提供可能与药物结合的蛋白质结构。
在实际操作中,研究人员为获得最高精度,需要生成大量预测结构并对其进行排名,特别是对于抗体-抗原复合物,预测质量随着模型种子的数量增加而显著提高,因而对工具的筛选功能提出考量。毕竟制药公司并不关心研究人员能找出多少小分子,也不关心提供的分子是自己生成,还是从数据库里筛选,他们只在乎能否找到一个抑制蛋白质的最合适的小分子。
但就AlphaFlod Server现阶段可以提供的服务而言,研究人员很难借助这一工具实现期望中的价值。AlphaFlod 3的使用限制中明确指出预测结果不准商用,也不能用于对接和虚拟筛选,
业内人士认为,AlphaFlod 3的开源至少会等到12月的CASP16结束后。但考虑到 Isomorphic Labs 参与了AlphaFlod 3的研发工作,DeepMInd这一次可能不会向学界开源它的开源推理代码或可执行文件,也不会开源算法和原理。毕竟,这些算法已经成为 Isomorphic Labs 的核心资产。
今年1月,Isomorphic Labs宣布与礼来和诺华达成了两项价值30亿美元的药物发现协议,合作涉及针对多种疾病相关蛋白和途径的治疗方法的发现,正与AlphaFlod 3对抗原抗体复合体的预测能力、对蛋白配体复合体的预测能力、对蛋白核酸复合体的预测能力紧密相关。
如此来看,AlphaFlod 3的未来可能会像GPT一样被包装成一款商用软件,面向不同的用户推出不同的版本。譬如,预测结构的排序可能会成为付费项目的一部分,需要研究人员有偿使用。如今绝大多数研究人员已经习惯了在论文之中附上AlphaFlod 2的预测结果,但随着工具闭源,这一习惯或许也将逐渐改变。
不过,无论是开源还是闭源,是免费还是商用,我们都应尊重DeepMind 与 Isomorphic Labs的选择。毕竟,面对分子生物学理解、调节生物系统复杂的原子相互作用这一命题,AlphaFlod 3确实带领行业向前迈出了一大步,有望实现在统一的框架内准确预测各种生物分子系统的结构。
因此,合理的商用或许能够进一步为DeepMind与 Isomorphic Labs提供更多支持,推动整个行业更快进入分子生物学的下一个时代。
评论