文| IT时报记者 崔鹏志
编辑|挨踢妹
在生活中,人工智能最有可能率先带来的颠覆是什么?自动驾驶或是无人餐厅固然美好,但更像“锦上添花”。事实上,一个真正同我们生活息息相关的领域正在因AI发生巨变——生物制药。
一款新药的诞生往往需要经过超十年的研发周期,数十亿美元的研发投入,面对不到十分之一的成功率,过高的付出也使得成品药售价高昂——但AI则有可能改变这一切,重塑药物设计的整体生态。
击败人类职业围棋选手后,AlphaGo“选择”了AI制药的道路。2017年,AlphaGo背后的谷歌子公司DeepMind开始将目光转向药学关键问题“蛋白质结构预测”。
2020年末的CASP 14(第十四届蛋白质结构预测技术评估大赛)上,DeepMind提出的深度神经网络蛋白质形态预测方法AlphaFold 2在第一代的基础上再度进化,媲美人工实验结果,以超越所有传统计算方法的精确度彻底改变生物制药格局,也让AI制药走向时代浪尖。
将近两年时间过去,AI制药走到哪一步?
2022年世界人工智能大会(WAIC),由上海市生物医药产业促进中心、上海市人工智能行业协会、机器之心主办的生物计算论坛上,高校、机构、企业等多方面的专家学者齐聚,让一幅由AI全面改变的生物制药图卷徐徐展开:
人工智能并不是“救世主”,但生物制药期待一场“工具革命”。
1.AI颠覆蛋白质预测
AlphaFold 2的“看家本事”蛋白质结构预测,也是AI制药的重要切入点。
蛋白质是人体和各种生物构成的重要基本大分子,由各种氨基酸形成的肽链折叠而成。在生物学上,蛋白质的三维结构直接决定其功能,而现有药物大多是小分子化学药,作用靶点大部分落在蛋白质上。如果能精准绘制出蛋白质的三维结构,便能针对性地进行药物设计和疾病治疗。
1972 年,美国科学家Christian Anfinsen曾提出著名推论:理论上,蛋白质氨基酸序列可完全决定其三维结构。
但这条从生物学角度衍化的思路是一条“死路”。在形成三维结构前,蛋白质的折叠方式是个天文数字。基于序列,以往的实验技术大多耗时、耗资成本巨大,却收效甚微。人们开始转向其他方法,例如通过计算机模拟原子空间坐标的方法“预测”三维结构。
但蛋白质结构复杂,即使动用超级计算机,仍无法确保准确率,所以AlphaFold 2才被称誉“解决了困扰生物学界50年的难题”。
“AI颠覆了蛋白质预测,基于序列的研究转向基于结构的研究。”分子之心创始人许锦波解释,而将近30年共14届CASP的预测数据列成折线图,横坐标为测试蛋白的难易程度,纵坐标为得分,在难度逐渐上升的情况下,不难看出AI两代深度学习算法带来的“跳跃”。
AlphaFold 2并非没有局限性,它通过在数据库中搜寻目标氨基酸的相关序列,提取学习相邻“共进化”氨基酸的信息,从而在三维空间对蛋白质结构进行预测。但这并非Christian Anfinsen所言“仅依靠自身序列推测蛋白质结构”。AlphaFold 2的成功在于有大量实验数据样本“投喂”训练,但缺点是一旦遇到特殊结构,便无法完成准确预测。
今年7月,Meta推出单序列方法ESMfold,带起一波完全依靠单序列方法预测蛋白质结构的潮流——但事实证明,这种方法仍不理想。
在以深度学习算法预测蛋白质结构上,许锦波的团队比AlphaFold更早,他们在2016年首度证明深度学习在预测蛋白质结构上的作用,为AI 蛋白质预测完成奠基,对这条赛道有着深刻认知。
“前阵子国际上火的单序列预测方法以及AlphaFold 2,实际上都无法脱离对共进化、同源信息的依赖。”许锦波分享,针对没有“兄弟姐妹”的“孤儿蛋白”,流行的单序列方法最大的优势在于速度,并没有解决真正的问题,此外难题还有针对“蛋白质和其他分子相互作用”“点突变影响”“蛋白质复合物”“蛋白质优化和从头设计”的研究。
攻克难题任重道远,但另一方面,这些前沿痛点也是生物计算从业者的创业风口。天壤 XLab成立于2019年,如今团队正集中于“蛋白质从头设计”。
“蛋白质设计将引领生命科学的浪潮。”天壤 XLab 负责人苗洪江指出,100个氨基酸的蛋白质拥有20的100次方可能序列空间,而自然蛋白只是其中一小部分,“从头设计”蛋白质便可探索广阔蛋白质空间,解决人类在能源、医疗等方面难题,以往的方法流程复杂难以落地,而AI蛋白质结构预测对上亿预测信息的开源,使得这一赛道进入“新时代”。
2.作为“解决办法”的生物计算
生物制药是一个长长的链条,除蛋白质结构预测外,生物计算、AI制药的应用涵盖多个生物医药研究领域,包括高通量药物分子筛选、药物靶点发掘、药物分子性质预测等。
从应用端,加拿大皇家科学院院士李明分享团队在癌症治疗方面的AI实践。
近些年来,癌症治疗逐渐走向个体化免疫治疗,以Neoantigens(新抗原)为基础的治疗方法,被认为个体化治疗的革命。当细胞变成癌细胞后,细胞表面会表达出一段不变异的蛋白质作为信号源,告诉T细胞来消灭自己,这便是“新抗原”,也即免疫治疗的药靶。
“《Nature Biotechnology》提出两个问题:找到所有癌细胞表面的peptides(肽链);确定它们的免疫原性。”李明表示,为解决第一个问题,团队用5年时间开发出一套用于De novo peptide sequencing(多肽从头测序)的深度学习算法,将精度提高3倍。
而确定免疫原性的问题要更为复杂。往往,1000个肽链中只有千分之七左右拥有免疫原性。在验证免疫原性的过程中,癌细胞上的MHC-1(主要组织相容性复合物1类分子)以及T细胞表面的TCR(T细胞抗原受体)是不可或缺的要素,后者却无从寻觅。
李明团队的办法是使用人工智能模型模拟人体生成T细胞的“中心耐受系统”,避开使用真正的人体“湿实验”,证明面对特定肽链“存在”T细胞,从而对免疫原性进行检测。如今使用这套系统,已经能够确保主要新抗原在排序的前1.5%中。
回到AI药物研发,除去围绕蛋白质的底层设计、结构预测,也有企业将目光投向制药产业链条环节的优化。
“医药研发前期如果存在一些模型、方法,能够考虑后面的失败因素,让药物筛选、靶点选择一次性通过,便能缩短新药研发流程。”BioMap 首席 AI 科学家宋乐介绍,团队致力于在AI模型方面建设,旗下的xTrimo大模型是一个生物跨模态预训练模型,包括从蛋白质、蛋白质相互作用、细胞、细胞系统的“四层嵌套”,通过收集数据进行大规模预训练,可以有效支持靶点发现和药物设计的验证。
3.落地还需要5~10年
“稳定的技术路线形成要5~10年,为制药行业带来本质性的颠覆还要5~10年。”这是微软杰出首席科学家刘铁岩对AI制药赛道的预测。
事实上,这一预测的速度并不慢。5年间,国产生物医药创新药起步,人工智能技术迎来爆发性发展,AI制药的短暂历史,是人们拿着人工智能的“锤子”敲生物的“钉子”的历史。
晶泰科技CEO马健在2015年闯入AI制药,是国内最早一批赛道玩家之一。这一年,药明康德回国,“722”事件使国产生物药转向创新,2017年AI和制药开始逐渐结合,之后数年便是在香港“18A”、科创板成立、疫情等因素刺激下的高速增长期。
“生物计算的两个红利,一是互联网下半场、国家政策驱动的资本红利;二是技术红利,算法、深度学习、3C制造的迅速发展。”马健总结道,而从2021年下半年,这段高度发展的历史因国内外AI创新药陆续进入临床试验阶段,迎来退潮期,重视商业化。
面对当下,刘铁岩认为还有不少问题。例如,在“靶标蛋白的结构预测”这类技术较为成熟的领域,赛道玩家会更加“扎堆”;传统的人工智能算法和工具起作用,但针对生物制药领域的特异化设计仍然不够;参与者众多的AI制药公开比赛、公共数据很难反映药物设计的全貌,而药物数据多为药厂私有,难以形成如同“蛋白质结构预测”这一热门领域的数据公开风气。
“希望大家能以更加长远、基础的视角看待AI制药研究。”刘铁岩呼吁,药物设计本身是个“搜索的问题”,强化学习技术在生物制药仍将是有潜力的。
从生物医药行业角度,上海生物医药促进中心副主任唐军认为,AI带来的影响等于“重新打开一扇大门”,例如李明教授带来的“抗原免疫原性筛选系统”,面对同样问题,生物医药的传统办法是使用小白鼠免疫系统进行动物实验,耗资巨大、工作量繁复但准确率有限。
同时,唐军也指出,一款新药的诞生除去解决科研问题,还有很多流程:在实验室中做好质量、成本控制;金融方面撬动股权融资;监管方面完成器械、药物注册;临床阶段寻找医生、临床资源;药物上市后做好销售工作、协调完成医保、定价系统——新药上市能赚到钱非常困难,而这些环节AI同样无法“施展拳脚”。
生物制药产业“水很深”。
马健将产业分为生物学挑战和工程技术挑战两大类。从小分子晶体结构预测到AI药物分子设计,再到搭建干湿实验室和自动化,他“什么都做过”。在马健眼中,早期生物学方面的业务给药化学家带来的是“启发”,随后转向工程技术方面,在深圳、上海建起数千平方米的自动化化学合成实验室,希望解决大分子AI结合的合成瓶颈、药物数据获取成本等“工程问题”。
去年回国,创立华深智药的CEO彭健则感到,制药行业是非常长的链条。“这一年我和很多专家讨论,大家认为成功率最重要。”他表示,2017年以后上市的药临床、生产考量趋向早期化——从产业链条思考问题,很早注入到AI算法中,能在设计预测时起到重要作用。
“我们不要认为,拿着AI的大锤到处敲一敲就可以颠覆制药行业。”刘铁岩说,药物发现不是典型的人工智能问题,能通过临床且具有足够有效性的药物便是成功的,AI总是寻求期望意义上的最优,而对有限已知数据的调优没有价值。
在交流中,不少专家、学者都持有一个同样的观点:AI制药的真正闭环将大大促进行业的发展,人们需要临床数据、药物数据的畅通,也需要AI技术专家,生物、化学、制药专家共同反馈,有效、迅速、正确地使AI趋向完善,就如同互联网公司轻松完成的个人偏好内容算法推荐。
无论如何,AI制药尚且“年轻”,一条长路待人踏足。5年间,人们逐渐发现,至少在制药领域,人工智能显然不会自动将答案递上。
“有人跟我说AI就是个工具,”马健说,“AI确实就是个工具,但每一次人类工业革命,都是工具的革命”。
排版/ 季嘉颖
评论