AI助力破解病毒密码，MIT开发新模型能更好地“猜”出抗体长啥样

（来源：MIT News）

借助 AI 模型，研究人员在根据蛋白质序列预测蛋白质结构方面已经取得了巨大进步，然而，这种方法对于抗体却不是那么有效，部分原因是由于这种类型的蛋白质具有“高变异性”。

为了解决这个挑战，麻省理工学院的研究人员开发出一种新方法让模型能够更准确地预测抗体结构。通过这种方法，研究人员能够筛选出数百万种可能的抗体，从而确定可用于治疗 SARS-CoV-2 和其他传染病的抗体。

这项研究工作的领导者、麻省理工学院计算机科学与人工智能实验室（CSAIL）计算与生物学小组负责人、西蒙斯数学教授 Bonnie Berger 表示：“这种新方法可以在大量信息中更有效地找到重要的线索，并且可以帮助制药公司节省不必要的开支，避免用错误的药物进行昂贵的临床测试。”

这项新技术侧重对抗体高变异区进行建模，同时也具有分析个体抗体库的潜力，这将有助于研究对艾滋病毒等疾病具有超级反应能力的人的免疫反应，从而帮助弄清楚为什么他们的抗体能够有效地抵御病毒。

目前，这篇论文已经发表在PNAS上。Bryan Bryson 是这篇论文的共同通讯作者，他是麻省理工学院生物工程副教授，也是麻省总医院、麻省理工学院和哈佛大学拉贡研究所的成员；Rohit Singh（前 CSAIL 研究科学家，现任杜克大学生物统计学、生物信息学和细胞生物学助理教授）和 Chiho Im 是该论文的共同一作。此外，赛诺菲和苏黎世联邦理工学院的研究人员也为这项研究做出了贡献。

高变异性建模

蛋白质由长链氨基酸组成，可以折叠成大量结构。近年来，研究人员使用 AlphaFold 等来预测这些结构变得更加容易。比如 ESMFold 和 OmegaFold 等都是基于大语言模型，这些模型最初是为了分析大量文本而开发的，其能够学习和预测语句中的下一个单词，同样的方法也适用于蛋白质序列，通过学习哪些蛋白质结构最有可能由不同模式的氨基酸组成。

然而，这种方法并不总是适用于抗体，尤其是针对抗体的高变异区。抗体通常具有 Y 形结构，这些高变异区位于 Y 形结构的尖端，负责检测并结合外源蛋白质（即抗原），而 Y 形结构的底部提供结构支撑并帮助抗体与免疫细胞相互作用。

高变异区的长度不尽相同，但通常不会超过 40 个氨基酸。据估计，通过改变这些氨基酸的序列，人体免疫系统可以产生多达 10¹⁸ 种不同的抗体，从而确保身体能够对各种各样的潜在抗原做出反应。这些序列不像其他蛋白质序列那样受到进化限制，因此大语言模型很难“学会”准确预测其结构。

“大语言模型能够很好地预测蛋白质结构的部分原因是进化限制了这些序列，而模型可以解读这些限制的含义。这类似于通过查看句子中单词的上下文来学习语法规则，从而弄清楚它的含义。”Rohit Singh 表示。

为了对这些高变异区进行建模，研究人员创建了两个基于现有蛋白质大语言模型的模块：一个模块针对来自蛋白质数据库（PDB）中约 3,000 个抗体结构的高变异序列进行训练，使其能够了解哪些序列倾向于生成相似的结构；另一个模块基于约 3,700 个抗体序列与它们结合三种不同抗原的强度相关的数据进行训练。

这种计算模型称为“AbMap”，其可以根据氨基酸序列预测抗体结构和结合强度。为了证明该模型的实用性，研究人员用它来预测能够强烈中和 SARS-CoV-2 病毒刺突蛋白的抗体结构。

研究人员从一组被预测会与该靶点结合的抗体开始，然后通过改变高变异区产生数百万种变体，这种模型能够识别出最成功的抗体结构，比基于大语言模型的传统蛋白质结构模型更准确。

随后，研究人员采取了一些“额外步骤”，将抗体划分为具有相似结构的组。他们与赛诺菲的研究人员合作，从每个组中选择抗体进行实验测试。实验发现，82% 的抗体比模型中的原始抗体具有更好的结合强度。

研究人员指出，“在开发初期就能找到多种优质的候选抗体，可以帮助制药公司避免浪费大量资金去测试最终会失败的候选抗体。”

“他们不想孤注一掷。他们不希望把所有的希望都放在一个抗体上，然后在临床前试验中发现它有毒性问题。相反，他们更愿意拥有一系列不错的选择，同时推进这些选项，这样如果其中一个出了问题还有其他备选方案。”Rohit Singh 说。