新智元报道
编辑:LRS
【新智元导读】史上最大的基因组AI模型Evo 2使用超过12.8万个基因组数据训练,包含9.3万亿个核苷酸,能预测突变效应、设计 DNA 序列,并通过可视化工具展示学习到的生物特征,为生成生物学和疾病研究提供新思路。
生命的一切表现,基本都可以从DNA编码中找到答案。
基因组(Genome)包含了生物体所有基因以及非编码的DNA序列,承载了生物体发育、生长、繁殖和适应环境所需的全部遗传信息,近年来基因组相关的测序、合成和编辑工具已经彻底改变了生物学研究。
然而,基因组的复杂性是巨大的,即使是最简单的微生物,也包含数百万个DNA碱基对,要智能地构建新的生物系统,研究人员还需要深入理解基因组编码的复杂信息。
2024年11月,研究人员在Science上发表了一项研究Evo 1,基于单细胞(270万个原核生物和噬菌体)基因组进行训练,具有70亿个参数,在单核苷酸(构成DNA或RNA的基本单元)设置下实现了13万碱基的上下文长度。
Evo 1论文链接:https://www.science.org/doi/10.1126/science.ado9336
Evo 1在DNA、RNA 和蛋白质模式上展示了更好的零样本功能预测能力,并通过实验验证了Evo 1生成的CRISPR-Cas分子复合物以及IS200和IS605转座系统的功能活性,证明了使用语言模型进行蛋白质-RNA和蛋白质-DNA代码设计的前景。
最近,Arc Institute宣布与英伟达(NVIDIA)合作,开发了迄今为止最大的生物领域AI模型Evo 2,在超过12.8万个全基因组以及宏基因组数据的基础上,训练数据超过9.3万亿个核苷酸。
除了细菌、古菌和噬菌体基因组外,Evo 2的训练数据还包括人类、植物以及其他真核生物域的单细胞和多细胞物种的信息。
论文链接:https://www.biorxiv.org/content/10.1101/2025.02.18.638918v1
Evo Designer链接:https://arcinstitute.org/tools/evo/evo-mech-interp
随文章一起发布的,还有一个Evo Designer的用户友好界面,作为机制可解释性可视化器,揭示了模型在基因组序列中学习的关键生物特征和模式,展示了Evo 2在生成DNA序列时的思考过程,其中许多功能与基因组概念类别高度相关,用户可以在参考基因组和Evo 2中的相应特征激活中看到基因组概念。
研究人员完全开源了Evo 2的训练数据、训练和推理代码以及模型权重,并集成到了NVIDIA BioNeMo框架中。
考虑到潜在的伦理和安全风险,研究人员将感染人类和其他复杂生物体的病原体排除在Evo 2的基础数据集之外,并确保模型不会对关于这些病原体的查询返回有价值的答案。
Arc研究所联合创始人、Arc核心研究员、加州大学伯克利分校生物工程助理教授Patrick Hsu认为,Evo 1和Evo 2的成功是「生成生物学」领域的关键时刻,让机器也能够用核苷酸的语言进行阅读、写作和思考,Evo 2对生命之树具有通才式的理解,对于很多任务来说都有价值,比如预测致病突变、设计人工生命的潜在编码。
Evo 2及其后续版本是基因组和表观基因组设计领域迈向生成式生物学的第一步,结合现有的、在大规模可编程DNA操作方面的最新实验进展,Evo 2有望实现多样化合成生命的直接编程。
此外,借助特定应用的评分函数为推理过程提供指导,Evo 2能够设计出超越DNA本身的复杂生物架构。
Evo 2在预测「哪些突变是无害的」与「潜在的致病性」方面实现了超过90%的准确率,可以通过找到人类疾病的遗传原因并加速新药的开发,节省无数小时的研究时间和资金。
在未来,研究人员或许可以借助Evo 2的力量,解决人类那些「不治之症」,彻底消灭疾病。
Evo2架构:向光荣进化的硅基生物
Evo 2能够对DNA序列进行建模,并在中心法则的各个层面实现应用,涵盖分子和细胞尺度;模型基于DNA序列学习,无需针对特定任务进行微调,就能准确预测遗传变异的功能影响,例如非编码致病变异和具有临床意义的BRCA1基因变异。
Evo 2采用新的多混合StripedHyena 2架构,展示了短显式(SE)、中正则化(MR)和长隐式(LI)Hyena运算符的高效块布局,使Evo 2能够使用比Evo 1使用多30倍的数据进行训练,并且每次推理的核苷酸数量提升8倍。
Evo 2采用「两阶段」训练策略,在AWS上的NVIDIA DGX Cloud AI平台上经过几个月的训练,使用了超过2000块NVIDIA H100 GPU,可以一次性处理高达100万个核苷酸的长基因序列,使其能够理解基因组中相隔较远部分之间的关系。
在预训练阶段,Evo 2通过新颖的数据增强和权重分配方法,优先学习功能性的遗传元素;在中训练阶段,则专注于长序列的构建。
Evo 2的40B和7B版本在训练时分为短序列预训练阶段和长上下文中训练阶段。
在1024个GPU、40B规模下,StripedHyena 2相较于StripedHyena 1和Transformer架构,展现出更高的吞吐量。
Evo 2的中训练验证困惑度表明,随着模型规模和上下文长度的增加,模型性能得到提升。
通过修改后的「大海捞针」任务,Evo 2展示了其在长达100万个序列长度的长上下文中进行有效回忆的能力。
实验结果
通过在大规模的进化训练数据集上学习序列的概率,生物序列模型能够在没有任何针对特定任务的微调或监督的情况下,了解突变效应与生物功能之间的相关性,即零样本预测。
此前有效的零样本突变效应预测仅在「仅用蛋白质序列」训练的语言模型,或「仅用原核生物序列」训练的基因组语言模型中得到证实。
Evo 2能够在中心法则下的三种形式(DNA、RNA、蛋白质)和生命的三个领域(原核生物、古菌、真核生物)中学习序列可能性的分布,因此研究人员评估了Evo 2是否能够在所有这些形式和生物体中实现突变效应的预测。
所有生命领域的编码序列都遵循一个基本结构:以起始密码子开始,以终止密码子结束,并使用三联密码子来定义阅读框架。
为了评估Evo 2是否掌握了这些基本的生物学原理,研究人员首先测试了单核苷酸变异(SNVs)对Evo 2在蛋白质编码基因起始密码子周围基因组序列中的可能性的影响。他们在野生型序列的每个位置引入这些突变,并计算了Evo 2预测的可能性在数千个这样的位点上的变化。
结果表明,在原核生物和真核生物中,起始密码子内的突变会导致更剧烈的可能性变化,呈现出三联密码子的周期性模式,其中摆动位置的突变对可能性的影响较小。
在原核生物和真核生物的基因组中,研究人员还观察到一个与保守的核糖体结合位点一致的模式,证实了模型已经学会了这些基本的遗传特征,尽管模型在训练数据中从未见过这些序列的标注。
人类目前对基因组的理解认为,特定的遗传变化应该导致不同的表型后果。
例如,错义突变应该比同义突变更具破坏性,移码突变和提前终止密码子应该是最具破坏性的,而在必需的非编码元件中,缺失的影响应该比在基因间区域的缺失更大。
通过测量非编码和编码序列中各种突变的影响,研究人员评估了Evo 2的概率是否能够捕捉到这些已知的生物学规律。
在20种原核生物和16种真核生物中,模型的概率变化与已知的生物学限制一致。
在编码序列中,错义变异、提前终止密码子和移码突变导致的可能性变化远大于同义突变;
在非编码区域中,tRNA和rRNA中的缺失比基因间区域和其他非编码位点的缺失有更大的影响,符合对RNA重要性的已知信息。
未来,硅基智能创造细胞?
展望未来,研究人员设想了多种策略来提高Evo 2预测和设计的质量,目前可能更注重基因组序列的普遍进化分布,而不是特定的分类学特征。
将Evo 2与更多特征和人类基因组变异数据相结合,可能有助于改善致病性预测或分析结构变异;
利用机制可解释性,学习到的特征还可以增强对更复杂生物学概念的检测能力,并通过激活引导和特征限制来指导模型生成,从而实现对生成结果的可编程控制;
为了提高Evo 2生成功能的质量,可能需要通过实验反馈进行监督微调或强化学习;
Evo2初步证明了通过推理时计算设计复杂生物系统的概念,未来这种方法还可以扩展到包括其他特性,例如选择性剪接、细胞类型特异性或基因回路功能。
进化论是生物学的统一理论,从基因到群体,通过DNA这一基础信息层传递自然选择的功能效应,Evo系列模型为生物学建模和设计奠定了基础,将生物学中不同尺度的信息统一到一个共同的表征中。
未来的工作如果将这一表征与表观基因组学和转录组学等更多模态信息相结合,可能会产生一个虚拟细胞模型,能够有效地模拟健康和疾病中的复杂细胞表型。
参考资料:
https://x.com/pdhsu/status/1892243493445050606
https://x.com/MichaelPoli6/status/1892242976942035029