撰文丨王聪

编辑丨王多鱼

排版丨水成文

大约 35 亿年前,地球从化学反应中诞生了最初的生命。大自然发明了 RNA、蛋白质和 DNA 这些生命的核心分子,并创造了核糖体这一分子工厂,它能根据基因组中的指令合成蛋白质。

蛋白质是奇妙的动态分子,具有令人难以置信的功能——从驱动运动的分子引擎,到捕获光并将其转化为能量的光合作用机器,构建细胞内部骨架的支架,与环境相互作用的复杂传感器,以及运行生命程序和操作系统的信息处理系统等等,蛋白质关乎疾病与健康,许多救命药物本身就是蛋白质。

生物学是用一种人类尚未理解的“语言”所书写。如果我们能够学会利用生物学的“语言”来读写,那么,生物学将变得可编程,反复试验将被逻辑取代,费力的实验将被模拟所替代。

2024年诺贝尔化学奖授予了 AI 蛋白质设计先驱David Baker教授以及 AI 蛋白质结构预测工具 AlphaFold 的开发者Demis HassabisJohn Jumpe,他们的研究为我们利用 AI 来理解、想象和创造蛋白质奠定了基础。

近日,AI 初创公司EvolutionaryScale的研究团队在国际顶尖学术期刊Science上发表了题为:Simulating 500 million years of evolution with a language model 的研究论文。论文标题非常简单直接,甚至是夸张——用语言模型模拟 5 亿年的进化

该研究开发了一种人工智能语言模型——ESM3,ESM3 在思维链(Chain of Thought)的提示下生成了一种全新的绿色荧光蛋白——esmGFP,其在进化上与天然的绿色荧光蛋白(GFP)差异巨大,与已知的最接近的荧光蛋白只有 58% 的序列同源性,大自然需要 5 亿年时间才能进化出这种新型绿色荧光蛋白,也就是说,ESM3 模拟了 5 亿年进化,创造了一种新型绿色荧光蛋白。

研究团队表示,ESM3是一款向生命科学领域的前沿人工智能语言模型,也是第一个同时对蛋白质的序列、结构和功能进行推理的生成式人工智能模型,它提升了我们利用生命密码进行编程和创造的能力,让我们能够像设计建筑、制造机器和微芯片以及编写计算机程序一样,从底层原理出发来改造生物学。


2023 年 3 月,Alexander Rives领导的 Meta 蛋白质折叠团队在Science期刊发表了题为:Evolutionary-scale prediction of atomic-level protein structure with a language model 的研究论文【2】。

该研究开发了一种名为ESMFold的蛋白质语言模型,能够快速、准确、大规模预测蛋白质结构,仅花费两周时间就预测了超过 6.17 亿个蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。


然而,Meta 公司不久后解散了蛋白质折叠团队,Alexander Rives与团队成员创立了EvolutionaryScale,2024 年 6 月,EvolutionaryScale 完成了高达1.42 亿美元的种子轮融资,致力于开发 AI 工具以深化对生物学的理解,进而造福人类健康和社会 。


这项新研究所展示的ESM3模型,训练自地球上多达数十亿的天然蛋白质,ESM3 也是当今世界上训练于最高通量 GPU 集群之一的前沿生物学生成式人工智能模型,它处于参数、算力和数据的最前沿,训练时使用了超过 1×1024 次浮点运算和 980 亿参数。

对蛋白质的序列、结构和功能进行推理

语言模型是基于离散单元或标记进行操作的。为了创建一个能够对蛋白质的三个基本生物学特性——序列结构功能——进行推理的模型,必须将三维结构和功能转化为离散的字母表,并构建一种将每个三维结构都写成字母序列的方法。这使得 ESM3 能够大规模训练,从而释放出新兴的生成能力。ESM3 的词汇表在同一个语言模型中将序列、结构和功能联系起来。

ESM3 是通过一个简单的目标进行训练的。对于每种蛋白质,提取其序列、结构和功能,进行标记化处理,并部分屏蔽。ESM3 的任务是利用受自然语言处理模型启发的掩码语言建模目标来预测掩码位置。为了完成这项任务,ESM3 必须从进化规模的数据中深入理解序列、结构和功能之间的联系。当在数十亿种蛋白质和数百亿个参数的规模上进行扩展时,ESM3 学会了模拟进化(simulate evolution)。

鉴于通过实验确定的结构和功能注释的蛋白质的数量有限,研究团队通过添加数亿个合成数据点来扩充 ESM3 的多模态训练数据集,这些合成数据点包括对各种序列的预测结构和功能。


ESM3 是一个多轨道 Transformer,可以对蛋白质序列、结构和功能进行联合推理

编程生物学

ESM3 作为一个生成式模型,它使生物学可编程,可以根据提示生成新的蛋白质。科学家可以与 ESM3 互动,引导它进行各种应用创造。ESM3 可以通过从一组完全掩码的 tokens 开始生成蛋白质,并迭代解掩,直到所有位置都被填充。由于序列、结构和功能都在训练过程中被掩码和预测,ESM3 可以在所有三种模态中生成。这个生成过程也可以由序列、结构和功能的部分或全部规范的任何组合来指导。

ESM3 的多模态推理能力使科学家能够以前所未有的控制程度产生新的蛋白质。例如,可以提示该模型结合结构、序列和功能,为 PETase 的活性位点提出潜在框架,PETase 是一种降解聚对苯二甲酸乙二醇酯(PET)塑料的酶。

规模带来的能力涌现

ESM3 在规模扩大时展现出解决复杂蛋白质设计任务的能力。其中一项任务是原子协调,即根据指定氨基酸在序列中相距甚远但在结构中彼此靠近的原子位置的提示来设计蛋白质。这衡量了模型在结构生成时达到原子级精度的能力,对于设计功能性蛋白质至关重要。

ESM3 解决这些任务的能力会随着规模的扩大而提升,也就是说,ESM3 解决更难的生成问题的能力取决于其规模。

ESM3 进一步通过使用类似于在大语言模型(LLM)中应用的人类反馈强化学习(RLHF)的对齐方法进行反馈改进。ESM3 能够自我改进,而非从人类那里获得反馈,它能对自身生成的内容质量进行评估。来自实验室实验或现有实验数据的反馈也可用提升其生成能力。


ESM3 模型生成蛋白质的能力随着规模的扩大而提升

模拟 5 亿年的进化过程

绿色荧光蛋白(GFP)及其荧光蛋白家族,是自然界中最美丽的蛋白质之一。下村修Martin Chalfie钱永健因发现和应用 GFP 而获得了 2008 年诺贝尔化学奖。

GFP 是生物学中应用最广泛的工具之一,被誉为“照亮了生命科学”。GFP 含有一种荧光发色团,其能吸收一个短波长的单色光子,捕获其中部分能量,并以不同颜色、更长波长的新光子形式释放其余能量。天然的 GFP 能够吸收蓝光并发出绿光。

GFP 是一种能自我转变的蛋白质,其结构是一个由 11 条链组成的桶状结构,中间有一条螺旋贯穿其中,在 GFP 折叠完成后,会自发地发生反应。在 GFP 的中心,构成蛋白质链的原子重新排列成新的结构,形成一个荧光发色团。这种机制是独一无二的,没有其他已知的蛋白质能自发地从自身结构中形成荧光发色团,这表明即使对大自然来说,产生荧光也并非易事。

科学家们在自然界中发现了许多 GFP 的变体,并在实验室中对这些天然蛋白质进行了改造,创造出了新的 GFP 变体。最早的人工 GFP 变体是通过制造少量能增强亮度或改变颜色的基因突变而发现的。借助更先进的实验室技术和机器学习方法,如今已能够将这种搜索范围扩大,从而找到与原始序列差异高达 20% 的 GFP 变体。但大多数功能性 GFP 突变并非来自蛋白质工程,而是通过探索自然界获得的。

产生新的荧光蛋白的进化过程需要漫长的岁月,在遥远的过去,大自然无意中发明了第一种荧光蛋白。天然荧光蛋白从远古时期的祖先序列历经数亿年的演化,才变成了如今的模样。

基于天然 GFP 核心区域几个氨基酸残基的结构,ESM3 通过一系列推理生成了新型 GFP 的候选结构。研究团队在首次实验中测试了生成的 96 种 GFP,发现其中一些会发出荧光,包括一种与自然界中的任何蛋白质都相去甚远的蛋白质——B8,但其亮度只有天然 GFP 的五十分之一,而且其发色团成熟需要一周时间,而不是一天之内,但它在序列空间的一个未被探索的区域中呈现出功能信号。在 B8 的基础上进行思维链推理,ESM3 又生成了一组 96 种蛋白质,其中有几个荧光强度与天然 GFP 相似,最亮的一个位于 C10 孔中,研究团队将其命名为——esmGFP


esmGFP 与自然界中发现的最接近的荧光蛋白相比存在 96 处突变(在 229 个氨基酸中,序列相似度为 58%)。通过类似于对自然界中新发现的蛋白质进行的分析,研究团队估计 esmGFP 相当于由进化模拟器完成的超过 5 亿年的自然演化。


由ESM3模型生成的新的绿色荧光蛋白——esmGFP

据悉,EvolutionaryScale公司正在开发 ESM3 的专用版本,以解锁前沿药物设计领域的应用,助力科学家创造新型药物。

EvolutionaryScale公司表示,相信未来的人工智能将帮助我们在最基础的层面上理解生命的复杂系统,做出改变我们对生物学认知的新发现,助力我们找到疾病治疗方法,并构建一个更可持续的世界。

https://www.science.org/doi/10.1126/science.ads0018

https://www.science.org/doi/10.1126/science.ade2574

https://www.evolutionaryscale.ai/blog/esm3-release

ad1 webp
ad2 webp
ad1 webp
ad2 webp