(来源:MIT News)
蛋白质是维持人类细胞正常运转的“主力军”,细胞中存在着数千种蛋白质,每种都承担着特定功能。
传统观点认为,蛋白质的三维结构决定其生物学功能,而近年来科学家们逐渐发现,蛋白质在细胞内的空间定位同样对其功能发挥至关重要。
事实上,细胞内部存在众多隔间,就像是精密的分隔工厂用于组织各种物质。除了常见的细胞器,细胞中还包含大量动态无膜区室,这些特殊区域通过富集特定分子来协同完成特定功能。
因此,明确蛋白质的定位及其共定位分子有助于深入了解蛋白质在健康或病变细胞中的作用。然而长期以来,研究人员一直缺乏系统预测这些信息的方法和工具。
蛋白质结构研究已持续半个多世纪,随着 AlphaFold 的问世,科学家已能根据氨基酸序列(蛋白质内部折叠形成结构的线性构建模块)预测蛋白质三维结构。如今,这类工具早已成为生物医学研究的常规利器。
但需要注意的是,蛋白质序列中还存在不参与折叠的无序区域,这些区域在引导蛋白质进入特定动态区室中起关键作用。
麻省理工学院教授、怀特海德生物研究所研究员 Richard Young 和团队由此产生创新设想:是否可以通过解析这些区域的序列特征,像预测蛋白质结构那样预测蛋白质定位?
虽然此前已有研究发现了部分与定位相关的蛋白质序列片段,并开始开发预测蛋白质定位的模型,但科学界仍存在两大空白:一是能否根据序列预测蛋白质在所有动态区室的定位规律;二是缺乏类似 AlphaFold 的通用型定位预测工具。
目前,由 Richard Young 和他实验室的博士后 Henry Kilgore、麻省理工学院电气工程与计算机科学系 Regina Barzilay 及其同事组成的跨学科研究团队,共同构建出一款名为 ProtGPS 的模型。目前这项研究成果已经发表在Science上。
研究人员表示,ProtGPS 模型不仅能预测蛋白质在 12 类已知细胞区室的定位,还可判断致病突变是否会改变定位模式。此外,研究团队开发出一种生成算法,可设计出定位于特定区室的新型蛋白质。
“我们的愿景是将这个模型打造成开放平台,助力蛋白质研究者深入探索生命奥秘。”Richard Young 说道,“它不仅能帮助我们理解人类复杂生命系统的构建原理,更能揭示致病突变如何破坏细胞机制,为药物研发提供创新思路。”
研究团队还通过细胞实验验证了模型的预测准确性。“从算法设计到实验室验证的完整闭环令人振奋。”Regina Barzilay 表示,“当前大多数围绕 AI 的研究停留在理论阶段,通过与 Richard Young 教授实验室的合作,我们真正验证了算法的可靠性。”这项突破标志着计算生物学与实验科学的深度融合,为精准医学开辟了新路径。
模型的构建
研究团队通过两个已知定位信息的蛋白质数据集对 ProtGPS 模型进行训练和验证。测试结果显示,该模型能高精度预测蛋白质的最终定位。
紧接着,他们还测试了 ProtGPS 根据蛋白质内疾病相关突变预测蛋白质定位变化的能力。关联研究显示,许多突变(基因及其相应蛋白质序列的改变)会引发疾病,但突变导致疾病症状的具体机制尚不明确。
探索致病机制对药物研发至关重要,毕竟只有明确病理过程才有可能设计出精准预防或治疗方案。Richard Young 团队推测,许多致病突变可能通过改变蛋白质定位引发疾病。例如,某个突变可能导致蛋白质无法进入含有必需功能分子的细胞区室。
为了验证这一假设,他们向 ProtGPS 输入超 20 万个携带致病突变的蛋白质数据,让模型预测这些突变蛋白质的定位,并计算突变前后预测结果的偏移程度。预测偏移值越大,表明该突变引发蛋白质定位改变的可能性越高。
研究人员发现,大量致病突变确实会导致蛋白质“定位错误”。他们选取了 20 个典型案例进行细胞实验,通过荧光标记技术对比正常蛋白与突变蛋白的实际定位。
实验结果与 ProtGPS 模型预测高度吻合。这些发现不仅证实了“蛋白质定位异常是重要致病机制”的科学假说,更展示了 ProtGPS 在疾病机理研究和治疗靶点发现中的独特价值。
“细胞是一个极其复杂的系统,包含众多组成部分和复杂的相互作用网络。”参与这项研究的 Ilan Mitnikov 表示,“通过这种人工智能驱动的模拟实验,我们能够系统性扰动生物系统、观察动态变化,从而揭示隐藏的细胞运行规律,甚至基于此开发创新疗法。”
研究人员希望 ProtGPS 能像 AlphaFold 预测蛋白质结构那样,成为科研界的一种有用工具,推动蛋白质功能研究、病理机制解析和疾病治疗研发等领域的进展。
从“预测已知”到“生成未知”
研究人员对 ProtGPS 模型的潜在用途充满期待,同时希望该模型不止能预测现有蛋白质的定位,还能设计全新的蛋白质,即让 ProtGPS 从“预测已知”到“设计未知”。
他们的目标是让模型生成全新的氨基酸序列,这些序列在细胞中形成蛋白质后,能定位到预期位置。而设计一种真正具有特定功能(在此指定位到特定细胞区室)的新型蛋白质极具挑战性,其技术难度远超传统预测任务。
为提高成功率,研究人员引入仿生设计理念:限定算法仅模仿天然蛋白质的结构特征。从逻辑上讲,这是药物设计中常用的方法,毕竟大自然历经数十亿年筛选出了效果优良的蛋白质序列。
通过与 Richard Young 实验室的合作,机器学习团队得以测试蛋白质生成器的有效性,且该模型取得了不错的表现。
在实验中,模型生成了 10 种旨在定位于核仁的蛋白质,研究人员在细胞中测试时发现,其中 4 种蛋白质展现出明确的核仁定位特征,其余几种也表现出一定的定位倾向。
“跨学科碰撞总能激发创新火花。”参与该研究项目的 Peter Mikhael 分享道,“我们不仅掌握了细胞运作的深层逻辑,更通过反复的实验验证不断优化模型。这种‘设计-验证-迭代’的闭环研发模式,让技术真正落地生根。”
以这种方式生成功能性蛋白质,有助于提升研究人员开发创新精准疗法的能力。以靶向特定区室的药物设计为例,研究人员可借助模型设计能精准定位病灶区域的药物分子,既能大幅提升疗效,又可避免“误伤”健康组织引发的副作用。
机器学习团队正将这一成功经验拓展至更广阔领域。“许多论文表明能够设计出可在细胞中表达的蛋白质,但并未提及该蛋白质具有特定功能。”项目组成员 Itamar Chinn 表示,“我们设计的蛋白质确实具有功能,与其他生成模型相比成功率相对较高。这让我们备受鼓舞,希望在此基础上取得更多成果。”
研究团队将 ProtGPS 视为智能生物设计的起点。他们预计该工具将助力人们深入了解蛋白质定位在蛋白质功能和疾病中的作用,同时也有兴趣扩展模型的定位预测范围,纳入更多类型的细胞区室,测试更多治疗假设,并为治疗或其他应用设计功能更强的蛋白质等等。
正如 Henry Kilgore 所说的那样,“蛋白质定位密码的破译只是开始,当机器学习不仅能解读自然密码,还能依据其逻辑创建功能性蛋白质,这为众多潜在研究和应用开辟了道路,并开启一个充满可能的智能生物时代。”
https://news.mit.edu/2025/ai-model-deciphers-code-proteins-tells-them-where-to-go-0213