一、AlphaFold:蛋白质结构预测的技术突破与科学影响
2023年7月,一项关于人工智能系统用于蛋白质三维结构预测的研究发表于《自然》期刊。该系统能够依据氨基酸序列实现对蛋白质空间构型的高精度预测。与此同时,研究团队公开了相关算法的源代码,使得该技术能够被更广泛的科研群体所获取与应用。
自该研究成果发布以来,其在生命科学领域引发了广泛关注与热烈讨论,被部分学者视为具有变革意义的科学进展。近期,《自然》期刊再次发表综述文章,系统评估了该人工智能系统对生命科学研究所产生的实际影响,并对其未来发展趋势进行了深入探讨。以下内容基于该综述文章的核心观点进行整理与呈现。
二、蛋白质结构预测的技术突破及其生物学影响
在2020年国际蛋白质结构预测竞赛中,一个人工智能系统在基于氨基酸序列预测蛋白质三维结构方面展现出卓越性能。其预测结果的准确性,可与通过冷冻电子显微镜、核磁共振或X射线晶体学等实验手段解析的三维结构相媲美。这一技术进展随即被多家学术媒体视为具有潜在地变革生物科学与生物医学研究格局的突破性成果,亦有学者将其评价为划时代的科学进步。
2021年7月,相关人工智能系统(包括结构预测工具及其衍生系统)的研究论文相继发表于《科学》与《自然》期刊。研究团队同时公开了源代码及相关信息,使科研人员能够广泛使用这些工具。此后一周内,该人工智能系统完成了对约98.5%人类蛋白质结构的预测,并涵盖包括小鼠、果蝇及大肠杆菌在内的20种模式生物的蛋白质结构。总计超过36.5万个蛋白质结构数据被纳入与欧洲生物信息研究所合作建立的公开数据库。目前,该数据库已累积接近100万个蛋白质结构。
根据公开计划,预计今年将发布超过1亿个结构预测结果,这一数量约占所有已知蛋白质种类的一半,且较之通过实验方法确定的蛋白质结构数量高出数百倍。
据系统开发团队统计,已有超过40万名研究人员使用了该公开数据库。这一技术正在对生命科学的多个研究领域产生深远影响。
三、AlphaFold在蛋白质结构解析中的能力与生物学影响
AlphaFold在蛋白质结构解析方面展现出的能力,已获得众多生物学研究者的广泛认可。对于能够折叠为单一固定三维构象的蛋白质,AlphaFold的预测结果在准确性上往往难以被其他方法超越。有研究者指出,该工具提供了一种接近“一键式”的解决方案,能够生成当前可用的最优结构模型。
即使在AlphaFold对预测结果信心不足的情况下,它仍能有效提示其适用性的边界。当预测结构呈现类似于“浮动面条”的不确定形态时,通常对应蛋白质中缺乏固定构象的区域。这类内在无序区域约占人类蛋白质组的三分之一,往往只有在与其他分子(如信号传导伙伴)相互作用时,才能形成明确的构象。
AlphaFold所生成并存储于公开数据库中的蛋白质结构信息,已在多个研究领域得到迅速应用。有研究团队正在对该数据库进行系统搜索,以期在未依赖实验验证的情况下发现新的蛋白质类型。通过这一方法,研究者已识别出数百个潜在的新蛋白质家族,从而拓展了对蛋白质形态与功能的认识。此外,另一项研究正在分析从海洋及废水环境中获取的DNA序列数据库,旨在发现具有塑料降解能力的新型蛋白酶。借助AlphaFold对成千上万蛋白质结构进行快速预测,研究团队希望深入理解酶在进化过程中如何获得分解塑料的能力,并探索其潜在的改进方向。
在进化生物学领域,将任意编码蛋白的基因序列转化为可靠结构模型的能力,为研究物种间的演化关系提供了强大工具。传统方法通常依赖于基因序列的比较,但对于亲缘关系较远的基因,DNA序列可能因长期演化而发生显著变化,难以识别进化上的联系。相比之下,蛋白质结构的演化速度较慢,通过比较结构,研究者可能发现此前被忽略的古老亲缘关系。这一进展为探索蛋白质进化及生命起源提供了前所/未有的研究机会。
四、人工智能预测模型(如AlphaFold)对结构生物学实验的赋能作用
对于需要解析特定蛋白质精细结构的科研人员而言,人工智能系统(如AlphaFold)所提供的预测结果并非总能直接作为最终答案。然而,它能够提供一个可通过实验验证或进一步优化的初始结构模型,从而有助于对实验数据的理解与解释。以X射线晶体学为例,原始数据通常表现为衍射图样,解析结构往往需要预先对蛋白质构型进行初步推测。以往,研究人员需通过整合公开数据库中相关蛋白的结构信息或依赖实验手段来构建初始模型。而当前,借助AlphaFold的结构预测,科学家无需采用上述复杂策略,即可解析大多数X射线衍射数据。
已有研究团队利用AlphaFold成功解析了因缺乏足够初始模型而长期无法完成的晶体结构。相关研究者指出,过去难以攻克的结构正逐步被解析,预计将有大量新型蛋白质结构被提交至公开数据库,这在很大程度上得益于AlphaFold预测技术的支持。
在冷冻电子显微镜领域,相关研究同样获益。有研究发现,AlphaFold能够准确预测某些重要药物靶点蛋白(如G蛋白偶联受体)的独特结构特征。在这些案例中,AlphaFold在生成初始结构方面表现出色,研究人员随后利用实验数据对其进行修正与完善,从而显著节省了时间成本。
然而,AlphaFold的预测并非始终准确。在某些情形下,尽管AlphaFold以较高的置信度标注了结构预测结果,后续实验数据却显示其为错误。此外,即使预测结果本身正确,AlphaFold仍无法模拟蛋白质在与药物或其他小分子配体结合状态下的构象变化,而这类结合可能实质性地改变蛋白质的空间结构。
在药物发现研究中,计算对接方法已被广泛用于筛选数十亿级别的小分子化合物,以识别可能与靶点蛋白结合的分子,从而作为潜在的药物候选物。当前,有研究团队正在系统比较AlphaFold预测模型与实验解析结构在对接筛选中的表现。为避免不确定性,研究将分析范围限定在AlphaFold预测结构与实验结构高度一致的蛋白质上。然而,即便在这些条件下,现有的对接软件与AlphaFold所筛选出的化合物仍存在差异。研究团队目前正在合成基于AlphaFold预测结构所发现的潜在药物分子,并在实验室中对其生物活性进行验证。
五、AlphaFold在药物发现中的应用潜力
在生物医药领域,研究人员对AlphaFold在药物发现方面的潜力表现出高度关注。已有团队尝试将AlphaFold所预测的结构应用于虚拟筛选及候选药物设计,并在部分案例中取得了一定成功。在某些情况下,AlphaFold提供的结构模型已能够为药物发现过程提供实质性指导。
尽管如此,有研究者指出,尚不能将AlphaFold视为一种普适性的解决方案。原因在于,某一类蛋白质结构上的成功预测,并不必然意味着可以推广至所有类型的蛋白质。在药物发现的实际应用中,AlphaFold所生成的结构模型可能无法完全替代通过实验手段获得的结构数据。然而,它们有望与传统实验方法形成互补关系,从而在一定程度上加速药物开发的整体进程。
六、AlphaFold的未来发展方向
尽管AlphaFold最初的设计目标是预测单一蛋白质的结构,但在其源代码公开后,研究人员迅速探索出将其应用于蛋白质间相互作用预测的方法。有研究者在代码发布数日内发现,通过一条较长的连接序列将两个蛋白质序列拼接,AlphaFold能够较为准确地预测它们之间的相互作用。
随后,相关研究团队发布了专门用于识别蛋白质复合体的更新系统(如AlphaFold-Multimer)。利用这一系统对公开数据库中的数千种复合体进行识别,结果显示其能够预测约70%的已知蛋白质间相互作用。这些工具已在辅助发现新型结合蛋白方面发挥作用。例如,有研究团队将AlphaFold与实验数据相结合,预测了数万种可能相互作用的蛋白质对结构,为后续实验筛选提供了良好起点。需要指出的是,结构预测的合理性仍需通过实验数据进行验证。
在另一项研究中,研究人员利用AlphaFold及其他相关工具对模式生物中所有蛋白质对之间的相互作用进行了系统模拟,发现了上百种此前未知的相互作用。进一步的研究还表明,仅需已知靶点蛋白的结构信息,结合结构预测算法,即可设计出与之高亲和力结合的迷你蛋白。这一策略被认为有望在药物发现和分子生物学领域引发范式转变。
人工智能工具不仅改变了科学家解析蛋白质结构的方式,也在推动全新蛋白质的设计。相关研究显示,通过向神经网络提供随机氨基酸序列并引入突变,直至网络确信这些序列能够折叠成稳定结构,研究人员能够生成前所/未有的蛋白质构型。在实验中,约五分之一的此类人工设计蛋白能够折叠成预测的结构。这一成果首次验证了利用神经网络进行蛋白质设计的可行性。目前,相关团队正致力于应用该策略开发具有特定催化功能的酶类,例如仅需提供负责催化功能的氨基酸残基,由人工智能模型完成其余部分的结构设计。
关于AlphaFold引发的技术革命将走向何方,即便领域内的专家也难以准确预测。有研究者指出,该领域发展极为迅速,预计在不到一年的时间内,将会有借助这些工具取得的重大新突破出现。




