
在AI大模型通过深度学习、生成模型等技术,实现了对蛋白质结构、功能及相互作用的精准预测与创新设计,突破了传统蛋白质工程依赖实验试错的局限,引领了合成生物学和生物医药等领域生产方式的变革。目前,随着全球AI for Science作为未来发展方向的变革,国内新质生产力的发展需要,AI+蛋白质设计产业已经成为新一轮竞争的焦点之一。在政策支持不断加大、市场参与者的不断涌入、技术壁垒不断深化的背景下,分析梳理AI大模型在蛋白质设计领域的应用现状对于进一步的投资布局具有重要意义。
基本概念
AI蛋白质设计是指利用人工智能技术,结合蛋白质序列、结构和功能数据,对蛋白质进行预测、设计和优化。蛋白质设计旨在从头设计或优化蛋白质的序列,以实现特定功能或提高天然蛋白质的性能。传统计算蛋白质设计通常采用能量函数和特定的搜索优化算法获得设计的序列。近年来,随着算法的发展、大数据的积累和计算机硬件算力的增长,人工智能技术得到了蓬勃发展,并逐渐应用于蛋白质设计领域。

表1.蛋白质AI设计与传统设计对比(资料来源:公开信息,华医研究院整理)
发展历程
蛋白质设计从早期的实验试错到计算辅助设计,再到如今的AI驱动,经历了多个关键阶段。在20世纪80年代,计算蛋白质设计开始萌芽,这一时期同源建模成为主流技术,依靠已知结构预测相似序列的蛋白质。21世纪10年代,统计势能函数的引入显著提高了结构预测的准确性。2014至2016年间,深度学习技术开始初步应用于蛋白质研究,特别是卷积神经网络被用于蛋白质二级结构预测。

图1.AI+蛋白质发展行业大事件(资料来源:公开信息,华医研究院整理)
2018年标志着AI在蛋白质研究中的重大突破,DeepMind的AlphaFold1在CASP13蛋白质结构预测竞赛中表现突出,首次超越传统方法。2018至2020年间,生成对抗网络开始用于蛋白质序列设计。
2021以来见证了多项重大进展:生成式AI在蛋白质设计领域爆发式发展,多家公司推出AI蛋白质设计平台。MetaAI的ESM1b蛋白质语言模型问世,可预测突变影响;BakerLab推出基于Transformer的蛋白质序列设计工具ProteinMPNN;RFdiffusion利用扩散模型生成全新蛋白质结构。2024年,AlphaFold3能预测蛋白质与DNA/RNA/小分子的相互作用,此外,2024年诺贝尔化学奖授予戴维-贝克(David Baker)、戴米斯-哈萨比斯(Demis Hassabis)和 约翰-朱伯(John M. Jumper),以表彰他们在蛋白质设计和结构预测领域做出的杰出贡献。

图2.2024年诺贝尔化学奖获得者(资料来源:The Royal Swedish Academy of Sciences,华医研究院整理)
0
底层技术
01
生成式模型
生成式模型是人工智能领域中的一类重要模型,它能够学习数据的分布并生成新的数据样本。这类模型在图像生成、文本创作、音频合成等领域有着广泛的应用。通过训练大量的数据,生成式模型可以捕捉到数据中的复杂模式,并利用这些模式来创造与原始数据相似但又独特的新内容。生成式模型主要包括变分自编码器模型、扩散模型、生成对抗网络模型等。

图3.各类生成模型对比(资料来源:CSDN,华医研究院整理)
02
自然语言处理与蛋白质序列的类比学习
自然语言处理是计算机科学、人工智能和语言学领域的一个交叉学科,主要研究如何让计算机能够理解、处理、生成和模拟人类语言,从而实现与人类进行自然对话的能力。随着深度学习技术的发展,研究人员发现蛋白质序列与自然语言文本之间存在许多相似性,因此可以借鉴NLP的方法来研究蛋白质序列。

表2.自然语言和蛋白质序列对比(资料来源:公开信息,华医研究院整理)
03
几何深度学习
几何深度学习是深度学习领域的一个重要分支,专注于处理具有几何结构的数据。在蛋白质研究中,几何深度学习被广泛应用于蛋白质3D结构预测与生成,因为蛋白质的三维结构本质上是一种几何数据。
应用领域
应用领域
01
合成生物学
合成生物学是一门融合生物学、工程学、计算机科学和化学的交叉学科,旨在设计、构建和优化人工生物系统,或重新设计现有的自然生物系统,以实现特定功能。AI蛋白质设计在合成生物学中的应用正在迅速改变生物技术领域,通过结合机器学习、计算建模和生物工程,实现了对蛋白质功能的精准预测与定制化设计。

图4.合成生物学中酶工程设计方法发展(资料来源:合成生物学,华医研究院整理)
02
蛋白质药物研发
人工智能在从头设计抗体药物方面表现出色。2023年,Nature期刊发表了一篇利用蛋白质表面特征指纹图谱的机器学习方法来从头设计新的蛋白质的论文,这些蛋白质与癌症免疫治疗靶点或新冠病毒靶点的结合亲和力与自然产生的抗体相当。

图5.新药研发流程(资料来源:公开信息,华医研究院)
03
科学研究
人工智能技术实现了从机制发现到治疗设计的完整研究闭环,助力疾病机制研究;动态相互作用模拟方面,图神经网络结合分子动力学可以重构结合过程中的构象变化轨迹,推动DNA-蛋白质相互作用研究。

图6.两个由ESM-DBP预测的蛋白质存在广泛的DNA结合作用(资料来源:Nature Communications,华医研究院整理)
产业链分析
AI蛋白质设计作为生物科技与人工智能结合的前沿领域,其产业链上游以算力、算法、数据、生命科学技术和设备作为产业基石;中游包括以AI蛋白模型为基础的蛋白质结构预测、蛋白质设计、蛋白质组学等平台类公司和基于自有平台进行下游药物发现和合成生物产品开发的公司;下游客户面向生物医药企业、合成生物学细分领域以及广大检测机构和科研院所。

图7.AI蛋白质设计产业链图谱(资料来源:智药局,华医研究院整理)
市场规模
人工智能与蛋白质结合的应用正迎来快速发展,特别是在药物发现、精准医疗和合成生物等领域。根据MedMarket Insights和QY Research报告,2023年AI蛋白质市场规模已达14.83亿美元,得益于AI大模型与生命科学的高适配性,预计到2031年市场规模将增长至178亿美元,年复合增长率约为36.5%。

图8.全球AI蛋白质设计市场规模(亿美元)(资料来源:MedMarket Insights、QY Research、华医研究院整理)
中国在AI蛋白质领域发展迅速,市场规模持续扩大。根据MedMarket Insights和QY Research报告,2023年该行业市场规模将达29亿元,增长得益于中国成熟的工业制造体系和活跃的投融资市场。2031年的市场规模预计增长至320亿元,增长得益于中国成熟的工业制造体系和活跃的投融资市场。同时,AI蛋白质技术正改变传统药物研发模式,中国创新药领域有望在全球药物研发市场占据更重要地位。

图9.中国AI蛋白质设计市场规模(亿美元)(资料来源:MedMarket Insights、QY Research、华医研究院整理)。
竞争格局
从全球市场来看,美国是全球AI蛋白质研究和应用的领导者,约占市场份额的58%。欧洲占22%,亚洲(主要是中国和一些日本公司)约占12%的市场份额,英国和中东分别占4%和2%,其他地区占2%。

图10.2022年全球AI蛋白质设计主要企业市场份额(资料来源:公开信息,华医研究院整理)
根据华医研究院的不完全统计,中国AI蛋白质设计企业约为26家,主要分布在北京、长三角和大湾区,其中又以北京和上海两座城市较为突出。北京的百图生科、分子之心以及上海的智峪生科、天鹜科技等公司已开始崭露头角。

图11.中国AI蛋白质设计企业分布(资料来源:烯牛数据,华医研究院整理)
总结
AI技术在蛋白质设计行业的广泛应用已经成为不可逆转的趋势,AI赋能缩短研发时间、提高研发效率、加速了下游各类蛋白质产品的商业化落地进程,目前已经在蛋白质结构预测、蛋白质功能预测、蛋白质和其他物质相互作用预测以及蛋白质从头设计等方面成功赋能,在合成生物学和蛋白质类治疗药物等多个领域已经实现商业化落地。未来,随着AI蛋白模型的进一步优化,其在生命科学各个领域的应用有望加速渗透。
声明
本文节选自华医研究院行业深度报告:2025年6月《AI大模型在蛋白质设计领域的应用研究报告》。
报告中的信息或所表达意见不构成投资、法律、会计或税务的最终操作建议。我公司不就报告中的内容对最终投资建议作出任何担保。
来源:华医研究院
作者:燕柯
编辑:邵利娟