德睿智药(MindRank)与青岛大学李臻教授团队共同完成的论文《Flexibility-Aware Geometric Latent Diffusion for Full-Atom Peptide Design》已被ICML 2026接收,将亮相第43届国际机器学习大会。
该研究提出了一种PepFGLD的全原子多肽设计框架,聚焦解决AI辅助设计“多肽”药物中现存的“极高的柔性”难题,为攻克复杂疾病提供了新的技术路径。
关于ICML
ICML(International Conference on Machine Learning,国际机器学习大会)是机器学习领域最具影响力的国际顶级学术会议之一。长期聚焦机器学习理论、算法、系统、应用及跨学科前沿方向,是全球 AI 研究者的重要交流平台,并与 ICLR、NeurIPS 并称为机器学习领域三大顶级会议。
ICML以严格的评审标准和对创新性的高要求著称,每年吸引了来自全球顶尖高校、研究机构和企业的前沿投稿。本届大会共收到有效投稿23,918 篇,最终录用 6,352 篇,录用率约为 26.6%,大会将于2026年7月6日至11日在韩国首尔举行。
研究背景:为攻克多肽设计难题提供新模型
多肽分子具有良好的靶点识别能力和调控潜力,在蛋白-蛋白相互作用调控、新型结合分子构建以及创新治疗方式探索中具有重要价值。与传统小分子相比,多肽在结合浅表界面、高特异性识别和复杂生物功能调控方面具有独特优势。
与此同时,多肽天然具有较高构象柔性,尤其在受体结合界面中,其序列、三维结构和结合构象往往相互影响,这也对AI建模提出了更高要求。如何生成既满足受体约束、又具有物理合理性的多肽结构,是AI多肽设计中的重要挑战。
为了破解上述难题,德睿智药算法团队与青岛大学的研究团队提出了「PepFGLD框架」,这是一个受体约束、柔性感知的全原子多肽设计模型。该模型在考虑多肽高度柔性的前提下,不仅能生成正确的氨基酸序列,还可同时生成精确到每一个原子的3D空间结构,以确保设计的药物在物理上是可行的,且能与目标受体紧密结合。
合作成果:面向全原子多肽设计的PepFGLD 框架
本论文提出的PepFGLD框架采用了「潜在扩散模型」(Latent Diffusion Model)的深度学习架构,采用了一种受体约束、柔性感知的全原子多肽设计方法,其核心研究方法可以概括为基于「柔性感知序列 - 结构变分自编码器(Flex-VAE)」和「时间相关能量引导扩散(TDEG)的潜在扩散模型」。
1. 结构表示与数据建模:
全原子几何图:模型将每个多肽结构表示为全原子几何图,捕捉精细的原子级几何约束。
通道图 (Channel Graph):为了更高效地建模,定义了通道增强的残基图,每个残基由 14 个预定义的原子通道坐标表示(包括主链和侧链原子)。
潜在点云:结构样本通过编码器被映射为潜在空间中的点云表示,从而在较低维度的连续空间内进行扩散和采样。
2. 引入三个创新模块:
柔性感知编码器(FlexEGNN):捕捉多肽在受体结合界面中的局部构象变化,提高模型对柔性结构和界面形变的感知能力。
双向交互模块(SSBIM):同时建模氨基酸序列与三维结构之间的动态关系,使生成结果更贴近真实受体环境下的多肽构象。
时间相关能量引导(TDEG):在生成过程中引入物理约束,引导模型逐步生成更加稳定、合理的全原子多肽结构。
3. 两阶段训练策略:
为训练该模型,研究团队采用了「两阶段训练策略」。首先对模型进行「无监督预训练」,让 AI 学习数万个蛋白质片段的结构,使之掌握自然界分子构成通用的结构恢复能力。
随后,对模型进行「精细化微调」,使用真实的「蛋白质 - 多肽复合物」数据进行训练,让 AI 学会捕捉特定受体界面的构象偏好和空间约束,能根据特定的「锁」(受体界面)来定制「钥匙」。
4. 采样与重建流程:
在推理阶段,模型首先在潜在空间进行反向扩散采样(并施加 TDEG 引导),获取优化的序列—结构联合潜在状态。然后,通过解码器将这些潜在变量重新构建为包含完整原子坐标的蛋白质—多肽复合物结构。这种方法确保了 PepFGLD 不仅能生成高亲和力的多肽序列,还能提供物理上一致且几何精确的3D结合姿态。
实验成果:更精准、更稳定的药物候选分子
通过在 PepBenc和PepBDB 等权威多肽设计基准数据集上的测试,PepFGLD 展现出了显著的优势:
性能显著提升:在PepBench和PepBDB 等多个基准测试中,PepFGLD 在结合能(ΔG)、设计成功率、多样性和一致性等指标上均显著优于HSRN,dyMEAN,PepGLAD 等现有领先模型。
物理可行性更高:实验证明,PepFGLD 生成的多肽构象不仅更接近参考的能量景观,而且在处理高柔性区域(如无规卷曲部分)时表现出更强的适应性和准确性。
物理连贯性:案例研究显示,PepFGLD 能够生成连续且稳定的分子主链轨迹,避免了传统方法中常见的结构断裂或原子重叠问题。
PepFGLD模型通过引入柔性感知机制和物理能量引导,将多肽药物设计从“试错”推向了“AI精准预测”。模型在处理动态界面和全原子细节上的卓越表现,将使其成为推动开发下一代高特异性多肽疗法的理想数字化引擎。
在该技术的赋能下,不仅可提高设计高质量、可入药多肽分子的效率,也将为未来针对癌症、免疫疾病等高风险领域的药物开发带来全新的数智化范式和新的治愈希望。
