新闻资讯

Nat Commun | 海量肽组学数据筛选难?AI 大模型 + 质谱双剑合璧,精准捕获生物活性肽!

2025-07-18
中科新生命
56

肽在生物过程调节中扮演着关键角色,同时也是众多治疗药物的核心组成部分。然而,目前已证实具有生物活性的人类肽仅约 300 种,这与文献中报道的数万种肽形成了鲜明对比。在这些已报道的肽中,绝大多数是内源性蛋白质和肽的无活性降解产物。这一现状带来了一个极具挑战性的 “大海捞针” 难题 —— 如何从大规模肽组学实验产生的海量数据中,精准筛选出最具潜力的候选肽进行生物活性测试

为了应对这一挑战,诺和诺德研发中心联合普沐生物、信达生物等多家研究机构在 Nature Communications(IF15.7)上发表了题为“Combining mass spectrometry and machine learning to discover bioactive peptides” 的研究文章。该研究对四种不同品系小鼠的 7 个组织开展了全面的哺乳动物肽组分析,并基于所得数据训练出一款机器学习模型。通过将质谱分析与机器学习技术相结合,研究团队成功预测出数百种潜在的生物活性肽候选物,且已通过实验验证了其中两种肽的生物活性

 

 

 

研究材料

野生型(WT)、糖尿病(DB)、低脂饮食(LF)、高脂饮食(HF)四种小鼠(每组 n=12),并收集 7 种组织。

 

 

 技术方法

多肽组学

 

 

 研究结果

1. 使用质谱技术全面分析小鼠体内活性肽

研究团队使用糖尿病研究中常用的四种不同小鼠品系的肝脏、肌肉、肠(回肠)、脑、胰腺、附睾脂肪和皮下脂肪组成的七种组织进行了大规模的肽组学分析。为了确保肽数据统计的稳健性,每组中使用了 12 个动物重复,总共有 336 个样品。通过对这些组织样本的质谱分析,研究人员成功鉴定了157,857种独特的肽序列。

图1 实验设计和数据概述

 

2. 组织、饮食和遗传在肽水平的表现

观察到许多肽存在于多个组织中,且每个组织都存在一组独特的肽,其中回肠在肽组成方面最具有独特性。使用 UMAP 对组织组和实验组进行聚类分析,评估整个数据集的特异性。

图2 数据集的组织特异性展示

 

3. 机器学习:大海捞针

为了在十几万鉴定到的活性肽中筛选出真正的活性肽,研究人员开发了一种基于机器学习的计算算法——预测肽变体(Predicted Peptide Variant,简称PPV)。PPV算法通过分析质谱数据中肽的结构模式(如氨基酸序列排列、修饰位点分布等)来预测可能具有生物活性的肽。具体来说,PPV算法利用了肽在蛋白质中的相对丰度、氨基酸修饰(如C末端酰胺化和N末端乙酰化)等特征,通过训练机器学习模型,从已知的生物活性肽中学习规律,从而预测出其他可能具有生物活性的肽。

图3  计算机识别潜在生物活性肽

 

4. 模型预测和计算机验证

为了进一步建立 PPV 结果的准确性,分析了高分预测肽的侧翼区域,发现序列基序的明显组织特异性富集(图 4)。对于大脑、胰腺和回肠,侧翼区域显示出已知在这些特定组织中活跃的激素原转化酶识别的双碱基解基序的显著富集。在脂肪组织中观察到不同的基序,表明其他酶可能在这里活跃。PPV 模型预测的肽也更多来自分泌蛋白。这与大多数注释肽来自含有 N 端信号肽的前体的事实一致。以上这些信息支持了我们方法和预测的有效性。

图4 PPV模型的验证和预测

 

5. 实验验证:预测肽的生物活性

为了进一步验证PPV模型的预测能力,研究人员选择了两种预测肽进行实验验证。其中一种肽是来自Secretogranin-1的NHPD-50,它在质谱数据中得分很高,并且其序列被双碱基KR-基序所包围,这些基序是特定组织中特定酶的识别位点。实验结果显示,NHPD-50肽在db/db糖尿病小鼠模型中表现出显著的降低血糖的效果,并且在给药后6小时,小鼠血浆中的胰岛素水平也显著增加。这一发现不仅证实了PPV模型的有效性,更为糖尿病治疗提供了新的潜在候选药物。

图5 体外和体内试验揭示了潜在的生物活性肽

 

 

总结

发现新的生物活性肽这一复杂任务主要包括两个步骤,第一步是需要确定可能的生物活性候选物,第二步是采用正确的检测方法明确验证生物活性。该项研究提供了一个资源来支持第一步,通过共享机器学习框架(PPV 方法)预测真实且具有潜在生物活性的候选肽,并对7个组织进行大型全组织肽组学研究,是迄今为止在组织覆盖范围、样本数量和重复次数方面规模最大的研究。总之,通过将预测框架与将观察到的降解片段组装成全长肽的算法相结合,可以鉴定其他已知的肽。

 

 

中科优品推荐

【中科新生命】提供多肽组学检测服务,具有多元化的样本前处理经验,依托河南农大吴刘记教授专利技术更科学严谨,从多肽到蛋白双重功能挖掘和活性预测,覆盖生命科学全领域,为您的科学研究保驾护航!如果您正致力于多肽组学相关研究。欢迎联系我们,共同探究多肽 “隐形密码”!另外“年中嗨购,组学自由”618个名额免费测的活动仍在火热进行中,欢迎咨询!

滑动图片查看更多>>>