新闻资讯

GSEA分析加分项:能标注目标基因的工具才够实用!中科新生命云平台功能详解

2025-12-18
中科新生命
10

传统的GO、KEGG等富集分析主要利用经阈值筛选后的基因(如显著差异表达基因,趋势表达基因)对其进行功能注释并结合超几何检验或Fisher’s Exact Test,判断基因主要在哪些功能途径或代谢通路中显著富集,从而推测实验处理下主要影响到的代谢通路。该分析中,阈值筛选具有一定的人为主观性,同时被过滤掉的基因虽未满足阈值标准,但考虑到表型的形成受基因的层层调控而成,采用阈值“一刀切”的方式,难免会将变化微弱但仍对表型形成起关键调控的基因丢失掉。如何补充这类结果,全面筛选关键代谢通路?

本期主角:GSEA(Gene Set Enrichment Analysis)不利用阈值筛选,将比较组中的所有基因纳入到分析中,更易发现一些对生物通路/功能有细微变化的影响[1]

 

 

 

APTBIO

GSEA分析数据

GSEA一次分析仅适用两组数据的比较,如对照组-vs-实验组,疾病组-vs-治疗组。主要分析两组中基因表达量变化与分组之间关系。GSEA分析时,有“两集一值一组”的准备文件:

(1)比较组中所有基因构成的基因集,Expression dataset。来自于测序下机的FPKM数据或TPM值,或TCGA等公共库下载的包含基因在两组样本的表达量信息的文件;

(2)预定义的基因集,Gene sets database。来自于GO、KEGG或GSEA官网包含的MisgDB(gsea-misgdb.org)数据库,亦或者是从权威文献中总结获得的Pathway注释信息、GO注释信息。该文件详细标注了每条Pathway中包含的具体基因。

(3)样本分组。用于定义样本所属的分组;

(4)计算排序值。用于衡量基因表达情况与表型(分组)的关联程度,从大到小排列,绝对值越大代表关联越强。对与“疾病-vs-治疗”这种分类型研究,可计算“差异倍数,Signal 2 noise”作为排序值。以“差异倍数”为例:数值越接近“0”表示与疾病组越负相关;接近“1”表示与疾病组不相关;超过1后越大,表明与疾病组正相关。

 

APTBIO

GSEA图形含义

以差异倍数(Fold Change)为排序指标为例,分析结果呈现三种情况:

P value<0.05

显著富集且与研究表型正相关

P value>0.05

非显著富集,与研究表型不相关

P value<0.05

显著富集且研究表型负相关

 

APTBIO

GSEA结果指标

(1)ES值:Enrichment Score,富集分数。功能基因集(GO term或KEGG Pathway等)在排序后的基因列表中富集程度的指标,可反应功能基因集中的基因在基因排序表中的分布情况。ES值的绝对值越高,表示这个功能基因集可能与表型有较强关联。

(2)NES值:Normalized Enrichment Score,归一化富集分数。NES=功能基因集的实际ES值/该基因集所有置换检验得到的ES值的平均值。ES值的归一化形式,用于消除基因集大小和基因表达数据分布对ES值的影响。使得不同基因集的富集程度具有可比性。可通过直接比较不同功能基因集的NES值,了解富集强度和方向;

(3)P value:通过置换检验得到,用于评估功能基因集富集结果显著性的指标。若P<0.05,则表明功能基因集显著富集,即在实验处理条件下该集合;

(4)FDR 值:False Discovery Rate,假阳性发现率。用于矫正P值的假阳性结果。FDR<0.05说明该通路被显著富集(更严谨)。

 

APTBIO

GSEA应用

马凡综合征(Marfan syndrome, MFS)是一种由基因突变引起的遗传性结缔组织疾病,其主要病变为胸主动脉瘤(TAA)。研究表明,机械敏感性离子通道蛋白(Piezo-type mechanosensitive ion channel component 1, Piezo1)可帮助血管平滑肌细胞和内皮细胞感知血流和血压的变化,在细胞内信号转导中具有关键作用。作者在MFS临床患者和MFS小鼠的主动脉中均发现Piezo1的缺失会加剧主动脉瘤的发展。

通过MFS小鼠(马凡综合征模型小鼠)和MFS x CKO小鼠(马凡综合征与Piezo1条件性敲除的杂交小鼠)的主动脉瘤转录组数据提示,与细胞外基质重塑相关的基因集在MFS x CKO小鼠中显著上调(图1),表明Piezo1的缺失加剧了主动脉组织中细胞外基质的降解和重塑,可能导致主动脉壁的结构异常,从而加重主动脉瘤的发展。与炎症相关的基因集也在MFS x CKO小鼠中显著上调,表明Piezo1的缺失可能通过促进炎症反应来加剧主动脉病变。

图1 Piezo1缺失可上调细胞外基质的降解和重塑,上调炎症相关基因集

Yoda1是Piezo1的特异性激活剂,可通过激活Piezo1进而调节细胞生理功能。使用野生型小鼠的原代血管平滑肌细胞(VSMCs)和Yoda1处理的VSMCs转录组GSEA结果提示,与细胞外基质重塑(图2c)、凋亡信号通路(图2b)和肾素-血管紧张素(图2a)通路相关的基因集在Yoda1处理中显著下调,表明Yoda1通过抑制上述关键通路,可能对主动脉病变起到保护作用。

图2  Yoda1处理可使细胞外基质重塑、凋亡信号通路下调,在主动脉病变中起保护作用

 

APTBIO

GSEA分析软件

中科新生命云平台GSEA分析:

https://bio-cloud.aptbiotech.com/ 

复制到浏览器打开

 *建议先点击界面右侧的【视频教程】了解如何上传数据进行分析;

 

特点一:分析灵活多变

可使用已排序好的基因表,也可直接上传基因表达丰度表和样本分组表格,使用【差异倍数】、【组间均值差值】、【Signal 2 noise】等方法计算排序值,评估功能基因集内的基因在排序表中更靠前还是更靠后;

 

特点二:兼容不同的数据类型

不管是转录组中的Gene Name还是Ensembl ID,或者是蛋白的Uniprot ID均可。实现转录组和蛋白质组数据的一键上传分析;

 

特点三:在曲线中标注目标基因所在位置

这个功能极为好评!!!可一键直接展示目标基因在ES曲线中的位置,便于观察目标基因在排序表中更靠前还是居中或靠后。毕竟如果更靠近两端,说明目标基因在两组中的表达量变化较大,为后续目标基因功能湿实验验证或讨论提供方向。还可以调整目标基因名称的大小、颜色、粗细、拖拽标签位置等,让目标更凸显,图形更美观;

 

特点四:图片整体调整

可修改图形中字体的类型、大小、整体配色以及每一个细节字体的样式。

 

特点五:分析参数实时记录,结果解读更清晰

每次分析均可自定义【任务编号】,便于后续在【项目中心】→【工具任务】中查看分析状态。

查看分析结果:

查看结果说明文档:

 

以上就是关于GSEA分析的介绍,今天就到这里了!您希望我司云平台还上线哪些功能或分析点欢迎评论区留言,我们一定广泛参考~

 

 

 

中科新生命云平台已上线以分析点为单位的云工具,包含40+动态分析图形,涵盖100+分析参数和绘图参数,每个分析点及图形均有自己的特色。同时,还有以项目制为单位的云流程,无需您再整理数据即可开启数据挖掘之旅~

 

参考文献

[1] Subramanian A, Tamayo P, Mootha VK, et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 2005 Oct 25;102(43):15545-50.

[2] Yang P, Liu H, Wang S, et al. PIEZO1 attenuates Marfan syndrome aneurysm development through TGF-β signaling pathway inhibition via TGFBR2. Eur Heart J. 2025 Mar 7;46(10):958-974.

 

 

 

关于中科新生命

 

 

上海中科新生命生物科技有限公司(APTBIO)创立于 2004 年,由原中国科学院上海生命科学研究院蛋白质组研究中心孵化而来,是国内质谱多组学应用领域的开拓者。公司以 “AI + 质谱多组学” 双核驱动创新,构建智能化组学生态。拥有自主知识产权的质谱检测平台与 AI 大数据分析系统,聚焦科技服务、生物医药及大健康消费三大领域,为全球科研机构、医院、药企提供从基础研究到临床转化的一站式解决方案。融合多组学技术与人工智能,围绕生物标志物发掘、药物靶点筛选及个性化诊疗等方向,构建具有国际竞争力的组学数据库与算法模型,推动转化医学进程,加速创新药物研发,成为推动生命科学数字化升级的核心引领者。