新闻资讯

人群研究必看!临床大队列诊断标志物发现解决方案来袭

2021-04-01
中科新生命
1794

代谢组学的快速发展为精确医学新突破提供了革命性的方法,与基因组相似,“代谢组”描述的是细胞或机体内的所有小分子(<1.5 kDa)的组成。代谢产物不仅指细胞代谢的内源性副产物,还包括来自饮食、环境和肠道菌群的外源性的生物活性物质。代谢物作为基因表达和环境暴露的下游终产物,在基于人群研究的临床生物标志物的发现提供了一种新思路。


临床代谢组标志物发现研究流程

代谢组学中发现和验证与人类疾病相关的疾病诊断、预后或预测性生物标志物的数据流程通常包括:实验设计、样本制备和质谱数据采集、数据处理、数据整合分析、复杂体系中的代谢物鉴定、生物学意义解释、标志物验证和临床试验等。临床标志物的发展对促进个体化医学、药物开发和早期发现遗传病和慢性病的进展具有重要意义。

image.png

临床大队列研究意义及挑战  

image.png


数据采集质量控制

质量控制是代谢组分析的第一要素,用来保证代谢组学测定的数据的重复性和精确性。MS定量分析时,使用内标化合物用于控制样品提取、LC进样和电离等过程种的误差。内标选择规则如下:

image.png

数据处理——数据校准算法解决大样本批次效应

由于色谱系统和质谱与样品的长时间接触,随着分析样品的增多色谱柱和质谱会逐步的污染,导致信号的漂移。质控样本被用于评估整个质谱数据在采集过程中的信号漂移,这些漂移能够被基于QC的算法所识别、校正,提高最终获得的数据质量。使用支持向量回归(Support vector regression, SVR) 或基于随机森林系统误差剔除的归一化方法 (Systematical error removal using random forest, SERRF)对大样本数据进行校正。SVR是SVM(支持向量机support vector machine)对回归问题的一种运用,通过找出一个超平面,使得所有数据到这个超平面的距离最小,与线性模型类似,对区域外的点进行回归,希望这些残差(ζ)最小。

SERRF采用的是随机森林的方法来对代谢组学数据进行归一化,是一种非参、非线性的方法,具有不容易过拟合的优点,利用随机森林的算法,SERRF自动选择相关的QC样本中的化合物来归一化系统误差。不同算法具有不同的特点。以下展示了中科新生命大批次样本用2种算法校正后的结果, 2种算法均可获得较好的信号漂移校正效果。

image.png

image.png


标志物筛选创新研究点:脂质组+非靶代谢描绘总体代谢谱

除了常规极性代谢物外,脂质是一类参与调节多种生命活动的重要非极性小分子,脂质代谢的异常可能引发诸多疾病,如肥胖、动脉硬化等。脂质组学通过研究脂质在生物样本中的组成、结构特点及量的变化等方式,来阐明脂质在细胞水平上代谢方式,研究脂质分子在各种生命现象中的作用机制,是代谢组学的一个重要分支。

image.png

中科新生命可以提供优质的脂质组学服务,对临床样本脂质分子进行大规模检测,最多同时定性定量2000+脂质分子,结合非靶向代谢组学描绘样本中小分子代谢物的总代谢谱。


代谢数据挖掘

1)集成机器学习构建具有预测样本组别的模型

临床生物标志物的筛选、及诊断panel优化构建是临床应用转化前期基础,如何高效从海量的组学数据中获得高灵敏、高稳定、高准确率的潜在生物标志物?也是利用高通量组学技术进行标志物筛选所面临的主要挑战之一。在机器学习算法中,特征选择算法被广泛应用于潜在的生物标志物筛选。流程概览如下:

image.png

机器学习算法中ROC (Receiver Operating Characteristic) curve是一个画在二维平面上的曲线,平面的横坐标是 FPR (false positive rate),纵坐标是 TPR (true positive rate)。对某个分类器而言,我们可以根据其在测试样本上的表现得到一个TPR和FPR点对,这样,此分类器就可以映射成ROC平面上的一个点。基于样本中训练集和测试集候选Biomarkers的表达量,利用构建的诊断模型进行ROC分析,进行诊断模型的评价,AUC (Area Under roc Curve) 是一种用来度量分类模型好坏的一个标准,通常,AUC的值介于0.5到1.0之间,较大的AUC代表了较好的performance。

image.png

2)多组学联合分析

单一组学分析方法可以提供不同生物学过程的信息。但是,这些分析往往有一定的局限性,多组学方法整合多组学信息可以为生物机制提供更多证据,从深层次挖掘候选关键生物步骤。通过将代谢和转录、蛋白等不同层面之间信息进行整合,构建调控网络,深层次理解各个分子之间的因果关系,从而更深入的认识复杂性状的分子机理。如将转录组、代谢组、宏基因组数据进行整合,构建多组学相关网络可以帮助揭示宿主-菌群相互作用机制:

image.png

中科新生命基于17年的质谱服务经验,在临床大队列样本方面具有丰富的样本处理、数据采集和数据挖掘经验,提供更稳、更准、更高覆盖、更快的组学服务。