新闻资讯

【知道】蛋白质组研究想用DIA?这两大问题您需了解

2020-04-16
中科新生命
2695

目前备受关注的热门蛋白质组技术,非DIA莫属。与其他所谓的“新一代技术”不同:技术上,DIA采用全扫描模式,实现了覆盖度、重现性、准确度上的飞跃,是真正意义上的革命性技术;应用上,DIA频繁被顶级研究应用,更被“癌症登月计划”“苏黎世癌症地图计划”等国家级精准医疗项目所青睐。

然而,面对新技术,如果没有充分了解就盲目应用,可能会得不偿失;更容易陷入鱼龙混杂的检测服务市场所制造的“陷阱”。

开展实验前需要先了解哪些应用问题?

当你面对自己做出的DIA数据,或检测服务机构交付的DIA数据时,如何判断数据质量是过关的?

我们已积累上千例的样本分析经验。通过自主研发,我们实现了DIA分析能力的大升级。基于对DIA技术的深入认识,我们很愿意和大家分享DIA技术的知识和分析经验,希望与更多老师一起,利用好技术真正做出更好的数据。

前方预警:笔者文笔不好,讲技术、实验的文字,难免阅读感不佳。但都是干货经验,建议各位老师耐心看完。认为内容还不错的,请右下角点“在看”,让更多关注新技术的老师能看到。

 

关于DIA的应用问题

1.   无论什么情况下,DIA都是一定优先的技术选择吗?

盲目使用,是大家应用新技术时常面临的问题。作为已做了15年蛋白质组的老司机,至少在蛋白质组学领域,我们的理念是:技术本身没有绝对的优劣,而是根据应用目的,选择更合适的技术

以常见的蛋白组实验设计举个栗子:对照组、处理组1、处理组2,每组3个生物学重复,共9个样本。既然DIA技术这么好,这个实验我们用DIA吗? NO,通常会建议大家用常规蛋白质组的标记定量技术——TMT理由如下:

  DIA的优势之一是稳定性。但对于16个样本的实验,可以采用TMT 16plex做标记,16个样本混合后一起上机检测,没有平行性的问题。而DIA16个样本单独上机。在这种情况下,DIA的稳定性没有发挥空间。

 

  DIA的优势之二是覆盖度。但TMT通过大量的分级(fractionation),可显著提升定量蛋白的数量,例如对于常规动物组织样本,TMT通过大量的分级,可定量多至8000+个蛋白的水平;而DIA则通常不做分级(成本、数据处理等因素考量),一般大约定量到6000+个蛋白左右。

有老师会问,DIA不是全扫描么,为啥不是能定量到样本中的所有蛋白?DIA虽然把信号几乎都采集到了,但是图谱里不少信号的响应值太低、信噪比差,导致无法被最终鉴定、定量出来。而分级的方法可以将高低丰度信号预先分开,然后分别上机,改善信噪比的问题(这个是质谱本身主要的瓶颈之一),是提升数据量非常有效方法。

所以,这种情况下,DIA在数据覆盖度上的优势不明显。

 

  性价比不够高。DIA的实验流程比较复杂,需先建一个图谱library。在样本数量少的情况下,先花机时完成library构建,再花机时进行样本的DIA检测。反而不如一次性做TMT来得经济、快捷。

 

2.   那么,什么情况下墙裂推荐DIA

大队列样本DIA是优先选择的技术!例如,如果你有40个样本,哪怕是TMT-16plex1plex最多混16个样本,至少也得做3plex。而且,通常为了提高数据量,每个plex还会做大量的分级,最终会有非常多的上机。关键在于,在这种情况下,多个批次的plex是分别上机检测的,这就会在实验的平行性、稳定性上造成问题。

举个例子,不少老师曾跟我们沟通过,他们自己做出的多批plex的数据,由实验本身导致的各批plex之间的差异性,几乎完全掩盖了实验组别之间的差异。

在大量样本上机的情况下,DIA的稳定性优势尽显无疑(此处不做具体介绍原理,感兴趣的老师可回看我们之前的文章或关注我们的讲座)

 

血液样本的分析,优先推荐DIA 98%以上采用常规蛋白质组技术的血液文献,都是先利用亲和等方法将血液中高丰度蛋白(白蛋白、IgG等)去除掉,再做蛋白组分析。因为,常规蛋白质组技术受到高丰度信号的影响非常严重。如果不预先去除高丰度蛋白,获得的结果中,大量的数据都是大家所不关注的高丰度蛋白的数据,有意义的数据非常少。

DIA的全扫描模式,受高丰度蛋白影响很小,目前DIA发表的血液蛋白质组研究均不去除高丰度蛋白,不仅获得的数据量不亚于常规蛋白质组的做法,并且其好处是:(1)不用担心高丰度蛋白去除时带走了其他蛋白,造成结果失真;(2)不用担心高丰度蛋白去除操作,引入的平行性隐患;(3)不用担心去除高丰度蛋白实验涉及的实验成本、时间等问题。第二、三点在大规模样本的分析中是重要的考量因素。

 

关于应用的问题,简单总结一句话:根据实验目的,考虑是DIA技术是更优的选择;标志物研究、疾病精准分型、品系比较等大规模样本的分析,DIA是优先推荐技术

 

关于DIA的实验效果问题

1.   哪些因素决定了DIA实验的效果?A同学说能做DIAB同学也说能做DIA,他们做的效果都一样吗?

近期很多老师来跟我们取经:“听说你们做血液的DIA,不去高丰度、不做分级,在常规2h分析时长下,单个样本能定量到近1000个蛋白,甚至超过两千个蛋白,这个是怎么做到的,有什么经验可以分享下么?”。技术细节我们自然不能透露太多。但是,哪些实验因素对DIA的分析能力有较大影响,这个我们可以好好讨论下。要弄清这个问题,我们需要先看下DIA实验的技术流程:

image.png

在这张图中,DIA与常规蛋白组在实验流程上的最大不同之处,基本就是要做好DIA实验所需考量的特别因素:即上文提到过的,流程图的左半部分——library库构建。

先科普下很多老师都问的一个问题:DIA为啥要建library。质谱对蛋白质肽段的鉴定,基于一级信号及其二级图谱:在常规蛋白质组的扫描模式下,1张二级图谱几乎仅来自于1个一级信号;而在DIA的扫描模式下,1张二级图谱是一个混合图谱,来自于多个的一级信号,其高度复杂。导致:常规蛋白质组搜索理论图谱就行了;而DIA的太复杂,要搜实际质谱采集到的图谱,即library(也有不构建library的做法,但准确性、匹配效率效果影响较大)。

因此,DIA的数据解析效果取决于: library库容 + library搜库的算法:

(1)    关于library库容,这里也有误区:有很多老师认为,library不就是越大越好么,所以我做大量的分级就行了。实际情况是,通过分级将library的库容提升到一定程度时,其对提高最终的鉴定数量不会再有显著贡献。所以,我们不建议盲目地做大量的分级。要真正提高library的库容,除了分级,比较重要的就是样本的积累:即不断有不同实验来源、不同生物学背景的新样本的library加入。在这点上,越早开展DIA分析、样本和项目数量积累越多的平台,越有优势。

(2)    关于library算法:有了library 还不够,怎么做library匹配也相当重要。 2012年DIA(最先被命名为SWATH)技术发表后,《Nature Biotech》、《Nature Method》顶级技术期刊上路线发表了多篇跟进研究。这些研究的目的,就是开发更好算法来解析DIA的复杂数据。这里提一下两个常用软件:skyline和Spectronaut。Skyline是蛋白质组研究经典的软件,做靶向蛋白质组的老师,都用过这个软件。Skyline也被用于对DIA数据进行提取分析,但因为不是专门针对DIA的软件,其分析效果、效率上都不算理想,但好处是公共软件不收费;而Spectronaut是商业化软件的代表,《Nature Biotech》上曾对常用的DIA分析软件做过测评,其中Spectronaut的表现优秀,目前是“癌症登月计划”的选择,缺点是收费高(好的东西一般都贵,这句话在哪里都适用)。

除了library的问题,想做好DIA,拿到更多的数据,色谱、质谱方法的优化也是关键,这也我们平台当时实现DIA的分析能力突破时,花了不少研发精力的地方,在此不过多说明了。

 

2.   面对DIA的结果,你知道怎么判断数据质量的好坏么?

很多老师看蛋白质组的数据,往往只看鉴定数量,这个是非常严重的问题。准不准、可不可靠,这才是我们更应优先关注的问题。数据质量问题对于DIA分析,尤其重要!!道理很简单,DIA更多应用于大规模样本的项目,越是大项目,质量风险越高,质量越是重中之重、是根基,否则后续一切的数据挖掘都无意义,浪费样本、浪费时间、浪费经费。

那么,如何评价我们拿到的DIA的数据质量好不好呢?对于常规实验都需要考察的几个点,例如质量偏差、basepeak图、是否达到标准鉴定能力等,就不在此赘述了,我们重点讨论DIA实验特别关注点:

  色谱:这是大家非常容易忽视的问题。今年年初,神经领域顶刊《Molecular Psychiatry》(IF=11.64)发表过一篇DIA的应用研究。这篇文章属于神文,因为一共只有2table+1figureResult仅有三段。但是在这三段result中就有这样一段描述:

image.png

因为色谱不好,有两个case的样本被踢掉了,可见色谱在质量方面的重要性。为什么DIA要考察色谱?色谱的峰形、色谱的数据数量点、色谱的稳定性,都直接决定定量准不准;另外,色谱的capacity能力,决定质谱的采集效率。在此基础上,在DIA的大量样本的分离采集过程中,色谱的效果不可避免会波动和下降。所以,不仅要考察色谱的效果,还需要对色谱进行校正(例如掺入iRT内标肽)。以下是色谱考察的几个点,供参考,不做详述:

 image.png

  搜库匹配:上文讲到,DIA的数据处理,非常重要。跟常规蛋白组一样,DIA的搜库结果也有标准来判定其可信度。不同软件给出的判别指标不同,在此做不详述。

 

  QC样本:QC样本是用于整体评价数据的有效方法。QC样本通常是将多个实验样本进行混合,再分为同样的多份。上样时隔一定数量的样本,掺入1QC样本。因此,最终整个上机过程中会有多个相同的QC样本贯穿其中。假设整个采集过程是稳定的、平行的,那QC样本的数据也应基本一致。最终,我们利用定量偏差(CV值)、主成分分析、相关性等方法,对QC样本的一致性进行评价,以反映整个数据采集过程中的稳定与平行。以下是QC样本考察的几个点,供参考,不做详述:

image.png

关于实验效果的问题,简单总结:DIA的实验有很多技术点,每个同学做出的效果未必一样;对于没有色谱考察和校正、没有搜库匹配可信度评价、没有QC样本评价的三无数据,建议谨慎使用

 

文字描述的内容毕竟有限,如果希望更详细了解DIA技术,欢迎各位老师关注我们的公众号及后续开展的线上讲座。