新闻资讯

【知道】蛋白质组研究想用DIA? 您需先了解的两大问题

2019-09-10
中科新生命
3973

目前最热门的蛋白质组技术,非DIA莫属。与其他所谓的“新一代技术”不同:技术上,DIA采用全扫描模式,实现了覆盖度、重现性、准确度上的飞跃,是真正意义上的革命性技术;应用上,DIA频繁被顶级研究应用,更被“癌症登月计划”“苏黎世癌症地图计划”等国家级精准医疗项目所青睐。(想要了解DIA的技术及应用进展,请点击文末精彩回顾)


然而,面对新技术,如果没有充分了解就盲目应用,可能会得不偿失;更容易陷入鱼龙混杂的检测服务市场所制造的“陷阱”。


开展实验前需要先了解哪些应用问题?

当你面对自己做出的DIA数据,或检测服务机构交付的DIA数据时,如何判断数据质量是过关的?


作为国内早期开展DIA分析的平台之一,我们已积累上千例的样本分析经验。通过自主研发,我们更实现了DIA分析能力的突破。基于对DIA技术的深入认识,我们很愿意和大家分享DIA技术的知识和分析经验,希望与更多老师一起,利用好技术真正做出更好的数据。


前方预警

笔者文笔不佳,本篇文章内容涉及较多的技术、实验的知识,会小小的影响阅读感。

但是!文章都是干货经验,请各位老师耐心看完。

如果读完了认为内容还不错的,请右下角点“在看”,让更多关注新技术的老师能看到。


 /关于DIA的应用问题/


无论什么情况下,DIA都是一定最佳技术选择吗?


盲目使用,是大家应用新技术时常面临的问题。作为有15年蛋白质组实验经验的老司机,至少在蛋白质组学领域,我们的理念是:技术本身没有绝对的优劣,而是根据应用目的,选择更合适的技术。


以最常见的蛋白组实验设计举个栗子:对照组、处理组1、处理组2,每组3个生物学重复,共9个样本。既然DIA技术这么好,这个实验我们用DIA吗?NO,通常会建议大家用常规蛋白质组的标记定量技术——TMT!理由如下:


① DIA的优势之一是稳定性。但对于9个样本的实验,可以采用TMT 10plex做标记,9个样本混合后一起上机检测,没有平行性的问题。而DIA是9个样本单独上机。在这种情况下,DIA的稳定性没有发挥空间。


② DIA的优势之二是覆盖度。但TMT通过大量的分级(fractionation),可显著提升定量蛋白的数量,例如对于常规动物组织样本,TMT通过大量的分级,可定量多至8000+个蛋白的水平;而DIA则通常不做分级(成本、数据处理等因素考量),一般大约定量到6000个蛋白左右。

有老师会问,DIA不是全扫描么,为啥不是能定量到样本中的所有蛋白?DIA虽然把信号几乎都采集到了,但是图谱里不少信号的响应值太低、信噪比差,导致无法被最终鉴定、定量出来。而分级的方法可以将高低丰度信号预先分开,然后分别上机,改善信噪比的问题(这个是质谱本身最大的瓶颈之一),是提升数据量的最有效方法。


所以,这种情况下,DIA在数据覆盖度上的优势不明显。


③ 性价比不够高。DIA的实验流程比较复杂,需先建一个图谱library。在样本数量少的情况下,先花机时完成libirary构建,再花机时进行样本的DIA检测。反而不如一次性做TMT来得经济、快捷。


 那么,什么情况下墙裂推荐DIA?


① 大队列样本,DIA是优选技术!例如,如果你有30个样本,哪怕是TMT-11plex,1个plex最多混11个样本,至少也得做3个plex。而且,通常为了提高数据量,每个plex还会做大量的分级,最终会有非常多的上机。关键在于,在这种情况下,多个批次的plex是分别上机检测的,这就会在实验的平行性、稳定性上造成问题。

举个栗子,不少老师曾跟我们反映过,他们自己做出的多批plex的数据,由实验本身导致的各批plex之间的差异性,几乎完全掩盖了实验组别之间的差异。

在大量样本上机的情况下,DIA的稳定性优势尽显无疑(此处不做具体介绍原理,感兴趣的老师可回看我们之前的文章或关注我们的讲座)


②血液样本的分析,优先推荐DIA!98%以上采用常规蛋白质组技术的血液文献,都是先利用亲和等方法将血液中高丰度蛋白(白蛋白、IgG等)去除掉,再做蛋白组分析。因为,常规蛋白质组技术受到高丰度信号的影响非常严重。如果不预先去除高丰度蛋白,获得的结果中,大量的数据都是大家所不关注的高丰度蛋白的数据,有意义的数据非常少。

而DIA的全扫描模式,受高丰度蛋白影响很小,目前DIA发表的血液蛋白质组研究均不去除高丰度蛋白,不仅获得的数据量不亚于常规蛋白质组的做法,并且其好处是:(1)不用担心高丰度蛋白去除时带走了其他蛋白,造成结果失真;(2)不用担心高丰度蛋白去除操作,引入的平行性隐患;(3)不用担心去除高丰度蛋白实验涉及的实验成本、时间等问题。第二、三点在大规模样本的分析中是重要的考量因素。


关于应用的问题,简单总结一句话:根据实验目的,DIA技术是非常合适的选择;标志物研究、疾病精准分型、品系比较等大规模样本的分析,DIA是优选技术。


 /关于DIA的实验效果问题/ 

哪些因素决定了DIA实验的效果?A同学说能做DIA,B同学也说能做DIA,他们做的效果都一样吗?


近期很多老师来跟我们取经:“听说你们做血液的DIA,不去高丰度、不做分级,在常规2h分析时长下,单个样本能定量到近1000个蛋白,这个是怎么做到的,有什么经验可以分享下么?”。技术细节我们自然不能透露太多。但是,哪些实验因素对DIA的分析能力有较大影响,这个我们可以好好讨论下。要弄清这个问题,我们需要先看下DIA实验的技术流程:



在这张图中,DIA与常规蛋白组在实验流程上的最大不同之处,基本就是要做好DIA实验所需考量的特别因素:即上文提到过的,流程图的左半部分——library库构建。


先科普下很多老师都问的一个问题:DIA为啥要建library。质谱对蛋白质肽段的鉴定,基于一级信号及其二级图谱:在常规蛋白质组的扫描模式下,1张二级图谱几乎仅来自于1个一级信号;而在DIA的扫描模式下,1张二级图谱是一个混合图谱,来自于多个的一级信号,其高度复杂。导致:常规蛋白质组搜索理论图谱就行了;而DIA的太复杂,要搜实际质谱采集到的图谱,即library(也有不构建library的做法,但准确性、匹配效率效果影响较大)。


因此,DIA的数据解析效果取决于:library库容 + library搜库的算法

(1)关于library库容,这里也有误区:有很多老师认为,library不就是越大越好么,所以我做大量的分级就行了。实际情况是,通过分级将library的库容提升到一定程度时,其对提高最终的鉴定数量不会再有显著贡献。所以,我们不建议盲目地做大量的分级。要真正提高library的库容,除了分级,比较重要的就是样本的积累:即不断有不同实验来源、不同生物学背景的新样本的library加入。在这点上,越早开展DIA分析、样本和项目数量积累越多的平台,越有优势。


(2)关于library算法:有了library 还不够,怎么做library匹配也相当重要。2012年DIA(最先被命名为SWATH)技术发表后,《Nature Biotech》、《Nature Method》顶级技术期刊上路线发表了多篇跟进研究。这些研究的目的,就是开发更好算法来解析DIA的复杂数据。这里提一下两个常用软件:skyline和Spectronaut。Skyline是蛋白质组研究最经典的软件之一,做靶向蛋白质组的老师,都用过这个软件。Skyline也被用于对DIA数据进行提取分析,但因为不是专门针对DIA的软件,其分析效果、效率上都不算理想,但好处是公共软件不收费;而Spectronaut是商业化软件的代表,《Nature Biotech》上曾对常用的DIA分析软件做过测评,其中Spectronaut的表现最为优秀,目前是“癌症登月计划”的选择,缺点是收费高(好的东西一般都贵,这句话在哪里都适用)。


除了library的问题,想做好DIA,拿到更多的数据,色谱、质谱方法的优化也是关键,这也我们平台当时实现DIA的分析能力突破时,花了不少研发精力的地方,在此不过多说明了。

面对DIA的结果,你知道怎么判断数据质量的好坏么?

很多老师看蛋白质组的数据,往往只看鉴定数量,这个是非常严重的问题。准不准、可不可靠,这才是我们更应优先关注的问题。数据质量问题对于DIA分析,尤其重要!道理很简单,DIA更多应用于大规模样本的项目,越是大项目,质量风险越高,质量越是重中之重、是根基,否则后续一切的数据挖掘都无意义,浪费样本、浪费时间、浪费经费。

那么,如何评价我们拿到的DIA的数据质量好不好呢?对于常规实验都需要考察的几个点,例如质量偏差、basepeak图、是否达到标准鉴定能力等,就不在此赘述了,我们重点讨论DIA实验特别关注点:

① 色谱:这是大家最容易忽视的问题。今年年初,神经领域顶刊《Molecular Psychiatry》(IF=11.64)发表过一篇DIA的应用研究。这篇文章属于神文,因为一共只有2个table+1个figure,Result仅有三段。但是在这三段result中就有这样一段描述:


因为色谱不好,有两个case的样本被踢掉了,可见色谱在质量方面的重要性。为什么DIA要考察色谱?色谱的峰形、色谱的数据数量点、色谱的稳定性,都直接决定定量准不准;另外,色谱的capacity能力,决定质谱的采集效率。在此基础上,在DIA的大量样本的分离采集过程中,色谱的效果不可避免会波动和下降。所以,不仅要考察色谱的效果,还需要对色谱进行校正(例如掺入iRT内标肽)。以下是色谱考察的几个点,供参考,不做详述:



② 搜库匹配:上文讲到,DIA的数据处理,非常重要。跟常规蛋白组一样,DIA的搜库结果也有标准来判定其可信度。不同软件给出的判别指标不同,在此做不详述。


③ QC样本:QC样本是用于整体评价数据的最有效方法。QC样本通常是将多个实验样本进行混合,再分为同样的多份。上样时隔一定数量的样本,掺入1份QC样本。因此,最终整个上机过程中会有多个相同的QC样本贯穿其中。假设整个采集过程是稳定的、平行的,那QC样本的数据也应基本一致。最终,我们利用定量偏差(CV值)、主成分分析、相关性等方法,对QC样本的一致性进行评价,以反映整个数据采集过程中的稳定与平行。以下是QC样本考察的几个点,供参考:



关于实验效果的问题,简单总结:DIA的实验有很多技术点,每个同学做出的效果未必一样;对于没有色谱考察和校正、没有搜库匹配可信度评价、没有QC样本评价的三无数据,建议谨慎使用。


文字描述的内容毕竟有限,如果希望更详细了解DIA技术,欢迎各位老师关注我们的公众号及后续开展的线上讲座。


 /预告/ 


非靶向定量蛋白质组学技术中,DIA是最火的技术;而靶向定量蛋白质组技术中,最火的要数PRM了,后续我们也会对PRM技术做相关的分析分享,敬请期待。



精彩回顾



如何进入板块专栏

进入中科新生命微信公众号点击右下角【知道板块】,即可查看【知道】所有专栏文章,文章内容我们会定期更新哒~



1568081556265524.jpg

扫一扫,关注我们

联系我们:

TEL:021-5466 5263

Email:info_apt@sibs.ac.cn    

QQ: 1875681852

Web: www.aptbiotech.com