新闻资讯

【知道】蛋白质组研究想用DIA？您需先了解的两大问题

2019-09-10

中科新生命

6182

目前最热门的蛋白质组技术，非DIA莫属。与其他所谓的“新一代技术”不同：技术上，DIA采用全扫描模式，实现了覆盖度、重现性、准确度上的飞跃，是真正意义上的革命性技术；应用上，DIA频繁被顶级研究应用，更被“癌症登月计划”“苏黎世癌症地图计划”等国家级精准医疗项目所青睐。（想要了解DIA的技术及应用进展，请点击文末精彩回顾）

然而，面对新技术，如果没有充分了解就盲目应用，可能会得不偿失；更容易陷入鱼龙混杂的检测服务市场所制造的“陷阱”。

开展实验前需要先了解哪些应用问题？

当你面对自己做出的DIA数据，或检测服务机构交付的DIA数据时，如何判断数据质量是过关的？

作为国内早期开展DIA分析的平台之一，我们已积累上千例的样本分析经验。通过自主研发，我们更实现了DIA分析能力的突破。基于对DIA技术的深入认识，我们很愿意和大家分享DIA技术的知识和分析经验，希望与更多老师一起，利用好技术真正做出更好的数据。

前方预警

笔者文笔不佳，本篇文章内容涉及较多的技术、实验的知识，会小小的影响阅读感。

但是！文章都是干货经验，请各位老师耐心看完。

如果读完了认为内容还不错的，请右下角点“在看”，让更多关注新技术的老师能看到。

/关于DIA的应用问题/

无论什么情况下，DIA都是一定最佳技术选择吗？

盲目使用，是大家应用新技术时常面临的问题。作为有15年蛋白质组实验经验的老司机，至少在蛋白质组学领域，我们的理念是：技术本身没有绝对的优劣，而是根据应用目的，选择更合适的技术。

以最常见的蛋白组实验设计举个栗子：对照组、处理组1、处理组2，每组3个生物学重复，共9个样本。既然DIA技术这么好，这个实验我们用DIA吗？NO，通常会建议大家用常规蛋白质组的标记定量技术——TMT！理由如下：

① DIA的优势之一是稳定性。但对于9个样本的实验，可以采用TMT 10plex做标记，9个样本混合后一起上机检测，没有平行性的问题。而DIA是9个样本单独上机。在这种情况下，DIA的稳定性没有发挥空间。

② DIA的优势之二是覆盖度。但TMT通过大量的分级（fractionation），可显著提升定量蛋白的数量，例如对于常规动物组织样本，TMT通过大量的分级，可定量多至8000+个蛋白的水平；而DIA则通常不做分级（成本、数据处理等因素考量），一般大约定量到6000个蛋白左右。

有老师会问，DIA不是全扫描么，为啥不是能定量到样本中的所有蛋白？DIA虽然把信号几乎都采集到了，但是图谱里不少信号的响应值太低、信噪比差，导致无法被最终鉴定、定量出来。而分级的方法可以将高低丰度信号预先分开，然后分别上机，改善信噪比的问题（这个是质谱本身最大的瓶颈之一），是提升数据量的最有效方法。

所以，这种情况下，DIA在数据覆盖度上的优势不明显。

③ 性价比不够高。DIA的实验流程比较复杂，需先建一个图谱library。在样本数量少的情况下，先花机时完成libirary构建，再花机时进行样本的DIA检测。反而不如一次性做TMT来得经济、快捷。

那么，什么情况下墙裂推荐DIA？

① 大队列样本，DIA是优选技术！例如，如果你有30个样本，哪怕是TMT-11plex，1个plex最多混11个样本，至少也得做3个plex。而且，通常为了提高数据量，每个plex还会做大量的分级，最终会有非常多的上机。关键在于，在这种情况下，多个批次的plex是分别上机检测的，这就会在实验的平行性、稳定性上造成问题。

举个栗子，不少老师曾跟我们反映过，他们自己做出的多批plex的数据，由实验本身导致的各批plex之间的差异性，几乎完全掩盖了实验组别之间的差异。

在大量样本上机的情况下，DIA的稳定性优势尽显无疑（此处不做具体介绍原理，感兴趣的老师可回看我们之前的文章或关注我们的讲座）

②血液样本的分析，优先推荐DIA！98%以上采用常规蛋白质组技术的血液文献，都是先利用亲和等方法将血液中高丰度蛋白（白蛋白、IgG等）去除掉，再做蛋白组分析。因为，常规蛋白质组技术受到高丰度信号的影响非常严重。如果不预先去除高丰度蛋白，获得的结果中，大量的数据都是大家所不关注的高丰度蛋白的数据，有意义的数据非常少。

而DIA的全扫描模式，受高丰度蛋白影响很小，目前DIA发表的血液蛋白质组研究均不去除高丰度蛋白，不仅获得的数据量不亚于常规蛋白质组的做法，并且其好处是：（1）不用担心高丰度蛋白去除时带走了其他蛋白，造成结果失真；（2）不用担心高丰度蛋白去除操作，引入的平行性隐患；（3）不用担心去除高丰度蛋白实验涉及的实验成本、时间等问题。第二、三点在大规模样本的分析中是重要的考量因素。

关于应用的问题，简单总结一句话：根据实验目的，DIA技术是非常合适的选择；标志物研究、疾病精准分型、品系比较等大规模样本的分析，DIA是优选技术。

/关于DIA的实验效果问题/

哪些因素决定了DIA实验的效果？A同学说能做DIA，B同学也说能做DIA，他们做的效果都一样吗？

近期很多老师来跟我们取经：“听说你们做血液的DIA，不去高丰度、不做分级，在常规2h分析时长下，单个样本能定量到近1000个蛋白，这个是怎么做到的，有什么经验可以分享下么？”。技术细节我们自然不能透露太多。但是，哪些实验因素对DIA的分析能力有较大影响，这个我们可以好好讨论下。要弄清这个问题，我们需要先看下DIA实验的技术流程：

在这张图中，DIA与常规蛋白组在实验流程上的最大不同之处，基本就是要做好DIA实验所需考量的特别因素：即上文提到过的，流程图的左半部分——library库构建。

先科普下很多老师都问的一个问题：DIA为啥要建library。质谱对蛋白质肽段的鉴定，基于一级信号及其二级图谱：在常规蛋白质组的扫描模式下，1张二级图谱几乎仅来自于1个一级信号；而在DIA的扫描模式下，1张二级图谱是一个混合图谱，来自于多个的一级信号，其高度复杂。导致：常规蛋白质组搜索理论图谱就行了；而DIA的太复杂，要搜实际质谱采集到的图谱，即library（也有不构建library的做法，但准确性、匹配效率效果影响较大）。

因此，DIA的数据解析效果取决于：library库容 + library搜库的算法

（1）关于library库容，这里也有误区：有很多老师认为，library不就是越大越好么，所以我做大量的分级就行了。实际情况是，通过分级将library的库容提升到一定程度时，其对提高最终的鉴定数量不会再有显著贡献。所以，我们不建议盲目地做大量的分级。要真正提高library的库容，除了分级，比较重要的就是样本的积累：即不断有不同实验来源、不同生物学背景的新样本的library加入。在这点上，越早开展DIA分析、样本和项目数量积累越多的平台，越有优势。

（2）关于library算法：有了library 还不够，怎么做library匹配也相当重要。2012年DIA（最先被命名为SWATH）技术发表后，《Nature Biotech》、《Nature Method》顶级技术期刊上路线发表了多篇跟进研究。这些研究的目的，就是开发更好算法来解析DIA的复杂数据。这里提一下两个常用软件：skyline和Spectronaut。Skyline是蛋白质组研究最经典的软件之一，做靶向蛋白质组的老师，都用过这个软件。Skyline也被用于对DIA数据进行提取分析，但因为不是专门针对DIA的软件，其分析效果、效率上都不算理想，但好处是公共软件不收费；而Spectronaut是商业化软件的代表，《Nature Biotech》上曾对常用的DIA分析软件做过测评，其中Spectronaut的表现最为优秀，目前是“癌症登月计划”的选择，缺点是收费高（好的东西一般都贵，这句话在哪里都适用）。

除了library的问题，想做好DIA，拿到更多的数据，色谱、质谱方法的优化也是关键，这也我们平台当时实现DIA的分析能力突破时，花了不少研发精力的地方，在此不过多说明了。

面对DIA的结果，你知道怎么判断数据质量的好坏么？

很多老师看蛋白质组的数据，往往只看鉴定数量，这个是非常严重的问题。准不准、可不可靠，这才是我们更应优先关注的问题。数据质量问题对于DIA分析，尤其重要！！道理很简单，DIA更多应用于大规模样本的项目，越是大项目，质量风险越高，质量越是重中之重、是根基，否则后续一切的数据挖掘都无意义，浪费样本、浪费时间、浪费经费。

那么，如何评价我们拿到的DIA的数据质量好不好呢？对于常规实验都需要考察的几个点，例如质量偏差、basepeak图、是否达到标准鉴定能力等，就不在此赘述了，我们重点讨论DIA实验特别关注点：

① 色谱：这是大家最容易忽视的问题。今年年初，神经领域顶刊《Molecular Psychiatry》（IF=11.64）发表过一篇DIA的应用研究。这篇文章属于神文，因为一共只有2个table+1个figure，Result仅有三段。但是在这三段result中就有这样一段描述：

因为色谱不好，有两个case的样本被踢掉了，可见色谱在质量方面的重要性。为什么DIA要考察色谱？色谱的峰形、色谱的数据数量点、色谱的稳定性，都直接决定定量准不准；另外，色谱的capacity能力，决定质谱的采集效率。在此基础上，在DIA的大量样本的分离采集过程中，色谱的效果不可避免会波动和下降。所以，不仅要考察色谱的效果，还需要对色谱进行校正（例如掺入iRT内标肽）。以下是色谱考察的几个点，供参考，不做详述：

② 搜库匹配：上文讲到，DIA的数据处理，非常重要。跟常规蛋白组一样，DIA的搜库结果也有标准来判定其可信度。不同软件给出的判别指标不同，在此做不详述。

③ QC样本：QC样本是用于整体评价数据的最有效方法。QC样本通常是将多个实验样本进行混合，再分为同样的多份。上样时隔一定数量的样本，掺入1份QC样本。因此，最终整个上机过程中会有多个相同的QC样本贯穿其中。假设整个采集过程是稳定的、平行的，那QC样本的数据也应基本一致。最终，我们利用定量偏差（CV值）、主成分分析、相关性等方法，对QC样本的一致性进行评价，以反映整个数据采集过程中的稳定与平行。以下是QC样本考察的几个点，供参考：

关于实验效果的问题，简单总结：DIA的实验有很多技术点，每个同学做出的效果未必一样；对于没有色谱考察和校正、没有搜库匹配可信度评价、没有QC样本评价的三无数据，建议谨慎使用。

文字描述的内容毕竟有限，如果希望更详细了解DIA技术，欢迎各位老师关注我们的公众号及后续开展的线上讲座。

/预告/

非靶向定量蛋白质组学技术中，DIA是最火的技术；而靶向定量蛋白质组技术中，最火的要数PRM了，后续我们也会对PRM技术做相关的分析分享，敬请期待。

精彩回顾