里程碑!Cell:“定量”人类蛋白组图谱
分析不同组织内RNA和蛋白质的表达水平是了解人类生物学和疾病的基础。迄今为止,大多数研究都着眼于RNA检测,然而事实上,位于转录下游的蛋白质,作为直接参与细胞重要活动的大分子,其水平通常与转录本水平之间的相关性较弱【1】。先前对不同细胞系和人体组织进行的质谱分析已鉴定出85%(~17000种)的蛋白质【2】,但这些研究缺乏蛋白定量,且大多数样品没有相应的同来源的RNA信息,因此难以比较两者相关性。随后,人类蛋白质图谱项目(The Human Protein Atlas project, HPA)【3】虽然根据转录组数据和抗体染色以及基于RNA的分类组织特异性表达,绘制人类蛋白质组图谱,但仍存在精确定量和抗体特异性的问题。即使最近的一项研究对29种不同组织样品进行无标记质谱分析【4】,对每种组织类型也仅分析一个生物样本,限制了这些发现的普遍价值。
就现阶段而言,人体蛋白质组学研究仍存在许多空缺有待填补,而GTEx项目(Genotype-Tissue Expression Project)提供的多种组织资源使得利用先进的质谱和定量方法来研究人体组织的多种生物学重复样本,并匹配相应的RNA信息成为可能。加深对蛋白质组学的认知可以补充转录组学研究,并能进一步提供有关转录后调控机制以及人类生物学和疾病的见解。
2020年9月10日,来自美国斯坦福大学医学院遗传学系的Michael P. Snyder课题组在Cell杂志上发表题为“A Quantitative Proteome Map of the Human Body”的文章,该研究利用GTEx资源对人体组织进行蛋白质组学分析,并首次应用蛋白质/RNA整合富集信息,鉴定组成型或调节型分泌蛋白质及其合成和作用的位点,证明代谢和能量利用中多个关键器官间存在复杂的相互作用,并提出这一分析可能对遗传性疾病表型和靶向药物副作用的解释和预测具有参考价值。
首先,作者应用TMT 10plex/MS3质谱策略对来自14个正常个体的32种不同组织类型共201个GTEx样品进行蛋白质组学的定量分析,共鉴定12627种蛋白质,平均而言在每种组织类型中都检测到超过7500种蛋白质,其中有6357种蛋白为受检组织类型所共有(见图1)。为确认是否有漏检蛋白类型,与RNA比对后发现,低丰度转录本确有未能检测到的情况,而高丰度转录本仍存在这种遗漏,因而推断蛋白检测并不依赖于转录本丰度,这些“丢失”的蛋白可能归因于转录后调控,蛋白降解或质谱方法的局限性。
图1,基于TMT 10plex和MS3的质谱定量蛋白质组学工作流程
随后,作者根据组织特异性分数来定义组织富集(tissue-enriched)或组织特异性(tissue-specific)蛋白,并发现跨不同组织类型的蛋白共同富集,以及相似组织类型的蛋白差异富集,这些蛋白的共同分布和特异性分布均反映其和富集组织的相应功能。鉴于上述结果中发现的RNA丰度与蛋白质检测水平不一致的情况,作者针对每个基因计算了32种组织中蛋白质和RNA丰度之间的相关性。对于6228 / 12627个基因,其蛋白质与RNA水平在统计学上显着正相关,极少数(60)显示为负相关。其中,有2899/12245种基因仅在RNA水平富集而非蛋白水平,这些数据提示组织特异性表达在蛋白质水平上进一步受到控制,且组织特异性功能仅依据RNA信息来区分往往是不准确的。
作者认为,在某些情况下,RNA与蛋白质之间的不一致可能是由于蛋白质向其他组织的组成型分泌(constitutive secretion)所致。举例而言,在所有组织中,占据最大比例分泌蛋白数量的组织依次是肝脏、脑、动脉、胰腺和垂体。通路分析提示,肝脏分泌的这些蛋白质主要涉及补体激活、凝血、脂质转运和蛋白质定位等。而这些蛋白质富含于动脉,表现出与RNA不一致的表达情况,表明这些蛋白质在肝脏中合成并以组成型分泌的方式转移至血液中。同时,作者还在胰腺,垂体等组织进一步证实了这一观点。这些数据表明蛋白质根据组织差异可能会经历不同的合成和分泌模式。此外,根据通路分析,作者还发现同一代谢途径的蛋白质经常出现在不同的组织中,提示在代谢和能量利用中多个关键器官间存在复杂的相互作用(见图2)。
蛋白质所传达的信息往往可以提供无法通过转录本获得的对潜在疾病机制的见解。作者系统分析了人类孟德尔遗传(Online Mendelian Inheritance in Man, OMIM)目录中列举的与遗传疾病相关的蛋白质表达模式,并发现已知被疾病相关突变破坏的蛋白质富含于表现相应表型的组织。举例而言,Bardet-Biedl综合征(BBS)是一种由至少14个不同基因的突变引起的影响身体许多部位的复杂遗传疾病。BBS引起的视力丧失,多指畸形和肥胖等症状,某些可以通过特定的基因突变来解释,但另一些仍在很大程度上处于未知。作者从11/14 BBS相关基因中检测到蛋白质,七种在脑垂体中富集,五种分别在脑、肌肉、心脏或肝脏中富集。垂体中高度富集的蛋白质异常会广泛影响发育过程,并可能导致在BBS患者中观察到的肥胖,糖尿病或性腺功能低下。而大脑、肌肉、心脏和肝脏中蛋白质的富集也可能导致智力残疾,运动技能延迟以及涉及心脏,肝脏和消化系统的疾病等缺陷。因此,蛋白质组织特异性表达信息可能解释某些基因突变无法解释临床症状。
图2,以BCAA为例解释代谢和能量利用在不同组织间的复杂交互作用
除去对疾病机制的借鉴意义之外,本研究提出了利用蛋白质组织特异性表达信息可以为靶向药物潜在的副作用提供解释和预测。本研究提供的数据共鉴定出1329种潜在的药物靶向蛋白,其中421种已是FDA批准的药物靶向蛋白。在这些靶向蛋白质中,有742个富集于不同的组织中,其中约有一半富集于不止一个组织中。对于在靶器官外富集的靶向蛋白蛋白,药物可能会在靶标外组织中产生副作用。举例而言,丙戊酸是一种众所周知的抗惊厥药,通过抑制大脑中的GABA转氨酶(GABA transaminase, GABAT)发挥作用。而本研究数据表明,GABAT不仅在大脑中高度富集,甚至更富基于肝脏和胰腺,或许可以解释先前所报道的GABAT的抑制药物对肝脏和胰腺毒性的潜在机制。总体而言,蛋白质组织特异性表达信息也为临床上靶向药物已定义的副作用提供解释,以及为可能出现的副作用提供预测和参考意见。
当然,这项研究仍存在以下局限性:1)可能无法检测到表达极低但组织特异性高的蛋白质;2)GTEx组织样本代表细胞类型的混合物。因此,观察到的蛋白质富集/特异性反映了不同细胞类型的复合。随着单细胞蛋白质组学技术的发展,未来的研究可能会表征特定于细胞类型的蛋白质组;3)本研究没有考虑性别和年龄。但是按照组织类型聚类,观察到性别和年龄对检测道德差异影响较小;4)每个组织都有不平衡的生物样本,富集分析将在样品数量有限的组织中受到很大影响。但仍可以从有限数量的生物学样品中可靠地鉴定出许多高度组织特异性的蛋白质,而可能受不均衡的组织样本大小影响的蛋白质往往是在一种/多种组织中轻度富集的蛋白质。
总体而言,在这项研究中作者通过定量分析32种正常人体组织中的蛋白质组,建立RNA与蛋白质的相关性,对同一组织类型中RNA与蛋白质的不一致性作出可能解释,并为蛋白的分泌模式,代谢和能量利用在不同组织中复杂的交互作用,疾病表型和药物靶向等提供参考意见。此外,本研究还鉴定了一组先前未鉴定的蛋白质,并展示大多数检测到的蛋白质均为一种主要同工型,而同工型检测主要受独特肽的数量限制,而不是其表达水平(详情见原文,此处未展开叙述)。因此,这项研究中产生的蛋白质组学信息将预期为人类生物学和疾病提供有价值的见解。
值得一提的是,通讯作者Michael.P.Snyder是斯坦福大学遗传学系主任,2015年当选为美国科学院院士。Snyder Lab是第一个利用大规模功能基因组学研究生物体的实验室,并且已经开发了许多基因组学和蛋白质组学相关技术。Michael也是ENCODE项目的主要参与者之一,同时还是几家生物技术公司的联合创始人,包括Protometrix(现在是Life Tehcnologies的一部分),Affomix(现在是Illumina的一部分),Excelix, Personalis 和Qbio的创始人。
其实验室今年的部分工作有:
重磅!十五篇文章齐发揭开DNA元件百科全书计划ENCODE新阶段(上)
Cell丨梁靓等揭示人类孕期的代谢图谱——血液代谢物准确判断孕期的具体时期和预产期
Cell | 吴思等揭示急性健身运动在分子层次对人体的调控
Nature Genetics | 沉默子不再沉默
原文链接:
https://doi.org/10.1016/j.cell.2020.08.036