新闻资讯

Nature子刊:历经10年,驱动精准医学的高严格性人类蛋白组蓝图发布

2020-10-26
中科新生命
1940

人类蛋白质组组织(HUPO)于2010年启动了人类蛋白质组计划(HPP),为全球合作、数据共享、质量保证和增强基因组编码蛋白质组的准确注释创建了一个国际框架。在随后的十年中,HPP建立了合作关系,制定了指导方针和指标,并对以前保存的公共数据进行了重新分析,不断扩大人类蛋白质组的覆盖面。

2020年10月20日,在HPP成立十周年之际,HUPO在《Nature Communications》报道并讨论了第一个高严格度HPP蓝图。该蓝图由HPP组装了10年,覆盖了90%以上的人类蛋白质组,这与人类基因组组织(HGP)取得的进展相当。该蓝图提供了基因组学本身无法提供的重要生化和细胞生物学信息,为我们对蛋白质组的动态性质、其修饰以及与人类生物学和疾病的关系的分子理解带来更多的细致信息。同时为诊断、预后、治疗和精准医学应用奠定了更好的基础。

image.png

HPP起源于几个基础的HUPO项目(血浆、肝脏、脑、心血管、肾脏/尿液蛋白质组)。目前,HPP包含两个战略举措--以染色体为中心(C-HPP;25个团队)和以生物/疾病为中心(B/D-HPP;19个团队),结合四个资源支柱支撑【抗体(AB)、质谱(MS)、知识库(KB)和病理学】组成一个战略矩阵。

image.png

图1  HUPO人类蛋白质组计划(HPP)的组织架构

image.png

图2  HPP知识库如何形成、积累及被公共应用


1 关于HPP的战略计划及我国人类肝脏蛋白组项目

HPP包含两个战略计划,以染色体为中心(C-HPP)和以生物学/疾病为中心(B / D-HPP),C-HPP旨在注释所有基因组编码的蛋白质。它探索了以前从未通过质谱或其他分析方法可靠地观察到的蛋白质。而B / D-HPP旨在在一系列生理和病理条件下测量和解释人类蛋白质组数据。它着重于以下方面:(i)阐明生物学/疾病的标志性蛋白质驱动因素,以及(ii)促进新蛋白质组学分析工具的开发,包括基于抗体的方法,以及基于质谱的MRM / PRM方法测定。


值得一提的是B / D-HPP战略计划中的肝脏蛋白质组项目。肝脏蛋白组主要是由我国贺福初院士带领的中国HPP团队(CN-HPP)完成。中国的CN-HPP表征了四种肝细胞类型,强调了获取细胞类型特异性图谱以了解基础生物学/病理学的益处。此外,还进一步绘制了早期肝细胞和肺癌的景观图,产生了癌症亚型改变,其中蛋白质组学特征识别出预后不良的患者和/或受益于靶向治疗的患者。在CN-HPP研究中,他们使用质谱仪以总体解剖分辨率分析了显微解剖的细胞类型揭示肝脏、脑、心脏和胃中的昼夜节律周期和时空蛋白质组表达,并提供资源以更好地了解器官的生物化学、生理学和病理学。


2 关于HPP的资源支持支柱

HPP的战略由四个HPP资源支柱支持,以确保有效的数据生成、集成和实施。

其中质谱资源支持涵盖各种类型的质谱采集数据,包括MALDI、ESI、top-down、bottom-up、DDA、DIA、SRM/MRM/PRM、交联质谱、蛋白翻译后修饰、NC端测序及蛋白互作等。

此外还包括,使用基于抗体的策略来分析蛋白质组的时空特征;以及已经完成的多个图谱库:组织图谱、细胞图谱、病理图谱、血液图谱、大脑图谱和代谢图谱等。

HPP参考知识库为neXtProt。每年将neXtProt版本指定为“HPP发布”。它从UniProtKB / SwissProt接收和整理数据,并从PeptideAtlas、MassIVE添加了MS证据。neXtProt还管理基于抗体的基因组、转录组和其他生物学数据,以创建人类蛋白质组的组装快照。


3 将蛋白质组学转化为精准医学

生物医学研究的一个关键方面在于将发现转化为临床用途。蛋白质测定仍然是诊断的基石。尽管可以诊断性地高精度测量单个蛋白质(即灵敏度和特异性),但是某些测定法由于与包括自身抗体在内的干扰物质的交叉反应而具有较低的特异性(例如甲状腺球蛋白免疫测定法)。基于质谱的SRM / MRM / PRM分析允许同时、准确、灵敏且高度特异性地测量多种蛋白质。此外,据报道,将液质联用与免疫捕获测定结合使用可消除干扰。另外,由于大多数疾病是异质性和多基因的,因此多重蛋白质组学或多组学研究很可能会实现更高的准确性。


  • 以癌症为例

尽管基因组学可以常规地确定高风险、易感性以及与肿瘤负荷和复发相关的方面,但是仍然无法对所有癌症进行有效的靶向癌症治疗。例如,系统的全基因组研究如Pan-Cancer Analysis对来自38种肿瘤类型和正常组织匹配的2600多个全基因组进行了综合分析,发现了许多与癌症相关的基因染色体重排,一些未知的驱动因子,但很少有新的治疗靶标。这主要是因为突变不会自动导致蛋白质组预测的变化,因此很难确定哪些变化是关键的生化驱动程序,而哪些变化不是关键的。

整合基因组和蛋白质组学数据(即蛋白质基因组学)有可能提供对疾病根本原因和机制的见解,包括癌症生物学的标志。这可以促进有效治疗干预的实施。对癌症体细胞突变的功能后果进行蛋白质组学分析的价值有助于缩小大缺失和扩增区域内候选驱动基因的范围。乳腺癌的相关研究还表明,将基因组/转录组数据与蛋白质组/磷酸化分析相结合比任何单独的方法都更具洞察力。值得注意的是,黑素瘤肿瘤基因组BRAF驱动程序突变与相应的蛋白质序列匹配,说明与患者肿瘤的组织病理学和临床元数据一起考虑时,蛋白质组学景观为基因组数据增添了价值。


  • 以SARS-CoV-2病毒学为例

最近导致COVID-19疾病的严重急性呼吸综合征冠状病毒2(SARS-CoV-2)爆发对人类健康和我们的经济构成了重大威胁。大流行强调了我们对病毒病理学的了解,确定支持复制的宿主-病原体相互作用,发现与临床结果相关的生物标志物以及扩大监测范围的需求。

在2003年SARS-CoV-1以及相关的MERS和IBV冠状病毒爆发之后,进行了许多组学研究。CoV-1和CoV-2表面刺突蛋白的细胞表面受体已通过亲和质谱鉴定为血管紧张素转化酶2(ACE2)在最近的一项基于抗体的蛋白质组学的大规模研究中,其主要定位于消化系统,肾脏,心脏,睾丸,胎盘,眼睛和上呼吸道上皮细胞。病毒结合导致气道上皮细胞表达的跨膜丝氨酸蛋白酶TMPRSS2发生蛋白水解,因此,正在研究临床批准的TMPRSS2抑制剂(甲磺酸静效抑制剂)以阻止感染。此外,蛋白质组学已表征了传染性CoV-1病毒颗粒感染期间,宿主细胞的时间变化和病毒诱导的内质网膜重塑成双膜囊泡的病毒复制室。> 500个宿主和14个病毒蛋白与病毒复制酶NPS2关联,突出显示冠状病毒复制中的水泡运输、自噬和剪接蛋白,如果显示CoV-2也是如此,则表明潜在的药物靶标。

基于对冠状病毒感染的了解,最近的蛋白质组学研究集中在SARS-CoV-2上,发现了其他潜在的治疗靶标。质谱和基于阵列的蛋白质组学血清学筛查了潜在的生物标志物和抗感染抗体。已经使用Caco-2细胞开发了临床分离株感染模型结合代谢标记和串联质量标记方法,使用多重质谱技术在感染过程中鉴定出暂时的蛋白质组变化。一致地,感染后宿主水泡运输、翻译、RNA剪接、核苷酸合成和糖酵解途径蛋白被上调,并用抑制剂靶向这些过程揭示了潜在的治疗靶点。此外,亲和力-MS相互作用组研究检查了HEK293T人类细胞中表达的29种SARSCoV-2总蛋白中的26种,表明有69种现有药物值得进一步调查。此外,最近的磷酸化蛋白质组学分析指出通过PTM调节病毒蛋白。

蛋白质组学方法开发血清学检测以及临床前和计算模型系统以评估患者对感染的反应。对无症状/有症状感染,疾病严重程度,再次感染的风险和/或疫苗功效的血清学生物标志物进行了表征。除了不断积累的组学知识外,SARS-CoV-2病理生物学的许多方面还有待进一步探索,包括开发用于临床病毒检测的其他方法,确定感染阶段以及深入了解功能性时空病毒与宿主蛋白的相互作用以及细胞器重塑。例如,最近的研究利用靶向MS进行SARS-CoV-2蛋白质检测和血清学免疫应答的蛋白质组学表征患者样本,可能会支持PCR筛查以评估疾病的严重程度。还可以采用其他蛋白质组学方法来进一步扩展对SARS-CoV-2生物学的理解。其中包括该技术有望鉴定许多SARS-CoV-2蛋白酶底物以及被病毒蛋白水解灭活的那些细胞途径。


4 结论和未来方向

未来的收益来自对健康和疾病特征的详细组学理解。在该文中,HUPO审查了人类蛋白质组公认的高严格性蓝图的构建。从2011年的13,588个到2020年的17,874个PE1,这标志着人类蛋白质组零件清单的完成率超过90%。其中还提供了一些具体的例子,说明蛋白质组学将成为未来生物医学科学发现和精密医学中的一个集成组件(与基因组学和其他组学)。

SARS-CoV-2大流行后世界将有所不同。加速精确医学发展的新范例可能会出现。毫无疑问,这些将涉及使用多学科方法的全球合作(甚至在竞争实体之间),这将使新型诊断测试和精确疗法的快速跟踪成为可能。几乎可以肯定,这些结果将需要有关人类蛋白质组的知识。


5 后记

蛋白质存在证据的严格标准:高严格性(high-stringency)

在HPP的人类蛋白质组蓝图中,有一个非常关键的定义:“高严格性”(high-stringency)。“高严格性”是指用于采集后处理的严格HPP标准,以及从原始MS肽谱数据得出的任何蛋白质推论。高严格性的使用会影响从任何原始MS数据得出的所有蛋白质推论的可靠度。当前的HPP准则至少需要两个独特的匹配肽段,其长度至少为9个氨基酸。肽段必须是非嵌套的,但可能会部分重叠,因此覆盖范围超过18个残基。在肽段和蛋白质水平上,需要说明假阳性率(FDR)的控制,最大允许蛋白质水平FDR为1%。许多先前的研究使用高(质量)准确性的仪器,但在较低的默认设置下进行后续的蛋白质推断鉴定,可能导致错误识别更多假阳性。这“高严格性”与常用的涉及仪器精度的“高精度”是有所不同的。

这一标准中将蛋白质存在(PE)证据归类到五个级别:PE1蛋白存在至少一种明确实验证据(包括质谱鉴定,Edman测序,X射线,纯化的天然蛋白质的核磁共振(NMR)结构,可靠的蛋白质-蛋白质相互作用和/或抗体数据等);PE2蛋白序列只存在相应的转录本(如cDNA,逆转录PCR,northern blotting数据);PE3蛋白序列在亲缘物种中存在同源基因;PE4蛋白仅基于基因的序列,没有其他数据支持;PE5蛋白对应基因编码可疑或者是非编码元件的电子翻译。HPP优先跟踪PE1、2、3、4蛋白质编码条目。PE1级别为高严格性蛋白,PE2、3、4为缺失蛋白。下图展示了HPP数据中PE各级别蛋白条目的变化情况,在过去十年中PE1蛋白数据强势增加,从2011年的13,588增加到2020年的17,874,占比由69.8%上升到90.4%。PE2蛋白因为有转录本信息,一旦neXtProt收录相应mRNA对应的蛋白数据,就可以升级为PE1蛋白。通过对近十年间蛋白分级变化情况分析,发现升级到PE1的缺失蛋白大多属于锌指蛋白、跨膜蛋白、碳水化合物代谢蛋白等家族,而G蛋白偶联受体化学感觉家族蛋白却难以升级(如嗅觉受体,味觉受体等)。

image.png

图3  2011到2020高严格性蛋白变化情况