新闻资讯

单细胞测序专题 | monocle2拟时序分析前后结果不一致?带您认识一款新的分析软件PAGA

2022-08-16
中科新生命
1957

1660638739995678.jpg

通过单细胞转录组测序技术得到海量细胞的表达矩阵,可以对细胞亚群做聚类、注释,鉴定亚群marker genes,寻找组间差异调控网络,绘制组织特异性图谱等。在聚类分析中寻找的是细胞间的离散属性,也就是细胞之间的不同,而轨迹分析中寻找的是连续属性,也就是细胞之间的相同之处。为什么细胞的分化既有离散性又有连续性呢?这是一个问题,实际检测是针对每一个细胞进行的,但是细胞的分化是连续的,之所以用分群的方法来解释异质性,然后用轨迹来阐述发育轨迹,实在是一种无奈之举,只能说现实总是残酷的。

1.png

目前进行细胞轨迹分析的方法和软件非常之多,常见的轨迹分析主要是通过monocle软件为代表的拟时序分析(pseudotime analysis)。事实上monocle提供了一套具有启发意义的轨迹方法,通过简单粗暴的方式试图弥补这理想与现实的间隙。在monocle软件里轨迹与图谱是分离的,即TSNE/UMAP的图谱以及另一个降维空间的轨迹。那么有没有一种降维技术能够把两者结合起来呢?今天我们介绍的scanpy的PAGA(graph abstraction reconciles clustering with trajectory inference through a topogy preserving map of single cells)寄希望在保留细胞图谱的基础上完成细胞轨迹的推断,从而在聚类核轨迹上实现了统一。

2.png

图1 基于分区的图抽象生成保留拓扑的单细胞映射

PAGA可以被看作是一种易于解释和稳健的拓扑数据分析方法,通过高维基因表达数据降维后计算邻域关系的相关距离度量来表示kNN图。将kNN图以期望的分辨率进行分区,其中分区表示连续的细胞群(partitions represent groups of connected cells)。为此,可以使用Louvain算法,当然也可以通过其他方式进行分区。接下来,PAGA图通过将一个节点与每个分区关联起来,并通过分区间连同性的统计度量的加权边连接每个节点。然后,通过丢弃低权重的假边,PAGA图揭示了数据在选定分辨率下的去噪拓扑,并揭示了其连接和断开的区域。是不是感觉很绕,简单来说就是,点代表一个细胞类群,两点之间的连线代表两个细胞类群之间有关系,线的长短反映两个细胞类群在聚类图上的位置关系(请选择忽视),线的粗细表示得到的轨迹关系的置信度(请选择重视),线越粗,置信度越高。

接下来,我们一起来看看scanpy中PAGA的效果怎么样吧。

最近,Plass等人利用PAGA对来自21,612个细胞的scRNA-seq数据重建了整个成年动物的细胞谱系。作者研究了使整体连通性最大化的树状子图(通过逆PAGA连通性加权的G∗的最小生成树),同时,作者还展示了如何将PAGA用于生成具有多种分辨率的数据映射图。同流形学习(连接的组织类型以断开或重叠的形式出现)相反,每个映射都保留了数据的拓扑。PAGA的多分辨率功能直接解决探索性数据分析,特别是对于单细胞数据:需要更高细节的区域重新聚类。

3.png

图2 PAGA应用于整个扁虫的图谱

尽管PAGA图中的连接通常对应于实际的生物轨迹,但情况并不总是如此。这是PAGA应用于kNN图的结果,它只包含关于数据拓扑的信息。因此,我们不禁思考,既然每个生命从长远来看所有的细胞都来自一个细胞,是不是在一套数据集中可以设置一个遥远的点作为发育的起点呢?这样是不是更能反映轨迹推断的实际呢?

因此,有人考虑基于RNA速率的有向图,用于存储有关细胞转变的信息。为了实现这一目的,我们将无向的PAGA连接性度量扩展到此类有向图,并使用它来定向PAGA图中的边。由于高维特征空间scRNA-seq数据的特殊性,直接拟合RNA速率向量是很困难的。

PAGA是否能够提供了一种可以提取拓扑信息和RNA速率信息的方法?

接下来,通过对Wagner等人的斑马鱼数据进行分析,将PAGA用来分析斑马鱼胚胎在不同发育时间点收集的53,181个细胞。PAGA图准确地获取了时间进展的链拓扑,并且更容易解释的细胞类型谱系关系。通过对PAGA坐标初始化ForceAtlas2布局自动产生的单细胞数据。将精细细胞类型的PAGA图与的粗线度图进行比较,再现了作者之前的结果。

4.png

图3 PAGA应用于斑马鱼胚胎数据



 小编小结

scRNA-seq近些年的发展对生物医学研究领域产生极大的影响。由此产生的数据集也是海量的,然而,对这些景观(landscape)数据反映细胞异质性和模式的算法分析,仍然面临着巨大的挑战。目前的计算方法通常以如下两种方式之一来解决这一点 :细胞聚类和细胞轨迹分析。虽然前者是大多数单细胞数据分析的基础,而后者可以更好地解释连续表型和过程。PAGA基于图形的分析方法把这两种分析思路进行了统一,先通过Louvain algorithm算法对细胞进行降维,生成低纬度的聚类图,基于聚类图进一步分析不同细胞类群之间的关系。所以,与其说PAGA是轨迹分析图,不如说是轨迹关系图。

5.png