SCENIC: single-cell regulatory network inference and clustering | Nature Methods
【经典文献小组讨论】
刘雅文整理
2024/06
背景:
- 单细胞转录组分析为高分辨率地识别细胞状态和状态之间的转换提供了新的机遇。
- 担心在单细胞水平上,基因表达随机变化可能已经和TF输入的动态部分脱节。
- 作者推断,将顺式调控序列与单细胞基因表达联系起来可以克服丢失和技术变异,从而优化细胞状态的发现和表征。
- 开发了单细胞调控网络推理和聚类(SCENIC)来绘制GRN,然后通过评估每个细胞中GRN的活性来识别隐藏的细胞状态。
一、Highlights
论文摘要:“我们提出了 SCENIC,一种根据单细胞 RNA-seq 数据同时进行基因调控网络重建和细胞状态识别的计算方法 (http://scenic.aertslab.org)。结合肿瘤和大脑的单细胞数,证明了顺式调控分析可用于指导转录因子和细胞状态的识别。 SCENIC 为驱动细胞异质性的机制提供了重要的生物学见解。”
- GRN的结果形式为TF到TG(目标基因)形成的Regulon。(在基因调控网络中,”Regulon”通常指的是一组受单一或一组调控因子控制的基因集合。这些基因共同参与特定的生物学过程或响应特定的环境条件。调控因子可以是转录因子、小RNA分子或其他类型的分子,它们能够直接或间接地影响基因的表达。)
- 使用三组已知工具来计算Cell对应的TF得分。
1. 使用GENIE3鉴定TF-TGs共表达模块。(R包)输入为scRNA-seq数据。
2. 使用RcisTarget对每个共表达模块,预测基因集合TSS附近motif,进一步关联到显著富集的TFs。对第一步形成的共表达模块进行筛选,仅保留具有直接关联的TF-TGs,形成最终的GRN。其中一个TF对应的若干TGs被称为regulons。(R包)
3. 使用AUCell算法打分评价每个细胞中的每个regulons的活性,帮助识别有higher subnetwork actibvity的细胞。The resulting binary activity matrix has reduced dimensionality, which can be useful for downstream analyses。(R包)
- 每个Cell的TF分数向量,相当于cell嵌入,基于其进行后续分析。
二、GRN基本概念
每个GRN包含三种类型的相互作用,即
- 反式调节(TF-TG trans-regulation)—— 转录因子和目标基因
- 顺式调节(RE-TG cis-regulation)——调控元件和目标基因
- TF结合(TF-RE TF-binding)——转录因子和调控元件
三、论文工作的流程图

(a) 在 SCENIC 工作流程中,首先使用 GENIE3 或 GRNBoost 推断 TF 和候选目标基因之间的共表达模块。然后,RcisTarget 识别调节器的结合基序在目标基因上显着富集的模块,并创建仅具有直接目标的调节子。 AUCell 对每个细胞中每个调节子的活性进行评分,从而产生二值化的活性矩阵。细胞状态的预测基于调节子网络的共享活动。
(b) 小鼠大脑的 SCENIC 结果 9 。簇标签对应于参考文献中使用的标签。 主调节器的颜色与其控制的细胞类型相匹配。
(c) 经文献 (A) 证实或具有小鼠基因组信息学 (B) 的大脑表型的 TF;显示了它们相应的富集 DNA 结合基序。
(d) 二元调节子活动矩阵上的 t-SNE。每个单元格都分配有最活跃的 GRN 的颜色。
(e) 该数据集上不同聚类方法的准确性。
四、SCENIC主要算法步骤(流程图a细节)
1.工具GENIE3 (TF-TG的共表达模块)
- GENIE3是一种从基因表达数据推断基因调控网络的方法。
- 使用 TF 的表达作为输入,训练随机森林模型,预测数据集中每个基因的表达。使用不同的模型得出 TF 的权重,测量它们各自与预测每个目标基因表达的相关性。
- GENIE3 的输出是一个表格,其中包含基因、潜在调节因子及其“重要性度量”(IM)。(The output of GENIE3 is a table with the genes, the potential regulators, and their ‘importance measure’ (IM), which represents the weight that the TF (input gene) has in the prediction of the target.)
- 由于 GENIE3 使用随机森林回归,因此允许 TF 与其候选目标之间存在复杂(例如非线性)共表达关系的附加值。
- GENIE3 可在 Python、Matlab 和 R 中使用。
- http://www.montefiore.ulg.ac.be/~huynh-thu/GENIE3.html
2. 工具RCisTarget(Motif enrichment–>TF)
- RcisTarget 是 i-cisTarget 和 iRegulon 基序富集(motif enrichment)框架的新 R/Bioconductor 实现。
- RcisTarget 识别基因列表中丰富的 TF 结合基序(motif)和候选转录因子。
- 基于两个步骤。Step 1,它选择在基因集中基因的转录起始位点 (TSS) 周围显着过度表达的 DNA 基序(motif)。Step 2,对于每个基序和基因集,RcisTarget 预测候选目标基因。
3.工具AUCell(Regulon基因集–>基因集活性)
- AUCell 在单细胞 RNA-seq 数据中识别具有活跃基因调控网络的细胞。
- AUCell 的输入是基因集,输出是每个细胞中基因集的“活性”。
- 在 SCENIC 中,这些基因集是调节子(Regulon),由 TF 及其假定目标TG组成。 (见图a部分)
4. 其他工具
- GRNBoost 基于与 GENIE3 相同:从基因表达矩阵推断每个目标基因的TF,即共表达。然而,GRNBoost 使用 XGBoost 库中的梯度提升机 (GBM) 实现来实现这一点。同样通过提取模型中调节子和基因表达向量的强度,来构成GRN的边。
五、获得细胞嵌入后的验证部分
1. 评估SCENIC性能
- 应用于scRNA-seq数据集(成年小鼠脑细胞,知名细胞类型)。
- 对每个细胞的regulon活动打分,揭示细胞类型
2. 评估SCENIC鲁棒性
- 重分析小鼠脑细胞数据的不同子集:能识别仅由一小部分细胞代表的细胞类型,且与之前被证实过的吻合,准确性比标准分析流程好
- 验证DLX1/2网络
- 分析了一个人类脑的单核RNA-seq数据;SCENIC识别到一簇由DLX1/2驱动的中间神经元(和小鼠中识别的有相同的motif);识别出保守的靶标(包括DLX1自己);
- 将这项跨物种研究拓展到其他细胞:寻常的聚类会有强物种驱动的cluster,但是SCENIC是基于细胞类型的。声称可以克服批次或者技术影响
3. 识别复杂的细胞状态(肿瘤细胞中)
- 少突胶质细胞瘤和黑色素瘤scRNA-seq数据集中识别复杂的细胞状态
- 将扩散图应用到二维SCENIC矩阵中,从干细胞/少突胶质细胞瘤/黑色素瘤细胞样中重构分化轨迹分支。能通过使用生物驱动特征,自动移除肿瘤影响
- 在MITF low状态的melanoma细胞中,SCENIC识别到两个新的TF——NFATC2 and NFIB
- 为进一步探索这两个基因,进行了免疫组织化学实验进行验证,实验说明前者可能真的在细胞中执行特定功能。对MITF和STAT的预测靶标还进行了ChIP-seq数据验证,作为二重验证
六、结果
- SCENIC在小鼠大脑的单细胞RNA测序数据集上的应用,提供了151个regulons,这些regulons对应于显著富集的基序。
- 通过AUCell评分,能够揭示预期的细胞类型和每种细胞类型的潜在主调控因子。
- 对小样本数据具有鲁邦性。采用部分采样数据,或者稀有细胞数据进行实验。
- SCENIC还被应用于人类大脑数据,验证了跨物种的细胞类型和网络活性的稳健性。(Dlx1/2网络在人类和小鼠大脑中的保守性,基因集合存在一定差异,主要是t-SNE分布解释)
- 此外,SCENIC被用于识别胶质瘤和黑色素瘤的复杂细胞状态,揭示了肿瘤特异性突变和复杂基因组异常下的癌症细胞状态。(不同GRN特异的TF,降维之后,不同细胞类型和正常脚趾细胞呈现不同的分化轨迹)
- 对于大数据量数据,一方面可以通过采样来推算GRN,另一方面作者在Apache Spark上实现了GENIE3的新辩题,GRNBoost,利用梯度提升代替了随机森林回归,大大提速GRN推断。
- 包含湿实验,对黑色素瘤培养物种NFATRC2敲低。
建议规模化推断调控网络的两个补充方法:
- 从再抽样的数据集中推断GRN
- 对所有单细胞用AUCell进行打分 可以用GRNBoost,GENIE3的变体,减少推测GRN的时间消耗
七、工作启发
- Regulon(调节子)作为基因集,对GRN的解释角度。
- 通过TF的表达来构成Cell的嵌入。
- 里程碑工作,工作量巨大,生物背景雄厚,分析全面,解读到位。
- 结合了三个已有工具,从方法角度没有很难。
- 很多解读大道至简,从tsne,聚类,富集分析角度解读。
- https://scenic.aertslab.org/ 有三篇递进的工作(网页服务,R,python,protocol),最新的工作考虑了染色体可及性。(SCENIC: single-cell regulatory network inference and clustering NM 2017,A scalable SCENIC workflow for single-cell gene regulatory network analysis NP 2020, SCENIC+: single-cell multiomic inference of enhancers and gene regulatory networks NM 2023)
- 考虑为什么出现单细胞数据GRNs推断范式的改变(从scRNA-seq到scRNA-seq+scATAC-seq),可能是测序数据的大规模爆发。
八、数据
- 成人小鼠大脑的单细胞RNA测序数据集 Mouse cortex and hippocampus. GSE60361
- 用于评估SCENIC的性能,提供了151个regulons,这些regulons对应于显著富集的基序。
- 用于识别预期的细胞类型和每种细胞类型的潜在主调控因子。
- 人类大脑的单核RNA测序数据集 Human neurons.
- 用于在人类数据上验证小鼠大脑数据中识别的Dlx1/2网络。
- 人类和胎儿大脑的单细胞RNA测序数据集 Human brain. GSE67835
- 用于跨物种的细胞类型和网络活性的比较分析。
- 小鼠少突胶质细胞谱系的单细胞RNA测序数据集 Mouse oligodendrocytes. GSE75330
- 用于展示SCENIC在大规模数据集上的应用能力。
- 少突胶质瘤的单细胞RNA测序表达谱数据集 Oligodendroglioma GSE70630
- 用于识别癌症细胞状态,并与标准聚类方法进行比较。
- 黑色素瘤的单细胞RNA测序数据集 Melanoma GSE72056
- 用于识别黑色素瘤中的复杂细胞状态和调控网络,发育轨迹。
- 小鼠视网膜的单细胞RNA测序数据集 Mouse retina GSE63472
- 用于展示SCENIC在超过40,000个单细胞数据集上的扩展性。
- 胚胎小鼠大脑的Chronium Megacell示范数据集 Embryonic mouse brain. 10X Genomics
- 用于展示SCENIC在非常大的数据集上的应用能力。