当前位置: 首页 > news >正文

比R版本快几十倍| Pyscenic单细胞转录因子预测

一、PySCENIC简介

SCENIC(Single-Cell Regulatory Network Inference and Clustering)是一个专门可以用于scRNA-seq数据转录因子推断的分析软件。SCENIC的核心功能是解析scRNA-seq数据中转录因子与其下游靶基因的调控关系,从而揭示每个细胞的调控状态及细胞群的生物学特性,达到辅助推断细胞的状态和功能目的。它的核心分析步骤共分为三步:

第一步:输入表达矩阵和转录因子列表,通过GENIE3(随机森林)或GRNBoost (Gradient Boosting) 方法从scRNA-seq数据推断转录因子与候选靶基因之间的共表达模块

第二步:基于第一步的初始调控网络,根据motif和TF的关系以及motif对基因调控潜能的排序来修剪初始调控网络,最终得到的每个TF及其潜在的直接targets gene称作一个调节因子regulon)

第三步:AUCelll(一文搞定单细胞基因集评分)评估每个regulon在每个细胞里面的活性

关于SCENIC我们做过一系列图文及视频教程,需要scRNA-seq辅导的同学可参考:这下真手把手教你做scRNA-seq数据基础分析

SCENIC转录因子分析:

SCENIC单细胞转录因子预测|1.绪论

SCENIC单细胞转录因子预测|2.学习手册

SCENIC单细胞转录因子预测|3.软件安装与数据准备

SCENIC单细胞转录因子预测|4.精简版流程

SCENIC单细胞转录因子预测|5.step1+step2构建共表达网络与regulon

SCENIC单细胞转录因子预测|6.Step3 利用AUCell对Regulon评分

SCENIC单细胞转录因子预测|7.Step4 二元矩阵的计算与可视化

SCENIC单细胞转录因子预测|8.Step5 regulon聚类、分群、降维

SCENIC单细胞转录因子预测|9.下游探索

SCENIC转录因子调控网络图

遗憾的是R语言版本的SCENIC简直慢到爆,主要限速步骤是GENIE3计算共表达网络,几万个细胞算几周也是常有的事。因此这里我们分享一波PySCENIC的流程,虽然牺牲一波可视化结果,但是计算速度快了几十~上百倍。

本文分析集锦如下:

二、测试文件

点击跳转测试文件

三、软件安装

本教程基于Linux及服务器中的Rstudio环境(足够支持你完成硕博生涯的生信环境)演示,计算资源不足的同学可参考:

生信分析为什么要使用服务器?
足够支持你完成硕博生涯的生信环境
配置一个心仪的工作站(硬件+环境配置)
独享服务器,生信分析不求人

访问链接:https://biomamba.xiyoucloud.net/

首先大家需要先安装conda:生信软件管家——conda的安装、使用、卸载

    # pyscenic环境创建流程conda env remove --name pyscenicconda create -n pyscenic python=3.8.1conda activate pyscenic# !!!!!按照下面的顺序安装,不然可能出现彼此不兼容的报错# 参考:https://www.jianshu.com/p/dc7397fda327pip install numpy==1.19.5pip install pandas==1.3.5pip install numba==0.56.4pip install pyscenic==0.12.1# 检查安装软件版本python -c "import numpy; print(numpy.__version__)"python -c "import pandas; print(pandas.__version__)"python -c "import pyscenic; print(pyscenic.__version__)"pyscenic -hcd /home/cwj/project/09_pyscenic/data# 下载motif排序文件,motif 注释文件和转录因子文件# 以人类基因组hg19版本为参考,转录起始位点(TSS)上下游5kb区域的基因与基序(motifs)的排名数据,数据整合7个物种信息用于评估基因与基序结合可能性,确定转录因子和靶基因间调控关系wget https://resources.aertslab.org/cistarget/databases/homo_sapiens/hg19/refseq_r45/mc9nr/gene_based/hg19-tss-centered-5kb-7species.mc9nr.genes_vs_motifs.rankings.feather# 基序到转录因子的映射关系,通过分析转录因子结合位点基序,识别可能结合特定基序的转录因子。wget https://resources.aertslab.org/cistarget/motif2tf/motifs-v10nr_clust-nr.hgnc-m0.001-o0.0.tbl# 人类基因组中所有转录因子列表wget  https://resources.aertslab.org/cistarget/tf_lists/allTFs_hg38.txt

    四、人源PySCENIC分析流程

    本文略有删减,点击查看原文

    相关文章:

  • 项目日记 -云备份 -服务端配置信息模块
  • 深入解析 Python 正则表达式:全面指南与实战示例
  • Python实现小红书app版爬虫
  • CSS圣杯布局与双飞翼布局
  • WordPress超级菜单插件UberMenu v3.78汉化版
  • NVIDIA TensorRT-LLM:高性能大语言模型推理框架详解
  • AI与.NET技术实操系列(一):开篇
  • CentOS 7 更换 yum 源(阿里云)+ 扩展 epel 源
  • vue3,element-plus 表格单选、多选、反选、全选
  • [深度学习]图像分类项目-食物分类
  • QuecPython 网络协议之TCP/UDP协议最祥解析
  • 实战经验:Gone 框架模块化改造中的 go work 反思
  • 10分钟打造专属AI助手!ToDesk云电脑/顺网云/海马云操作DeepSeek哪家强?
  • 信奥赛CSP-J复赛集训(模拟算法专题)(31):P2692 覆盖
  • 部署Jenkins
  • 提升通信清晰度:通过PoE交换机端口配置语音VLAN
  • CentOS 8.2 上安装 JDK 17 和 Nginx
  • 关于大模型中的Token概念小记
  • 滑动窗口:解决连续区间问题的黄金模板(练习笔记)
  • Elasticsearch:设置向量搜索
  • 幸福航空五一前三天航班取消:客服称目前是锁舱状态,无法确认何时恢复
  • 伊朗港口爆炸最新情况:14死700多伤,大火延烧,调查困难
  • 俄罗斯称已收复库尔斯克州,普京发表讲话
  • 文旅部副部长饶权出任国家文物局局长
  • 习近平在中共中央政治局第二十次集体学习时强调,坚持自立自强,突出应用导向,推动人工智能健康有序发展
  • 中方在IMF发声:美滥施关税威胁全球金融稳定,对新兴市场和发展中国家构成严峻挑战