WenchaoLin / Hisat-RNAseq-pipeline

Hisat mapping 流程

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Hisat-RNAseq-pipeline

1、 缘起

2018年9月12日,hyp在学习全基因组RNAseq流程,我便整理此流程希望能有帮助

2、 适用范围:

此pipeline目前只适用pair end双端测序数据, 有参考基因组RNA-seq分析。

3、 依赖的软件或环境:

  • 此pipeline需要用到的软件

4、 我的期望

我希望,此pipeline的用户,在配置过依赖环境和软件后,只需要输入指定输入数据文件夹和输出数据文件夹:

  • --input
  • --output

即可获得:

  • 数据质控结果&图

  • 差异基因列表&图

5、 脚本工作流程

质控- 序列比对-转录本拼接 (可选)-表达定量-差异基因-功能富集-定制分析

5.1、 质控

原始数据的质控,一般包含以下步骤:

  • 测序质量,去除低质量的reads,基于Q20, Q30
  • 有无接头,去掉接头序列
  • 去掉reads两端的低质量序列
    • 左侧13bp
    • 右侧3bp

使用的软件为:fastp

5.2、 序列比对和转录本构建

比对:基于参考基因组的情况下,HISAT2具有最快的比对速度和最准确的拼接。但灵敏度小于STAR。StringTie在基于比对的转录组组装分析下在速度、准确度和 灵敏度都优于Cufflinks;

对于比对和转录组构建,HISAT2-StringTie组合具有更高的准确度和更快的速度。

使用流程:

hisat-StringTie

5.3、 表达定量

  • RPKM

  • FPKM

  • TPM

5.4、 定制分析

5.4.1、 差异基因分析

DESeq2和edgeR可以获得高准确的差异分析。

5.4.2、 RNA融合检测

RNA融合:对于短reads,FushionCatcher是最敏感和精确的工具。对于长reads,IDP-fushion精确度最高。

5.4.3、 可变剪切分析

5.4.4、 KEGG通路分析

5.4.5、 GO分析

About

Hisat mapping 流程


Languages

Language:Python 100.0%