sajjadasaf / PlantGenomeAnnotation

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

PlantGenomeAnnotation

需要注释的基因组放到一个文件夹下,用到的转录组数据放到另外一个文件加下

step01.yaml 里用绝对路径写基因组的存放位置,转录组的存放位置

genomeAnnotationStep01.smk 做的是 fastp hisat2 samtools stringtie transdecoder 流程生成bam文件用于braker2去训练augustus和genemark transdecoder用于生成用于evm的转录本证据

运行这一步需要用到的软件都可以用conda安装

新建一个叫rnaseq的环境

conda create -n rnaseq

安装软件

conda activate rnaseq
conda install fastp
conda install hisat2
conda install samtools=1.15 # samtools 安装最新版使用的时候总是报错,所以安装的时候指定一个相对比较老的版本
conda install stringtie
conda install transdecoder
conda install snakemake

运行第一步

snakemake -s genomeAnnotationStep01.smk --configfiles=step01.yaml --cores 128 -p

genomeAnnotationStep02.smk 是用上一步转录组生成的bam文件去做braker2

这一步需要用到braker2软件,我单独建了一个环境

conda create -n braker2

然后用mamba去安装braker2

conda activate braker2
conda install mamba
mamba install braker2
mamba install snakemake

运行braker2需要配置genemark

参考一下这个链接 https://www.jianshu.com/p/047216b469e7

运行命令

snakemake -s genomeAnnotationStep02.smk --configfiles=step02.yaml --cores 128 -p

genomeAnnotationStep03.smk 是使用miniprot将蛋白证据比对到基因组,蛋白证据放到同一个文件夹下,miniprot可以直接使用conda安装,我是安装到了第一步rnaseq的环境下

conda activate rnaseq
conda install miniprot

运行命令

snakemake -s genomeAnnotationStep03.smk --configfile=step03.yaml --cores 48 -p

genomeAnnotationStep03_04.smk 是用来生成EVM需要用到的权重文件的,这一步好好想想,应该直接放到step04里

运行命令

snakemake -s genomeAnnotationStep03_04.smk --configfile=step04.yaml --cores 48 -p

genomeAnnotationStep04.smk 就是evm整合各种证据了,evm也可以直接用conda安装,我是新建了EVM环境

conda create -n EVM
conda activate EVM
conda install mamba
mamba install evm
mamba install snakemake

运行命令

snakemake -s genomeAnnotationStep04.smk --configfile=step04.yaml --cores 128 -p

以上内容为运行测试,所以没有准备集群提交任务的脚本,采用的是交互运行的方式进行的,集群提交任务的脚本后续补上

基因从头注释只用到braker2的augustus和genemark结果,注释出来的基因应该会偏少,后续应该再加上其他从头注释软件的一些结果

About


Languages

Language:Python 100.0%