Gene Annotation Pipeline

Steps

Organizing inputs: Naming genomes and RNAseq reads
Mapping RNAseq reads to the genome (STAR)
Calculating genome quality metrics (Assemblethon, BUSCOs) - seprate alt-haplotypes in genome, if any.
Remapping RNAseq reads to primary scaffolds/contigs only (STAR)
Running transcript assembly (Cufflinks, Strawberry, Stringtie, Class2 and Trinity), Splice junctions (Portcullis)
Run ab initio gene prediction (BRAKER)
Map Trinity to genome to generate GFF3 (GMAP)
Pick transcripts for evidence-based predictions (Mikado)
Combine annotations (Mikado and Homology based predictions with ab initio) (GeMoMa)
Identify primary transcripts (TRaCE)
Finalize GFF3 files (custom) and calculate annotation metrics (AGAT, BUSCO)
Perform repeat annotations (EDTA)
Functional Annotations (TBD)