ZhihaoXie / awesome-bioinformatics-tools

A curated list of awesome Bioinformatics software, tools and resources

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

awesome-bioinformatics-tools

A curated list of awesome Bioinformatics software, tools and resources.

一些高校、研究所也有整理软件工具列表,如:

一些论坛也有类似的讨论帖,如 http://seqanswers.com/wiki/Software

我个人推荐一个网站,上面有很多的工具说明:https://omictools.com/

1、质量控制Quality Control

2、reads剪切过滤(trim处理)

3、Reads error correction

Reads error correction相关工具有:SOAPec、ErrorCorrection,这2个都是华大开发的,在 http://soap.genomics.org.cn/soapdenovo.html 均可下载.

更多Reads correction工具见:https://omictools.com/error-correction-category

Reads correction工具:Recommended programs: – HiSeq data: BLESS, Musket, RACER and SGA. – MiSeq data: RACER. – Human data: Musket, RACER and SGA." https://sourceforge.net/projects/musket/

其他类似工具:

4、基因组拼接(Assembly)

K-mer估计:

De novo拼接:

结合reference genome指导拼接:

Ordering contigs against a reference:

病毒组装(virus assembly):

其他与病毒相关的工具: (1)Virus integration detection

更多的组装工具见:http://www.mybiosoftware.com/assembly-tools

组装出来的基因组草图的scaffold需要进一步进行gaps的关闭。进行这样功能的软件有:

Bandage:https://rrwick.github.io/Bandage/ Assembly Graph Visualisation

微生物基因组流程相关软件:https://holtlab.net/2015/02/25/tools-for-bacterial-comparative-genomics/

对基因组错误评估

merge-gbk-records:https://github.com/kblin/merge-gbk-records:Merge multiple GenBank records using a defined spacer sequence

组装流程参考文档:http://vlsci.github.io/lscc_docs/tutorials/assembly/assembly-protocol/#section-2-assembly http://onlinelibrary.wiley.com/doi/10.1111/eva.12178/full https://en.wikipedia.org/wiki/Sequence_assembly

5、EST拼接

6、Alignment比对

Muscle,ClustalW和T-coffee的简单比较:https://www.plob.org/article/4104.html 更多比对软件:https://en.wikipedia.org/wiki/List_of_sequence_alignment_software http://www.ebi.ac.uk/Tools/msa/

多序列比对的格式:http://www.cnblogs.com/tsingke/p/3940074.html 多序列比对 wiki百科:https://en.wikipedia.org/wiki/Multiple_sequence_alignment http://www.docin.com/p-812012331.html

全局比对工具 GASSST:http://www.irisa.fr/symbiose/projects/gassst/ 示例: Gassst -d tmp.fna -i gene_primer_out/Microcystis_aeruginosa.eryG_2.Microcystis_aeruginosa.eryG_2.p3_seqs.fa -o test.gassout -p 80 -m 8 -n 10

蛋白多序列比对转为核酸比对: pal2nal:http://www.bork.embl.de/pal2nal/

7、Short Read Aligners(mapped)

8、SNP/indel calling

9、SV、SNV

FindTranslocations,CNVnator and fermikit

SV、CNV

更多工具见:http://www.knowgene.com/question/8855

相关工具:https://omictools.com/indel-detection-category

遗传变异软件综述:https://academic.oup.com/bib/article/15/2/256/210976/A-survey-of-tools-for-variant-analysis-of-next 一些软件工具列表:http://seqanswers.com/forums/showthread.php?t=43

10、Chip-Seq

11、RNA-Seq

12、Genome visualisers and editors

13、绘图

14、圈图

15、编码基因预测

16、注释流程(pipeline)软件

17、组装后基本数据统计

18、Kmer分析基因大小评估

19、外显子组相关的软件

20、GO注释

21、比较基因组学

22、进化树

23、宏基因组

(1)宏基因组拼接工具

可用的拼接的工具:SOAPdenovo、SPAdes、IDBA、MetaPlatanus、ABySS、CABOG

(2)其他

(3)taxonomic 物种分类

(4)binning

(5)其他一些工具

其他: http://www.360doc.com/content/16/0815/17/35684706_583419969.shtml

微生物生态研究中常用数据库简介:http://www.cnblogs.com/nkwy2012/p/6396435.html

参考: http://msb.embopress.org/content/9/1/666 (一篇综述) http://www.ebiotrade.com/newsf/2014-8/2014814163301250.htm

TaxonKit:https://bioinf.shenwei.me/taxonkit/ Efficient NCBI Taxonomy Toolkit

24、16S微生物多样性

25、基因家族预测

26、全长转录本

27、COG注释

参考:http://diyitui.com/content-1466484195.47288872.html

  • ASpipe(https://sourceforge.net/projects/aspipe/):ASpipe is a pipeline to process GeneSeqer/GMAP alignments and identify alternative splicing (AS) events from the alignments. It requires unix bash, perl 5.0+ with DBI module and MySQL5.0+ to run properly.

28、基因组浏览器

参考:http://www.dxy.cn/bbs/thread/1385361#1385361 Map viewer的使用指南:http://www.dxy.cn/bbs/thread/1385361#1385361

NCBI使用 build 36这样的版本号;而ucsc等使用诸如human genome的hg18,hg19这样的版本号;ensembl呢,有自己的release版本,但是数据采用NCBI的编号。 两种风格的版本号有对应关系,比如human genome: hg19 = GRCh37,或者Build 38 patch release 7对应 GRCh38.p7。

其他工具:

29、pan-genomes analysis

30、转座子

31、抗性基因和毒力因子

工具:

Antimicrobial Resistance Gene Database:

32、质粒序列检测

33、微生物

34、

Genome-to-Genome Distance Calculator (GGDC):http://ggdc.dsmz.de/distcalc2.php 计算calculated DNA–DNA hybridization (DDH) value。

35、

36、

37、IS

38、

39、引物设计

40、

41、

42、甲基化

43、转座因子

44、重复序列分析

拓展:

(1)SSR/STR分型

解决方法如下:

1.首先要确定研究的物种是什么?有很多物种是已经有文献发表的SSR序列,同时又对应的引物序列供参考。这种的比较简单,不用自己设计引物。但尽量选择文献报道,比较多的多态性好的位点。比如:大豆的SSR位点,对应的引物序列也有,但文献一般发表的位点有哪些,哪些位点做了很多研究,多态性比较好,尽量选择这样的位点。

2.所研究的物种,没有文献报道。这样的话,比较麻烦,需要自己开发SSR引物。首先,你要从该物种的基因组序列中,筛选STR位点。具体方法有很多,比较:富集文库的方法,SSR-Hunter软件,等,有很多SSR引物开发的方法和资料。从基因组序列上选择来讲,尽量选择不连锁的位点。筛选出重复序列的位点后,要对位点的多态性检测。最终筛出的位点:不连锁、多态性好、易扩增。

3.ABI3730上,最终上机是检测荧光信号,引物5‘端荧光标记,这个检测量和速度很快,成本高,只有筛好引物,后续批量实验时,再上机。前期引物筛选,还是用普通引物(不带标记),跑PAGE胶,取20个左右样本,大概看下扩增片段,多态性,即可。

首先你要有序列,不知你做的是什么物种。把这些序列输入到在线的:http://www.genomics.ceh.ac.uk/cgi-bin/msatfinder/msatfinder.cgi 网站中,确定微卫星所在的位置;然后在微卫星序列两翼设计引物。

45、viewer

46、pfam工具

47、其他工具

48、基因结构分析

49、数据库

果蝇数据库:http://flybase.org/

酵母数据库:https://www.yeastgenome.org/

下载酵母数据:https://www.yeastgenome.org/download-data

50、一些说明(小技巧)

适合于NGS数据的基因组组装软件

  1. ALLPATHS-LG
  2. Velvet
  3. SOAPdenovo
  4. Bambus2
  5. CABOG
  6. MSR-CA
  7. SGA
  8. VCAKE
  9. SHARCGS
  10. SSAKE
  11. Euler

适合Sanger数据的基因组组装软件

  1. Newbler
  2. Celera
  3. CABOG
  4. Edena
  5. Shorty

组装的算法:

A)overlap/layout/Consensus(OLC)methods (rely on an overlap graph)

软件有:CABOG 、Newbler、Shorty、Edena

B)De Bruijn Graph(DBG) methods(use some form of K-mer graph)\

软件:SOAPdenovo、Euler、Velvet

C)Greey graph alogorithms(use OLC or DBG)

软件:SSAKE、SHARCGS、VCAKE

51、文献检索、下载

(1)Library Genesis

  1. http://gen.lib.rus.ec(该网址速度比较快)
  2. http://libgen.io(该网址速度较慢)
  3. http://libgen.io/scimag/(该网址主要用于检索文章)

(2)Sci-hub

About

A curated list of awesome Bioinformatics software, tools and resources

License:GNU General Public License v3.0