ENCODE数据批量下载-DNase数据

Question

ixxmu opened this issue 3 months ago · comments

ixxmu · Answer 1 · Thu Feb 29 2024 10:23:41 GMT+0800 (China Standard Time)

ENCODE数据批量下载-DNase数据 by 生信小知识

微信公众号：生信小知识
关注可了解更多的生物信息学教程及知识。问题或建议，请公众号留言;

ENCODE数据库是一个巨大的数据资源，其中包含了各种各样的数据，对于这种数据库，我们一定要好好利用。

利用第一步，先下载数据。

ENCODE下载数据时，有一点好就在于，ENCODE的数据整理非常非常规整，让我这种强迫症非常的舒适。与之对应的缺点就是，下载时大家需要摸清楚数据存放的规则，而这个学习起来少说需要1-2天的时间。

根据我对不同数据类型可能需要的信息，我将从ENCODE里下载DNase-seq类型的数据进行了整理，这里记录相关脚本，以备后用。

这部分内容本意是不公开，所以除非极度有兴趣，建议不要付费购买。
注意：
即使购买本脚本，本人也不负责任何售后问题！
手脚脑袋残疾病患以及盲人严禁购买！

通过爬虫得到与DNase-seq数据有关的信息目前包括：

1. Experiment_ID：实验ID号，一般1个实验ID下会有多个重复数据，可能是生物学重复，也可能是技术重复样本。

2. Accession_ID：fastq文件的文件ID，该ID是唯一存在的。

3. File_name：用于保存文件的文件名。我的一般文件命名规则为：

SE数据：${Accession_ID}_DNase_${bio_rep}_${tech_rep}_RR.fq.gz
PE数据：${R1_Accession_ID}+${R2_Accession_ID}_DNase_${bio_rep}_${tech_rep}_R1.fq.gz，${R1_Accession_ID}+${R2_Accession_ID}_DNase_${bio_rep}_${tech_rep}_R2.fq.gz

4. Download_url：原始fastq格式的文件下载地址。

5. md5：文件的md5值。

6. Other_alias：有的数据来自其他数据库，例如在ENCODE中存放有Roadmap数据库的数据，这里则会展示在其他数据库中可能的名字。

7. Sample_info：对于生物样本的描述，例如 “Homo sapiens male adult (38 years) T-helper 17 primary cell”。

8. Other_ID：有的数据来自其他数据库，例如在GEO数据库中也存放有相同的数据，那么这里则记录对应在GEO数据库中的GSM号。

9. Run_mode：测序运行模式，PE或者SE。

10. Run_length：测序长度。

11. Target：默认为 "DNase"。

12. Control：在DNase中可能的对照样本ID。

13. Biological_replicate：生物学重复。

14. Technical_replicate：技术重复。

15. Experiment_info：文库制备时的一些信息，例如：使用的adapter序列。

所以，通过脚本，我们可以直接获取如下类型信息：