ixxmu / mp_duty

抓取网络文章到github issues保存

Home Page:https://archives.duty-machine.now.sh/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ENCODE数据批量下载-DNase数据

ixxmu opened this issue · comments

ENCODE数据批量下载-DNase数据 by 生信小知识


ENCODE数据批量下载-DNase数据

微信公众号:生信小知识
关注可了解更多的生物信息学教程及知识。问题或建议,请公众号留言;

目录

前言1. 输出结果信息说明2. 脚本记录2.1 脚本1:提取实验ID2.2 脚本2:提取实验组文件信息2.3 脚本3:提取对照组文件信息2.4 脚本4:制作下载数据脚本及md5值提取后记

前言

ENCODE数据库是一个巨大的数据资源,其中包含了各种各样的数据,对于这种数据库,我们一定要好好利用。

利用第一步,先下载数据

ENCODE下载数据时,有一点好就在于,ENCODE的数据整理非常非常规整,让我这种强迫症非常的舒适。与之对应的缺点就是,下载时大家需要摸清楚数据存放的规则,而这个学习起来少说需要1-2天的时间。

根据我对不同数据类型可能需要的信息,我将从ENCODE里下载DNase-seq类型的数据进行了整理,这里记录相关脚本,以备后用。

这部分内容本意是不公开,所以除非极度有兴趣,建议不要付费购买

注意:

  1. 即使购买本脚本,本人也不负责任何售后问题!

  2. 手脚脑袋残疾病患以及盲人严禁购买!

1. 输出结果信息说明

通过爬虫得到与DNase-seq数据有关的信息目前包括:

1. Experiment_ID:实验ID号,一般1个实验ID下会有多个重复数据,可能是生物学重复,也可能是技术重复样本。

2. Accession_ID:fastq文件的文件ID,该ID是唯一存在的。

3. File_name:用于保存文件的文件名。我的一般文件命名规则为:

  • SE数据:${Accession_ID}_DNase_${bio_rep}_${tech_rep}_RR.fq.gz

  • PE数据:${R1_Accession_ID}+${R2_Accession_ID}_DNase_${bio_rep}_${tech_rep}_R1.fq.gz${R1_Accession_ID}+${R2_Accession_ID}_DNase_${bio_rep}_${tech_rep}_R2.fq.gz

    • ${Accession_ID}:表示fastq文件的文件ID

    • ${R1_Accession_ID}:表示R1 fastq文件的文件ID

    • ${R2_Accession_ID}:表示R2 fastq文件的文件ID

    • ${bio_rep}:生物学重复

    • ${tech_rep}:技术重复

4. Download_url:原始fastq格式的文件下载地址。

5. md5:文件的md5值。

6. Other_alias:有的数据来自其他数据库,例如在ENCODE中存放有Roadmap数据库的数据,这里则会展示在其他数据库中可能的名字。

7. Sample_info:对于生物样本的描述,例如 “Homo sapiens male adult (38 years) T-helper 17 primary cell”。

8. Other_ID:有的数据来自其他数据库,例如在GEO数据库中也存放有相同的数据,那么这里则记录对应在GEO数据库中的GSM号。

9. Run_mode:测序运行模式,PE或者SE。

10. Run_length:测序长度。

11. Target:默认为 "DNase"。

12. Control:在DNase中可能的对照样本ID。

13. Biological_replicate:生物学重复。

14. Technical_replicate:技术重复。

15. Experiment_info:文库制备时的一些信息,例如:使用的adapter序列。

所以,通过脚本,我们可以直接获取如下类型信息: