GEO数据上传笔记
ixxmu opened this issue · comments
GEO数据上传笔记 by 生信小知识
GEO数据上传笔记
微信公众号:生信小知识
关注可了解更多的生物信息学教程及知识。问题或建议,请公众号留言;
目录
1. 前言2. 账户注册3. 文件准备3.1 Metadata spreadsheet3.1.1 STUDY3.1.2 SAMPLES3.1.3 PROTOCOLS3.1.4 PAIRED-END EXPERIMENTS3.2 processed data files3.3 raw data files3.4 MD5文件3.5 metadata文件组织4. Linux端上传数据4.1 GEO端FTP地址获取4.2 使用ncftp工具上传数据4.2.1 ncftp安装4.2.2 工具参数说明4.2.3 数据传输5. metadata文件上传6. 后记
1. 前言
GEO数据上传是现在大多数生物学硕博可能会面临的问题,毕竟现在文章里没个测序数据,都不太好发了。
而GEO数据上传的教程也已经非常多了,我主要是因为之前都是空手套白狼系列,都是从公共数据库里捞数据,自己不生产数据,所以一直没有实践过GEO数据上传。这次正好有个小任务要处理,就趁机记录下关于GEO数据上传的笔记。
2. 账户注册
我们首先登陆到NCBI官网:https://www.ncbi.nlm.nih.gov/
点击Submit:
将页面拉到中下方点击Learn more:
跳转到新的界面,因为我们数据类型是高通量的测序,所以选择“Submit high-throughput sequencing”:
(也可以忽略前面的步骤,直接输入https://www.ncbi.nlm.nih.gov/geo/info/seq.html访问)选择Login登陆自己的NCBI账户:
选择Login登陆自己的NCBI账户:
选择登陆方式登陆即可:
登陆后会自动弹出设置管理员的界面,如下所示。我们需要将带有【*】的位置填写好,并选择save(保存)。
之后我们重新返回到数据提交页面https://www.ncbi.nlm.nih.gov/geo/info/seq.html,便可以看到我们的登陆信息:
3. 文件准备
在文件提交界面,我们可以看到说明里明确表示需要3种文件:
a metadata spreadsheet
:metadata记录文件详细信息processed data files
:处理后的文件,例如bed,bigwig格式raw data files
:原始文件,一般为fastq格式
下面我们对每个文件进行详细说明。
在实际操作时,建议先看【4. Linux端上传数据】部分,因为上传数据耗时较长,我们可以先把数据上传着,与此同时再来填写具体的metadata文件。
3.1 Metadata spreadsheet
首先,我们可以在这里下载得到一个模板文件:https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx
在这个模板中,详细记录了不同数据类型需要填写的内容:
虽然有很多很多的内容,但是其实填写起来并不困难,我这里将需要填写的部分做一个标注,大家看了后就就觉得很简单啦。
我以空白模板为例进行说明,整个metadata部分一共分成4部分:
STUDY
:这部分是在大方向层面,介绍整个研究的设计。SAMPLES
:这部分详细介绍使用的样本情况,包括细胞类型,处理方法等。PROTOCOLS
:这部分介绍实验方案,包括建库方法以及生信分析方法等。PAIRED-END EXPERIMENTS
:这部分针对PE数据而言,将R1和R2进行对应。如果是SE数据则无需处理。mESC_CT_ATAC.bw
3.1.1 STUDY
3.1.2 SAMPLES
3.1.3 PROTOCOLS
3.1.4 PAIRED-END EXPERIMENTS
3.2 processed data files
对于处理后的文件而言,我们需要明确GEO中需要的是:与文章中得出结论直接相关的处理文件(原文:The final processed data are defined as the data on which the conclusions in the related manuscript are based)。
并且在GEO中,官方明确表示不想要比对结果文件(例如 BAM
,SAM
,BED
等文件),因为最终的结论是基于比对结果文件进一步分析后得到的。
至于具体上传的数据类型,官方给出了一些例子:
RNAseq: 基因表达矩阵文件
ChIPseq & ATACseq:
WIG
,bigWig
,bedGraph
格式等
3.3 raw data files
一般来说,GEO需要你上传测序原始的fastq文件即可。
3.4 MD5文件
3.5 metadata文件组织
如果我们有多种数据需要上传,例如RNAseq、ATACseq数据,那么此时对于每种数据都需要准备一个metadata文件,每个metadata文件都有2个sheet:
4. Linux端上传数据
在上传数据前,我们需要组织好我们的文件夹,具体要求如下:
如果只有1种数据,则将所有数据放在一个单独的文件夹中即可
如果有多种数据,则将每种数据单独放在一个文件夹中即可,例如RNAseq,ChIPseq,HiC
文件夹内不要有子文件夹
所有文件的名字必须唯一
上传数据到GEO的方法有很多,大家根据自己的情况选择。考虑到我的数据都存放在服务器中,所以我将会在linux端直接使用ncftpput工具进行上传。
4.1 GEO端FTP地址获取
首先我们需要有一个GEO端的FTP地址,这个可以在网页端通过点击获取。
我们在数据提交页面https://www.ncbi.nlm.nih.gov/geo/info/seq.html的尾端,可以找到Uploading your submission区域,下面有提示数据提交分2步,先提交数据,再提交metadata文件。我们选择Transfer files:
然后在GEO数据库中创建个人专属空间,点击Create personalized upload space:
最后我们就可以得到GEO端FTP地址,如下所示:
4.2 使用ncftp工具上传数据
我们在网页下端其实也可以看到有关于在Linux端使用ncftpput上传数据的命令模板:
这里我们对ncftpput工具做最简单记录。
4.2.1 ncftp安装
conda install davebx::ncftp
4.2.2 工具参数说明
$ ncftpput
NcFTPPut 3.2.6
Usages:
ncftpput [flags] remote-host remote-dir local-files... (mode 1a)
Flags:
-F 数据传输时使用“被动传输模式” (默认)
-R 传输整个文件夹及文件夹内的文件
-z/-Z 允许/不允许断点续传 (默认: -Z 不允许).
-u XX 用户名
-p XX 密码
-P XX FTP port (默认: 21)
-t XX 多少秒后认为超时
-m 在传送数据前尝试建立文件夹
-v/-V 显示/不显示进展
-b 后台运行,提交到ncftpbatch后再运行
4.2.3 数据传输
根据上述解读,我们可以写出对应的数据传输命令:
# GEO setting
host=ftp-private.ncbi.nlm.nih.gov
username=geoftp
password=******
personalized_upload_space=******
# the file you want to transfer
local_dir=/PATH/TO/TARGET
nohup ncftpput -F -R -z -u ${username} -p "${password}" ${host} ${personalized_upload_space} ${local_dir} 1>log.txt 2>&1 &
将该脚本放置后台慢慢传送即可。
5. metadata文件上传
我们首先登陆到数据提交页面:https://www.ncbi.nlm.nih.gov/geo/info/seq.html,选择【Upload metadata】:
提交metadata文件:
至此我们就完成了数据的提交过程。
6. 后记
GEO数据的上传还是很简单的,大家可以自己去实践操作下~
如果有遇到新的问题,再做更新~