ixxmu / mp_duty

抓取网络文章到github issues保存

Home Page:https://archives.duty-machine.now.sh/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

GEO数据上传笔记

ixxmu opened this issue · comments

GEO数据上传笔记 by 生信小知识

GEO数据上传笔记

微信公众号:生信小知识
关注可了解更多的生物信息学教程及知识。问题或建议,请公众号留言;

目录

1. 前言2. 账户注册3. 文件准备3.1 Metadata spreadsheet3.1.1 STUDY3.1.2 SAMPLES3.1.3 PROTOCOLS3.1.4 PAIRED-END  EXPERIMENTS3.2 processed data files3.3 raw data files3.4 MD5文件3.5 metadata文件组织4. Linux端上传数据4.1 GEO端FTP地址获取4.2 使用ncftp工具上传数据4.2.1 ncftp安装4.2.2 工具参数说明4.2.3 数据传输5. metadata文件上传6. 后记

1. 前言

GEO数据上传是现在大多数生物学硕博可能会面临的问题,毕竟现在文章里没个测序数据,都不太好发了。

而GEO数据上传的教程也已经非常多了,我主要是因为之前都是空手套白狼系列,都是从公共数据库里捞数据,自己不生产数据,所以一直没有实践过GEO数据上传。这次正好有个小任务要处理,就趁机记录下关于GEO数据上传的笔记。

2. 账户注册

  1. 我们首先登陆到NCBI官网:https://www.ncbi.nlm.nih.gov/

  2. 点击Submit:

  1. 将页面拉到中下方点击Learn more

  1. 跳转到新的界面,因为我们数据类型是高通量的测序,所以选择“Submit high-throughput sequencing”:

  1. (也可以忽略前面的步骤,直接输入https://www.ncbi.nlm.nih.gov/geo/info/seq.html访问)选择Login登陆自己的NCBI账户:

  1. 选择Login登陆自己的NCBI账户:

  1. 选择登陆方式登陆即可:

  1. 登陆后会自动弹出设置管理员的界面,如下所示。我们需要将带有【*】的位置填写好,并选择save(保存)

  1. 之后我们重新返回到数据提交页面https://www.ncbi.nlm.nih.gov/geo/info/seq.html,便可以看到我们的登陆信息:

3. 文件准备

在文件提交界面,我们可以看到说明里明确表示需要3种文件:

  • a metadata spreadsheet:metadata记录文件详细信息

  • processed data files:处理后的文件,例如bed,bigwig格式

  • raw data files:原始文件,一般为fastq格式

下面我们对每个文件进行详细说明。

在实际操作时,建议先看【4. Linux端上传数据】部分,因为上传数据耗时较长,我们可以先把数据上传着,与此同时再来填写具体的metadata文件。

3.1 Metadata spreadsheet

首先,我们可以在这里下载得到一个模板文件:https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx

在这个模板中,详细记录了不同数据类型需要填写的内容:

虽然有很多很多的内容,但是其实填写起来并不困难,我这里将需要填写的部分做一个标注,大家看了后就就觉得很简单啦。

我以空白模板为例进行说明,整个metadata部分一共分成4部分:

  1. STUDY:这部分是在大方向层面,介绍整个研究的设计

  2. SAMPLES:这部分详细介绍使用的样本情况,包括细胞类型,处理方法等

  3. PROTOCOLS:这部分介绍实验方案,包括建库方法以及生信分析方法等。

  4. PAIRED-END EXPERIMENTS:这部分针对PE数据而言,将R1和R2进行对应。如果是SE数据则无需处理。mESC_CT_ATAC.bw

3.1.1 STUDY

3.1.2 SAMPLES

3.1.3 PROTOCOLS

3.1.4 PAIRED-END  EXPERIMENTS

3.2 processed data files

对于处理后的文件而言,我们需要明确GEO中需要的是:与文章中得出结论直接相关的处理文件(原文:The final processed data are defined as the data on which the conclusions in the related manuscript are based)。

并且在GEO中,官方明确表示不想要比对结果文件(例如 BAMSAMBED 等文件),因为最终的结论是基于比对结果文件进一步分析后得到的。

至于具体上传的数据类型,官方给出了一些例子:

  • RNAseq: 基因表达矩阵文件

  • ChIPseq & ATACseq: WIG, bigWig, bedGraph 格式等

3.3 raw data files

一般来说,GEO需要你上传测序原始的fastq文件即可。

3.4 MD5文件

3.5 metadata文件组织

如果我们有多种数据需要上传,例如RNAseq、ATACseq数据,那么此时对于每种数据都需要准备一个metadata文件,每个metadata文件都有2个sheet:

4. Linux端上传数据

在上传数据前,我们需要组织好我们的文件夹,具体要求如下:

  • 如果只有1种数据,则将所有数据放在一个单独的文件夹中即可

  • 如果有多种数据,则将每种数据单独放在一个文件夹中即可,例如RNAseq,ChIPseq,HiC

  • 文件夹内不要有子文件夹

  • 所有文件的名字必须唯一

上传数据到GEO的方法有很多,大家根据自己的情况选择。考虑到我的数据都存放在服务器中,所以我将会在linux端直接使用ncftpput工具进行上传。

4.1 GEO端FTP地址获取

首先我们需要有一个GEO端的FTP地址,这个可以在网页端通过点击获取。

  1. 我们在数据提交页面https://www.ncbi.nlm.nih.gov/geo/info/seq.html的尾端,可以找到Uploading your submission区域,下面有提示数据提交分2步,先提交数据,再提交metadata文件。我们选择Transfer files

  1. 然后在GEO数据库中创建个人专属空间,点击Create personalized upload space

  1. 最后我们就可以得到GEO端FTP地址,如下所示:

4.2 使用ncftp工具上传数据

我们在网页下端其实也可以看到有关于在Linux端使用ncftpput上传数据的命令模板:

这里我们对ncftpput工具做最简单记录。

4.2.1 ncftp安装
conda install davebx::ncftp
4.2.2 工具参数说明
$ ncftpput
NcFTPPut 3.2.6

Usages:
  ncftpput [flags] remote-host remote-dir local-files...   (mode 1a)

Flags:
  -F     数据传输时使用“被动传输模式” (默认)
  -R     传输整个文件夹及文件夹内的文件
  -z/-Z  允许/不允许断点续传 (默认: -Z 不允许).
  -u XX  用户名
  -p XX  密码
  -P XX  FTP port (默认: 21)
  -t XX  多少秒后认为超时
  -m     在传送数据前尝试建立文件夹
  -v/-V  显示/不显示进展
  -b     后台运行,提交到ncftpbatch后再运行
4.2.3 数据传输

根据上述解读,我们可以写出对应的数据传输命令:

# GEO setting
host=ftp-private.ncbi.nlm.nih.gov
username=geoftp
password=******
personalized_upload_space=******

# the file you want to transfer
local_dir=/PATH/TO/TARGET

nohup ncftpput -F -R -z -u ${username} -p "${password}" ${host} ${personalized_upload_space} ${local_dir} 1>log.txt 2>&1 &

将该脚本放置后台慢慢传送即可。

5. metadata文件上传

  1. 我们首先登陆到数据提交页面:https://www.ncbi.nlm.nih.gov/geo/info/seq.html,选择【Upload metadata】:

  1. 提交metadata文件:

至此我们就完成了数据的提交过程。

6. 后记

GEO数据的上传还是很简单的,大家可以自己去实践操作下~

如果有遇到新的问题,再做更新~