手把手教你从GEO下载原始数据和接头序列
发布网友
发布时间:2024-10-19 18:47
我来回答
共1个回答
热心网友
时间:2024-11-29 14:37
GEO,由NCBI维护的基因表达综合数据库,储存了海量高通量测序数据和多种芯片数据,如甲基化、长链非编码RNA等。对于生物信息学研究者而言,如何从GEO获取原始或处理后的数据至关重要。本文将详细介绍一个具体案例,通过跟随某论文中的步骤,从GEO下载数据并提取adapter接头序列,以供学习和参考。
首先,GEO数据类型包括GPL芯片平台、GSM样本ID、GSE研究ID和GDS数据集ID。通常引用的是GSE研究ID。在GEO官网(https://www.ncbi.nlm.nih.gov/geo/),通过GSE ID搜索,你可以找到相应数据。如果需要的是标准化数据,可以直接在Supplementary file的ftp或http链接中下载。
如果需求是原始数据,需点击Relations - SRA的SRX ID,进入SRA页面,选择所需文件,注意文件大小。选择好后,点击“Sent to”选择“File”,并以runinfo格式下载xls表格,其中download-path列包含下载网址。
在服务器上,通过wget命令下载SRA压缩包,如SRR000891273.sralite.1。下载后,使用fastq-dump工具,通过conda的bioconda通道安装并验证,然后执行fastq-dump命令转换成fastq格式,可能需要参数--split-3处理双端数据。
在数据处理的最后阶段,可能需要去除adapter序列。如果SRA文件已去接头,通常可以直接使用;若未去接头,需要查看测序试剂盒说明,如Illumina Nextera DNA Sample prep kit,Illumina官网上提供了所有产品试剂盒的标准接头序列。
找到接头序列后,可以使用cutadapter或其他工具去除原始数据的adapter,完成数据准备,为后续分析做好准备。这个流程简洁实用,希望能帮助你顺利从GEO获取所需的数据。