题目:下载Synechococcus elongatus UTEX 2973(accession no.为GCA_000817325.1 )的基因组注释文件,统计其中染色体序列(CP006471.1)前10kb有几个基因(gene)?
要求:只能使用一行shell命令,并将shell命令写和基因数目写在答案处。
本题可以通过以下几个步骤解决,分别为下载文件,解压文件,处理文件信息。
一、 下载文件
- 下载文件主要可分为两种方式:
方法一
1. 进入NCBI的官网:National Center for Biotechnology Information (nih.gov)
2. 按照如下步骤找到相应的文件
- 点击
Download
- 点击
FTP
- 按照以下目录进行查找
genomes/all/GCA/000/817/325/GCA_000817325.1_ASM81732v1
- 找到基因组注释文件(一般为GFF/GTF格式)
- 右键复制网址
3. 进入linux系统下载文件(利用wget命令)
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/817/325/GCA_000817325.1_ASM81732v1/GCA_000817325.1_ASM81732v1_genomic.gff.gz
方法二
1. 在搜索框中输入Synechococcus elongatus UTEX 2973,点击进入
2. 点击Browse all 1 genomes查看详细基因组信息
3. 点击ASM81732v1
4. 点击curl
5. 复制该命令
6. 进入Linux系统粘贴上述命令
二、 解压文件
由于上述两种方法下载的文件格式不同,下面也将分为两部分来解压文件
方法一
1. 使用ls命令查看所下载的文件
2. 解压该文件(因为文件为gz格式,所以要用gunzip命令解压)
gunzip GCA_000817325.1_ASM81732v1_genomic.gff.gz
方法二
1. 使用ls命令查看所下载的文件
2. 解压该文件(该文件为zip格式,所以要用unzip命令解压)
unzip GCF_000817325.1.zip
3. 找到GFF文件(基因组注释文件)
三、 处理文件信息
统计其中染色体序列(CP006471.1) 前10kb有几个基因(gene)
代码如下:
grep '^CP006471.1' GCA_000817325.1_ASM81732v1_genomic.gff |awk -v FS='\t' -v OFS='\t' '{if($5<10000){print $5}}'|sort|uniq|wc -l
最终统计出染色体序列(CP006471.1)前10kb有
9个基因(gene)