作业1-1

409 阅读2分钟

题目:下载Synechococcus elongatus UTEX 2973(accession no.为GCA_000817325.1 )的基因组注释文件,统计其中染色体序列(CP006471.1)前10kb有几个基因(gene)?

要求:只能使用一行shell命令,并将shell命令写和基因数目写在答案处。


本题可以通过以下几个步骤解决,分别为下载文件,解压文件,处理文件信息。

一、 下载文件

  • 下载文件主要可分为两种方式:

方法一

1. 进入NCBI的官网:National Center for Biotechnology Information (nih.gov)

image.png

2. 按照如下步骤找到相应的文件

  • 点击Download

image.png

  • 点击FTP

image.png

  • 按照以下目录进行查找genomes/all/GCA/000/817/325/GCA_000817325.1_ASM81732v1

image.png

  • 找到基因组注释文件(一般为GFF/GTF格式)

image.png

  • 右键复制网址

image.png

3. 进入linux系统下载文件(利用wget命令)

wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/817/325/GCA_000817325.1_ASM81732v1/GCA_000817325.1_ASM81732v1_genomic.gff.gz

image.png

方法二

1. 在搜索框中输入Synechococcus elongatus UTEX 2973,点击进入

image.png

2. 点击Browse all 1 genomes查看详细基因组信息

image.png

3. 点击ASM81732v1

image.png

4. 点击curl

image.png

5. 复制该命令

image.png

6. 进入Linux系统粘贴上述命令

image.png

二、 解压文件

由于上述两种方法下载的文件格式不同,下面也将分为两部分来解压文件

方法一

1. 使用ls命令查看所下载的文件

image.png

2. 解压该文件(因为文件为gz格式,所以要用gunzip命令解压)

gunzip GCA_000817325.1_ASM81732v1_genomic.gff.gz

image.png

方法二

1. 使用ls命令查看所下载的文件

image.png

2. 解压该文件(该文件为zip格式,所以要用unzip命令解压)

unzip GCF_000817325.1.zip

image.png

3. 找到GFF文件(基因组注释文件)

image.png

三、 处理文件信息

统计其中染色体序列(CP006471.1)10kb有几个基因(gene)
代码如下:

grep '^CP006471.1' GCA_000817325.1_ASM81732v1_genomic.gff |awk -v FS='\t' -v OFS='\t' '{if($5<10000){print $5}}'|sort|uniq|wc -l

image.png 最终统计出染色体序列(CP006471.1)前10kb有9个基因(gene)

以上内容仅供参考