生信:一起读官方文档 STAR 篇

411 阅读2分钟

一起读官方文档 STAR 篇

参考文章:

STAR官方文档:physiology.med.cornell.edu/faculty/skr…

不同比对软件的使用:homer.ucsd.edu/homer/basic…

www.jianshu.com/p/5b6dfc954…

STAR介绍

short read aligners(比对器). The key limitation with STAR is computer RAM - STAR requires at least 30 Gb to align to the human or mouse genomes. -- 限制STAR的是设备的内存,可能至少需要30Gb内存。速度极快。

STAR的工作原理主要是首先生成一个“种子”匹配,然后在此基础上进行最佳的比对扩展。这种方法允许STAR在各种剪接点附近快速并准确地比对读数。

STAR使用步骤

STAR标准的工作流程分为2步:

Step 1 - Build a genome index (建立基因组索引)

与所有的比对器软件类似,需要先建立基因组索引。

生成基因组索引

--runThreadN 线程数

--runMode genomeGenerate -> option directs STAR to run genome indices generation job STAR 运行基因组索引生成作业

--genomeDir -> 指定索引存储目录

--genomeFastaFiles -> 制定参考基因组

--sjdbGTFfile -> 制定genomic.gtf文件位置

--sjdbOverhang 100 -> 指定用于构建剪接点数据库的注释连接点周围基因组序列的长度, 默认值100与理想值一样有效。理想情况下,该长度应等于 ReadLength-1,其中 ReadLength 是读取的长度。例如,对于 Illumina 2x100b 双端读取,理想值为 100-1=99。

# STAR建立比对索引:
STAR 
--runThreadN 6 #指定线程数为6 
--runMode genomeGenerate #任务为建立索引
--genomeDir ~/ZYP/RNAseq/reference/index/GRCh38 #指定索引存储目录
--genomeFastaFiles ~/ZYP/RNAseq/reference/genome/hg38.fa #指定参考基因组
--sjdbGTFfile ./genome/genomic.gtf \
--sjdbOverhang 100 #可变剪切预测时使用,默认100,建议设置为reads长度-1


# 流程用
STAR \
--runThreadN 50 \
--runMode genomeGenerate \
--genomeDir ./index \
--genomeFastaFiles ../genome/GCA_014117465.1_ASM1411746v1_genomic.fna \
--sjdbGTFfile ../genome/genomic.gtf \
--sjdbOverhang 100

Step 2 - Align RNA-Seq Reads to the genome with STAR(将RNA-Seq读数与基因组比对

将读数映射到基因组

STAR 
--runThreadN 5 #线程数为5
--genomeDir ~/ZYP/RNAseq/reference/index/GRCh38 #索引位置
--readFilesCommand zcat #读取文件
--readFilesIn ~/ZYP/RNAseq/result/test/sample1/sample1_paired_clean_1.fq.gz ~/ZYP/RNAseq/result/test/sample1/sample1_paired_clean_2.fq.gz
#输入质量过滤后的文件
--outFileNamePrefix ~/ZYP/RNAseq/result/test/sample1/STAR_result/sample1_
#输出文件路径与命名方式
--outSAMtype BAM #输出BAM格式
SortedByCoordinate #基于位置对输出文件排序
--outBAMsortingThreadN 5 #输出文件排序使用线程数为5
--quantMode TranscriptomeSAM #同时生成基于转录本的比对文件
GeneCounts #计数

# 流程用
for i in `tail -n +2 metadata.txt | cut -f1`
do

STAR \
--runThreadN 40 \
--genomeDir ./index \
--readFilesCommand cat \
--readFilesIn clean/${i}_R1.fastq clean/${i}_R2.fastq \
--outFileNamePrefix ./STAR/${i}_ \
--outSAMtype BAM \
SortedByCoordinate \
--outBAMsortingThreadN 10 \
--quantMode TranscriptomeSAM \
GeneCounts

done