一起读官方文档 STAR 篇
参考文章:
STAR官方文档:physiology.med.cornell.edu/faculty/skr…
不同比对软件的使用:homer.ucsd.edu/homer/basic…
STAR介绍
short read aligners(比对器). The key limitation with STAR is computer RAM - STAR requires at least 30 Gb to align to the human or mouse genomes. -- 限制STAR的是设备的内存,可能至少需要30Gb内存。速度极快。
STAR的工作原理主要是首先生成一个“种子”匹配,然后在此基础上进行最佳的比对扩展。这种方法允许STAR在各种剪接点附近快速并准确地比对读数。
STAR使用步骤
STAR标准的工作流程分为2步:
Step 1 - Build a genome index (建立基因组索引)
与所有的比对器软件类似,需要先建立基因组索引。
生成基因组索引:
--runThreadN 线程数
--runMode genomeGenerate -> option directs STAR to run genome indices generation job STAR 运行基因组索引生成作业
--genomeDir -> 指定索引存储目录
--genomeFastaFiles -> 制定参考基因组
--sjdbGTFfile -> 制定genomic.gtf文件位置
--sjdbOverhang 100 -> 指定用于构建剪接点数据库的注释连接点周围基因组序列的长度, 默认值100与理想值一样有效。理想情况下,该长度应等于 ReadLength-1,其中 ReadLength 是读取的长度。例如,对于 Illumina 2x100b 双端读取,理想值为 100-1=99。
# STAR建立比对索引:
STAR
--runThreadN 6 #指定线程数为6
--runMode genomeGenerate #任务为建立索引
--genomeDir ~/ZYP/RNAseq/reference/index/GRCh38 #指定索引存储目录
--genomeFastaFiles ~/ZYP/RNAseq/reference/genome/hg38.fa #指定参考基因组
--sjdbGTFfile ./genome/genomic.gtf \
--sjdbOverhang 100 #可变剪切预测时使用,默认100,建议设置为reads长度-1
# 流程用
STAR \
--runThreadN 50 \
--runMode genomeGenerate \
--genomeDir ./index \
--genomeFastaFiles ../genome/GCA_014117465.1_ASM1411746v1_genomic.fna \
--sjdbGTFfile ../genome/genomic.gtf \
--sjdbOverhang 100
Step 2 - Align RNA-Seq Reads to the genome with STAR(将RNA-Seq读数与基因组比对)
将读数映射到基因组
STAR
--runThreadN 5 #线程数为5
--genomeDir ~/ZYP/RNAseq/reference/index/GRCh38 #索引位置
--readFilesCommand zcat #读取文件
--readFilesIn ~/ZYP/RNAseq/result/test/sample1/sample1_paired_clean_1.fq.gz ~/ZYP/RNAseq/result/test/sample1/sample1_paired_clean_2.fq.gz
#输入质量过滤后的文件
--outFileNamePrefix ~/ZYP/RNAseq/result/test/sample1/STAR_result/sample1_
#输出文件路径与命名方式
--outSAMtype BAM #输出BAM格式
SortedByCoordinate #基于位置对输出文件排序
--outBAMsortingThreadN 5 #输出文件排序使用线程数为5
--quantMode TranscriptomeSAM #同时生成基于转录本的比对文件
GeneCounts #计数
# 流程用
for i in `tail -n +2 metadata.txt | cut -f1`
do
STAR \
--runThreadN 40 \
--genomeDir ./index \
--readFilesCommand cat \
--readFilesIn clean/${i}_R1.fastq clean/${i}_R2.fastq \
--outFileNamePrefix ./STAR/${i}_ \
--outSAMtype BAM \
SortedByCoordinate \
--outBAMsortingThreadN 10 \
--quantMode TranscriptomeSAM \
GeneCounts
done