使用vsearch进行its扩增子高通量序列分析步骤_its扩增子数据库

209 阅读2分钟

vsearch --fastq_mergepairs fastq_1.fq --reverse fastq_2.fq --fastqout merged.its1.fq --relabel @

label可以按自己喜好,但要注意与后面的label提取对应,一般不建议修改


merge 结果: 注意merged后面的百分数,正常应该比较高,如果远低于其他文献或者自己其他样品,需要注意       



翻转序列,并与原序列合并:  



###翻转序列,并将翻转序列与原序列合并到一个文件 vsearch --fastx_revcomp merged.its1.fq --fastqout merged.its1_rc.fq #多个文件可使用for语句

#翻转完成后直接合并原序列 cat merged.its1.fq merged.its1_rc.fq >mergedFR.its1.fq #或 cat merged.its1{,_rc}.fq>mergedFR.its1.fq ###合并后查看文件大小是否为原来两倍大小


使用python脚本fastq\_strip\_barcode\_relabel2.py提取对应barcode的序列,并重新标记label16s


python脚本参考,大家可自行到usearch或其他地方下载:[扩增子分析中需要使用到的python脚本资源-CSDN文库]( )



###注意python需Python2环境,脚本位置,barcode序列(这里用的是16S其中的典型序列之一,以及样品barcode文件,文件格式间下方: python /py/fastq_strip_barcode_relabel.py mergedFR.its1.fq GCTGCGTTCTTCATCGATGC barcode.txt its > barcode.relabel.its1.fq

###barcode.txt 格式

F_2 AGTTCATACGGC F_3 TCGCTTTAACCT F_4


基于barcode分离出的样品序列单独再次翻转,并加上label后缀



vsearch --fastx_revcomp barcode.relabel.its1.fq --label_suffix _RC --fastqout barcode.relabeled.its1_rc.fq


  再利用反向barcode提取分样:



###这里的反向barcode特征序列和样品barcode按自己实际替换。 python /nfs/sopt/py/fastq_strip_barcode_relabel2.py barcode.relabeled.its1_rc.fq CTTGGTCATTTAGAGGAAGTAA barcode_its_r2.txt its > mergedFR.relabeled2.its1.fq


将同一批不重复样品的所有正反分样的序列合并到一起进行otu分析和物种分类 



###合并所有已标记样品名称的序列 cat mergedFR.relabeled2.its1.fq mergedFR.relabeled2.its1.fq {...} > mergedFR.relabel.its.fq

###fastq过滤,去除读长较短的序列 vsearch --fastq_filter mergedFR.relabel.its.fq --fastq_maxee 0.5 --fastq_minlen 250 --fastq_trunclen 250 --fastq_maxns 1 --fastaout mergedFR.relabel.its.QC.fa

###获取无重复序列unique_seqs vsearch --derep_fulllength mergedFR.relabel.its.QC.fa --sizeout --relabel Uniq --output unique_seqs.fa

###unique序列排序,加速后续分析 vsearch --sortbysize unique_seqs.fa --output sorted.its.fa --minsize 2

###使用unoise3处理输出otu序列和tab表,新版本特性 ###现在版本的vsearch还是alpha版本,所以先用usearch开放版本处理 usearch -unoise3 sorted.its.fa -zotus zotus.fa -tabbedout uniose3.txt

###使用ASVs.fa数据库处理unique序列的otus ###同样使用usearch开放版本处理uniose3聚类模块 usearch -unoise3 unique_seqs.fa -zotus ref_zotus.fa -minsize 9

###数据otu丰度表 vsearch --usearch_global mergedFR.relabel.its.QC.fa --db ref_zotus.fa --id 0.99 --otutabout otus_counts.txt

###使用rdp数据库的classifier进行物种分类,可按服务器实际资源调整内存 java -Xmx8g -jar /rdp_classifier_2.12/dist/classifier.jar classify -g fungalits_unite -c 0.5 -f filterbyconf -o classification.filterbyconf.its.txt ref_zotus.fa


   16S的分析参考: [使用vsearch进行16s扩增子高通量序列分析步骤\_小果运维的博客-CSDN博客]( )