vsearch --fastq_mergepairs fastq_1.fq --reverse fastq_2.fq --fastqout merged.its1.fq --relabel @
label可以按自己喜好,但要注意与后面的label提取对应,一般不建议修改
merge 结果: 注意merged后面的百分数,正常应该比较高,如果远低于其他文献或者自己其他样品,需要注意
翻转序列,并与原序列合并:
###翻转序列,并将翻转序列与原序列合并到一个文件 vsearch --fastx_revcomp merged.its1.fq --fastqout merged.its1_rc.fq #多个文件可使用for语句
#翻转完成后直接合并原序列 cat merged.its1.fq merged.its1_rc.fq >mergedFR.its1.fq #或 cat merged.its1{,_rc}.fq>mergedFR.its1.fq ###合并后查看文件大小是否为原来两倍大小
使用python脚本fastq\_strip\_barcode\_relabel2.py提取对应barcode的序列,并重新标记label为16s
python脚本参考,大家可自行到usearch或其他地方下载:[扩增子分析中需要使用到的python脚本资源-CSDN文库]( )
###注意python需Python2环境,脚本位置,barcode序列(这里用的是16S其中的典型序列之一,以及样品barcode文件,文件格式间下方: python /py/fastq_strip_barcode_relabel.py mergedFR.its1.fq GCTGCGTTCTTCATCGATGC barcode.txt its > barcode.relabel.its1.fq
###barcode.txt 格式
F_2 AGTTCATACGGC F_3 TCGCTTTAACCT F_4
基于barcode分离出的样品序列单独再次翻转,并加上label后缀
vsearch --fastx_revcomp barcode.relabel.its1.fq --label_suffix _RC --fastqout barcode.relabeled.its1_rc.fq
再利用反向barcode提取分样:
###这里的反向barcode特征序列和样品barcode按自己实际替换。 python /nfs/sopt/py/fastq_strip_barcode_relabel2.py barcode.relabeled.its1_rc.fq CTTGGTCATTTAGAGGAAGTAA barcode_its_r2.txt its > mergedFR.relabeled2.its1.fq
将同一批不重复样品的所有正反分样的序列合并到一起进行otu分析和物种分类
###合并所有已标记样品名称的序列 cat mergedFR.relabeled2.its1.fq mergedFR.relabeled2.its1.fq {...} > mergedFR.relabel.its.fq
###fastq过滤,去除读长较短的序列 vsearch --fastq_filter mergedFR.relabel.its.fq --fastq_maxee 0.5 --fastq_minlen 250 --fastq_trunclen 250 --fastq_maxns 1 --fastaout mergedFR.relabel.its.QC.fa
###获取无重复序列unique_seqs vsearch --derep_fulllength mergedFR.relabel.its.QC.fa --sizeout --relabel Uniq --output unique_seqs.fa
###unique序列排序,加速后续分析 vsearch --sortbysize unique_seqs.fa --output sorted.its.fa --minsize 2
###使用unoise3处理输出otu序列和tab表,新版本特性 ###现在版本的vsearch还是alpha版本,所以先用usearch开放版本处理 usearch -unoise3 sorted.its.fa -zotus zotus.fa -tabbedout uniose3.txt
###使用ASVs.fa数据库处理unique序列的otus ###同样使用usearch开放版本处理uniose3聚类模块 usearch -unoise3 unique_seqs.fa -zotus ref_zotus.fa -minsize 9
###数据otu丰度表 vsearch --usearch_global mergedFR.relabel.its.QC.fa --db ref_zotus.fa --id 0.99 --otutabout otus_counts.txt
###使用rdp数据库的classifier进行物种分类,可按服务器实际资源调整内存 java -Xmx8g -jar /rdp_classifier_2.12/dist/classifier.jar classify -g fungalits_unite -c 0.5 -f filterbyconf -o classification.filterbyconf.its.txt ref_zotus.fa
16S的分析参考: [使用vsearch进行16s扩增子高通量序列分析步骤\_小果运维的博客-CSDN博客]( )