原理
Trimmomatic用滑动窗口评估局部碱基质量:从Read 5'端开始,4 bp窗口内平均Q值<阈值则截断。接头检测基于Palindrome模式——Read 1和Read 2末端可互补配对即判为接头。支持单端和双端模式,双端模式下配对reads同步过滤,保证下游比对和分析的配对完整性。
步骤
1. 去接头
需提供Illumina适配器FASTA文件:
trimmomatic PE sample_R1.fq.gz sample_R2.fq.gz trimmed_R1.fq.gz unpaired_R1.fq.gz trimmed_R2.fq.gz unpaired_R2.fq.gz ILLUMINACLIP:TruSeq3-PE-2.fa:2:30:10:2:keepBothReads
参数含义:seed mismatches=2, palindrome clip threshold=30, simple clip threshold=10, minAdapterLength=2。
2. 滑动窗口修剪
SLIDINGWINDOW:4:20
4 bp窗口平均Q值<20>
3. 去除过短reads
MINLEN:50
丢弃修剪后长度低于50 bp的reads。双端测序中若Read 1/2均>50 bp保留,否则两者一起丢弃。
4. 可选步骤
LEADING:3:切除Read起始端Q<3>
参数选择建议
| 参数 | 推荐值 | 说明 |
|---|---|---|
| SLIDINGWINDOW | 4:20 | 严格标准;若保留率<70> |
| MINLEN | 50 | 病毒基因组小,短reads仍有拼接价值 |
| ILLUMINACLIP | 2:30:10 | PE数据标准参数 |
FAQ
Q:Trimmomatic和fastp用哪个?
A:速度上fastp约快2-3倍且有JSON格式QC报告。Trimmomatic更灵活——支持多种接头文件格式、命令行可精确控制每个步骤。批量流水线用fastp,深度调试用Trimmomatic。
Q:去接头后会丢掉多少数据?
A:正常建库<1>5%说明接头浓度过高或文库片段太小导致接头二聚体比例高,需检查建库质量。病毒扩增子库常见2-5%接头残留。
Q:MINLEN设多少合适?
A:至少为读长的一半——2×150 bp测序设MINLEN:50可保留50-75 bp的片段用于拼接。过短(<36>
参考文献
- Bolger AM, Lohse M, Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 2014;30(15):2114-2120. DOI: 10.1093/bioinformatics/btu170
- Del Fabbro C, Scalabrin S, Morgante M, et al. An Extensive Evaluation of Read Trimming Effects on Illumina NGS Data Analysis. PLoS ONE. 2013;8(12):e85024. DOI: 10.1371/journal.pone.0085024
