病原体基因溯源数据中心,给您提供权威的行业数据
分类
生物信息分析
试剂盒
不适用
样本类型
FASTQ.gz文件(经FastQC评估)
预计时间
~10 min/样本(8核)
生物信息分析

Trimmomatic接头与低质量序列过滤——病毒测序数据清洗标准流程

方法定义:Trimmomatic是病毒测序数据清洗的标准工具,执行三步过滤:用滑动窗口扫描切除低质量3'端、基于Palindrome比对去除Illumina接头、过滤掉过短reads。清洗后数据量缩减约5-15%但质量大幅提升,是组装和变异检测必须的前处理步骤。

原理

Trimmomatic用滑动窗口评估局部碱基质量:从Read 5'端开始,4 bp窗口内平均Q值<阈值则截断。接头检测基于Palindrome模式——Read 1和Read 2末端可互补配对即判为接头。支持单端和双端模式,双端模式下配对reads同步过滤,保证下游比对和分析的配对完整性。

步骤

1. 去接头

需提供Illumina适配器FASTA文件: trimmomatic PE sample_R1.fq.gz sample_R2.fq.gz trimmed_R1.fq.gz unpaired_R1.fq.gz trimmed_R2.fq.gz unpaired_R2.fq.gz ILLUMINACLIP:TruSeq3-PE-2.fa:2:30:10:2:keepBothReads 参数含义:seed mismatches=2, palindrome clip threshold=30, simple clip threshold=10, minAdapterLength=2。

2. 滑动窗口修剪

SLIDINGWINDOW:4:20 4 bp窗口平均Q值<20>

3. 去除过短reads

MINLEN:50 丢弃修剪后长度低于50 bp的reads。双端测序中若Read 1/2均>50 bp保留,否则两者一起丢弃。

4. 可选步骤

LEADING:3:切除Read起始端Q<3>

参数选择建议

参数推荐值说明
SLIDINGWINDOW4:20严格标准;若保留率<70>
MINLEN50病毒基因组小,短reads仍有拼接价值
ILLUMINACLIP2:30:10PE数据标准参数

FAQ

Q:Trimmomatic和fastp用哪个?

A:速度上fastp约快2-3倍且有JSON格式QC报告。Trimmomatic更灵活——支持多种接头文件格式、命令行可精确控制每个步骤。批量流水线用fastp,深度调试用Trimmomatic。

Q:去接头后会丢掉多少数据?

A:正常建库<1>5%说明接头浓度过高或文库片段太小导致接头二聚体比例高,需检查建库质量。病毒扩增子库常见2-5%接头残留。

Q:MINLEN设多少合适?

A:至少为读长的一半——2×150 bp测序设MINLEN:50可保留50-75 bp的片段用于拼接。过短(<36>

参考文献

  1. Bolger AM, Lohse M, Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 2014;30(15):2114-2120. DOI: 10.1093/bioinformatics/btu170
  2. Del Fabbro C, Scalabrin S, Morgante M, et al. An Extensive Evaluation of Read Trimming Effects on Illumina NGS Data Analysis. PLoS ONE. 2013;8(12):e85024. DOI: 10.1371/journal.pone.0085024