病原体基因溯源数据中心,给您提供权威的行业数据
分类
生物信息分析
试剂盒
不适用
样本类型
FASTQ.gz测序文件
预计时间
~5 min/样本(8核)
生物信息分析

FastQC测序数据质量评估——病毒基因组数据前处理第一步

方法定义:FastQC是每个测序项目开箱必做的质量评估工具。对FASTQ文件生成含碱基质量、GC含量、接头污染、重复序列等11项指标的HTML报告(每项绿/橙/红三级)。病毒溯源项目中先过FastQC筛查低质量样本,避免后续组装和变异检测被污染数据误导。

原理

FastQC读取FASTQ文件的每条read,对11个维度做统计分析:Basic Statistics(总数/长度/GC%)、Per Base Sequence Quality(碱基位置-Q值曲线)、Per Sequence Quality Scores(reads平均质量分布)、Per Base Sequence Content(ATCG各碱基比例)、Per Sequence GC Content(理论vs观测GC分布)、Overrepresented Sequences(高重复序列/接头)、Adapter Content(接头残留率)等。每项指标用交通灯系统标注:绿(通过)、橙(警告)、红(失败)。

步骤

1. 运行FastQC

对原始FASTQ文件逐样本运行: fastqc sample_R1.fastq.gz sample_R2.fastq.gz -t 8 -o fastqc_reports/ 单端和双端均支持,-t指定线程数。输出每个文件一个HTML报告和一个zip归档。

2. 逐项检查红灯项

重点查三项:Per Base Sequence Quality——Read末端Q值是否<20>5%需切除;Overrepresented Sequences——>0.1%总reads的序列需BLAST查证来源(污染/重复)。

3. 多样本汇总

用MultiQC将所有FastQC报告汇总为单一HTML: multiqc fastqc_reports/ -o multiqc_report/ 可一次性对比全部样本的质量趋势,快速识别异常样本。

4. 决策

绿灯项无需处理。Adapter Content红灯→Trimmomatic切接头。Per Base Quality末端红灯→Trimmomatic切除低质量3'端。Overrepresented Sequences含通用引物→用BBDuk过滤。

参数选择建议

参数推荐值说明
-t与CPU核心数一致每个线程独立处理一个文件
kmer大小5(默认)过表达序列kmer检测粒度
污染序列库适配器+载体+引物FASTAMultiQC汇总时全量筛查

FAQ

Q:FastQC和fastp怎么选?

A:FastQC只做评估不做修改。fastp既评估又自动做去接头和质控过滤。日常流程用fastp一步完成QC+过滤,需要详细诊断时补FastQC。

Q:GC含量双峰正常吗?

A:正常——RNA-seq/rRNA depletion库常见一个rRNA峰(~50% GC)和一个mRNA峰(~45% GC)。但病毒扩增子库出现双峰提示可能混入非特异性扩增产物。

Q:Per Base Quality末端Q值下降严重怎么办?

A:Illumina测序3'端质量自然衰减属正常。Q<20>

参考文献

  1. Andrews S. FastQC: a quality control tool for high throughput sequence data. 2010. Available at: www.bioinformatics.babraham.ac.uk/projects/fastqc/
  2. Chen S, Zhou Y, Chen Y, et al. fastp: an ultra-fast all-in-one FASTQ preprocessor. Bioinformatics. 2018;34(17):i884-i890. DOI: 10.1093/bioinformatics/bty560