原理
FastQC读取FASTQ文件的每条read,对11个维度做统计分析:Basic Statistics(总数/长度/GC%)、Per Base Sequence Quality(碱基位置-Q值曲线)、Per Sequence Quality Scores(reads平均质量分布)、Per Base Sequence Content(ATCG各碱基比例)、Per Sequence GC Content(理论vs观测GC分布)、Overrepresented Sequences(高重复序列/接头)、Adapter Content(接头残留率)等。每项指标用交通灯系统标注:绿(通过)、橙(警告)、红(失败)。
步骤
1. 运行FastQC
对原始FASTQ文件逐样本运行:
fastqc sample_R1.fastq.gz sample_R2.fastq.gz -t 8 -o fastqc_reports/
单端和双端均支持,-t指定线程数。输出每个文件一个HTML报告和一个zip归档。
2. 逐项检查红灯项
重点查三项:Per Base Sequence Quality——Read末端Q值是否<20>5%需切除;Overrepresented Sequences——>0.1%总reads的序列需BLAST查证来源(污染/重复)。
3. 多样本汇总
用MultiQC将所有FastQC报告汇总为单一HTML:
multiqc fastqc_reports/ -o multiqc_report/
可一次性对比全部样本的质量趋势,快速识别异常样本。
4. 决策
绿灯项无需处理。Adapter Content红灯→Trimmomatic切接头。Per Base Quality末端红灯→Trimmomatic切除低质量3'端。Overrepresented Sequences含通用引物→用BBDuk过滤。
参数选择建议
| 参数 | 推荐值 | 说明 |
|---|---|---|
| -t | 与CPU核心数一致 | 每个线程独立处理一个文件 |
| kmer大小 | 5(默认) | 过表达序列kmer检测粒度 |
| 污染序列库 | 适配器+载体+引物FASTA | MultiQC汇总时全量筛查 |
FAQ
Q:FastQC和fastp怎么选?
A:FastQC只做评估不做修改。fastp既评估又自动做去接头和质控过滤。日常流程用fastp一步完成QC+过滤,需要详细诊断时补FastQC。
Q:GC含量双峰正常吗?
A:正常——RNA-seq/rRNA depletion库常见一个rRNA峰(~50% GC)和一个mRNA峰(~45% GC)。但病毒扩增子库出现双峰提示可能混入非特异性扩增产物。
Q:Per Base Quality末端Q值下降严重怎么办?
A:Illumina测序3'端质量自然衰减属正常。Q<20>
参考文献
- Andrews S. FastQC: a quality control tool for high throughput sequence data. 2010. Available at: www.bioinformatics.babraham.ac.uk/projects/fastqc/
- Chen S, Zhou Y, Chen Y, et al. fastp: an ultra-fast all-in-one FASTQ preprocessor. Bioinformatics. 2018;34(17):i884-i890. DOI: 10.1093/bioinformatics/bty560
