原理
BWA-MEM采用BWT-FM索引将参考基因组压缩为可快速查询的后缀数组。比对算法分三阶段:种子链生成(SMEM seeding找到参考基因组中的最大精确匹配)、链内扩展(Salvador seeding在种子间做局部比对)、Smith-Waterman精调(对最佳候选区域做完整的带空位全局比对)。病毒基因组极小(<1>
步骤
1. 建立索引
bwa index reference_genome.fasta
生成.fasta.amb/.ann/.bwt/.pac/.sa五个索引文件。病毒参考基因组一次建好,后续反复使用。
2. 比对
bwa mem -t 8 reference_genome.fasta sample_R1.fq.gz sample_R2.fq.gz > aligned.sam
-t指定线程,双端数据直接传入两个FASTQ。
3. SAM转BAM并排序
samtools view -bS aligned.sam | samtools sort -@ 8 -o aligned_sorted.bam
samtools index aligned_sorted.bam
排序+索引是后续变异检测必需的。SAMtools sort支持多线程。
4. 质控与去duplicate
samtools flagstat aligned_sorted.bam查看比对率和配对率(病毒数据期望>80%)。
picard MarkDuplicates标记PCR duplicates——病毒扩增子数据duplicate率可达30-70%,变异检测前必须标记。
参数选择建议
| 参数 | 推荐值 | 说明 |
|---|---|---|
| -M | 推荐启用 | 将split reads标记为secondary,兼容Picard |
| -k | 19 | 最小种子长度,默认19适合100+ bp reads |
| -t | 与CPU一致 | 线程数,BWA-MEM多线程效率高 |
FAQ
Q:比对率很低怎么办(<50>
A:检查参考基因组——可能选了不同亚型或远缘毒株。重新选更接近的参考或做de novo组装。若样本含大量宿主DNA,比对率自然低——宏基因组背景下<10>
Q:BWA-MEM和minimap2怎么选?
A:短读长(<300>1 kb)用minimap2。BWA-MEM在短读长上的比对精度和召回率均最优,minimap2专门优化了长读长overlap搜索。
Q:PCR duplicates必须标记吗?
A:变异检测必须——duplicate导致相同分子的多次测序支持被重复计数,假SNP率飙升。组装不需要标记,duplicates增加覆盖度反而有利。
参考文献
- Li H, Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics. 2009;25(14):1754-1760. DOI: 10.1093/bioinformatics/btp324
- Li H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv preprint. 2013;1303.3997. arXiv: 1303.3997
