病原体基因溯源数据中心,给您提供权威的行业数据
分类
生物信息分析
试剂盒
不适用
样本类型
FASTQ文件+参考基因组FASTA
预计时间
~10 min/样本(8核)
生物信息分析

BWA-MEM序列比对——病毒重测序数据比对到参考基因组

方法定义:BWA-MEM是病毒重测序数据比对到参考基因组的首选工具,基于种子-延伸(seed-and-extend)算法快速定位最佳匹配。输出SAM/BAM对齐文件供变异检测(bcftools/GATK)和一致序列生成。在病毒溯源中用于将临床样本reads比对到毒株参考序列,鉴定SNP和低频变异。

原理

BWA-MEM采用BWT-FM索引将参考基因组压缩为可快速查询的后缀数组。比对算法分三阶段:种子链生成(SMEM seeding找到参考基因组中的最大精确匹配)、链内扩展(Salvador seeding在种子间做局部比对)、Smith-Waterman精调(对最佳候选区域做完整的带空位全局比对)。病毒基因组极小(<1>

步骤

1. 建立索引

bwa index reference_genome.fasta 生成.fasta.amb/.ann/.bwt/.pac/.sa五个索引文件。病毒参考基因组一次建好,后续反复使用。

2. 比对

bwa mem -t 8 reference_genome.fasta sample_R1.fq.gz sample_R2.fq.gz > aligned.sam -t指定线程,双端数据直接传入两个FASTQ。

3. SAM转BAM并排序

samtools view -bS aligned.sam | samtools sort -@ 8 -o aligned_sorted.bam samtools index aligned_sorted.bam 排序+索引是后续变异检测必需的。SAMtools sort支持多线程。

4. 质控与去duplicate

samtools flagstat aligned_sorted.bam查看比对率和配对率(病毒数据期望>80%)。 picard MarkDuplicates标记PCR duplicates——病毒扩增子数据duplicate率可达30-70%,变异检测前必须标记。

参数选择建议

参数推荐值说明
-M推荐启用将split reads标记为secondary,兼容Picard
-k19最小种子长度,默认19适合100+ bp reads
-t与CPU一致线程数,BWA-MEM多线程效率高

FAQ

Q:比对率很低怎么办(<50>

A:检查参考基因组——可能选了不同亚型或远缘毒株。重新选更接近的参考或做de novo组装。若样本含大量宿主DNA,比对率自然低——宏基因组背景下<10>

Q:BWA-MEM和minimap2怎么选?

A:短读长(<300>1 kb)用minimap2。BWA-MEM在短读长上的比对精度和召回率均最优,minimap2专门优化了长读长overlap搜索。

Q:PCR duplicates必须标记吗?

A:变异检测必须——duplicate导致相同分子的多次测序支持被重复计数,假SNP率飙升。组装不需要标记,duplicates增加覆盖度反而有利。

参考文献

  1. Li H, Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics. 2009;25(14):1754-1760. DOI: 10.1093/bioinformatics/btp324
  2. Li H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv preprint. 2013;1303.3997. arXiv: 1303.3997