原理
最大似然法(ML)是病毒溯源中最核心的系统发育推断方法。核心逻辑是在给定序列比对和进化模型的前提下,搜索使观测数据出现概率最大的树拓扑。与传统邻接法相比,ML对多重替代的统计校正更充分,不易受长枝吸引效应影响。在SARS-CoV-2早期溯源、埃博拉西非暴发等重大案例中,WHO均将ML树作为系统发育主干方法。
步骤
1. 序列比对
输入为FASTA格式的多序列比对文件,推荐MAFFT:mafft --auto --thread 8 input.fasta > aligned.fasta。比对后使用trimAl去除gap比例>50%的列,避免噪声位点干扰模型选择。
2. 进化模型选择
IQ-TREE内置ModelFinder,可从286个候选模型中自动选出BIC最优模型:iqtree2 -s aligned.fasta -m MFP -T AUTO。病毒序列通常选择GTR+F+I+G4。
3. 建树与超快Bootstrap
一步完成ML树搜索和UFBoot2,速度比传统ML+Bootstrap快10-100倍:iqtree2 -s aligned.fasta -m GTR+F+I+G4 -B 1000 -T AUTO。UFBoot≥95%为强支持。
4. 结果解读
输出文件:.treefile(Newick格式ML树)、.ufboot(UFBoot支持率)、.log(运行日志)、.iqtree(完整报告)。溯源语境下关注三点:树根选择是否合理、是否有异常长枝、目标支系支持率是否≥95%。
参数选择建议
| 参数 | 推荐值 | 说明 |
|---|---|---|
| -m | MFP | 自动模型选择,首次运行推荐 |
| -B | 1000 | UFBoot重抽样,出版级标准 |
| -T | AUTO | 自动检测CPU核心数 |
| --alrt | 1000 | 追加SH-aLRT双重检验 |
FAQ
Q:IQ-TREE和RAxML怎么选?
A:两者算法同源,输出等效。IQ-TREE优势在ModelFinder集成和UFBoot速度;RAxML优势在超大规模数据集的MPI并行。病毒溯源场景(通常<5000>
Q:UFBoot值100%是不是过拟合了?
A:不一定。序列高度相似时(暴发早期株间差异<0>
Q:树根怎么选?
A:首选同一病毒属的非暴发谱系作为外群——如分析SARS-CoV-2可用蝙蝠RaTG13。中点生根法在病毒中需谨慎,因其假设分子钟严格成立。
参考文献
- Nguyen LT, Schmidt HA, von Haeseler A, et al. IQ-TREE: A Fast and Effective Stochastic Algorithm for Estimating Maximum-Likelihood Phylogenies. Mol Biol Evol. 2015;32(1):268-274. DOI: 10.1093/molbev/msu300
- Kalyaanamoorthy S, Minh BQ, Wong TKF, et al. ModelFinder: fast model selection for accurate phylogenetic estimates. Nat Methods. 2017;14(6):587-589. DOI: 10.1038/nmeth.4285
- Minh BQ, Nguyen MAT, von Haeseler A. Ultrafast Approximation for Phylogenetic Bootstrap. Mol Biol Evol. 2013;30(5):1188-1195. DOI: 10.1093/molbev/mst024
- Felsenstein J. Evolutionary trees from DNA sequences: A maximum likelihood approach. J Mol Evol. 1981;17(6):368-376. DOI: 10.1007/BF01734359
