原理
RAxML-NG是经典的RAxML重写版,专为大规模系统发育推断优化。核心算法采用Lazy Subtree Rearrangement——SPR(Subtree Pruning and Regrafting)搜索树拓扑时不完全重新评估似然值,而是重用部分子树的条件似然值减少计算量。新架构支持Modular Likelihood Computation后台混合模式(CPU+GPU),可完全利用现代计算硬件。
步骤
1. 数据质量检查
raxml-ng --check --msa aligned.fasta --model GTR+G --prefix check
检查比对中是否存在完全不变的列(Constant Sites)和不含信息的gap列。RAxML-NG会报告压缩后的数据统计。
2. 模型选择
raxml-ng --evaluate --msa aligned.fasta --model GTR+G+I --tree parsimony_start.tre --prefix eval --threads 8
可用内建ModelTest-NG替代手动选择。对病毒数据,GTR+G常为最优简化模型。
3. 树搜索+Bootstrap
一步执行ML搜索和bootstrap:
raxml-ng --bootstrap --msa aligned.fasta --model GTR+G --threads 8 --seed 12345
更精确的单分支检验使用Transfer Bootstrap Expectation (TBE),对3D图形渲染支持更好。
4. 支持率标注与可视化
raxml-ng --support --tree bestML.tre --bs-trees bootstrap_trees.tre --prefix supported
生成标注了bootstrap/TBE支持率的树。用FigTree或ggtree可视化,支持率标注于分支上方。
参数选择建议
| 参数 | 推荐值 | 说明 |
|---|---|---|
| --model | GTR+G | 核苷酸替代,病毒数据最通用模型 |
| --threads | CPU核心数的80% | 留20%给系统 |
| bootstrap次数 | autoMRE | 自动收敛停止(TBE建议1000+) |
FAQ
Q:RAxML-NG和IQ-TREE怎么选?
A:IQ-TREE模型选择更优(286候选模型 vs RAxML有限模型),UFBoot比传统bootstrap快10-100倍。RAxML-NG在大规模数据集(>5000条序列)上内存占用更低、GPU支持更好。日常溯源分析(<1000>
Q:bootstrap支持率低怎么办(<70>
A:病毒短序列(<1000>
Q:GPU加速多少?
A:适中——似然值计算占约70%总时间,GPU(如NVIDIA T4)可加速5-10倍。但SPR搜索的拓扑探索无法GPU化,总体加速约3-5倍。
参考文献
- Kozlov AM, Darriba D, Flouri T, et al. RAxML-NG: a fast, scalable and user-friendly tool for maximum likelihood phylogenetic inference. Bioinformatics. 2019;35(21):4453-4455. DOI: 10.1093/bioinformatics/btz305
- Stamatakis A. RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies. Bioinformatics. 2014;30(9):1312-1313. DOI: 10.1093/bioinformatics/btu033
