病原体基因溯源数据中心,给您提供权威的行业数据
分类
系统发育分析
试剂盒
不适用
样本类型
FASTA或PHYLIP比对文件
预计时间
~30 min/数据集(200条序列,8核)
系统发育分析

RAxML-NG最大似然系统发育——多核CPU/GPU加速方案

方法定义:RAxML-NG是最大似然系统发育分析的高性能工具,相比IQ-TREE在超大序列集上内存效率和收敛速度更优。支持多核CPU和GPU(CUDA/OpenCL)加速,内建自动模型选择(ModelTest-NG)和多重树搜索策略,是病毒溯源中大规模系统发育的工业级方案。

原理

RAxML-NG是经典的RAxML重写版,专为大规模系统发育推断优化。核心算法采用Lazy Subtree Rearrangement——SPR(Subtree Pruning and Regrafting)搜索树拓扑时不完全重新评估似然值,而是重用部分子树的条件似然值减少计算量。新架构支持Modular Likelihood Computation后台混合模式(CPU+GPU),可完全利用现代计算硬件。

步骤

1. 数据质量检查

raxml-ng --check --msa aligned.fasta --model GTR+G --prefix check 检查比对中是否存在完全不变的列(Constant Sites)和不含信息的gap列。RAxML-NG会报告压缩后的数据统计。

2. 模型选择

raxml-ng --evaluate --msa aligned.fasta --model GTR+G+I --tree parsimony_start.tre --prefix eval --threads 8 可用内建ModelTest-NG替代手动选择。对病毒数据,GTR+G常为最优简化模型。

3. 树搜索+Bootstrap

一步执行ML搜索和bootstrap: raxml-ng --bootstrap --msa aligned.fasta --model GTR+G --threads 8 --seed 12345 更精确的单分支检验使用Transfer Bootstrap Expectation (TBE),对3D图形渲染支持更好。

4. 支持率标注与可视化

raxml-ng --support --tree bestML.tre --bs-trees bootstrap_trees.tre --prefix supported 生成标注了bootstrap/TBE支持率的树。用FigTree或ggtree可视化,支持率标注于分支上方。

参数选择建议

参数推荐值说明
--modelGTR+G核苷酸替代,病毒数据最通用模型
--threadsCPU核心数的80%留20%给系统
bootstrap次数autoMRE自动收敛停止(TBE建议1000+)

FAQ

Q:RAxML-NG和IQ-TREE怎么选?

A:IQ-TREE模型选择更优(286候选模型 vs RAxML有限模型),UFBoot比传统bootstrap快10-100倍。RAxML-NG在大规模数据集(>5000条序列)上内存占用更低、GPU支持更好。日常溯源分析(<1000>

Q:bootstrap支持率低怎么办(<70>

A:病毒短序列(<1000>

Q:GPU加速多少?

A:适中——似然值计算占约70%总时间,GPU(如NVIDIA T4)可加速5-10倍。但SPR搜索的拓扑探索无法GPU化,总体加速约3-5倍。

参考文献

  1. Kozlov AM, Darriba D, Flouri T, et al. RAxML-NG: a fast, scalable and user-friendly tool for maximum likelihood phylogenetic inference. Bioinformatics. 2019;35(21):4453-4455. DOI: 10.1093/bioinformatics/btz305
  2. Stamatakis A. RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies. Bioinformatics. 2014;30(9):1312-1313. DOI: 10.1093/bioinformatics/btu033