病原体基因溯源数据中心,给您提供权威的行业数据
分类
系统发育分析
试剂盒
不适用
样本类型
FASTA 序列比对文件
预计时间
~30 min–24 h
系统发育分析

最大似然法系统发育树构建——IQ-TREE 完整流程

方法定义:IQ-TREE是目前病毒溯源应用最广的最大似然法建树工具,集成ModelFinder自动模型选择与UFBoot超快Bootstrap。输入多序列比对文件(FASTA),经模型选择、树搜索与Bootstrap输出Newick格式系统发育树。在SARS-CoV-2、埃博拉、禽流感等重大溯源案例中被推荐为首要方法。

原理

最大似然法(ML)是病毒溯源中最核心的系统发育推断方法。核心逻辑是在给定序列比对和进化模型的前提下,搜索使观测数据出现概率最大的树拓扑。与传统邻接法相比,ML对多重替代的统计校正更充分,不易受长枝吸引效应影响。在SARS-CoV-2早期溯源、埃博拉西非暴发等重大案例中,WHO均将ML树作为系统发育主干方法。

步骤

1. 序列比对

输入为FASTA格式的多序列比对文件,推荐MAFFT:mafft --auto --thread 8 input.fasta > aligned.fasta。比对后使用trimAl去除gap比例>50%的列,避免噪声位点干扰模型选择。

2. 进化模型选择

IQ-TREE内置ModelFinder,可从286个候选模型中自动选出BIC最优模型:iqtree2 -s aligned.fasta -m MFP -T AUTO。病毒序列通常选择GTR+F+I+G4。

3. 建树与超快Bootstrap

一步完成ML树搜索和UFBoot2,速度比传统ML+Bootstrap快10-100倍:iqtree2 -s aligned.fasta -m GTR+F+I+G4 -B 1000 -T AUTO。UFBoot≥95%为强支持。

4. 结果解读

输出文件:.treefile(Newick格式ML树)、.ufboot(UFBoot支持率)、.log(运行日志)、.iqtree(完整报告)。溯源语境下关注三点:树根选择是否合理、是否有异常长枝、目标支系支持率是否≥95%。

参数选择建议

参数推荐值说明
-mMFP自动模型选择,首次运行推荐
-B1000UFBoot重抽样,出版级标准
-TAUTO自动检测CPU核心数
--alrt1000追加SH-aLRT双重检验

FAQ

Q:IQ-TREE和RAxML怎么选?

A:两者算法同源,输出等效。IQ-TREE优势在ModelFinder集成和UFBoot速度;RAxML优势在超大规模数据集的MPI并行。病毒溯源场景(通常<5000>

Q:UFBoot值100%是不是过拟合了?

A:不一定。序列高度相似时(暴发早期株间差异<0>

Q:树根怎么选?

A:首选同一病毒属的非暴发谱系作为外群——如分析SARS-CoV-2可用蝙蝠RaTG13。中点生根法在病毒中需谨慎,因其假设分子钟严格成立。

参考文献

  1. Nguyen LT, Schmidt HA, von Haeseler A, et al. IQ-TREE: A Fast and Effective Stochastic Algorithm for Estimating Maximum-Likelihood Phylogenies. Mol Biol Evol. 2015;32(1):268-274. DOI: 10.1093/molbev/msu300
  2. Kalyaanamoorthy S, Minh BQ, Wong TKF, et al. ModelFinder: fast model selection for accurate phylogenetic estimates. Nat Methods. 2017;14(6):587-589. DOI: 10.1038/nmeth.4285
  3. Minh BQ, Nguyen MAT, von Haeseler A. Ultrafast Approximation for Phylogenetic Bootstrap. Mol Biol Evol. 2013;30(5):1188-1195. DOI: 10.1093/molbev/mst024
  4. Felsenstein J. Evolutionary trees from DNA sequences: A maximum likelihood approach. J Mol Evol. 1981;17(6):368-376. DOI: 10.1007/BF01734359