病原体基因溯源数据中心,给您提供权威的行业数据
分类
系统发育分析
试剂盒
不适用
样本类型
NEXUS格式比对文件
预计时间
~4-48 h(取决于MCMC链长和序列数)
系统发育分析

MrBayes贝叶斯系统发育——后验概率与拓扑不确定性评估

方法定义:MrBayes通过Metropolis-coupled MCMC算法从后验分布中采样系统发育树,每个分支支持度以真实后验概率(0-100%)呈现。与bootstrap不同,后验概率是对给定数据和模型下该分支真实存在的概率的直接估计。病毒溯源中用于评估关键传播链的统计可靠性。

原理

MrBayes基于贝叶斯定理:P(Tree|Data) ∝ P(Data|Tree) × P(Tree)。通过Metropolis-coupled MCMC(MCMCMC)运行多条马尔可夫链(冷链+加热链),加热链在参数空间中更自由地移动,冷热链间定期交换状态避免陷入局部最优。冷链采样收敛后的树集合即为后验概率分布,每个分支出现在树集合中的频率即为该分支的后验概率。

步骤

1. 数据准备

将FASTA比对转换为NEXUS格式(含MrBayes命令块),或用BEAUti生成后手动添加MrBayes块。数据分Partition(如密码子1+2/3位分开建模)。

2. 设置模型与先验

begin mrbayes;
  lset nst=6 rates=invgamma;
  prset statefreqpr=dirichlet(1,1,1,1);
  mcmc ngen=10000000 samplefreq=1000 nchains=4 nruns=2;
end;
nst=6对应GTR模型,rates=invgamma启用I+G速率异质性。ngen设1000万代,采样间隔1000代。

3. MCMC运行与收敛诊断

mb mrBayes_commands.nex启动双独立run。运行中监控平均标准差分裂频率(ASDSF)——<0>sump命令输出参数trace和ESS。

4. 生成共识树

burn-in前25%样本后:sumt burnin=2500生成50%多数规则 consensus tree。分支支持度以后验概率标注——>0.95为强支持,0.90-0.95为中等,<0>

参数选择建议

参数推荐值说明
ngen10M-50M病毒数据起始10M, 根据ASDSF调整
nchains41冷+3热, 标准配置
samplefreq1000获得至少8000个后burn-in树

FAQ

Q:MrBayes后验概率和ML bootstrap支持率哪个更可靠?

A:后验概率对模型错误设定更敏感——模型偏离数据时后验概率常常高估支持度(接近100%)。ML bootstrap更保守但稳健。两者都>95%时可信度最高;不一致时优先信bootstrap。

Q:MCMC不收敛怎么解?

A:① 加加热链(nchains=8而非4)降低局部卡死;② 增加链长至5-10倍;③ 检查序列中是否有极短的单系分支——移除它们(系统发育散弹枪噪声)。

Q:NEXUS和FASTA选哪个?

A:MrBayes仅接受NEXUS。可用在线转换工具,或用MEGA打开FASTA后导出为NEXUS,内建编码分区(Partition)定义。

参考文献

  1. Ronquist F, Teslenko M, van der Mark P, et al. MrBayes 3.2: Efficient Bayesian Phylogenetic Inference and Model Choice. Syst Biol. 2012;61(3):539-542. DOI: 10.1093/sysbio/sys029
  2. Huelsenbeck JP, Ronquist F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 2001;17(8):754-755. DOI: 10.1093/bioinformatics/17.8.754