原理
MrBayes基于贝叶斯定理:P(Tree|Data) ∝ P(Data|Tree) × P(Tree)。通过Metropolis-coupled MCMC(MCMCMC)运行多条马尔可夫链(冷链+加热链),加热链在参数空间中更自由地移动,冷热链间定期交换状态避免陷入局部最优。冷链采样收敛后的树集合即为后验概率分布,每个分支出现在树集合中的频率即为该分支的后验概率。
步骤
1. 数据准备
将FASTA比对转换为NEXUS格式(含MrBayes命令块),或用BEAUti生成后手动添加MrBayes块。数据分Partition(如密码子1+2/3位分开建模)。
2. 设置模型与先验
begin mrbayes;
lset nst=6 rates=invgamma;
prset statefreqpr=dirichlet(1,1,1,1);
mcmc ngen=10000000 samplefreq=1000 nchains=4 nruns=2;
end;
nst=6对应GTR模型,rates=invgamma启用I+G速率异质性。ngen设1000万代,采样间隔1000代。
3. MCMC运行与收敛诊断
mb mrBayes_commands.nex启动双独立run。运行中监控平均标准差分裂频率(ASDSF)——<0>sump命令输出参数trace和ESS。
4. 生成共识树
burn-in前25%样本后:sumt burnin=2500生成50%多数规则 consensus tree。分支支持度以后验概率标注——>0.95为强支持,0.90-0.95为中等,<0>
参数选择建议
| 参数 | 推荐值 | 说明 |
|---|---|---|
| ngen | 10M-50M | 病毒数据起始10M, 根据ASDSF调整 |
| nchains | 4 | 1冷+3热, 标准配置 |
| samplefreq | 1000 | 获得至少8000个后burn-in树 |
FAQ
Q:MrBayes后验概率和ML bootstrap支持率哪个更可靠?
A:后验概率对模型错误设定更敏感——模型偏离数据时后验概率常常高估支持度(接近100%)。ML bootstrap更保守但稳健。两者都>95%时可信度最高;不一致时优先信bootstrap。
Q:MCMC不收敛怎么解?
A:① 加加热链(nchains=8而非4)降低局部卡死;② 增加链长至5-10倍;③ 检查序列中是否有极短的单系分支——移除它们(系统发育散弹枪噪声)。
Q:NEXUS和FASTA选哪个?
A:MrBayes仅接受NEXUS。可用在线转换工具,或用MEGA打开FASTA后导出为NEXUS,内建编码分区(Partition)定义。
参考文献
- Ronquist F, Teslenko M, van der Mark P, et al. MrBayes 3.2: Efficient Bayesian Phylogenetic Inference and Model Choice. Syst Biol. 2012;61(3):539-542. DOI: 10.1093/sysbio/sys029
- Huelsenbeck JP, Ronquist F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 2001;17(8):754-755. DOI: 10.1093/bioinformatics/17.8.754
