原理
BEAST将分子钟模型和溯时(time-calibrated)系统发育包装入贝叶斯MCMC框架。核心假设:序列分歧度与采样时间间隔成正比——越早的样本累积越多突变。BEAST用MCMC同时采样树拓扑、替代速率、MRCA时间和群体动态参数(Coalescent Model)的后验分布。序列采样日期作为时间点校准信息,不需要化石或古DNA做外标校准。
步骤
1. 输入准备
用BEAUti导入FASTA比对文件,在Tip Dates面板中导入tab制表符分隔的采样日期表(样本名\t日期)。设置Partition(默认整个比对为一个区段),Site Model选HKY+G或GTR+G,Clock Model首选Relaxed Clock Lognormal。
2. 先验设置
Tree Prior视数据规模选Coalescent Constant Size(单一群体)或Bayesian Skyline(允许群体大小波动)。MCMC链长设100 million,日志采样频率每10000代一次。生成BEAST XML配置文件。
3. MCMC运行
beast -beagle_SSE -threads 8 beast_config.xml
-beagle_SSE启用GPU加速(若有)。MCMC运行中ESS值>200视为收敛(在Tracer中检查)。病毒数据集通常2-8小时收敛。
4. 结果后处理
在Tracer中检查ESS和trace图,burn-in取10-20%。TreeAnnotator生成MCC Tree:treeannotator -burnin 10 -heights median tree_file.trees mcc_tree.tree。FigTree可视化MCC树,节点标注后验概率和时间HPD区间。
参数选择建议
| 参数 | 推荐值 | 说明 |
|---|---|---|
| Clock Model | Relaxed Clock Lognormal | 允许谱系间速率变异,最灵活 |
| Tree Prior | Coalescent Bayesian Skyline | 适合暴发数据集(群体大小可变) |
| MCMC链长 | 100M-500M | 病毒数据100M起步 |
FAQ
Q:Relaxed Clock和Strict Clock怎么选?
A:用path sampling/stepping stone做模型比较。暴发病毒数据(<5>
Q:采样日期跨度太短(<1>
A:理论上可以但时间估计的HPD区间会极宽(数月至数年)。建议至少有跨6个月以上的采样,且序列数量>50条。
Q:ESS不收敛怎么办?
A:三招——① 增加MCMC链长至500M-1B;② 简化模型(从GTR降至HKY、从Skyline降至Constant);③ 减少序列数(选代表性毒株而非全部)。
参考文献
- Suchard MA, Lemey P, Baele G, et al. Bayesian phylogenetic and phylodynamic data integration using BEAST 1.10. Virus Evol. 2018;4(1):vey016. DOI: 10.1093/ve/vey016
- Drummond AJ, Rambaut A. BEAST: Bayesian evolutionary analysis by sampling trees. BMC Evol Biol. 2007;7:214. DOI: 10.1186/1471-2148-7-214
