BEAST贝叶斯分子钟定年——病毒溯源时间标定方法_分析方法论

原理

BEAST将分子钟模型和溯时（time-calibrated）系统发育包装入贝叶斯MCMC框架。核心假设：序列分歧度与采样时间间隔成正比——越早的样本累积越多突变。BEAST用MCMC同时采样树拓扑、替代速率、MRCA时间和群体动态参数（Coalescent Model）的后验分布。序列采样日期作为时间点校准信息，不需要化石或古DNA做外标校准。

步骤

1. 输入准备

用BEAUti导入FASTA比对文件，在Tip Dates面板中导入tab制表符分隔的采样日期表（样本名\t日期）。设置Partition（默认整个比对为一个区段），Site Model选HKY+G或GTR+G，Clock Model首选Relaxed Clock Lognormal。

2. 先验设置

Tree Prior视数据规模选Coalescent Constant Size（单一群体）或Bayesian Skyline（允许群体大小波动）。MCMC链长设100 million，日志采样频率每10000代一次。生成BEAST XML配置文件。

3. MCMC运行

beast -beagle_SSE -threads 8 beast_config.xml -beagle_SSE启用GPU加速（若有）。MCMC运行中ESS值>200视为收敛（在Tracer中检查）。病毒数据集通常2-8小时收敛。

4. 结果后处理

在Tracer中检查ESS和trace图，burn-in取10-20%。TreeAnnotator生成MCC Tree：treeannotator -burnin 10 -heights median tree_file.trees mcc_tree.tree。FigTree可视化MCC树，节点标注后验概率和时间HPD区间。

参数选择建议

参数	推荐值	说明
Clock Model	Relaxed Clock Lognormal	允许谱系间速率变异，最灵活
Tree Prior	Coalescent Bayesian Skyline	适合暴发数据集（群体大小可变）
MCMC链长	100M-500M	病毒数据100M起步

FAQ

Q：Relaxed Clock和Strict Clock怎么选？

A：用path sampling/stepping stone做模型比较。暴发病毒数据（<5>

Q：采样日期跨度太短（<1>

A：理论上可以但时间估计的HPD区间会极宽（数月至数年）。建议至少有跨6个月以上的采样，且序列数量>50条。

Q：ESS不收敛怎么办？

A：三招——① 增加MCMC链长至500M-1B；② 简化模型（从GTR降至HKY、从Skyline降至Constant）；③ 减少序列数（选代表性毒株而非全部）。

参考文献

Suchard MA, Lemey P, Baele G, et al. Bayesian phylogenetic and phylodynamic data integration using BEAST 1.10. Virus Evol. 2018;4(1):vey016. DOI: 10.1093/ve/vey016
Drummond AJ, Rambaut A. BEAST: Bayesian evolutionary analysis by sampling trees. BMC Evol Biol. 2007;7:214. DOI: 10.1186/1471-2148-7-214