病原体基因溯源数据中心,给您提供权威的行业数据
分类
系统发育分析
试剂盒
不适用
样本类型
FASTA比对文件+采样日期元数据
预计时间
~2-48 h(取决于MCMC链长)
系统发育分析

BEAST贝叶斯分子钟定年——病毒溯源时间标定方法

方法定义:BEAST通过贝叶斯MCMC采样将序列进化速率和采样时间信息融合,推断MRCA时间和进化速率,是病毒溯源中时间标定的核心工具。输出最大分支可信度树(MCC Tree),每个节点标注后验概率和HPD时间区间,定量回答"病毒何时跨物种传播""暴发起源于何时"。

原理

BEAST将分子钟模型和溯时(time-calibrated)系统发育包装入贝叶斯MCMC框架。核心假设:序列分歧度与采样时间间隔成正比——越早的样本累积越多突变。BEAST用MCMC同时采样树拓扑、替代速率、MRCA时间和群体动态参数(Coalescent Model)的后验分布。序列采样日期作为时间点校准信息,不需要化石或古DNA做外标校准。

步骤

1. 输入准备

用BEAUti导入FASTA比对文件,在Tip Dates面板中导入tab制表符分隔的采样日期表(样本名\t日期)。设置Partition(默认整个比对为一个区段),Site Model选HKY+G或GTR+G,Clock Model首选Relaxed Clock Lognormal。

2. 先验设置

Tree Prior视数据规模选Coalescent Constant Size(单一群体)或Bayesian Skyline(允许群体大小波动)。MCMC链长设100 million,日志采样频率每10000代一次。生成BEAST XML配置文件。

3. MCMC运行

beast -beagle_SSE -threads 8 beast_config.xml -beagle_SSE启用GPU加速(若有)。MCMC运行中ESS值>200视为收敛(在Tracer中检查)。病毒数据集通常2-8小时收敛。

4. 结果后处理

在Tracer中检查ESS和trace图,burn-in取10-20%。TreeAnnotator生成MCC Tree:treeannotator -burnin 10 -heights median tree_file.trees mcc_tree.tree。FigTree可视化MCC树,节点标注后验概率和时间HPD区间。

参数选择建议

参数推荐值说明
Clock ModelRelaxed Clock Lognormal允许谱系间速率变异,最灵活
Tree PriorCoalescent Bayesian Skyline适合暴发数据集(群体大小可变)
MCMC链长100M-500M病毒数据100M起步

FAQ

Q:Relaxed Clock和Strict Clock怎么选?

A:用path sampling/stepping stone做模型比较。暴发病毒数据(<5>

Q:采样日期跨度太短(<1>

A:理论上可以但时间估计的HPD区间会极宽(数月至数年)。建议至少有跨6个月以上的采样,且序列数量>50条。

Q:ESS不收敛怎么办?

A:三招——① 增加MCMC链长至500M-1B;② 简化模型(从GTR降至HKY、从Skyline降至Constant);③ 减少序列数(选代表性毒株而非全部)。

参考文献

  1. Suchard MA, Lemey P, Baele G, et al. Bayesian phylogenetic and phylodynamic data integration using BEAST 1.10. Virus Evol. 2018;4(1):vey016. DOI: 10.1093/ve/vey016
  2. Drummond AJ, Rambaut A. BEAST: Bayesian evolutionary analysis by sampling trees. BMC Evol Biol. 2007;7:214. DOI: 10.1186/1471-2148-7-214