原理
TempEst对导入的ML树做root-to-tip回归:以最古老序列为根,计算每个序列到根的遗传距离(替代/位点),然后线性回归遗传距离~采样日期。正的斜率=进化速率估值(替代/位点/年),R²>0.3通常视为足够时间信号支持分子钟分析。回归残差>2 SD的序列被标记为时间异常——可能是元数据错误、重组或非同义选择所致。
步骤
1. 准备输入文件
需要一个已建好的ML树(Newick格式,用IQ-TREE/RAxML生成)和一个采样日期表。日期表为tab分隔格式:序列名\t日期(如2019-12-15,或小数年2019.96)。
2. 加载数据与最佳根选择
tempest --tree ML_tree.nwk --dates dates.txt --output tempest_results
TempEst自动优化根的位置找到R²最大的回归。也可手动指定根序列。
3. 评估结果
检查三项:① R²和相关系数——>0.3合格,<0>|2|的序列,逐一排查元数据错误。
4. 处理异常序列
对离群点:① 核实原始采样日期(常有录入错误);② BLAST验证序列身份(是否交叉污染);③ 检查是否经历了非同义选择压力(dN/dS异常高)。纠正后再跑TempEst验证。
参数选择建议
| 参数 | 推荐值 | 说明 |
|---|---|---|
| Best-fitting root | 开启(默认) | 自动搜索R²最优根 |
| 残差阈值 | 2 SD | 离群点检测严格度,可调至1.5 SD |
| 日期格式 | 小数年(2024.52) | 最高精度,支持YYYY-MM-DD |
FAQ
Q:R²很低(<0>
A:不建议。低R²提示时间信号极弱——突变饱和或采样窗口太窄(<3>
Q:离群点一定要删吗?
A:不删。先查原因——录入错误纠正即可。重组序列必须排除(重组破坏分子钟假设)。非同义选择压力大的序列可保留但在BEAST中设不同分区模型。
Q:TempEst找不到最佳根怎么办?
A:手动指定——挑选采样最早且不在极长枝上的序列为根。BEAST运行时会coupled根,但TempEst需要固定根做回归。选错根会导致R²虚低。
参考文献
- Rambaut A, Lam TT, Max Carvalho L, et al. Exploring the temporal structure of heterochronous sequences using TempEst. Virus Evol. 2016;2(1):vew007. DOI: 10.1093/ve/vew007
- Duchene S, Duchene D, Holmes EC, et al. The Performance of the Date-Randomization Test in Phylogenetic Analyses of Time-Structured Virus Data. Mol Biol Evol. 2015;32(7):1895-1906. DOI: 10.1093/molbev/msv056
