病原体基因溯源数据中心,给您提供权威的行业数据
分类
系统发育分析
试剂盒
不适用
样本类型
Newick格式ML树+采样日期表
预计时间
~10 min
系统发育分析

TempEst分子钟检验——病毒序列时间信号评估与异常检测

方法定义:TempEst是病毒溯时分析前的质量检验工具,通过线性回归ML树的root-to-tip遗传距离与采样时间,评估序列数据中的时间信号强度。相关系数>0.3提示存在足够的时间信号支持分子钟分析,可同时检测时间异常序列(偏离回归线>2 SD的离群点)。

原理

TempEst对导入的ML树做root-to-tip回归:以最古老序列为根,计算每个序列到根的遗传距离(替代/位点),然后线性回归遗传距离~采样日期。正的斜率=进化速率估值(替代/位点/年),R²>0.3通常视为足够时间信号支持分子钟分析。回归残差>2 SD的序列被标记为时间异常——可能是元数据错误、重组或非同义选择所致。

步骤

1. 准备输入文件

需要一个已建好的ML树(Newick格式,用IQ-TREE/RAxML生成)和一个采样日期表。日期表为tab分隔格式:序列名\t日期(如2019-12-15,或小数年2019.96)。

2. 加载数据与最佳根选择

tempest --tree ML_tree.nwk --dates dates.txt --output tempest_results TempEst自动优化根的位置找到R²最大的回归。也可手动指定根序列。

3. 评估结果

检查三项:① R²和相关系数——>0.3合格,<0>|2|的序列,逐一排查元数据错误。

4. 处理异常序列

对离群点:① 核实原始采样日期(常有录入错误);② BLAST验证序列身份(是否交叉污染);③ 检查是否经历了非同义选择压力(dN/dS异常高)。纠正后再跑TempEst验证。

参数选择建议

参数推荐值说明
Best-fitting root开启(默认)自动搜索R²最优根
残差阈值2 SD离群点检测严格度,可调至1.5 SD
日期格式小数年(2024.52)最高精度,支持YYYY-MM-DD

FAQ

Q:R²很低(<0>

A:不建议。低R²提示时间信号极弱——突变饱和或采样窗口太窄(<3>

Q:离群点一定要删吗?

A:不删。先查原因——录入错误纠正即可。重组序列必须排除(重组破坏分子钟假设)。非同义选择压力大的序列可保留但在BEAST中设不同分区模型。

Q:TempEst找不到最佳根怎么办?

A:手动指定——挑选采样最早且不在极长枝上的序列为根。BEAST运行时会coupled根,但TempEst需要固定根做回归。选错根会导致R²虚低。

参考文献

  1. Rambaut A, Lam TT, Max Carvalho L, et al. Exploring the temporal structure of heterochronous sequences using TempEst. Virus Evol. 2016;2(1):vew007. DOI: 10.1093/ve/vew007
  2. Duchene S, Duchene D, Holmes EC, et al. The Performance of the Date-Randomization Test in Phylogenetic Analyses of Time-Structured Virus Data. Mol Biol Evol. 2015;32(7):1895-1906. DOI: 10.1093/molbev/msv056