最大似然法
Maximum Likelihood
定义:
最大似然法(maximum likelihood)是一种统计推断框架,在给定数据和进化模型的前提下,选择使观测数据出现概率最大的参数值作为估计。在系统发育学中,ML法使用核苷酸或氨基酸替换模型(如GTR+I+G)计算每一棵候选树的似然值,选择似然值最大的树作为最优树。ML法在计算精度上优于距离法和最大简约法,是大规模病毒基因组系统发育分析的常用方法。
1981年Felsenstein发表了系统发育ML法的奠基性论文,使进化树构建从直观推断(heuristic)发展为严格的统计推断。该方法的计算强度曾是其瓶颈——一棵100条序列的树存在约10¹⁸⁰种可能的拓扑结构。现代IQ-TREE和RAxML等软件用快速爬山算法和并行计算突破了这一限制,可在数小时内完成数千条病毒基因组序列的ML树构建。Nextstrain平台的SARS-CoV-2全球系统发育树即基于IQ-TREE的ML框架。
