序列比对
Sequence Alignment
定义:
序列比对(sequence alignment)是将两条或多条DNA、RNA或蛋白质序列按位点排列并插入空位(gap)以最大化相同匹配位置的过程。全局比对(Needleman-Wunsch算法)用于全长序列的比较,局部比对(Smith-Waterman算法)用于搜索保守结构域或功能基序。在病毒溯源中,多序列比对是构建系统发育树、鉴定变异位点和定义谱系特异性突变的必要前置步骤。
Needleman-Wunsch算法(1970年)首次将动态规划引入序列比对,将比对问题转化为最优路径搜索。1981年Smith-Waterman对其进行局部化改造,使比对可以聚焦于序列间最相似的片段。在SARS-CoV-2全球基因组监测中,已有数千万条序列经过多序列比对处理。比对质量直接影响下游所有分析——Wuhan-Hu-1参考序列的选择、插入缺失(indel)的处理策略和空位罚分参数的设定,都可能影响系统发育树的拓扑结构和谱系定义。
