哥本哈根大学张超助理教授应邀访问并作学术报告

2024年12月18日上午,受蛋白质与植物基因研究国家重点实验室张蔚研究员邀请,来自哥本哈根大学(University of Copenhagen)的张超助理教授在北京大学吕志和楼B101报告厅带来了题为“Phylogenomic inference and ancient gene flow detection algorithms“的精彩报告。

推断物种之间的系统发育关系是演化生物学领域的核心问题之一。然而由于长枝吸引和不完全谱系分选(incomplete lineage sorting)等现象的存在,基于序列数据推断物种树仍然面临着重大挑战。具体而言,解析物种树通常可使用两种方法,其中一种是“直接法”,即将全部数据串联连接为一个数据矩阵,进而通过最大似然等算法进行系统发育推断,其存在计算资源消耗大和由于基因组内部演化历史不一致带来的系统偏差;而“间接法”则是首先对基因片段构建基因树,再根据大量基因树推断物种树,其理论基础是频率最高的基因树代表了无偏的物种树。

张超老师首先介绍了“间接法”算法ASTRAL和weighted ASTRAL。由于推断基因树时序列长度通常较短,推断结果可能与真实系统发育关系之间存在偏差。而在“间接法”算法中,输入基因树中的错误也会造成输出物种树的错误。在模拟数据集上的评估显示,当输入基因树错误率较低时,ASTRAL方法的错误率低于直接利用最大似然法建树;但当基因树错误率升高时,ASTRAL方法的误差可能更大。去除基因树中支持度较低的节点或者以分支长度或支持度作为权重进行加权,有助于降低算法误差,获得更准确的物种树。

张超老师之后介绍了“直接法”算法CASTER,其通过识别序列比对中的“信息位点”,根据碱基替换模型对“四叶树”(Quartet)进行打分,获得了在不完全谱系分选存在下对物种树的无偏估计。与传统方法相比,CASTER方法具有更低的误差、内存消耗和更短的运行时间。将CASTER应用于哺乳类、鸟类和蝴蝶等大规模真实基因组数据,也获得了与已知系统发育关系基本一致的物种树。利用CASTER方法进行基因组划窗,则有助于揭示基因组内部系统发育关系不一致的模式,并为相关生物学解释提供新见解。

在此基础上,张超老师进一步开发了WASTER算法,其基于k-mer进行计算,可直接利用短读长基因组测序数据识别变异位点并进行系统发育推断,而无需进行基因组组装和数据回帖。尽管算法效果尚不及CASTER,但较其他可比方法误差更低,运行时间更短,且算法准确率随测序深度的增加而增加。因此,WASTER算法有助于降低系统发育研究的成本,也可提供初始系统发育关系指导后续研究。

此外,CASTER算法的思想也可应用于杂交和基因流的研究。D统计量是检测基因渐渗的重要方法,但是其值会受到种群演化历史,如内部枝长长度的影响,导致在无基因流存在的情况下,D统计量也可能偏离0。对D统计量进行修正的D*统计量受种群历史的影响则相对更小,有助于更加准确的检测基因渐渗信号。

总之,这些研究为物种树重建和基因流检测提供了新的算法和思想,有助于促进系统发育基因组学研究。