高歌课题组成果入选2022年度“中国生物信息学十大进展”

3月3日,2022年度“中国生物信息学十大进展”发布,我实验室高歌课题组凭借“单细胞多组学数据整合与调控推断算法GLUE”顺利入选。


单细胞组学技术近年来蓬勃发展,已成为研究细胞功能及其背后的基因调控机制的重要手段,目前许多不同组学已能在单细胞精度下进行检测,包括转录组、染色质开放组、三维染色质组、DNA甲基化组等等,每种组学反应的是细胞状态的一个侧面,产生的数据需要进行整合分析才能更全面地刻画细胞内的基因调控状态,并深入揭示调控机制。

由于不同组学特征空间不同、异质性强,单细胞多组学数据的整合分析面临挑战。为解决这一问题,高歌团队提出基于生成-对抗学习的图耦联策略,通过直接对调控关系进行建模以实现跨组学特征在隐空间的自适应关联。以此为基础开发的GLUE算法首次实现了统一框架下百万级非配对单细胞多组学数据的无监督整合与同步调控推断,可广泛应用于包括基因表达、染色质开放性、DNA甲基化等多种组学数据的分析挖掘。



图:GLUE模型的结构示意图

GLUE将组学特征间的先验调控知识组织成一个引导图(guidance graph),通过变分图自编码器(VGAE)从引导图中学习组学特征的低维表示,作为组学数据的线性解码器权重,保证降维空间具有“语义一致性”。工具链接:https://github.com/gao-lab/GLUE

相关研究于2022年5月2日发表于Nature Biotechnology期刊,论文题为Multi-omics single-cell data integration and regulatory inference with graph-linked embedding,博士生曹智杰为第一作者,高歌研究员为通讯作者。

高歌课题组在人类lncRNA图谱和单细胞转录组数据整合检索方面的研究成果曾分别入选2019年度“中国生物信息学十大数据库”和2020年度“中国生物信息学十大进展”。