高歌课题组发表单细胞转录组数据检索新方法和参考数据库
作为细胞异质性研究的重要工具,近年来单细胞转录组测序技术蓬勃发展,并积累了大量研究数据。若能有效利用现有的单细胞数据进行检索与推断,研究者便能更好地进行新测序单细胞的注释,以及综合多数据集的研究。然而,精确的单细胞转录组数据检索和注释需要克服两个挑战:一、数据集之间的批次效应(batch effect)会显著影响细胞检索的可靠性;二、目前缺少跨物种和平台、具有高质量注释的单细胞转录组数据库。
日前,北京大学生物医学前沿创新中心(BIOPIC)、北京未来基因诊断高精尖创新中心(ICG)、北京大学生命科学学院生物信息中心(CBI)、蛋白质与植物基因研究国家重点实验室的高歌课题组,在期刊Nature Communications上发表了题为“Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST”的生物信息学论文,发布了基于深度学习模型的单细胞转录组数据检索和注释的新方法Cell BLAST,以及具备高质量注释的单细胞转录组参考数据库ACA,为有效利用现有数据进行细胞注释和跨数据集研究提供了新的工具和资源。
Cell BLAST使用对抗自编码器(Adversarial Autoencoder)进行转录组数据降维,利用对抗学习策略来消除数据集间的批次效应,取得了优于当前其他同类工具的效果。此外作者基于该模型提出了一个新的、更为准确的细胞相似性度量用于细胞检索,在设计上考虑了单细胞转录组观测本身所具有的不确定性。
除了可以用于细胞类型鉴定,Cell BLAST能灵敏地发现参考数据集中不存在的、未知的细胞类型(图一a-c);此外,作者用一系列造血干细胞分化的数据集验证了Cell BLAST还能用于注释连续细胞状态(图一d-f)。
最后,通过收集大量已发表的单细胞转录组数据,作者建立了一个涵盖2,989,582个单细胞、8个物种、27个不同的组织器官的数据库,称为Animal Cell Atlas (ACA)(图一g, h)。作者对ACA中的细胞注释进行了详细的整理,并使用Cell Ontology构建了一套结构化的细胞类型标注,用于统一不同数据集中的标注以及支持细胞类型的推断。
图一Cell BLAST的应用和ACA数据库
该课题提供了在线检索平台(https://cblast.gao-lab.org),用户可以直接上传待注释的单细胞转录组数据,用ACA中的参考数据集进行细胞检索和自动注释;同时也提供了Python软件包Cell BLAST(https://github.com/gao-lab/Cell_BLAST),用户可以使用软件包在自定义的参考数据集上进行模型训练、检索和定制化分析。
北京大学生命科学学院博士生曹智杰和魏琳为该论文的共同第一作者,高歌研究员为通讯作者,陆燊、杨德昌在网站构建方面提供了大力支持。该课题得到了国家重点研发计划、863计划、蛋白质与植物基因研究国家重点实验室和北京未来基因诊断高精尖创新中心的资助。
参考资料:
Cao, Z-J. et al. Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST.Nat Commun11, 3458 (2020).
- 苏晓东课题组揭示清道夫受体CD163识别底物的分子机制2025.07.23
- 陈雪梅课题组系统阐释植物miRNA成熟与功能调控机制2025.07.23
- 苏晓东课题组与合作者揭示AAV与新型受体(AAVR2)结合的分子机制2025.07.15
- 合成植物基因组2025.07.09
- 伊成器课题组与合作者建立RNA"暗码",升级生命语言2025.07.04
- 魏文胜团队系统揭秘人类基因组中“沉默突变”的功能性“低语”2025.06.26
- 肖俊宇团队与张永辉团队合作揭示嗜乳脂蛋白激活γδ T细胞的“分子钳”机制2025.06.12
- 昌增益课题组揭示蛋白质内源性(顺式)去组装元件调控细菌细胞分裂环(Z环)的动态形成2025.06.09
- 陆剑课题组揭示uORF在动物进化与发育中发挥“翻译减震器”调控作用的新机制2025.06.09
- 张蔚课题组与合作者揭示兰花螳螂程序性体色转变的分子机制及生态学意义2025.05.30
- 2025年“全国科技活动周”和“全国科技工作者日”活动2025.05.29
- 李川昀团队与合作者开发细胞通讯分析工具STCase,揭示肿瘤微环境中空间特异性通讯事件2025.05.29
- 伊成器课题组系统阐释假尿嘧啶修饰的功能与治疗应用新范式2025.05.27
- 瞿礼嘉/钟声团队应邀撰写被子植物雌-雄相互作用保证双受精成功综述2025.05.26
- 陆剑课题组与合作者共同揭示uORFs通过精细调节CLOCK蛋白的翻译参与果蝇昼夜节律及睡眠行为的调控机制2025.05.16
- 伊成器团队发展痕量样品m6A修饰定量测序方法2025.05.08
- 白洋团队联合多位顶尖科学家系统解析根际微生物组调控水稻分蘖的功能与机制2025.04.24
- 瞿礼嘉/钟声课题组发现植物传粉过程中“未雨绸缪”的“两步授粉”备份新机制,为作物逆境下的育性优化提供新思路2025.04.15
- 曾虎课题组应邀撰写综述:空间组学技术的研究进展2025.04.06
- 张迪课题组受邀综述蛋白质L-乳酰化的研究进展2025.04.04
- 苏晓东课题组揭示短序列锚定元件AE在DNA与蛋白质结合中的重要作用2025.03.31
- 魏文胜团队实现人类肿瘤免疫调控网络的单碱基精度解析2025.03.21
- 白洋团队构建全球首个作物根际"细菌+病毒"基因组数据库2025.03.13
- 季雄团队揭示RNA聚合酶亚基RPB7偶联磷酸酶CTDP1稳定Pol II并介导转录再起始2025.03.05
- 何爱彬团队利用全景单细胞组蛋白修饰实现胚胎发育谱系追踪2025.03.04
- 赵进东课题组揭示蓝细菌藻胆体与光系统II结合的新分子机制2025.02.17
- 高歌课题组提出面向大规模异质性空间转录组学切片的表征与解析新方法2025.02.12
- 周岳课题组揭示拟南芥雄性生殖细胞发育过程中染色质三维结构的动态变化过程及其重要作用2025.02.12
- 魏文胜团队发布新一代线粒体碱基编辑器助力建立疾病动物模型2025.01.23
- 贺新强课题组揭示木质部管状分子发育的microRNA调控网络2025.01.19
- 周岳课题组在Genome Biology发文揭示了拟南芥中启动子空间调控模式和喷泉结构形成机制2025.01.02
- 高歌课题组提出人类转录调控元件建模与相关非编码变异功能解析方法2025.01.02
- 魏文胜团队利用碱基编辑器筛选绘制DNA损伤应答功能元件图谱2024.12.16
- 秦跟基课题组揭示弱光下种子萌发调控新机制2024.12.05
- 刘启昆课题组开发了全新的植物细胞谱系追踪工具2024.11.26
- 周岳课题组揭示植物首个三维基因组结构蛋白及其调控机制2024.11.22
- 周岳课题组揭示植物特有的PWWP结构域蛋白调控基因表达的分子机制2024.11.22
- 国家重点实验室陈雪梅教授获得2024年度“求是杰出科学家奖”2024.11.08
- 秦跟基课题组应邀撰写品牌综述“Tansley insight”总结TCP转录因子在细胞器、细胞和器官命运决定中的重要功能2024.10.28
- 郑晓峰课组揭示USP1-ATF4-CD98hc调控ENKTL淋巴瘤患者耐药的新机制2024.09.30
- 肖俊宇课题组揭示IgM–CD5L复合物的分子机制2024.09.30
- 陆剑课题组揭示密码子使用偏好性对翻译调控的影响2024.09.30
- 魏文胜团队实现蛋白质组中丝氨酸、苏氨酸和酪氨酸位点的功能解析2024.09.24
- 王继纵/邓兴旺课题组合作解析植物光敏色素phyB光信号转导的机制2024.09.24
- 刘君/杨雪瑞课题组合作揭示m6A-cenRNA调控癌细胞着丝粒稳态的机制2024.09.23
- 伊成器教授荣获2024年“科学探索奖”2024.08.29
- 王伟课题组报道蛋白酶体调控SG稳态抵御高温胁迫的新机制2024.08.22
- 肖俊宇团队阐明IgE 高亲和力受体FcεRI 复合物的组装机制2024.08.22
- 朱玉贤院士团队发布首个棉花基因组完整图谱,阐述棉族独特折叠胚胎形成的分子与演化机制2024.08.16
- 李晴课题组报道了滞后链核小体组装和冈崎片段成熟的协同机制2024.08.13
- 魏文胜团队报道非脱氨酶依赖的嘧啶碱基编辑器TBE2024.08.03
- 李晴研究组与合作者报道真核DNA复制体介导的亲本组蛋白表观遗传信息继承新机制2024.08.02
- 张迪课题组与合作者共同报道区分蛋白质乳酰化修饰同分异构体的新方法2024.07.22
- 国际遗传工程和生物技术中心(ICGEB)总干事Lawrence Banks教授一行访问陆剑课题组2024.06.26
- 郭强课题组与合作者揭示Synaptophysin调控突触小泡生成与功能的机制2024.06.06
- 2024年全国科技周开放活动2024.05.28
- 李磊课题组解析miR408平衡植物生长和抗旱的分子机制2024.05.16
- 李晟课题组与合作者研究揭示华北地区华北豹栖息地及其景观连通性现状2024.05.06
- 陆剑课题组揭示黑腹果蝇演化历史和环境适应机制2024.04.19
- 李川昀课题组在WIRES RNA发表从头起源新基因起源特征的综述2024.04.16
- 秦跟基课题通过构建拟南芥十二重突变体揭示雌蕊顶端命运决定的分子机制2024.04.08
- 李川昀课题组与合作者揭示结构变异编码人脑特异发育的新机制2024.04.07
- 肖俊宇课题组阐明磷酸化酶激酶PhK的组装与激活机制2024.04.01
- 陆剑课题组研发SIRSVIDE模型解析病毒进化动态2024.03.28
- 陈雪梅课题组鉴定了一个新的非典型帽子修饰RNA(NAD-capped RNA)脱帽酶,揭示了NAD+帽子修饰参与基因表达调控的新机制2024.03.18
- 祝贺瞿礼嘉教授成果入选 2023 年度“中国生命科学十大进展”2024.03.08
- 李晴、高宁及合作者揭示亲本组蛋白在DNA复制叉回收的关键分子机制2024.03.07
- 伊成器课题组开发升级版RNA编辑技术RESTART v32024.03.06
- 魏文胜课题组揭示肿瘤逃逸非HLA-I类分子依赖多效型T细胞杀伤的新机制2024.02.21
- 秦跟基课题组与合作者揭示水稻花药适时开裂的分子机制2024.02.21
- 陆剑课题组发表综述探讨新冠病毒刺突蛋白的功能演化2024.02.20
- 李磊课题组与合作者揭示巨胞饮的转录调控机制2024.02.19
- 焦雨铃课题组与合作者完成首个多细胞植物染色体的部分设计与合成2024.01.27
- 伊成器和合作者报道m1A修饰酶在调控造血干细胞衰老过程中的新机制2024.01.18
- 陆剑课题组与合作者共同揭示猴痘病毒蛋白质序列和密码子使用的分子演化规律2023.12.15
- 陆剑课题组与合作者发表综述总结动物microRNA调控的趋同和趋异演化2023.11.24
- 魏文胜团队实现人类蛋白质组中赖氨酸位点的功能解码2023.11.23
- 张蔚课题组受邀撰写综述揭示蝶翅花纹的演化创新模式2023.11.22
- 郭强课题组和杨竞课题组合作阐释粒细胞(granulocytes)细胞核分叶的全新分子机制2023.11.21
- 王忆平课题组在创建稳定高效联合固氮系统方面取得了突破性进展2023.11.20
- 高歌课题组提出跨平台、多模态空间组学比对与整合方法2023.11.13
- LEAPER 2.0在非人灵长类动物和人源化小鼠中实现了高效精准的长时RNA编辑2023.10.25
- 李川昀、刘颖团队建立单碱基分辨率鉴定DNA 6mA修饰的新方法,揭示真核生物6mA促进转录的新机制2023.10.23
- 又一教科书级的重大突破!瞿礼嘉/钟声课题组揭示植物通过有性生殖实现远缘杂交的新机制2023.10.08
- 王忆平研究团队与合作者成功创制2.0版多聚蛋白型固氮酶系统,为实现真核系统自主固氮迈进坚实的一步2023.09.18
- 秦跟基课题组揭示高温下植物种子前身胚珠命运的保护机制2023.09.15
- 焦雨铃课题组与合作者发现蛋白相分离调控植物茎分生组织活性2023.09.12
- 罗述金团队古DNA研究揭示中国是虎演化史上基因大熔炉2023.09.01
- 王伟课题组及合作者报道酚酸类化感物质通过促进相变抑制翻译从而调控物种间竞争的新机制2023.08.29
- 国家重点研发计划“病原变异及其跨物种传播的回溯和演进方法体系构建”项目推进会暨专家研讨会在北京大学成功召开2023.08.18
- 王继纵课题组与邓兴旺课题组合作揭示植物远红光受体phyA高度光敏感性的分子机制2023.07.28
- 赵进东、高宁、翁羽翔课题组合作揭示了CpcL藻胆体能量传递机制2023.07.10
- 郑晓峰课题组揭示乙酰转移酶ESCO2通过稳定Cohesin复合物促进NHEJ修复的作用和机制2023.07.10
- 伊成器课题组综述mRNA上非m6A修饰的调控与功能2023.07.04
- 郑晓峰课题组揭示SUMO化修饰通过调控液-液相分离来影响NHEJ修复效率和肿瘤细胞耐药的分子机制2023.07.03
- 郭强课题组开发适用于组织样品原位结构研究的方法2023.06.16
- 张蔚课题组综述以山地蝶类为体系开展生物多样性研究的进展2023.06.12
- 陆剑课题组与合作者揭示新冠病毒密码子演化规律并提出mRNA疫苗优化策略2023.06.05
- 张蔚课题组和合作者开发基于深度学习的基因渐渗推断方法2023.06.01
- 高歌课题组提出基因丢失鉴定新方法2023.05.29