高歌课题组提出人类转录调控元件建模与相关非编码变异功能解析方法
细胞是生物体生命活动的基本单元,生命活动的正常进行依赖于精确的基因表达调控过程,而基因转录调控过程则是基因表达调控中的重要环节。人类基因组中约98%的区域为非编码区,其中约80%的区域可能涉及基因转录调控过程。基因的时空特异性表达依赖于复杂的基因调控网络,涉及多种顺式调控元件,并且往往以组合的方式共同发挥调控作用。针对高等真核生物多层次、跨尺度的复杂基因调控模式,如何有效鉴定基因组中的调控元件并挖掘转录调控规律是亟待解决的重要挑战。
针对上述挑战,2024年12月30日,北京大学蛋白质与植物基因研究国家重点实验室高歌课题组于Nature Communication在线发表题为Quantifying the regulatory potential of genetic variants via a hybrid sequence-oriented model with SVEN的研究论文,通过引入多尺度混合模型,逐层学习序列中的调控信息,进而量化建模特定调控元件及其组合对下游基因表达的影响。在此基础上,构建了人类转录调控相关非编码变异功能解析方法SVEN,能够针对不同类型的变异(包括大尺度的结构变异和小尺度的SNV/indel等),在超过350个组织和细胞系中实现复杂非编码基因组变异的功能预测与机制解析,为从序列水平深入理解细胞调控图谱提供了有价值的方法学基础与数据储备。
为充分利用现有数据并提升模型的准确性,SVEN采用了一种不同于传统“单一大模型”的构建方式,创新性地引入了基于序列的多尺度混合模型架构:基于来自ENCODE的超过400种组织和细胞系的组学数据,通过结合针对特征的个体模型(feature-oriented separate models)和针对类的整体模型(class-oriented holistic models),以一组“小模型”分别学习基因组调控序列的特征(如转录因子结合、DNA开放性和组蛋白修饰),而后再通过隐空间投影去除冗余的特征信息,实现了对多个组织和细胞系中基因转录水平的量化建模(图1)。
图1 SVEN模型的结构示意图
得益于SVEN的多尺度混合模型的设计,尽管其模型参数更少(SVEN中最大的模型参数量:153M;Enformer:249M),SVEN可以更为准确预测基因在不同组织和细胞系中基因转录水平(图2)。
图2 SVEN可准确预测不同组织和细胞系中基因转录水平
基因组变异是指基因组核苷酸序列的改变,其中发生在基因组非编码区的变异被称为非编码变异。全基因组关联研究(GWAS)表明,超过90%与人类疾病或性状相关的变异为非编码变异。大规模人群全基因组测序,绘制了人类基因组变异的高分辨率图谱,涵盖了小尺度变异以及大尺度结构变异(>50bp)。研究表明,结构变异在多种疾病的发生中起着重要作用。然而,在全基因组范围内系统研究结构变异对基因转录调控的影响仍然面临巨大挑战。
得益于创新的模型设计,SVEN能够精确预测结构变异对基因转录水平的影响(图3a)。例如,基因FOLH1编码前列腺特异性膜抗原(prostate-specific membrane antigen,PSMA),其水平升高被认为是前列腺癌和胰腺癌重要的诊断与筛查指标。在基因FOLH1上游存在长为313bp的删除,影响了该基因的启动子区域。传统基于功能注释的方法预测该变异对基因转录水平几乎没有影响(score = -0.02)。然而,SVEN预测该变异会显著提升基因FOLH1的转录水平(log2 fold change = 1.076,A375细胞系),这一结果得到了CRISPR实验的验证(A375细胞系,图3b和3c)。此外,SVEN注释模型显示,该变异导致基因FOLH1转录起始位点附近区域的H3K4me3和H3K27ac激活信号强度提升(图3d),这可能是基因FOLH1转录水平提高的部分原因。
图3 SVEN可准确预测结构变异对基因转录水平影响
SVEN全部实现代码已经开源发布:https://github.com/gao-lab/SVEN。
北京大学生命科学学院博士生王宇(已毕业,现为昌平实验室博士后)为该论文第一作者,梁楠在实验验证方面提供大力支持。该研究得到了国家重点研发计划、蛋白质与植物基因研究国家重点实验室、北京未来基因诊断高精尖创新中心和昌平实验室的资助。计算分析工作于昌平实验室高性能计算平台、北京大学太平洋高性能计算平台与北京大学高性能计算校级公共平台完成。
论文链接:https://doi.org/10.1038/s41467-024-55392-7
- 白洋团队联合多位顶尖科学家系统解析根际微生物组调控水稻分蘖的功能与机制2025.04.24
- 瞿礼嘉/钟声课题组发现植物传粉过程中“未雨绸缪”的“两步授粉”备份新机制,为作物逆境下的育性优化提供新思路2025.04.15
- 曾虎课题组应邀撰写综述:空间组学技术的研究进展2025.04.06
- 张迪课题组受邀综述蛋白质L-乳酰化的研究进展2025.04.04
- 苏晓东课题组揭示短序列锚定元件AE在DNA与蛋白质结合中的重要作用2025.03.31
- 魏文胜团队实现人类肿瘤免疫调控网络的单碱基精度解析2025.03.21
- 白洋团队构建全球首个作物根际"细菌+病毒"基因组数据库2025.03.13
- 季雄团队揭示RNA聚合酶亚基RPB7偶联磷酸酶CTDP1稳定Pol II并介导转录再起始2025.03.05
- 何爱彬团队利用全景单细胞组蛋白修饰实现胚胎发育谱系追踪2025.03.04
- 赵进东课题组揭示蓝细菌藻胆体与光系统II结合的新分子机制2025.02.17
- 高歌课题组提出面向大规模异质性空间转录组学切片的表征与解析新方法2025.02.12
- 周岳课题组揭示拟南芥雄性生殖细胞发育过程中染色质三维结构的动态变化过程及其重要作用2025.02.12
- 魏文胜团队发布新一代线粒体碱基编辑器助力建立疾病动物模型2025.01.23
- 贺新强课题组揭示木质部管状分子发育的microRNA调控网络2025.01.19
- 周岳课题组在Genome Biology发文揭示了拟南芥中启动子空间调控模式和喷泉结构形成机制2025.01.02
- 高歌课题组提出人类转录调控元件建模与相关非编码变异功能解析方法2025.01.02
- 魏文胜团队利用碱基编辑器筛选绘制DNA损伤应答功能元件图谱2024.12.16
- 秦跟基课题组揭示弱光下种子萌发调控新机制2024.12.05
- 刘启昆课题组开发了全新的植物细胞谱系追踪工具2024.11.26
- 周岳课题组揭示植物首个三维基因组结构蛋白及其调控机制2024.11.22
- 周岳课题组揭示植物特有的PWWP结构域蛋白调控基因表达的分子机制2024.11.22
- 国家重点实验室陈雪梅教授获得2024年度“求是杰出科学家奖”2024.11.08
- 秦跟基课题组应邀撰写品牌综述“Tansley insight”总结TCP转录因子在细胞器、细胞和器官命运决定中的重要功能2024.10.28
- 郑晓峰课组揭示USP1-ATF4-CD98hc调控ENKTL淋巴瘤患者耐药的新机制2024.09.30
- 肖俊宇课题组揭示IgM–CD5L复合物的分子机制2024.09.30
- 陆剑课题组揭示密码子使用偏好性对翻译调控的影响2024.09.30
- 魏文胜团队实现蛋白质组中丝氨酸、苏氨酸和酪氨酸位点的功能解析2024.09.24
- 王继纵/邓兴旺课题组合作解析植物光敏色素phyB光信号转导的机制2024.09.24
- 刘君/杨雪瑞课题组合作揭示m6A-cenRNA调控癌细胞着丝粒稳态的机制2024.09.23
- 伊成器教授荣获2024年“科学探索奖”2024.08.29
- 王伟课题组报道蛋白酶体调控SG稳态抵御高温胁迫的新机制2024.08.22
- 肖俊宇团队阐明IgE 高亲和力受体FcεRI 复合物的组装机制2024.08.22
- 朱玉贤院士团队发布首个棉花基因组完整图谱,阐述棉族独特折叠胚胎形成的分子与演化机制2024.08.16
- 李晴课题组报道了滞后链核小体组装和冈崎片段成熟的协同机制2024.08.13
- 魏文胜团队报道非脱氨酶依赖的嘧啶碱基编辑器TBE2024.08.03
- 李晴研究组与合作者报道真核DNA复制体介导的亲本组蛋白表观遗传信息继承新机制2024.08.02
- 张迪课题组与合作者共同报道区分蛋白质乳酰化修饰同分异构体的新方法2024.07.22
- 国际遗传工程和生物技术中心(ICGEB)总干事Lawrence Banks教授一行访问陆剑课题组2024.06.26
- 郭强课题组与合作者揭示Synaptophysin调控突触小泡生成与功能的机制2024.06.06
- 2024年全国科技周开放活动2024.05.28
- 李磊课题组解析miR408平衡植物生长和抗旱的分子机制2024.05.16
- 李晟课题组与合作者研究揭示华北地区华北豹栖息地及其景观连通性现状2024.05.06
- 陆剑课题组揭示黑腹果蝇演化历史和环境适应机制2024.04.19
- 李川昀课题组在WIRES RNA发表从头起源新基因起源特征的综述2024.04.16
- 秦跟基课题通过构建拟南芥十二重突变体揭示雌蕊顶端命运决定的分子机制2024.04.08
- 李川昀课题组与合作者揭示结构变异编码人脑特异发育的新机制2024.04.07
- 肖俊宇课题组阐明磷酸化酶激酶PhK的组装与激活机制2024.04.01
- 陆剑课题组研发SIRSVIDE模型解析病毒进化动态2024.03.28
- 陈雪梅课题组鉴定了一个新的非典型帽子修饰RNA(NAD-capped RNA)脱帽酶,揭示了NAD+帽子修饰参与基因表达调控的新机制2024.03.18
- 祝贺瞿礼嘉教授成果入选 2023 年度“中国生命科学十大进展”2024.03.08
- 李晴、高宁及合作者揭示亲本组蛋白在DNA复制叉回收的关键分子机制2024.03.07
- 伊成器课题组开发升级版RNA编辑技术RESTART v32024.03.06
- 魏文胜课题组揭示肿瘤逃逸非HLA-I类分子依赖多效型T细胞杀伤的新机制2024.02.21
- 秦跟基课题组与合作者揭示水稻花药适时开裂的分子机制2024.02.21
- 陆剑课题组发表综述探讨新冠病毒刺突蛋白的功能演化2024.02.20
- 李磊课题组与合作者揭示巨胞饮的转录调控机制2024.02.19
- 焦雨铃课题组与合作者完成首个多细胞植物染色体的部分设计与合成2024.01.27
- 伊成器和合作者报道m1A修饰酶在调控造血干细胞衰老过程中的新机制2024.01.18
- 陆剑课题组与合作者共同揭示猴痘病毒蛋白质序列和密码子使用的分子演化规律2023.12.15
- 陆剑课题组与合作者发表综述总结动物microRNA调控的趋同和趋异演化2023.11.24
- 魏文胜团队实现人类蛋白质组中赖氨酸位点的功能解码2023.11.23
- 张蔚课题组受邀撰写综述揭示蝶翅花纹的演化创新模式2023.11.22
- 郭强课题组和杨竞课题组合作阐释粒细胞(granulocytes)细胞核分叶的全新分子机制2023.11.21
- 王忆平课题组在创建稳定高效联合固氮系统方面取得了突破性进展2023.11.20
- 高歌课题组提出跨平台、多模态空间组学比对与整合方法2023.11.13
- LEAPER 2.0在非人灵长类动物和人源化小鼠中实现了高效精准的长时RNA编辑2023.10.25
- 李川昀、刘颖团队建立单碱基分辨率鉴定DNA 6mA修饰的新方法,揭示真核生物6mA促进转录的新机制2023.10.23
- 又一教科书级的重大突破!瞿礼嘉/钟声课题组揭示植物通过有性生殖实现远缘杂交的新机制2023.10.08
- 王忆平研究团队与合作者成功创制2.0版多聚蛋白型固氮酶系统,为实现真核系统自主固氮迈进坚实的一步2023.09.18
- 秦跟基课题组揭示高温下植物种子前身胚珠命运的保护机制2023.09.15
- 焦雨铃课题组与合作者发现蛋白相分离调控植物茎分生组织活性2023.09.12
- 罗述金团队古DNA研究揭示中国是虎演化史上基因大熔炉2023.09.01
- 王伟课题组及合作者报道酚酸类化感物质通过促进相变抑制翻译从而调控物种间竞争的新机制2023.08.29
- 国家重点研发计划“病原变异及其跨物种传播的回溯和演进方法体系构建”项目推进会暨专家研讨会在北京大学成功召开2023.08.18
- 王继纵课题组与邓兴旺课题组合作揭示植物远红光受体phyA高度光敏感性的分子机制2023.07.28
- 赵进东、高宁、翁羽翔课题组合作揭示了CpcL藻胆体能量传递机制2023.07.10
- 郑晓峰课题组揭示乙酰转移酶ESCO2通过稳定Cohesin复合物促进NHEJ修复的作用和机制2023.07.10
- 伊成器课题组综述mRNA上非m6A修饰的调控与功能2023.07.04
- 郑晓峰课题组揭示SUMO化修饰通过调控液-液相分离来影响NHEJ修复效率和肿瘤细胞耐药的分子机制2023.07.03
- 郭强课题组开发适用于组织样品原位结构研究的方法2023.06.16
- 张蔚课题组综述以山地蝶类为体系开展生物多样性研究的进展2023.06.12
- 陆剑课题组与合作者揭示新冠病毒密码子演化规律并提出mRNA疫苗优化策略2023.06.05
- 张蔚课题组和合作者开发基于深度学习的基因渐渗推断方法2023.06.01
- 高歌课题组提出基因丢失鉴定新方法2023.05.29
- 2023年全国科技周开放活动2023.05.28
- 魏文胜课题组报道新型线粒体碱基编辑器2023.05.23
- 刘启昆课题组解析DDR4-ISWI染色质重塑复合体调控基因弹性表达的分子机制2023.05.23
- 张蔚课题组揭示动物不完美拟态的生态学意义2023.05.18
- 肖俊宇研究组发现恶性疟原虫演化出多种“劫持”IgM的分子机制2023.05.09
- 白书农课题组与合作者组织众筹,构建研究植物生活周期核心形态建成过程的模式植物2023.04.25
- 白书农课题组对于有关葫芦科CRC在单性花发育中调控功能的研究论文发表观点评论2023.04.25
- 王伟课题组与合作者开发新型新冠病毒检测分型传感器2023.04.21
- 周岳课题组阐述BMI1和组蛋白H2A单泛素化对拟南芥三维基因组的调控作用2023.04.19
- 陆剑课题组揭示冠状病毒Spike蛋白演化规律2023.04.17
- 李磊课题组揭示孢粉素聚合的分子机制2023.03.31
- 何跃辉团队揭示植物“越冬记忆”形成的分子与表观遗传机制2023.03.23
- 肖俊宇研究组阐明免疫球蛋白IgM被特异性受体FcμR识别的分子机制2023.03.23
- 钟上威团队揭示植物光温受体phyB的入核调控机制2023.03.17
- 高歌课题组成果入选2022年度“中国生物信息学十大进展”2023.03.06
- 遇赫课题组与合作者共同揭示冰期前后欧洲狩猎采集人群的遗传历史2023.03.02