高歌课题组提出基于自适应卷积核的新卷积学习模型
2021年7月6日,北京大学蛋白质与植物基因研究国家重点实验室、生物信息中心(CBI)暨北京大学生物医学前沿创新中心(BIOPIC)与北京未来基因诊断高精尖创新中心(ICG)高歌课题组,于Briefings in Bioinformatics上发表了题为“Identifying complex motifs in massive omics data with a variable-convolutional layer in deep neural network”的生物信息学论文,提出了基于自适应卷积核的新卷积学习模型vConv。
深度学习(Deep Learning)是机器学习的一种,通常指基于表示学习的深度神经网络,如基于卷积神经层构建的卷积神经网络、基于递归神经层构建的递归神经网络等。它适合用来发现海量高维数据背后的复杂模式。近十年来,随着计算机算力的大幅提升,深度学习在图像识别、自然语言处理等领域取得了众多成果,其中可以捕捉数据局部特征的卷积神经网络(Convolutional Neural Network, CNN)已被广泛应用于组学序列数据分析、生物影像处理等多个生命科学相关领域。
卷积神经网络可利用卷积层(Convolutional layer)中一系列卷积核(kernel)来自动识别输入序列上频繁出现的序列片段,并通过将这些片段组合以发现其中的序列motif。然而,目前卷积层只能使用预设固定长度的卷积核,难以适应海量组学数据中复杂多变的信号模式。为此,目前的主流实现中常用多种不同大小的卷积核分层叠加以应对,但由此导致的模型参数膨胀又显著提升了训练难度。
在本文中,研究人员提出了能够在训练中自动调整卷积核长度的新型变长卷积层vConv。vConv通过在原始卷积核上叠乘两条形状可训练的对向S型曲线,来动态遮蔽(mask)卷积核两侧元素、进而实时学习卷积核的有效长度(图一)。vConv可直接加入现有多层神经网络模型中,可作为传统卷积层的直接替代(drop-in replacement)广泛应用于数据挖掘、图像识别等多个领域。
图一:vConv层结构。为了生成掩码矩阵(mask matrix),vConv使用两个对称的sigmoid函数生成了两个矩阵(A和B),然后通过叠加这两个矩阵获得了掩码矩阵(C)。在此基础上,vConv把该掩码矩阵与原始的卷积核做Hadamard积,获得了掩码内核(D),再将该掩码内核与输入序列进行卷积(E)。
序列motif(sequence motif)通常是指与特定生物学功能相关的一段序列片段、及其相关碱基/氨基酸分布模式,如转录因子结合位点、蛋白质功能域等。识别、鉴定与发现序列motif是生物信息学与计算生物学的经典问题之一。多组模拟与真实数据集的测试显示,基于vConv的神经网络可于Gb级别海量组学数据中准确识别鉴定序列motif,性能显著优于经典工具及基于传统卷积层的神经网络。
为方便使用,相关Python代码及教程已通过GitHub开源发布(https://github.com/gao-lab/vConv),与课题组前期发布的池化层ePooling方法(https://github.com/gao-lab/ePooling)相结合,可为相关应用提供了平滑的升级路径。
北京大学蛋白质与植物基因研究国家重点实验室、生物信息中心(CBI)暨北京大学生物医学前沿创新中心(BIOPIC)与北京未来基因诊断高精尖创新中心(ICG)高歌研究员与课题组博士生丁阳(现为军事科学院军事医学研究院辐射医学研究所博士后)为共同通讯作者,北京大学生命科学学院博士生李静一、实习生金燊(现为美国卡内基梅隆大学计算生物学系硕士)为该论文的共同第一作者,北京大学生命科学学院本科生屠鑫明在代码测试上提供了大力支持。该研究得到了国家科技部、北京未来基因诊断高精尖创新中心、蛋白质与植物基因研究国家重点实验室的支持,计算分析工作于北京大学高性能计算校级公共平台与ICG高性能计算平台完成。
- 白洋团队联合多位顶尖科学家系统解析根际微生物组调控水稻分蘖的功能与机制2025.04.24
- 瞿礼嘉/钟声课题组发现植物传粉过程中“未雨绸缪”的“两步授粉”备份新机制,为作物逆境下的育性优化提供新思路2025.04.15
- 曾虎课题组应邀撰写综述:空间组学技术的研究进展2025.04.06
- 张迪课题组受邀综述蛋白质L-乳酰化的研究进展2025.04.04
- 苏晓东课题组揭示短序列锚定元件AE在DNA与蛋白质结合中的重要作用2025.03.31
- 魏文胜团队实现人类肿瘤免疫调控网络的单碱基精度解析2025.03.21
- 白洋团队构建全球首个作物根际"细菌+病毒"基因组数据库2025.03.13
- 季雄团队揭示RNA聚合酶亚基RPB7偶联磷酸酶CTDP1稳定Pol II并介导转录再起始2025.03.05
- 何爱彬团队利用全景单细胞组蛋白修饰实现胚胎发育谱系追踪2025.03.04
- 赵进东课题组揭示蓝细菌藻胆体与光系统II结合的新分子机制2025.02.17
- 高歌课题组提出面向大规模异质性空间转录组学切片的表征与解析新方法2025.02.12
- 周岳课题组揭示拟南芥雄性生殖细胞发育过程中染色质三维结构的动态变化过程及其重要作用2025.02.12
- 魏文胜团队发布新一代线粒体碱基编辑器助力建立疾病动物模型2025.01.23
- 贺新强课题组揭示木质部管状分子发育的microRNA调控网络2025.01.19
- 周岳课题组在Genome Biology发文揭示了拟南芥中启动子空间调控模式和喷泉结构形成机制2025.01.02
- 高歌课题组提出人类转录调控元件建模与相关非编码变异功能解析方法2025.01.02
- 魏文胜团队利用碱基编辑器筛选绘制DNA损伤应答功能元件图谱2024.12.16
- 秦跟基课题组揭示弱光下种子萌发调控新机制2024.12.05
- 刘启昆课题组开发了全新的植物细胞谱系追踪工具2024.11.26
- 周岳课题组揭示植物首个三维基因组结构蛋白及其调控机制2024.11.22
- 周岳课题组揭示植物特有的PWWP结构域蛋白调控基因表达的分子机制2024.11.22
- 国家重点实验室陈雪梅教授获得2024年度“求是杰出科学家奖”2024.11.08
- 秦跟基课题组应邀撰写品牌综述“Tansley insight”总结TCP转录因子在细胞器、细胞和器官命运决定中的重要功能2024.10.28
- 郑晓峰课组揭示USP1-ATF4-CD98hc调控ENKTL淋巴瘤患者耐药的新机制2024.09.30
- 肖俊宇课题组揭示IgM–CD5L复合物的分子机制2024.09.30
- 陆剑课题组揭示密码子使用偏好性对翻译调控的影响2024.09.30
- 魏文胜团队实现蛋白质组中丝氨酸、苏氨酸和酪氨酸位点的功能解析2024.09.24
- 王继纵/邓兴旺课题组合作解析植物光敏色素phyB光信号转导的机制2024.09.24
- 刘君/杨雪瑞课题组合作揭示m6A-cenRNA调控癌细胞着丝粒稳态的机制2024.09.23
- 伊成器教授荣获2024年“科学探索奖”2024.08.29
- 王伟课题组报道蛋白酶体调控SG稳态抵御高温胁迫的新机制2024.08.22
- 肖俊宇团队阐明IgE 高亲和力受体FcεRI 复合物的组装机制2024.08.22
- 朱玉贤院士团队发布首个棉花基因组完整图谱,阐述棉族独特折叠胚胎形成的分子与演化机制2024.08.16
- 李晴课题组报道了滞后链核小体组装和冈崎片段成熟的协同机制2024.08.13
- 魏文胜团队报道非脱氨酶依赖的嘧啶碱基编辑器TBE2024.08.03
- 李晴研究组与合作者报道真核DNA复制体介导的亲本组蛋白表观遗传信息继承新机制2024.08.02
- 张迪课题组与合作者共同报道区分蛋白质乳酰化修饰同分异构体的新方法2024.07.22
- 国际遗传工程和生物技术中心(ICGEB)总干事Lawrence Banks教授一行访问陆剑课题组2024.06.26
- 郭强课题组与合作者揭示Synaptophysin调控突触小泡生成与功能的机制2024.06.06
- 2024年全国科技周开放活动2024.05.28
- 李磊课题组解析miR408平衡植物生长和抗旱的分子机制2024.05.16
- 李晟课题组与合作者研究揭示华北地区华北豹栖息地及其景观连通性现状2024.05.06
- 陆剑课题组揭示黑腹果蝇演化历史和环境适应机制2024.04.19
- 李川昀课题组在WIRES RNA发表从头起源新基因起源特征的综述2024.04.16
- 秦跟基课题通过构建拟南芥十二重突变体揭示雌蕊顶端命运决定的分子机制2024.04.08
- 李川昀课题组与合作者揭示结构变异编码人脑特异发育的新机制2024.04.07
- 肖俊宇课题组阐明磷酸化酶激酶PhK的组装与激活机制2024.04.01
- 陆剑课题组研发SIRSVIDE模型解析病毒进化动态2024.03.28
- 陈雪梅课题组鉴定了一个新的非典型帽子修饰RNA(NAD-capped RNA)脱帽酶,揭示了NAD+帽子修饰参与基因表达调控的新机制2024.03.18
- 祝贺瞿礼嘉教授成果入选 2023 年度“中国生命科学十大进展”2024.03.08
- 李晴、高宁及合作者揭示亲本组蛋白在DNA复制叉回收的关键分子机制2024.03.07
- 伊成器课题组开发升级版RNA编辑技术RESTART v32024.03.06
- 魏文胜课题组揭示肿瘤逃逸非HLA-I类分子依赖多效型T细胞杀伤的新机制2024.02.21
- 秦跟基课题组与合作者揭示水稻花药适时开裂的分子机制2024.02.21
- 陆剑课题组发表综述探讨新冠病毒刺突蛋白的功能演化2024.02.20
- 李磊课题组与合作者揭示巨胞饮的转录调控机制2024.02.19
- 焦雨铃课题组与合作者完成首个多细胞植物染色体的部分设计与合成2024.01.27
- 伊成器和合作者报道m1A修饰酶在调控造血干细胞衰老过程中的新机制2024.01.18
- 陆剑课题组与合作者共同揭示猴痘病毒蛋白质序列和密码子使用的分子演化规律2023.12.15
- 陆剑课题组与合作者发表综述总结动物microRNA调控的趋同和趋异演化2023.11.24
- 魏文胜团队实现人类蛋白质组中赖氨酸位点的功能解码2023.11.23
- 张蔚课题组受邀撰写综述揭示蝶翅花纹的演化创新模式2023.11.22
- 郭强课题组和杨竞课题组合作阐释粒细胞(granulocytes)细胞核分叶的全新分子机制2023.11.21
- 王忆平课题组在创建稳定高效联合固氮系统方面取得了突破性进展2023.11.20
- 高歌课题组提出跨平台、多模态空间组学比对与整合方法2023.11.13
- LEAPER 2.0在非人灵长类动物和人源化小鼠中实现了高效精准的长时RNA编辑2023.10.25
- 李川昀、刘颖团队建立单碱基分辨率鉴定DNA 6mA修饰的新方法,揭示真核生物6mA促进转录的新机制2023.10.23
- 又一教科书级的重大突破!瞿礼嘉/钟声课题组揭示植物通过有性生殖实现远缘杂交的新机制2023.10.08
- 王忆平研究团队与合作者成功创制2.0版多聚蛋白型固氮酶系统,为实现真核系统自主固氮迈进坚实的一步2023.09.18
- 秦跟基课题组揭示高温下植物种子前身胚珠命运的保护机制2023.09.15
- 焦雨铃课题组与合作者发现蛋白相分离调控植物茎分生组织活性2023.09.12
- 罗述金团队古DNA研究揭示中国是虎演化史上基因大熔炉2023.09.01
- 王伟课题组及合作者报道酚酸类化感物质通过促进相变抑制翻译从而调控物种间竞争的新机制2023.08.29
- 国家重点研发计划“病原变异及其跨物种传播的回溯和演进方法体系构建”项目推进会暨专家研讨会在北京大学成功召开2023.08.18
- 王继纵课题组与邓兴旺课题组合作揭示植物远红光受体phyA高度光敏感性的分子机制2023.07.28
- 赵进东、高宁、翁羽翔课题组合作揭示了CpcL藻胆体能量传递机制2023.07.10
- 郑晓峰课题组揭示乙酰转移酶ESCO2通过稳定Cohesin复合物促进NHEJ修复的作用和机制2023.07.10
- 伊成器课题组综述mRNA上非m6A修饰的调控与功能2023.07.04
- 郑晓峰课题组揭示SUMO化修饰通过调控液-液相分离来影响NHEJ修复效率和肿瘤细胞耐药的分子机制2023.07.03
- 郭强课题组开发适用于组织样品原位结构研究的方法2023.06.16
- 张蔚课题组综述以山地蝶类为体系开展生物多样性研究的进展2023.06.12
- 陆剑课题组与合作者揭示新冠病毒密码子演化规律并提出mRNA疫苗优化策略2023.06.05
- 张蔚课题组和合作者开发基于深度学习的基因渐渗推断方法2023.06.01
- 高歌课题组提出基因丢失鉴定新方法2023.05.29
- 2023年全国科技周开放活动2023.05.28
- 魏文胜课题组报道新型线粒体碱基编辑器2023.05.23
- 刘启昆课题组解析DDR4-ISWI染色质重塑复合体调控基因弹性表达的分子机制2023.05.23
- 张蔚课题组揭示动物不完美拟态的生态学意义2023.05.18
- 肖俊宇研究组发现恶性疟原虫演化出多种“劫持”IgM的分子机制2023.05.09
- 白书农课题组与合作者组织众筹,构建研究植物生活周期核心形态建成过程的模式植物2023.04.25
- 白书农课题组对于有关葫芦科CRC在单性花发育中调控功能的研究论文发表观点评论2023.04.25
- 王伟课题组与合作者开发新型新冠病毒检测分型传感器2023.04.21
- 周岳课题组阐述BMI1和组蛋白H2A单泛素化对拟南芥三维基因组的调控作用2023.04.19
- 陆剑课题组揭示冠状病毒Spike蛋白演化规律2023.04.17
- 李磊课题组揭示孢粉素聚合的分子机制2023.03.31
- 何跃辉团队揭示植物“越冬记忆”形成的分子与表观遗传机制2023.03.23
- 肖俊宇研究组阐明免疫球蛋白IgM被特异性受体FcμR识别的分子机制2023.03.23
- 钟上威团队揭示植物光温受体phyB的入核调控机制2023.03.17
- 高歌课题组成果入选2022年度“中国生物信息学十大进展”2023.03.06
- 遇赫课题组与合作者共同揭示冰期前后欧洲狩猎采集人群的遗传历史2023.03.02