澳大利亚莫纳什大学宋江宁教授应邀做学术报告

2023年12月14日,澳大利亚莫纳什大学莫纳什生物医药发现研究所、生物化学与分子生物学系的宋江宁教授,应蛋白质与植物基因研究国家重点实验室苏晓东教授的邀请,于吕志和楼B106为众多师生带来了一场题为“Artificial intelligence to explore multi-modality molecular data and accelerate biomedical knowledge discovery”的学术报告。

宋江宁教授首先从自己团队的研究方向讲起,他着眼于设计、开发和应用基于数据驱动的计算算法、模型、互联网服务器工具和一些管道来解决结构生物学、基因组学、微生物学和肿瘤生物学领域当中产生的数据的处理和解析问题。他指出近几年在人工智能领域出现了许多前沿的范式,在许多问题上取得了很好的效果。与此同时,在生物医学领域很多高通量的平台技术得以大规模的应用,在医院电子病历、病理切片和各种成像技术大规模普及,产生了大量多模态数据。因此在生物医药大数据时代,如何能够利用人工智能、大数据的手段,更好的处理和理解生物医学各种多模态的数据是亟待解决的重大问题。

接下来,宋江宁教授用四个课题讲解了如何结合已有的一些有标注的数据,去开发有针对性的生物信息学算法或者模型,进而加速生物医药的一些知识发现。第一个方面是基于序列预测细菌不同分泌系统的分泌效应蛋白。宋教授首先以他开发的Bastion4为例,详细介绍了数据收集、特征提取、模型搭建的细节、所考虑的因素和原理,其利用经典的机器学习方法,采用投票的机制预测四型分泌系统的分泌效应蛋白。在此基础上,宋教授又基于蛋白质语言模型开发了TXSEfinder,可以同时识别预测多种不同分泌系统的分泌效应蛋白,并形成数据库TXSEdb。第二个方面是基于病理影像数据预测临床表型,这一部分包含两个课题。其一是对于HE染色的常规病理切片,宋教授开发了具有很好用户界面的“HEAL”程序,使得非人工智能领域的临床医生和生物专家可以很方便的使用自己的数据构建人工智能预测模型,这个程序可以很好的仅依靠HE染色的病理切片构建模型,来区分肺腺癌与鳞癌、结直肠癌的微卫星稳定型和微卫星不稳定型以及预测肿瘤基因突变类型。宋教授还开发了基于集成学习的算法DEMoS来预测胃癌的不同亚型,他以此为例详细讨论了集成学习方法在训练数据较少时,在防止过拟合、平衡模型性能和泛化能力方面的优势。其二是对于免疫组化的病理切片,宋教授开发了基于图神经网络的方法CellGraph-Stage,可以预测胃癌患者的生存情况,其性能可与基于TNM分期的预测方法相媲美。最后,宋教授始终致力于让非数据分析专业人士也能够方便的用大数据来解决自己领域的问题。其先后开发的iLearn、iLearnPlus和iFeatureOmega软件可以让用户通过鼠标点击就能轻松完成多种模态数据的特征提取、模型构建以及下游分析。

宋江宁教授还致力于推动中澳之间在科学研究和学生培养方面的交流合作。

宋江宁教授的报告脉络清晰,深入浅出,师生们踊跃提问,会场气氛十分活跃。