利用计算显微镜在原子精度揭示转录因子蛋白 WRKY 在 DNA 上的自由扩散动力学

转录因子在 DNA 上扩散搜索并与特定序列的靶位点结合对基因的表达调控至关重要。上世纪 80 年代由 von Hippel 等科学家提出的易化扩散(facilitated diffusion)理论,表明转录因子不仅在三维空间进行扩散,同时往往交替性地在 DNA 的非特异性序列上进行一维随机行走扩散,以便有效地搜索特异性 DNA 识别位点;而寻找靶位点的速率和准确性也直接影响了基因表达的效率和精准度。后续的实验研究支持了上述理论,进一步研究指出转录因子在 DNA 上的扩散包含了在 DNA 碱基上的行走或沟槽上的滑移, 短距离的跳动,以及不同 DNA 片段之间的转移等行为。

虽然转录因子的上述扩散模型已经比较明晰,但扩散过程中的精细分子动力学尚不甚明了,尤其是发生在微秒和毫秒之间的蛋白在 DNA 碱基或纳米尺度上的运动,在目前的实验测量精度上还难以直接观测。


加州大学尔湾分校的喻进课题组与北京大学蛋白质与植物基因研究国家重点实验室的苏晓东实验课题组合作,对高精度解析的 WRKY 转录因子与DNA结合的复合物结构进行长时间的全原子精度的分子动力学模拟(数十到上百微秒)。该研究首次通过不施加外力干预的平衡态分子动力学模拟观测到了 WRKY 在单个 DNA 碱基尺度上自由扩散行走的原子精度过程,展示了蛋白 DNA 界面的氢健断裂和重组动力学行为,并揭示蛋白对DNA单链的偏好在扩散和识别上的协调作用。2021年6月8日,该研究成果以题为Revealing atomic-scale molecular diffusion of a plant-transcription factor WRKY domain protein along DNA发表在PNAS上。

WRKY 是植物特有的锌指蛋白转录因子,对植物的防御,生长发育和代谢等方面都起到重要的调控作用。此次解析的 WRKY 蛋白结构具有约 60 个氨基酸并结合在 W-box DNA 识别序列上。基于该蛋白-DNA 精细结构和在非特异序列上的分子建模,研究人员以高性能计算支持的全原子分子动力学模拟为主要手段,结合粗粒化分子建模模拟和实验测量验证从不同时间和空间尺度上考察了 WRKY 在 DNA 上的扩散行为。



图:转录因子蛋白的三维扩散与一维 DNA 运动交替(左)以及计算显微镜下 WRKY 蛋白在 DNA上沿 DNA 大沟向前(右上)移动 1bp 或向后(右下)移动的结构动力学演化和采样。

该研究工作累计长达上百微秒的全原子分子模拟揭示了WRKY蛋白在DNA上向前以及向后运动一个碱基对的全过程以及蛋白在DNA上运动和信息识别的物理机制。该蛋白在非特异扩散运动中,位于运动前端的氨基酸热运动涨落显著,以便探索前方DNA核苷酸并实现氢键位移;随后位于蛋白DNA结合中部的残基受到牵引会随之运动,导致相邻多个氨基酸与DNA核苷酸之间的氢键断裂并重组,从而实现一系列氢键在蛋白DNA界面上的协同位移,完成蛋白在DNA碱基上行走的一个循环。

进一步,研究通过对蛋白与DNA双链间的相互作用能量的考察,揭示出WRKY蛋白同两条DNA单链间的显著结合差异,从而提供机理指出类似的小型转录蛋白因子倾向于在单链DNA上进行特异性信息识别,而在非特异扩散或随机运动过程中蛋白表现出更多的在DNA双链间作用的协同。

  此外,采用基于蛋白DNA结构的粗粒化模拟和更充分的采样,研究显示了WRKY蛋白在DNA进行螺旋运动主导的一维自由扩散,扩散行为以及蛋白DNA结合特征受到溶液离子浓度的显著调制。有趣的是,蛋白扩散的单位步长也在不同DNA序列上显示出不同。例如在全同的poly-A序列DNA上,蛋白扩散集中于单个碱基的步长;在循环周期为2-bp的poly-AT序列DNA上,蛋白扩散运动中双碱基的步长频率明显增高;而在随机DNA序列上,相应的蛋白步长分布又显示出不同特征。该WRKY蛋白在DNA的一维自由扩散运动以及在DNA特异/非特异序列的结合特征也通过实验研究进行了实证和测量。

  深圳京鲁计算科学应用研究院的戴立强博士与北京大学蛋白质与植物基因研究国家重点实验室的徐永萍博士为该文章的共同第一作者,北京大学蛋白质与植物基因研究国家重点实验室苏晓东教授和加州大学尔湾分校喻进教授为本文工作的共同通讯作者。本项目主要由国家自然科学基金委资助,同时得到美国NSF-Simons等机构支持以及NSFC-广东超算和北京计算科学研究中心超算支持。


  论文链接:https://doi.org/10.1073/pnas.2102621118