随着高通量质谱技术的高速发展,研究人员可以快速从蛋白质组学中挖掘到更多更为可靠的翻译后修饰数据信息。在翻译后修饰组学研究中,磷酸化(phosphorylation)修饰作为涉及蛋白质范围最广泛及修饰位点数量最多的修饰类型,成为了研究人员研究的重点。磷酸化修饰通过影响蛋白质的活性、蛋白质—蛋白质相互作用及蛋白质细胞内定位等方式调节蛋白质的功能。随着组学技术的发展及精准医学概念的提出,蛋白质的磷酸化异常与疾病的发生发展密切相关,包括癌症、神经退行性疾病以及心血管等疾病,为疾病诊断和靶标发现提供了潜在有价值的生物学空间。过去十多年间,人体中鉴定到的蛋白质磷酸化修饰位点的数目超过50万条。然而,由于生物功能实验的复杂性,目前具有功能注释信息的磷酸化位点不到一万条,对磷酸化位点的功能研究成为翻译后修饰位点研究中的“瓶颈”问题。
针对以上问题,中国科学院上海药物研究所罗成课题组和苏州大学系统生物学研究中心梁中洁课题组组成研究团队,于2023年9月3日,在 cell reports上发表了题为“deciphering the functional landscape of phosphosites with deep neural network”的研究成果。该研究从现有的具有功能注释信息的磷酸化位点数据出发,提出一种集成的深度神经网络模型funcphos-seq对人类蛋白质组水平上的磷酸化位点进行功能预测打分。该模型使用卷积神经网络通道提取磷酸化位点基序的序列信息,使用网络嵌入和深度神经网络通道提取蛋白质—蛋白质相互作用(ppi)网络信息,将这些特征联合输入到异构特征网络中对磷酸化位点的功能进行打分预测,并构建了funcphos-seq的在线服务器http://funcptm.jysw.suda.edu.cn/seq。通过结合体外和细胞生化实验发现nadk-s48/50磷酸化可激活其酶活性。此外,研究还发现了erk1/2是磷酸化nadk-s48/50的主要激酶。
研究团队通过检索psp、epsd、iptmnet以及ptmd数据库收集了人类具有功能注释信息磷酸化位点的3335个蛋白质及135063个磷酸化位点。其中,带有功能注释的磷酸化位点有9769个。根据psp数据库的注释,磷酸化位点的作用包括调控蛋白质分子功能、参与生物过程以及调控大分子间互作。通过多序列比对分析发现功能性磷酸化位点具有较高的保守性及一定的共演化特征;同时,具有功能性磷酸化位点的蛋白质在ppi网络中具有较高的连接度、介数等网络拓扑参数,表明ppi网络拓扑在磷酸化位点发挥功能中不可忽视的作用。基于功能性磷酸化位点的特征统计,研究团队提出了一种基于蛋白质序列和ppi信息的人类蛋白质组水平的磷酸化位点功能预测的深度学习框架funcphos-seq。
该模型由两个特征编码子网络(seqnet和spnet)和一个特征组合子网络(conet)组成。通过测试不同的序列特征和模型组合,在seqnet中采用one_hot、pssm编码及保守性特征来构建磷酸化位点所处基序的特征图谱。使用cnn框架来自动提取二维矩阵的序列特征信息,在one_hot通道增加最大池化层减小来自上层隐藏层的计算复杂度;在pssm通道增加位置嵌入和自注意力机制,添加残基的绝对或相对位置信息来进一步捕捉蛋白质序列中残基之间的长距离依赖关系和全局信息。在spnet中通过sdne网络嵌入方法对ppi网络进行编码学习蛋白质之间的非线性关系,并通过dnn框架优化ppi网络特征, 为磷酸化位点功能提供蛋白质层面的上下文信息;最后在conet中使用fnn对输入的特征进行非线性变换,在网络最后一层使用sigmoid激活函数用于预测磷酸化位点具有功能的概率。对于不平衡问题,对阴性数据集随机下采样11次,并在具有不同阳性与阴性数据比率的测试集上进行预测。结果表明funcphos-seq在不同的测试集上均能对磷酸化位点的功能(包括调控活性、调控互作及非特异功能)均能获得较好的预测效果。
nadp /nadph(辅酶ⅱ)参与磷酸戊糖代谢过程,为大分子生物合成和清除过量ros提供还原力,支持细胞生长和存活,对快速增殖的癌细胞尤为重要。在人类细胞中,nadk是nadp /nadph合成的关键限速酶。有研究发现akt通过磷酸化nadk-第44/46位丝氨酸激活nadk活性,促进肿瘤细胞nadp /nadph合成。
研究团队通过funcphos-seq对nadk上的磷酸化位点进行打分,其n端loop区的s15、s44、s46、s48、s50、t62、s64和s103上的磷酸化位点作为功能位点排名较高。在293t细胞中过表达nadk,通过质谱鉴定出nadk-s48/50具有最强的磷酸化修饰信号。体外酶学实验发现nadk-s48/50d突变体比nadk-wt具有更强的酶活。这提示nadk-s48/50的磷酸化可以激活nadk活性。进一步通过质谱实验、蛋白免疫共沉淀实验、体外磷酸化实验和酶学实验鉴定出erk1/2可以结合并磷酸化nadk第48/50位丝氨酸,并激活nadk活性。
综上,研究团队构建的funcphos-seq模型在应用中只需要原始蛋白质序列作为输入,能够对人类蛋白质组层面的磷酸化位点进行功能预测。模型具有较高的计算效率,构建的在线服务方便生物学家访问。以nadk为例,使用funcphos-seq预测了nadk的功能磷酸化位点,并通过实验验证erk1/2为磷酸化nadk-s48/50的激酶。ras尤其是kras的突变是肿瘤中发生最广泛的激活型致癌突变,而mek-erk1/2和pi3k/akt信号通路是kras下游最重要的两条信号通路。研究结果发现,nadk-44/46/48/50磷酸化比nadk-44/46或nadk-48/50磷酸化更有效地增强了nadk活性,这表明akt和erk1/2激酶可以共同激活nadk活性。该研究丰富了我们对kras调控nadk活性方式的认识,为靶向kras信号通路提供了更多可能性。
苏州大学梁中洁副研究员、上海药物所硕士生刘通海、博士后李琪及苏州大学硕士生张广玉为该论文的共同第一作者。上海药物所罗成研究员、苏州大学朱斐副教授为该论文的共同通讯作者。该研究获得国家重点研发计划、国家自然科学基金等项目的资助。
全文链接:
图1. 磷酸化位点功能预测的深度学习模型funcphos-seq示意图
图2. funcphos-seq预测得到的nadk-s48/50被erk1/2磷酸化并激活其酶活