ProtGPS(Protein Localization Prediction Model)是由麻省理工学院(MIT)与怀特黑德生物医学研究所联合开发的一种基于深度学习的蛋白质语言模型,主要用于预测蛋白质在细胞内的亚细胞定位。该模型通过分析蛋白质的氨基酸序列,利用进化尺度的Transformer架构,学习并捕捉序列中的复杂模式和相互关系。ProtGPS能够预测蛋白质在12种不同亚细胞区域(如核仁、核斑点、应激颗粒等)的分布概率,并可用于设计具有特定亚细胞定位的新型蛋白质序列。此外,该工具还能识别致病突变对蛋白质定位的影响,为理解细胞功能及疾病机制提供新的研究手段。 其技术基础包括基于ESM2架构的Transformer模型,以及与神经网络分类器的联合训练,用于预测蛋白质的亚细胞定位。在蛋白质序列生成方面,采用马尔可夫链蒙特卡洛(MCMC)算法,确保生成序列符合自然蛋白质的特性。同时,通过信息论方法评估突变对定位预测的不确定性影响。 ProtGPS的应用涵盖疾病机制研究、蛋白质工程、药物开发、细胞生物学、基因治疗等多个领域,为相关研究提供了强有力的计算支持。
发表评论 取消回复