服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

浙江理工张贵军和南京理工於东军团队JCIM | 新方法提升DNA绑定蛋白质预测精度

日期: 来源:ACS美国化学会收集编辑:ACS Publications

英文原题:

Improving DNA-Binding Protein Prediction Using Three-Part Sequence-Order Feature Extraction and a Deep Neural Network Algorithm



通讯作者: 张贵军,浙江理工大学;於东军,南京理工大学;胡俊,浙江工业大学

作者:Wen-Wu Zeng, Ning-Xin Jia, Muhammad Arif


背景介绍


蛋白质与 DNA 是生命活动中两类重要的生物大分子,它们之间的相互作用无可替代,在 DNA 复制、转录与修复活动中发挥重要作用。揭示蛋白质与 DNA 相互作用的内在机制对于深入理解生命活动十分重要,将有助于识别致病变异并进行药物设计。精确识别 DNA 绑定蛋白质是揭示蛋白质与 DNA 相互作用内在机制的重要步骤之一。通过深度学习的计算手段进行快速、精确的 DNA 绑定蛋白质预测,已受到了国内外相关学者的广泛关注。


文章亮点


2023年1月31日,浙江工业大学信息工程学院张贵军教授团队和南京理工大学计算机科学与工程学院於东军教授团队合作在化学信息学和人工智能研究领域的国际权威学术期刊 "Journal of Chemical Information and Modeling"上在线发表了题为 "Improving DNA-Binding Protein Prediction Using Three-Part Sequence-Order Feature Extraction and a Deep Neural Network Algorithm" 的研究论文(论文第一作者为浙江工业大学信息工程学院胡俊副教授),提出了一种基于深度学习的 DNA 绑定蛋白质预测新方法,提升了基于序列信息的 DNA 绑定蛋白质预测精度。这项研究对揭示蛋白质与 DNA 相互作用的内在机制具有十分重要的意义。


通过分析 CATH 数据库中的多域蛋白质,研究团队发现,在自然界中,多域蛋白质的 N 端和 C 端残基在很大概率上位于不同的结构域中。基于这一发现,为了兼顾多域蛋白质 N 端和 C 端信息的差异,提取更多的蛋白质序列特征信息,作者提出了一种三段式序列特征提取方法 TPSO。TPSO 将蛋白质序列等分成两等份,分别表示 N 端序列和 C 端序列,在从 N 端、C 端以及全长序列中提取表示序列有序信息的伪特征。



在 TPSO 的基础上,研究团队提出了一种基于 Bi-LSTM 的深度学习框架来学习 DNA 绑定蛋白质预测模型。该学习框架包含三个 Bi-LSTM 层与全连接层混合模块,分别处理 TPSO 生成的 N 端、C 端和全长序列的特征信息。三个混合模块的输出被输入到一个全连接模块中,来预测待测蛋白质属于 DNA 绑定蛋白质的概率,最终判断是否属于 DNA 绑定蛋白质。基于上述框架,利用多种不同视角的序列特征(如PSSM等)作为原始特征,提出了一种名为 TPSO-DBP 的 DNA 绑定蛋白质预测方法。



在基准测试集上的实验结果表明,与现有 DNA 绑定蛋白质预测方法相比, TPSO-DBP 获得了更为出色的预测性能。在不同的训练集上训练的 TPSO-DBP 模型均取得了优异的MCC指标值。以在 UniSwiss-Tr 训练集上学习模型为例,TPSO-DBP 在两个重要指标 MCC 与 F1 上分别获得了最高的0.741与0.868,相比于排在第二的 TargetDBP+ 方法高出了3.20%与1.76%。此外,TPSO-DBP 在其他四个指标上也获得了不错的成绩。最后,为了便于广大研究人员使用,研究团队提供了在线 DNA 绑定蛋白质预测服务器 (https://jun-csbio.github.io/TPSO-DBP/)供领域相关研究人员免费使用。



扫描二维码阅读英文原文

J. Chem. Inf. Model. 2023, 63, 3, 1044–1057

Publication Date: Jan. 31, 2023

https://doi.org/10.1021/acs.jcim.2c00943

Copyright © 2023 American Chemical Society

IF 2021: 6.162

Citaions 2021: 30,162

CiteScore 2021:7.7

The Journal of Chemical Information and Modeling publishes papers reporting new methodology and/or important applications in the fields of chemical informatics and molecular modeling.Astute chemists, computer scientists, and information specialists look to this monthly’s insightful research studies, programming innovations, and software reviews to keep current with

advances in this integral, multidisciplinary field.

  • 主编:Kenneth M. Merz Jr.(Michigan State University)

  • 副主编


点击“阅读原文”

你“在看”我吗?

相关阅读

  • 蛋白组学样本制备,数据处理 protocol 免费领!

  • 师姐师姐,我做的血清蛋白组学实验,竟然没有检测到生物标记物,这是为什么啊?大概率样品制备失败了。去除高丰度蛋白了吗?师姐师妹一时疏忽忘记了,不过怎么判断是否需要去除高丰度蛋
  • 蛋白质含量高达40%,这个豆浆特浓、特好喝!

  • 煎饼、油条、包子铺,炸串、烧烤、夜宵摊,都少不了“豆浆”的身影。小编从小就爱喝豆浆,但越来越难买到好喝的豆浆,要么稀得一点豆浆味儿都没有,要么甜得像糖水一般。自己在家榨豆
  • 晕!还有人不会用 Trizol 同时提 RNA 和蛋白吗?

  • 师弟师兄!实验又又又扎堆了,这周一直在提 RNA 和蛋白质,一个数据也没有,明天组会肯定要被老板骂了!怎么这么慢,你不是同时提取 RNA、DNA 和蛋白质的吗?师兄师弟啥?师兄快传我这套 pr
  • Apache Dubbo反序列化漏洞CVE-2023-23638

  • 漏洞名称:Apache Dubbo 反序列化漏洞 (CVE-2023-23638)组件名称:Apache Dubbo影响范围:2.7.0≤Dubbo≤2.7.22,3.0.0≤Dubbo≤3.0.14,3.1.0≤Dubbo≤3.1.6漏洞类型:反序列化利用
  • 千万别用热水洗带血的衣服!

  • 在我们印象中,似乎用热水洗碗、洗衣服,不仅双手感觉更舒服,还能洗得更干净。 然而,至少对洗带血迹的衣服时,不是这样的。 血液中的红细胞、白细胞、血小板、血浆等,都含有蛋白质;
  • 提升免疫力这4类食物要吃够~

  • 作为三大营养素之一,蛋白质是建造和修复人体细胞的重要原料。缺乏蛋白质时轻则免疫力下降,重则可能诱发肾衰、心脏瓣膜病、老年痴呆,甚至恶性肿瘤等疾病。身体缺乏蛋白质的表现

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 2分钟有奖调研 | 科研和学习习惯

  • 有奖调查为促进人才的专业发展,ACS推出的社区成员ACS Community Associates,公众可免费加入。ACS为社区成员提供很多免费的在线报告、职业发展资源、ACS newsletter 等。社区
  • ACS Publications招聘 | Design Freelancer

  • 美国化学会以“运用化学的力量改善人们的生活”为愿景,自1876年成立以来,已经在化学及相关学科领域创办了近80本学术期刊,备受科研界的认可。如果你想与全球顶尖科学家们一起创
  • 澳门出现​“迷魂党”?司警回应

  • 网传本澳出现迷魂党施放迷烟后向受害者索财司警表示暂未接到相关报案……治安警上周四北区扫黄截获10名怀疑卖淫女子并查获2间怀疑非法旅馆 近日司法警察局发现网络社交
  • 下月响锣!

  • 4月17日至23日WTT澳门冠军赛在塔石体育馆举行赛事日程将会增加至7天男、女各32名世界乒乓好手将竞逐男单女单两个项目赛事门票本周四上午10时起发售由体育局、世界乒乓球职