视频号
视频号
抖音号
抖音号
哔哩哔哩号
哔哩哔哩号
app
前沿资讯手机看

我要投稿

投稿请发送邮件至:weidy@instrument.com.cn

邮件标题请备注:投稿

联系电话:010-51654077-8129

二维码

我要投稿

投稿请发送邮件至:weidy@instrument.com.cn

邮件标题请备注:投稿

联系电话:010-51654077-8129

新算法助力质谱数据准确高效预测小分子 助力新药研发

分享到微信朋友圈

打开微信,点击底部的“发现”,

使用“扫一扫”即可将网页分享到朋友圈。

分享: 2021/08/10 17:40:45
导读: 小分子的鉴定是生命科学一项关键任务。质谱可用于分析化合物成分,高通量质谱技术能够从数十万个环境中收集小分子的串联质谱。然而,现有的方法是基于化学领域的知识,无法解释小分子质谱中的许多峰。

    卡内基梅隆大学和俄罗斯圣彼得堡国立大学的研究人员提出一种算法——MolDiscovery,提高了小分子识别的效率和准确性。该算法使用分子的质谱数据来预测未知物质的「身份」,在研究早期告诉科学家他们是偶然发现了新事物,还是仅仅重新发现了已知事物,可节省发现新的天然医药产品的时间和金钱。

  该研究于6月17日以「MolDiscovery: learning mass spectrometry fragmentation of small molecules」为题发表在《自然通讯》(Nature Communications)杂志上。

171857_202108041445491.jpg

    MS 是一种电离化学物质并根据其质荷比(质量-电荷比)对其进行排序的分析技术。广泛应用于各个学科领域中通过制备、分离、检测气相离子来鉴定化合物。

  质谱图是小分子的指纹,可以用一组质量峰表示,但与指纹不同的是,没有庞大的数据库来匹配它们。尽管已经发现了数十万种天然分子,但科学家们无法获得他们的质谱数据。

  目前,已经出现了包含数万个小分子注释质谱的谱库,为开发基于机器学习的方法来提高计算机数据库搜索的灵敏度和特异性铺平了道路。然而,现有方法对于超小分子(< 400 Da)表现不佳,并且对于「重」小分子(>1000 Da)在计算上不足。

  现在,该研究团队提出一种质谱数据库搜索方法—— MolDiscovery,通过学习概率模型来将小分子与其质谱相匹配,大大提高了小分子识别的准确性,同时使搜索效率提高了一个数量级。

  从全球天然产物社会分子网络(GNPS;http://gnps.ucsd.edu) 搜索了 800 万个串联质谱后,MolDiscovery 以 0% 的错误发现率 (FDR) 鉴定了 3185 个独特的小分子,与现有方法相比,增加了 6 倍。在具有已知基因组的 GNPS 存储库的一个子集上,MolDiscovery 正确地将 19 个已知和三个假定的生物合成基因簇与其分子产物联系起来。

  MolDiscovery 框架

  MolDiscovery 框架主要分两个过程:训练过程和评分过程。具体步骤:

  从构建代谢物图和生成碎片图开始。对于后者,MolDiscovery 使用一种新的高效算法来查找代谢物图中的桥接和 2-cuts;

  MolDiscovery 继续学习匹配碎裂图和质谱的概率模型;

  对小分子光谱对进行评分,计算 FDR。

基准测试

  MolDiscovery 与其他五种最先进的方法进行了比较,数据库搜索结果显示,MolDiscovery识别效果最好,平均可以正确识别测试 GNPS 和 MoNA 数据中的 43.3% 和 64.3% 的小分子。

171857_202108041446113.jpg

所有测试方法的最高 K = 1、3、5 和 10 准确度。(来源:论文)

    MolDiscovery 也是针对 DNP 搜索 GNPS 的最快和最节省内存的方法之一。在预处理阶段,MolDiscovery 比其中一种方法快 300 倍以上。

  还根据正确分子匹配的质量范围评估了运行时间。对于质量 >1000 Da 的分子光谱,相同质量范围内,MolDiscovery 平均只需 6 分钟和 24 秒。

  注释 8 倍多的光谱,识别出 6倍多的独特化合物

  从GNPS 搜索了 800 万个串联质谱,在严格的 0% FDR 水平下,MolDiscovery 注释了 8 倍多的光谱,并识别出比 Dereplicator+ (一种从MS中识别小分子的数据库搜索复制器)多6倍的独特化合物。

  MolDiscovery 搜索在 10 个线程上花费了 34 天,与单线程上的预测 329 天非常接近。值得注意的是,在搜索如此大规模的光谱数据集时,MolDiscovery 比其他方法要高效得多,只需要对分子数据库进行一次预处理,可以有效地搜索未来的光谱。

  节省新药研发时间、成本

  「科学家们浪费了大量时间来分离已知的分子。」研究团队成员 Hosein Mohimani 说。「早期检测分子是否已知,可以节省时间和数百万美元,并有望使制药公司和研究人员更好地寻找可能用于新药开发的新型天然产品。」

  Mohimani 解释说:「例如,科学家检测出一种在海洋或土壤样本中有望成为潜在药物的分子后,可能需要一年或更长时间才能识别出这种分子,而不能保证该物质是新的。MolDiscovery 使用质谱测量和预测机器学习模型快速准确地识别分子,且无需依赖质谱数据库进行匹配。」

  该团队希望 MolDiscovery 将成为实验室发现新型天然产物的有用工具。MolDiscovery 可以与 Mohimani 实验室开发的机器学习平台 NRPminer 协同工作,帮助科学家分离天然产物。





[来源:ScienceAI]

用户头像

作者:情绪波动

总阅读量 68w+ 查看ta的文章

网友评论  1
全部评论(1条)
用户头像
Ins_5c82cea42022-03-30 19:44:45
请问GNPS怎么用自己的数据建立分子网络
0回复
为您推荐 精选资讯 最新资讯 新闻专题 更多推荐

版权与免责声明:

① 凡本网注明"来源:仪器信息网"的所有作品,版权均属于仪器信息网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:仪器信息网"。违者本网将追究相关法律责任。

② 本网凡注明"来源:xxx(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。

③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为默认仪器信息网有权转载。

使用积分打赏TA的文章

到积分加油站,赚取更多积分

谢谢您的赞赏,您的鼓励是我前进的动力~

打赏失败了~

评论成功+4积分

评论成功,积分获取达到限制

收藏成功
取消收藏成功
点赞成功
取消点赞成功

投票成功~

投票失败了~