视频号
视频号
抖音号
抖音号
哔哩哔哩号
哔哩哔哩号
app
前沿资讯手机看

我要投稿

投稿请发送邮件至:weidy@instrument.com.cn

邮件标题请备注:投稿

联系电话:010-51654077-8129

二维码

我要投稿

投稿请发送邮件至:weidy@instrument.com.cn

邮件标题请备注:投稿

联系电话:010-51654077-8129

DeepMind遇上对手? Meta AI预测6亿蛋白质结构

分享到微信朋友圈

打开微信,点击底部的“发现”,

使用“扫一扫”即可将网页分享到朋友圈。

分享: 2022/11/07 10:22:55
导读: 英国人工智能(AI)公司DeepMind今年公布了2.2亿个蛋白质的预测结构,几乎涵盖了DNA数据库中已知生物的所有蛋白质。现在,另一个科技巨头正在填补蛋白质宇宙中的暗物质。

 W020221103347505423007.jpg

  ESM宏基因组图谱数据库包含6.17亿个蛋白质的结构预测。(图片来源:ESM宏基因组图谱)

  英国人工智能(AI)公司DeepMind今年公布了2.2亿个蛋白质的预测结构,几乎涵盖了DNA数据库中已知生物的所有蛋白质。现在,另一个科技巨头正在填补蛋白质宇宙中的暗物质。

  美国Meta公司(前身为Facebook)的研究人员使用人工智能预测了约6亿个蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。相关研究11月1日发表于预印本网站BioRxiv。

  “这些是非常神秘的蛋白质,为深入了解生物学提供了可能性。”Meta人工智能蛋白质团队研究负责人Alexander Rives说。

  该团队使用“大型语言模型”生成了这些预测。“大型语言模型”是一种人工智能,可作为通过几个字母或单词预测文本的工具的基础。

  通常语言模型是在大量文本的基础上进行训练的。为了将其应用于蛋白质,Rives团队将已知蛋白质序列“喂”给它们,这些蛋白质由20个不同的氨基酸链表示,每个氨基酸链由一个字母表示。然后,该模型学会了在氨基酸比例模糊的情况下“自动补全”蛋白质。

  Rives说,这种训练使模型对蛋白质序列有了直观的理解,蛋白质序列包含了蛋白质形状的信息。

  第二步,受DeepMind开创性蛋白质结构人工智能算法AlphaFold的启发,模型将这种洞察力与已知蛋白质结构和序列之间关系的信息相结合,从蛋白质序列中生成预测结构。

  今年夏天早些时候,Rives团队报告称,其模型算法名为ESMFold,虽准确性不如AlphaFold,但在预测结构方面要快60倍左右。“这意味着我们可以将结构预测扩展到更大的数据库中。”Rives说。

  作为一个测试案例,研究团队决定将模型应用于大规模测序的“宏基因组”DNA数据库,这些DNA来自环境,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。绝大多数编码潜在蛋白质的DNA条目来自从未被培养过的生物,也不为科学家所知。

  Meta团队总共预测了超过6.17亿个蛋白质的结构,这项工作只花了两周时间。Rives表示,预测是免费的,任何人都可以使用,就像模型的底层代码一样。

  在这6.17亿个蛋白质结构中,该模型认为超过1/3的预测是高质量的,因此研究人员可以确信蛋白质的整体形状是正确的,在某些情况下,模型可以识别更精细的原子级细节。值得一提的是,其中数以百万计的结构都是全新的,与实验确定的蛋白质结构数据库,或从已知生物体预测的AlphaFold数据库中的结构都不同。

  AlphaFold数据库的很大一部分是由几乎相同的结构组成,而宏基因组数据库则涵盖了以前从未见过的蛋白质宇宙的很大一部分。

  哈佛大学进化生物学家Sergey Ovchinnikov对ESMFold做出的数亿个预测表示怀疑。他认为,有些蛋白质可能缺乏确定的结构,而另一些可能是非编码DNA,被误认为是蛋白质编码材料。

  德国慕尼黑工业大学计算生物学家Burkhard Rost对Meta公司模型的速度和准确性的结合印象深刻。但他质疑,宏基因组数据库预测蛋白质是否真的比AlphaFold的精确度更高。基于语言模型的预测方法,更适合快速确定突变如何改变蛋白质结构,这是AlphaFold无法做到的。

  据DeepMind的一位代表说,该公司目前没有在其数据库中进行宏基因组结构预测的计划,但不排除在未来这样做的可能性。

  韩国首尔国立大学计算生物学家Martin Steinegger认为,利用这类工具的下一步,显然是研究生物学中的暗物质。“这些宏基因组结构的分析很快就会出现爆炸式增长。”

  相关论文信息:

  https://doi.org/10.1101/2022.07.20.500902


[来源:中国科学报]

用户头像

作者:ONE

总阅读量 206w+ 查看ta的文章

网友评论  0
为您推荐 精选资讯 最新资讯 新闻专题 更多推荐

版权与免责声明:

① 凡本网注明"来源:仪器信息网"的所有作品,版权均属于仪器信息网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:仪器信息网"。违者本网将追究相关法律责任。

② 本网凡注明"来源:xxx(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。

③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为默认仪器信息网有权转载。

使用积分打赏TA的文章

到积分加油站,赚取更多积分

谢谢您的赞赏,您的鼓励是我前进的动力~

打赏失败了~

评论成功+4积分

评论成功,积分获取达到限制

收藏成功
取消收藏成功
点赞成功
取消点赞成功

投票成功~

投票失败了~