视频号
视频号
抖音号
抖音号
哔哩哔哩号
哔哩哔哩号
app
前沿资讯手机看

我要投稿

投稿请发送邮件至:weidy@instrument.com.cn

邮件标题请备注:投稿

联系电话:010-51654077-8129

二维码

我要投稿

投稿请发送邮件至:weidy@instrument.com.cn

邮件标题请备注:投稿

联系电话:010-51654077-8129

颜宁等点评:AI 精准预测蛋白质结构,结构生物学何去何从?

分享到微信朋友圈

打开微信,点击底部的“发现”,

使用“扫一扫”即可将网页分享到朋友圈。

分享: 2020/12/04 19:26:27
导读: 12 月 1 日,谷歌旗下的 DeepMind 公司宣布,其新一代 AlphaFold 人工智能系统在精确预测了蛋白质的三维结构,准确性可与冷冻电子显微镜(cryo-EM)、核磁共振或 X 射线晶体学等实验技术相媲美。

12 月 1 日,谷歌旗下的 DeepMind 公司宣布,其新一代 AlphaFold 人工智能系统在国际蛋白质结构预测竞赛(CASP)上击败了其余的参会选手,精确预测了蛋白质的三维结构准确性可与冷冻电子显微镜(cryo-EM)、核磁共振或 X 射线晶体学等实验技术相媲美。


(详见《解决生物学 50 年来的重大挑战!生物界「AlphaGo」精准预测蛋白质结构》)这一消息引发了全球媒体关注,前 Genentech 首席执行官 Arthur D. Levinson 博士盛赞这一成就是「划时代的进步」


人工智能的「进击」对生物学、对其他学科会有什么影响?网络上有人提出:AI 都能解蛋白质结构了,结构生物学家是不是该失业了?


《返朴》总编、结构生物学家颜宁特邀几位同仁对这一新闻各抒己见, 回答大家的疑问。

微信图片_20201204191414.jpg

by Asier Sanz | https://asiersanz.com/


AlphaFold2 是个大突破,但我们还有努力的方向


张阳

(ITASSER 创造者,美国密歇根大学教授)


AlphaFold2 显然是蛋白质结构预测领域的重大突破。这可能是从 1969 年第一篇 Journal of Molecular Biology 用比较建模方法预测蛋白质结构发表 51 年以来最大的突破。


这个领域过去 20 年来,进展一直比较缓慢,但最近几年,随着共同进化、接触图预测以及引入深度学习之后,很多软件,比如 I-TASSER 和 Rosetta 等,都有了很大进步。


就 I-TASSER 来讲,两年前在第 13 届 CASP(CASP13)时,它能够正确预测的非同源蛋白数目比其六年前在 CASP11 上提高了 5 倍。这次 CASP14 也比 CASP13 的预测能力提高了很多。但 AlphaFold2 这次比上次进步更大,和两年前的上一个版本相比, AlphaFold2 的主要变化是直接训练蛋白质结构的原子坐标,而不是用以往常用的、简化了的原子间距或者接触图。


传统上,蛋白质结构预测可以分成基于模板和从头预测,但是 AlphaFold2 只用同一种方法 —— 机器学习,对几乎所有的蛋白质都预测出了正确的拓扑学的结构,其中有大约 2/3 的蛋白质预测精度达到了结构生物学实验的测量精度。这说明,至少是在单结构域的蛋白结构,他们接近解决了这个问题。


谷歌这次为什么能够取得如此大的成功?


这首先与它们拥有强大的人力和计算资源有关。


计算机上,他们使用 TPU(据他们的宣传是比 GPU 快 15 倍),学术界的实验室只有 CPU 或者 GPU,而很多实验室都还没有 GPU。他们对媒体宣传中说 Alphafold2 最后只用相当于 100 个 GPU 的资源训练了两周就产生了最后的模型,学界大多数实验室都可以做到,这是不客观的。因为产生一个新的想法,到训练成功的模型,中间起码要反复测试重复 100 次甚至 1000 次。这就像吃了十个馒头的饿汉一 样,不能说吃了最后一个馒头吃饱了,就觉得只吃最后一个馒头就够了。


另外,他们可以高薪招聘大量专业人才,集中精力攻关一件事,不需要担心基金申请、教学和学生毕业论文等等。这些人力和计算资源上的差别是谷歌 DeepMind 这样的工业研究机构比起学术界在攻关科学或者工程问题上的最大优势。


当然,学术界在蛋白质结构预测这么多年的积累,也给 AlphaFold2 的成功奠定了基础。


我自己很高兴他们取得了这么大突破。这个工作首先证明了蛋白质结构预测问题是可以被解决的。这其实不是一个简单的问题,因为蛋白质结构和序列的复杂关系,常常让人们 —— 特别是做结构预测的人 —— 怀疑,蛋白质折叠这个问题是不是可解, 或者有没有唯一解。


我们在 15 年前的一篇 PNAS 论文中提到,用 PDB 库中的模板,在理论上可以解决 “单结构域蛋白质结构预测” 这个问题,但那是一个基于模板的传统解法, 难点是如何找到最好的模板。谷歌他们这次用「暴力」的机器学习,「暴力」地解决了这个问题。这个做法的成功会对很多相关领域都产生深远影响。


有人说这个 AlphaFold2 会让很多相关行业的人失业。我认为恰恰相反,它给很多领域提供了解决问题的新途径和新思维,因而会极大推动相关领域的发展,因此会产生更多更大的机会。即便是在蛋白质结构预测这个相对较小的领域,我们还有很多事情要做。


AlphaFold2 这次只有 2/3 的蛋白预测做到实验精度,还有 1/3 做不到,是否还有更快更好的途径来产生更高精度结构的算法?基于商业或其它考虑,我相信谷歌可能不会公开代码或 Server。


所以,最终可能还得学术界的同行共同努力,完善和推广这一技术,让其真正惠及生物医学研究以及普通公众的健康需求。


共赢大于竞争


龚新奇

(中国人民大学数学科学研究院教授,清华大学北京结构生物学高精尖中心合作研究员)


2020 年第 14 届国际蛋白质结构预测竞赛(CASP14)共有 84 个常规(Regular)题目,其中有 14 个题目因为生物实验没给出确定结构等原因被取消或延缓,其他 70 个题目的单体和复合物蛋白质所含有的氨基酸个数从 73 到 2180 不等。


19 个国家的 215 个小组参加了 CASP14。最终,谷歌旗下 DeepMind 公司的人工智能系统 AlphaFold2 在 2018 年的 Alphafold 基础上迭代创新,超常发挥,一枝独秀,基本解决了「从氨基酸序列预测蛋白质结构」这个困扰人类 50 年的生物学第二遗传密码问题。


AlphaFold2 的成功表现在三个方面:

1.不少结构的预测精确度跟实验晶体结构相当,可以替代晶体结构;

2.一些含有多个结构域的复杂超长的单链结构也达到了可以跟实验结构比较的程度;

3.帮助解析了竞赛中涉及到的、实验多年没拿到的 X 射线晶体和 cryo-EM 冷冻电镜结构,比如 T1058 的膜蛋白是用了 Alphafold2 的预测模型之后,才跟原有晶体学数据综合成功解析了结构。

AlphaFold2 团队的 John Jumper 报告表明,他们使用了基于注意机制的神经网络,动态调整网络中节点的顺序和链接;依靠的是端到端的优化整体构建结构,而不是氨基酸距离;网络中内置了大量的序列、结构和宏基因组等多重比较信息;还依赖分子模拟软件优化去掉了原子的堆积碰撞。


在 AlphaFold2 的摘要作者名单里,交叉团队的 30 位作者中有 19 位都被标记为相同贡献的第一作者。他们将近 8 分钟的宣介视频,记录了团队成员在新冠疫情期间精诚合作、攻坚克难的宝贵场景。


CASP 组织者 John Moult 指出,计算下一步还有更困难的问题要解决:超大复合物结构、动态构象变化、蛋白质设计、药物设计等等。


除了我们蛋白质结构预测小同行对 AlphaFold2 的成功很欣喜之外,社会上还有多个不同方向的学术界、产业界和新闻界对它寄予了厚望。


在欣喜的同时,蛋白质结构预测小同行也有一些保留意见:

1.工程化明显,依赖于强大的 GPU 计算资源和代码优化团队;

2.谷歌公司几乎可以收集全球所有网络信息,虽然看起来 AlphaFold2 的自动化程度很高,但他们在人工操作中使用了哪些信息值得关注;

3.预测对了结构,但不等于明白了蛋白质折叠过程和原理。


生物实验科学家也有不少看法:

1.算出结构只是生物学规律发现的第一步;

2.计算的多个 models 中,有时打分排序不准;

3.开放 AlphaFold2 的 server 之后,使用效果不一定那么好;

4.只是在已有蛋白质结构数据集上训练得到的模型,尚不能计算其它构象或其它类别的分子结构。


还有关心这个领域的其他方向的专家也提出了问题:怎么理解这个算法成功的原理?怎么跟原有的热力学、物理学等基本原理相融相通?


我认为 AlphaFold2 是个大突破,后续可能性很多,会替代一些简单的结构生物学实验,但对当下科学家追求的前沿生物学来说,共赢大于竞争;对生物学、数学和计算机学等学科而言,则会带来新的机遇。

技术服务于科学探索,结构生物学早就进入新时代
颜宁

(美国普林斯顿大学雪莉?蒂尔曼终身讲席教授,美国科学院外籍院士)


首先,简单说一下,什么是生物学里的「结构」。


用个不太恰当的类比:变形金刚。比如擎天柱是辆车还是个机器人,这就是不同的结构了,机器人能打架大车做运输,功能也不一样。而不同的汽车人组成成分可能差不多,都有合金、玻璃、橡胶,但是形态各异,特长也不一样。
生物分子的组成成分和基本单元就那么几种,但是组装起来,不同的序列不同的结构,于是功能各异、五花八门。这个结构不是静止的,每一个生物大分子基本都像个小机器,比变形金刚更复杂、更变化多端。


因为结构决定了生物大分子的功能,所以解析高分辨率结构在过去几十年一直是理解生物大分子工作机理最有力的工具。但是一直以来,因为技术局限,对于绝大多数生物大分子的结构解析困难重重。所以,一批科学家另辟蹊径,试图在已有的知识基础上,绕开劳心劳力又劳财的实验步骤,从蛋白质的序列直接通过计算预测出它们精准的三维结构。


蛋白结构预测并不是一个新鲜学科,一直以来就是结构生物学的一个分支,很多科学家不断开发算法,希望根据序列预测出来的结构越来越准确。
这个领域在过去十几年进步迅速,并且与实验结构生物学融合度越来越高。比如,自从进入电镜时代,看到一堆黑白灰的密度,如果其中某些部分没有同源结构,通过软件预测一个大致的结构模型,放到密度图里面做框架,再根据实验数据调整,已经是个常规操作。


这次人工智能赢得 CASP 的新闻亮点有两个,一是 AI,二是准确度高。这确实是突破,但是有了两年前的新闻(注:2018 年,DeepMind 开发的第一代 AlphaFold 首次参加 CASP 并且拔得头筹)做铺垫,现在这次委实是意料之中。
至于衍生出来的所谓「结构生物学家都要失业了」的调侃 —— 如果你对结构生物学的理解还停留在 20 年前,那这么说也不是不行。但是结构生物学自身一直在发展着,一场冷冻电镜的分辨率革命更是令结构生物学不同往日了。
我在 2015 年主持一个学术研讨会的时候曾经评论过:结构生物学的主语是生物学,是理解生命、是做出生物学发现。
但是,在 X - 射线晶体学为主要手段的时代,获得大多数研究对象的结构本身太难了,于是很多研究者把「获得结构」本身作为了目标,让外行误以为结构生物学就是解结构。但我从进入这个领域之初,就被教育得明明白白:结构本身只是手段,它们是为了回答问题、做出发现。而电镜使得「发现」二字尤为突出。

看到结构本身、知道你的研究对象长啥样,倒也可以称之为发现,但我刚刚说的「发现」,特指那些超乎想象的、通过结构才揭示出来的、自然界里神奇的存在或者令人叹为观止的机理。


我讲课最喜欢举的例子之一就是施一公组的剪接体结构。为啥呢?因为它集合了结构生物学发现里几乎所有的精彩要素和挑战。

第一,在剪接体结构出来之前,有很多剪接体的组分甚至是未知的。不同于传统的结构生物学,先知道你要研究对象是啥,再吭哧吭哧地去把它们的结构解出来 —— 剪接体的电镜分析是看到了密度图之后,完全不晓得这是啥,需要通过质谱等手段去鉴定组分。我从 2015 年就预测:电镜与质谱组合,将会变成一个重要的生物学研究发现手段。在电镜时代,这样的例子越来越多。比如清华大学隋森芳老师组的那个巨大的藻胆体结构,靠质谱都不够了。为了搞明白组分,他们甚至先做了基因组测序。

第二,几十上百个蛋白如何众星捧月地把那么几条貌似简单的 RNA 掰成与几个小小的金属离子配合的核酶反应中心,在茫茫碱基中,在正确的时间正确的地点牵线搭桥,剪掉 intron(内含子),连接 exon(外显子)?就为了这一「剪子」 一「钩针」,为了几毫秒的过程,这么个庞然大物的几十上百个组成部件却要分分合合,这个过程是真神奇。


微信图片_20201204191624.jpg

施一公实验室报道的首个酵母剪接体的结构

(图源:生物化学经典教材 Lehninger Principles of Biochemistry(第七版)封面)


结构生物学目前的实验手段只能获得静止的 3D 照片,为了揭示这部电影,就要不断获得中间态的 3D 照片,帧数越多,电影越精准。但即便如此,这个过程中的动力学问题,简单说,就是变化速度,依旧不是现在的结构生物学实验手段可以揭示的,需要借助更多生物物理技术、计算生物学手段去探索。
我自己的工作虽然没有剪接体那么酷炫,但是电压门控钠离子通道如何感受膜电势的变化,开门关门,就这么个过程,听着简单,我们死磕三年了,依旧束手无策。另外,我们今年发的两篇 PNAS 论文其实代表了结构生物学的另一个努力方向:在实验操作过程中对生物大分子施加外力(电场、磁场、各种长度的波......)。
也许是受到我自身专业领域的局限,AlphaFold 迄今带给我的震撼还赶不上冷冻电镜的革命,后者将我们从技术挣扎中解放出来,可以专注于结构带来的生物学发现本身。

AlphaFold 目前最成功的预测是针对单链分子,当然将来预测复合物的高精结构也应该不在话下。相比于对蛋白折叠的贡献,我倒是更希望 AI 能够助力 Molecular Dynamics Simulation(分子动力学模拟)。对结构生物学而言,这个领域才是亟需进步的。

我个人认为生命是地球上最神奇的存在,那么多未知要探索,任何一次技术进步都是契机。该考虑的是如何把新技术为我所用,去问出、去探索更有意思的问题。
最后,当 AI 能够成功预测我们正在孜孜以求的生物大分子动态、原位高分辨率结构的时候,那失业的一定不止是结构生物学家、或者生物学家了 :p

各抒己见


根据现在披露的结果,AlphaFold2 已经基本达到实验解析结构的精度。前天 AlphaFold2 团队的报告展示了新冠病毒 SARS-COV-2 的预测结果,说明 RNA 聚合酶这么大的蛋白也能基本预测准确。


理论上,这会对结构生物学有很大冲击,尤其是以后单颗粒 cryo-EM 的实验方法上,是否还需要把分辨率做得那么高?低分辨率的电子密度图,甚至 SAXS 数据结合预测结果应该就能解决问题了。
但是,现实中的冲击不会那么大。这是因为,AlphaFold2 模型的创新性非常高,其中结合的 2D transformer 和 3D equivariant transformer 都是 AI 领域的前沿技术,模型的训练难度很大。


DeepMind 的训练方法在学术界很难复现,估计学术界要花几年的时间才能跟上,因此短期内 AlphaFold2 对结构生物学的影响会比较有限。DeepMind 可能会和个别实验室合作,预测蛋白质结构。


—— 龚海鹏(计算生物学家,清华大学结构生物学高精尖创新中心研究员)



AlphaFold 为结构生物学家提供了除晶体学、冷冻电镜、NMR 以外的另外一种手段,用于揭示生物大分子发挥作用的分子机制。


—— 张鹏(结构生物学家,主要利用晶体学和冷冻电镜技术;中科院分子植物科学卓越创新中心研究员)



AlphaFold 目前还不能预测复杂的分子机器,主要是因为蛋白 - 蛋白相互作用非常复杂,存在极多的可能性。实验手段所揭示出来的蛋白 - 蛋白相互作用方式还只是冰山一角,更何况在不同生理条件和过程中的结构变化。因此,未来对有特定功能的、多个成分组成的、生物大分子复合体的结构解析,以及体内的结构分析,将成为结构生物学实验研究的主要内容。无论有没有 AlphaFold,结构生物学也正在朝这个方向发展。

Rosetta(注:从头蛋白结构建模算法)也好,AI 也罢,结构预测都是基于已有的实验数据够大。没有足够的数据积累,这些基于统计和数据库的预测就无法实现。完全基于物理学和化学第一性原理的结构预测还没有出现。
实验科学永远是探索未知的必要手段。新的软件算法应该是成为实验科学家的更有力工具,而不是取代实验科学。



—— 王宏伟(cryo-EM 专家,清华大学结构生物学高精尖创新中心执行主任,清华大学生命科学学院院长)



      最近两年,结构生物学领域经历了与围棋界类似的故事。Alphago Fan 版本时围棋界并不认为它能够战胜人类顶尖高手,可是 Alphago Lee 后整个围棋界甘拜下风,并且转向 AI 拜师学艺。2018 年 Alphafold 出现时,实验结构生物学领域认为被战胜的仅仅是传统的结构预测领域,2020 年 Alphafold2 之后,实验结构生物学领域应该开始思考如何与之共存以及如何「拜师学艺」了。


      目前阶段人工智能在围棋上已经远远超过人类顶尖棋手,但是人类围棋比赛并未因此取消,如同汽车发明后奥林匹克仍然在进行田径比赛一样。原因之一是人工智能虽然超越了人类,但并未解决围棋的最终解。同样的道理,对于复杂的结构生物学问题,预测手段本身还不能号称完全解决了问题。


      实验结构生物学领域接下来需要做的一个事情是要拥抱变化,更好地与预测方法结合以及共同发展。


—— 周强(cryo-EM 专家,西湖大学生命科学学院特聘研究员)



蛋白质体系越大,结构的解析越难仅依赖计算方法。Cryo-ET (冷冻电镜断层成像) 技术擅长解析体外难表达的大分子机器结构、细胞中的原位蛋白结构等复杂体系,因此很难被脱离实验手段的方法取代。目前,由于体系过于复杂,使用分子动力学模拟整颗病毒尚未实现,要模拟细菌、细胞、组织,还要很长的路要走。


[来源:丁香学术]

标签: 蛋白质
用户头像

作者:吴婕

总阅读量 9w+ 查看ta的文章

网友评论  0
为您推荐 最新资讯 新闻专题 更多推荐

版权与免责声明:

① 凡本网注明"来源:仪器信息网"的所有作品,版权均属于仪器信息网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:仪器信息网"。违者本网将追究相关法律责任。

② 本网凡注明"来源:xxx(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。

③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为默认仪器信息网有权转载。

使用积分打赏TA的文章

到积分加油站,赚取更多积分

谢谢您的赞赏,您的鼓励是我前进的动力~

打赏失败了~

评论成功+4积分

评论成功,积分获取达到限制

收藏成功
取消收藏成功
点赞成功
取消点赞成功

投票成功~

投票失败了~