深圳湾实验室周耀旗:AlphaFold全梳理,革命仍在路上 | 嘉程创业流水席218席精彩回顾
06.13.2024 | 嘉程资本:创新者的第一笔钱 | 嘉程创业流水席

无论是AlphaFold 2还是AlphaFold 3都是“靠天吃饭”,它们的结构预测精确度与有效同源序列数量密切相关。

近日,嘉程创业流水席第218席【AI for science:探讨AlphaFold 3的创新和趋势】,邀请了深圳湾实验室资深研究员周耀旗分享,主题是《AlphaFold 3:革命还在路上》。

以下是正文内容:

我是周耀旗,目前在深圳湾实验室系统与物理生物学研究所工作。同时,作为一名科学创始人,我在砺博生物从事针对RNA小分子药物的研究工作。

今天,我将主要介绍AlphaFold 3,我们先回顾AlphaFold的历史和前传,接着讲述AlphaFold 1、2、3的变迁,并展望AlphaFold的未来。

解析蛋白质结构的重要性

蛋白质是极为重要的生物高分子,几乎所有生命活动都在于各种各样蛋白质的功能。从化学成分上来讲,蛋白质由20种氨基酸的不同排列组合构成。这些不同的排列组合形成了多样的结构,正是这些结构使得蛋白质能够承载众多功能。蛋白质的功能多达上万种,某种意义上可以说蛋白质是万能的。

正因为蛋白质是万能的,其在我们身体的各种表现中发挥着重要作用,包括影响身高、体重、血型等。然而,蛋白质有时也会带来与疾病相关的风险,如错误的折叠、异常的表达水平、结构不稳定等。作为生物标志物或药物开发的靶点,蛋白质在分子生物学和小分子药物开发中都有非常大作用。由于蛋白质有如此多的功能,有千变万化的结构,结构生物学家长期致力于解析蛋白质结构,以便更好地理解其机制并促进药物开发。

在过去的60年里,蛋白质结构数据一直储存在Protein Data Bank(PDB库)中。第一个被解析的结构是Myoglobin,至今已经有60年的时间,这60年间,我们累积了大约20万种蛋白质结构。使用这种实验方法来解析这些结构需要非常昂贵的仪器和耗时费力的实验。每个蛋白质的解析成本至少超过1万美元,因此,解析20万个结构的总费用至少需要20亿美元。然而,即使解析了20万个结构,实际上也只是解析了已知蛋白质序列的千分之一。如果要解析所有已知的蛋白质,费用还需要增加1000倍,这对人类来说是不可承受的。

前传:AlphaFold出现前的传统方法

因此,计算生物学家长期以来一直试图使用计算机方法来进行预测。他们从序列出发,预测其三维结构,从而判断其功能并设计药物。60年来,无数计算生物学家前赴后继地努力解析和预测蛋白质结构。

最简单的方法是基于模板的同源建模。如果有一个序列,可以与PDB库中的所有结构进行比对。如果能找到一个结构的序列,无论是同源的、远源的还是相关的,这样的比对基本上可以保证预测出非常精确的结构。因为同源蛋白质通常被认为结构和功能相近,所以用同源蛋白进行结构预测,往往是比较成功的做法。我们也曾在这个领域进行过研究,这种方法称为SPARKSSPARKS X,在这个领域中应用相当广泛。

但是,许多序列找不到同源蛋白质,也就是找不到它们的模板。在这种情况下,就需要进行从头预测。从头预测是从序列出发,直接预测三维结构。三维结构通常通过能量函数来预测,并且希望通过这个能量函数进行优化,以引导我们找到其最终的三维结构。但是,由于结构空间几乎是无限的,能量函数很难做到非常精确地预测,这导致了在这个方向十分努力,但长期以来进展缓慢。

为了解决结构空间过大的问题,结构碎片法成为2018年前的主流方法。这一方法是在找到序列之后,将其分割成多个片段,寻找每个片段相似的已知结构碎片。再利用能量函数将这些碎片组装起来,预测出最终的蛋白质结构。我们开发的能量函数名为统计式函数,即DFIRE,曾经在该领域得到了广泛应用。

然而,这种方法的发现仍然不够,准确度也有限。因此,科学家开始采用分而治之的策略,将三维结构预测问题分解为一维信息的二级结构预测和二维的接触图预测,变成两个氨基酸之间的距离预测,我称之为将“3”分解为“1+2”的问题。

变成这个问题以后,仍然采用的是结构碎片法。有了一个序列,我们就可以进行二级结构预测,预测出螺旋、片条或随机线圈等结构,从而找到更匹配的结构碎片。同时,借助人工智能,我们可以预测二态氨基酸接触图。这些接触图可以作为能量函数的约束条件,使它指向更好的三级结构。这是一种主流的基于结构设计的方法,通过将一级和二级结构信息加上能量函数来实现碎片的组装。

蛋白质结构预测技术的发展主要通过CASP会议进行评估。自1994年以来,CASP会议将结构目标分为三类:容易靶点是相对容易找到模板的,中间则不太容易找到模板,困难靶点则完全没有模板可用。我们也曾经在2004年基于模板的结构预测拿到过第一名。

过去20多年来,特别是从1996年到2016年,我们可以看到在简单的同源模板建模方面,进展相对稳定,已经达到了较高的精度。在100分满分的评分系统中,85分以上被认为是高精度预测。对于那些难的靶点,其精度一直在缓慢提升。20年来,精度大约提高了20分。如果我们想要实现高精度的结构预测,可能还需要200多年的时间。因此,当时许多人,包括我自己,都感到非常悲观。

除了主流方法之外,还有一种非主流的方法,即基于二面角预测。这种方法不依赖于结构碎片,而是通过序列预测二面角,直接构建主链结构,并利用能量函数和二面角约束来预测三级结构。这是我们在2009年开展的工作,也是该领域研究的起始。

随着角度预测的精确度越来越高,碎片预测的精确度也随之提高,因此不再需要依赖碎片进行预测,这就是无结构碎片的方法。大约七八年后,许锦波教授在我们工作的基础上,不仅使用角度预测,还加入了距离预测,将问题转化为1+2的问题,结合一维和二维信息,更好地约束三维结构。

AlphaFold 1实现第一次飞跃

AlphaFold 1就是这种构建方法。它通过序列预测连续角度分布,转化能量函数,并预测距离,通过距离分布转化能量函数,最终由蛋白质特定的能量函数来推测三维结构。

AlphaFold 1成功实现了第一次飞跃。在过去几十年中,由于缺乏创新,一直停滞不前,都是基于碎片的方法。而AlphaFold 1成功地采用了一种非主流的方法,不依赖结构碎片,一下子打开了新局面。碎片方法由于其僵硬性和许多不准确的部分,使得准确组装变得困难,但一旦摆脱了碎片的约束,就实现了一次飞跃。

连续角度的预测也使得端到端的预测成为可能,可以直接构建三级结构。

2016年,可微分损失函数的出现,反向传播彻底替代了能量函数。首先预测角度并由此建立三级结构,如果发现与真实的自然结构存在差异,这种差异可以通过反向传播来优化所有参数进行调整。通过反复迭代和训练,不断提高预测的精确度。这就是端到端的结构预测,也就是从序列到结构的全部过程都在神经网络中完成。

我认为端到端的预测是一项革命性的进步,它第一次用无限多的参数替代了不够精确的能量函数能量函数本身通常只有几百或几千个参数,而在人工智能中的参数数量可以达到千万,甚至亿级,这也是大数据的进展。

AlphaFold 2:基于NEMO方法的改进

在RGN方法出现不久后,哈佛大学的Marks教授进行了类似的工作。他们不仅利用了一维信息,还结合了二维信息,除了角度预测,还考虑了距离预测。这种“1+2=3”的构造方法在端到端预测方面基本成型,被称为NEMO方法。

AlphaFold 2实际上是基于NEMO方法的改进。它同样通过一维和二维信息来构建三维结构。它有一个重大的创新,将所有同源序列直接输入系统,使得整个神经网络能够直接从序列中萃取进化和共进化信息。这种对一维和二维信息的大幅改进是实现最优三维结构预测的关键,因此它实现了第二次飞跃,达到了之前认为不可能的高精度结构预测水平,与实验精度相媲美。

AlphaFold 2之所以成功,是因为它将三维结构预测问题简化为1+2的问题,并将分类问题转变为连续预测问题。另一个重要因素是使用巨量参数取代了能量函数。这三个方面在AlphaFold 2出现之前已经存在,而AlphaFold 2在此基础上加入了同源序列萃取,从而大幅提高了预测精度。精度的显著提升,一个很大的原因是使用了目前最大的模型,只有他们公司才能建立这么大的模型,利用所有序列和结构信息,构建了近亿个参数的模型,实现了重大进展。

AlphaFold 2局限:靠天吃饭

然而,AlphaFold 2也存在局限性。例如,将人类蛋白输入同源序列搜索时,会发现许多同源序列。将这些同源序列输入AlphaFold 2程序后,预测出的结构在某些区域置信度非常高,深蓝色表示置信度超过90。但在其他区域,置信度非常低,预测结果呈现出随机性。还有一些置信度较高的区域似乎与其他部分没有相互作用,这就很奇怪。它们为何独立存在,是否真的没有相互作用,这是预测问题还是由于这两个区域的进化信息不足导致的松散结构,这一点难以解释。

一种可能的解释是,低置信度区域也就是结构无序区,蛋白质某些部位本身就是无序的。另一种可能性是,该区域的进化信息量不足,无法准确预测结构。因此,我们无法确定是内在无序区还是进化信息不足导致的问题,这是AlphaFold 2的局限之一。

2022年国际无序区预测比赛与CASP同时举行。在比赛中,AlphaFold 2的低置信度区域用于预测无序区,它的准确度比很多其他方法都差,我们2019年的方法仍然是最优的。这表明低置信度区域并不一定缺乏结构,它可能具有结构,也可能是无序区,但AlphaFold 2无法准确判断。因此,仅凭低置信度区域来判定无序区是不对的。

AlphaFold 2的局限性在于它“靠天吃饭”。它的预测准确性取决于能否在天然数据库中找到足够多的有效同源序列。如果有效同源序列数量充足,预测结果通常较准确;反之,则结果一般。因此,AlphaFold 2可以说是“靠天吃饭”的工具。

因为“靠天吃饭”,许多蛋白质的预测存在问题:

  • 某些蛋白质虽然有不少同源序列,但覆盖范围可能不够,导致部分区域预测不准确。在人类基因组中,只有36%的区域具有高置信度,而64%的区域置信度较低,这是一个普遍存在的问题。

  • 一些蛋白质,如抗体和病毒,由于是刚刚进化出现的,同源序列天然就较少。还有一些物种特有的蛋白质,在其他物种中找不到同源序列,让AlphaFold 2去预测,基本很难预测好。

  • 某些蛋白质在不同条件下会形成不同的结构,这对AlphaFold 2来说也是一个挑战,因为它无法预测多种结构,只能预测单一结构。

  • 一些蛋白之间的相互作用,进化信息不足,也很难保证预测的准确性。

  • 一些蛋白翻译后修饰引起结构变化,AlphaFold 2也无法处理。

AlphaFold 3的进步与局限

因此,AlphaFold 3企图发展一个通用模型,以解决AlphaFold 2遇到的一系列问题。第一,它使用了更大的训练数据集,超越了AlphaFold 2所局限的2018年前的数据。AlphaFold 3主要基于2021年9月30日之前存在于PDB数据库中的数据,增加了三年多的数据。

另一个改进是,AlphaFold 3不再基于氨基酸类型构建原子,而是直接从原子层面开始构建分子,使其成为一个通用模型,适用于所有分子。算法也进行了改进,原有的进化模块被简化,结构模块转变为扩散生成模型,更好地与原子构象相搭配,产生更精确的原子构象和结构。

在对高分子进行共价修饰后,可以看到结果挺成功。这项工作本身是从零到一的创新,以前没有类似的系统性工作。然而仔细观察它的精确度表现,我们发现结果参差不齐,最高精确度不足80%,尽管精确度已经相当不错,但仍有改进空间。这并没有像AlphaFold 2初次亮相时那么惊喜,当时AlphaFold 2一下子就把问题基本解决了。

关于蛋白质/小分子,我个人认为它的成功有限,并且可能存在过度训练的问题。这是因为它根据时间来划分训练集和测试集,训练集和测试集之间可能存在重叠,没有做非常好地去冗余,可能导致数据泄露。我有一个朋友使用了他们的服务器来计算多个蛋白质-小分子复合物的结构,但没有一个是正确的。虽然这可能只是个别案例,统计意义上可能并不显著,但这至少表明了一个问题:对于未见过的结构,预测可能不准确。

我认为过度训练的主要原因是,蛋白质由氨基酸组成,化学空间相对固定且较小。而小分子的化学空间相比之下几乎是无穷大的。蛋白质与小分子相互作用的数据库非常有限,在这样的小空间内,要实现完整的复合物结构预测还是非常难的。

另一个很重要的因素是,当前的方法无法预测小分子与蛋白质相互作用的亲和力。这意味着即使放入一个小分子,它也许会预测一个似是而非的结构出来。无法判断小分子是更倾向于与蛋白质结合,还是更愿意溶解在水中,这是一个显著的缺陷,也是未来改进的一个重要方向。

复合物和抗体的预测也是大家很关注的一个问题,存在很大的改进空间。目前使用的标准来判断预测是否成功非常低,仅以DockQ分数大于0.23为标准。DockQ分数的范围是0到1,1代表完美,而0.23仅代表可接受的成功,意味着预测的部分区域是正确的,但大部分可能是错误的。即便使用如此低的标准,成功率仍然不高,通常低于80%,抗体和抗原复合物的成功率只有大约60%。因此,我认为成功率有一点水分,所以才用非常低的要求来要求计算成功率。

我们的团队也对抗体预测功能进行了测试,用2021年9月30日之前的三个抗原和抗体蛋白。这三种抗原和抗体都能结合在同一抗原上,预测结果非常完美。我怀疑这些数据已经存在于其数据库中,基本上是直接复制粘贴的结果。但当我们使用2021年9月30日之后发布的三种蛋白进行预测时,预测结果就没有那么美好了。图片灰色部分代表预测结果,而彩色部分是实际结果,整个作用面有很大的错位。因此抗原和抗体的预测仍有很大的改进空间,且可能存在数据泄露的问题,效果没有它想象得那么好。

此外,他们还进行了RNA结构的预测,包括RNA与蛋白质的复合物结构、RNA与DNA的结构预测,以及单独RNA的结构预测。对于RNA结构,其预测精度令人不满意。DNA结构的预测稍好一些,因为DNA结构相对简单。RNA结构的预测难度较大,甚至不如熊鹏博士使用BRiQ-RNA函数的Aichemy_RNA2工作,这表明RNA结构预测才刚刚开始,甚至都不如能量函数,说明数据库小是关键问题。

我们最近也研究了RNA数据库,发现RNA数据库非常缺乏。我们统计了蛋白质主链(三联体)的碎片结构数量,发现蛋白质的增长在过去十年已趋于平稳,进展不太大了,但是RNA还有突飞猛进的空间,RNA的主链更为复杂,包含六个原子和六个二面角,而蛋白质主链只有三个原子和三个二面角,且ω几乎不变。原则上RNA碎片的三联体结构数量应远超蛋白质,但目前仅为其三分之一。这充分说明,RNA结构在PDB数据库中的数量太少,测试数据不足以支持AI泛化学习能力。

AlphaFold 3还有一个缺陷,它基于AlphaFold结构的真伪进行蒸馏。如果没有使用Cross Distillation——即利用AlphaFold 2的部分结构来排除其他结构,AlphaFold 3是做不好的。AlphaFold 3采用的扩散生成模型倾向于产生比较塌缩的、结实的结构。但在蛋白质的某些区域可能本身就没有结构,因此它引入了disorders分数,将这些幻想结构打乱,形成类似面条的构象。由于这个分数基于经验公式,无法完全避免幻想结构。因此,在蛋白质单体结构预测中,AlphaFold 3可能还无法超越AlphaFold 2,只能与之持平。我认为AlphaFold 3相较于AlphaFold 2略有优势的原因,是它使用了更大规模的数据集。

总体而言,无论是AlphaFold 2还是AlphaFold 3都是“靠天吃饭”,它们的结构预测精确度与有效同源序列数量密切相关。有效同源序列数量越多,预测的精确度越高;相反,序列数量越少,精确度越低。AlphaFold 3并未改变这个现象。

AlphaFold的未来展望

关于未来的展望:

  • 我认为,天然同源序列无法解决所有问题。我们需要通过实验方法人工进化来产生同源序列,这样才能突破AlphaFold 2和AlphaFold 3目前的瓶颈。通过人工进化产生的同源序列,可能完全超越天然同源序列的限制。我们做了简单实验,人工进化一次,产生大批高相似度的同源序列,就可以做一个很高精度的结构预测。

  • 第二个展望是,一定需要物理感知的人工智能,才能解决当前数据量不足导致的AlphaFold 3存在数据泄露或过度训练的风险。

    值得肯定的是,AlphaFold 3把物理因素考虑进去,例如把无序可能性放到预测排序里,但这还不够完美,也无法完全避免幻想结构的出现。

    AlphaFold 3首次将原子电荷作为输入特征,这有助于蛋白质间的相互作用,以及蛋白质与小分子的相互作用,通过形状匹配和电化学性质匹配来降低复合物结构预测的难度。然而,要进一步提高预测精度,还需要加入更多的物理感知因素。

    此外,AlphaFold 3还不能处理结构的扰动、结构的变化、蛋白的稳定性、亲和力等等问题。

    所以,未来应该把物理的因素考虑在统计里,而不仅仅依赖统计数据。就像我们最近看到的Sora视频,一些视频完全脱离了物理可能性,有些物体会突然消失或出现,这是因为在训练过程中没有考虑物理因素。AlphaFold 3面临着类似的问题,我们希望下一个版本能够将物理因素考虑进去,真正解决数据量不够多的问题,同时可以避免一些虚假结构。

  • 第三个展望是靶向RNA小分子药物的方向。尽管有足够的进化信息时通过AlphaFold 2预测蛋白质结构的结果相对准确,但RNA结构的预测却非常不准确。无论是AlphaFold 3还是目前最好的RNA预测工具,都存在很大局限性。因此,结构预测只能起到辅助性作用,关键还是要与实验结合验证三级结构的真实存在和稳定性。也就是说,结合人工智能和生物技术(AI+BT)才是真正解决问题的方法。

    目前,AI在RNA小分子对接准确率有限,AlphaFold 3甚至没有进行测试。如果进行测试,估计RNA小分子的对接误差会比蛋白质小分子更大。虽然现在有一些软件可以进行RNA小分子对接,精确度还是有很大限度。因此,最终还是需要结合优质的RNA小分子库和高通量的筛选技术。

总而言之,目前AI还只能发挥辅助性作用,AI能够给我们带来的革命性进展还没有开始,而是仍然在路上。

 

全文完

 

嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。

我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。

嘉程资本是创新者思考的伙伴,成长的伙伴。

 

嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap20176