INTRODUCTION

论文的引言部分首先强调了蛋白质在生物学功能中的核心作用,理解蛋白质的结构和功能对于医学、制药、基因研究等领域具有重要意义。蛋白质语言模型(PLMs)基于自然语言处理(NLP)的方法,通过对大量蛋白质一维残基序列的自监督学习,已经成为研究蛋白质的关键技术。PLMs 能够捕捉蛋白质残基之间的长程相关性,如共进化现象(Rao et al., 2019; Anishchenko et al., 2017),并在多个蛋白质结构和功能预测任务中表现出色。代表性模型如 UniRep、ProtTrans 和 ESM 系列(如 ESM-1b、ESM-2)在这些任务中的表现尤为突出 。

尽管基于残基序列的预训练取得了成功,但越来越多的研究发现,蛋白质的三维结构与其功能直接相关。因此,利用蛋白质三维结构作为训练数据成为了一个新兴的研究领域。一些研究已证明了基于真实蛋白质结构进行预训练的潜力,但由于高精度结构数据的数量相对较少,与大规模残基序列相比,这类方法的应用受到限制。另一方面,AlphaFold2(AF2)的突破性进展推动了大规模蛋白质结构预测,并建立了一个庞大的结构数据库,这进一步激发了使用大规模结构数据来训练 PLMs 的兴趣 。

目前,基于大规模预测结构的 PLMs 仍处于早期发展阶段,现有研究存在一定的局限性。例如,知名模型 GearNet 依赖于有限的蛋白质结构集,仅使用了大约 80 万个 AlphaFold2 预测的结构。而一些模型如 ESM-IF 则专注于特定的蛋白质任务(如蛋白质逆折叠),而非广泛的通用表示 。

该研究旨在通过引入一种“结构感知词汇”(SA vocabulary)来推动生物学领域的发展。这种词汇将残基信息与蛋白质的三维结构信息结合起来,利用 Foldseek 对蛋白质结构进行编码,从而生成离散的 3D tokens。这些结构 tokens 类似于残基 tokens,捕捉了蛋白质残基的几何构型。研究通过将这些 3D tokens 与残基 tokens 结合,生成了一个新颖的结构感知词汇(SA alphabet),使得传统的 PLMs 可以轻松地集成结构信息。最终,通过对 4000 万条蛋白质 SA-token 序列进行无监督训练,构建了 SaProt,一个结构感知的蛋白质语言模型 。

这项工作展示了 SaProt 在 10 个不同的蛋白质功能预测任务中的优异表现,包括临床疾病变异预测、蛋白质-蛋白质相互作用预测等。

Related work

Residue Sequence-Based Pre-training

Residue Sequence-Based Pre-training部分,研究者详细介绍了基于蛋白质残基序列进行预训练的方法。该方法将蛋白质残基序列视为自然语言,通过掩码语言建模(Masked Language Modeling, MLM)实现全面的表示学习。这一技术源于自然语言处理中的 BERT 模型。

首先,蛋白质的残基序列被形式化为 ( P = (s_1, s_2, ..., s_n) ),其中 ( s_i ) 代表第 ( i ) 位的残基,( n ) 为序列长度。在预训练过程中,模型会随机掩盖一组残基,这一操作会将原始序列 ( P ) 转化为掩码后的序列 ( P_{mask} = (s_1, , ..., s_n) )。模型的训练目标是通过捕捉掩码位置与周围上下文之间的依赖关系,预测被掩盖的残基。

研究总结了之前基于残基序列的 PLMs 在生成通用蛋白质表示中的潜力,尤其是能够预测蛋白质的结构和功能。例如,Rives 等人(2019)、Heinzinger 等人(2019)和 Vig 等人(2020)的工作表明,基于蛋白质残基序列的预训练模型具有预测蛋白质结构和功能的能力。Rao 等人(2021)通过在多序列比对(MSA)数据上进行训练,进一步提升了这种能力。在突变效应预测任务中,Meier 等人(2021)引入了 ESM-1v 模型,用于零样本预测,而 Notin 等人(2022)则将 MSA 作为补充信号。

此外,研究者还提到了近年来的大型 PLMs 在单序列结构预测中的应用。Lin 等人(2022)、Chowdhury 等人(2022)和 Wu 等人(2022)通过应用大规模的 PLMs,从单一序列中预测蛋白质结构,从而展示了这一领域的前沿进展。

这一部分的核心思想是,残基序列预训练是蛋白质功能和结构预测中的关键技术,通过随机掩盖序列中的残基,模型能够学习到序列中的长程依赖关系,从而预测被掩盖的部分。

Foldseek

是一种用于快速准确地搜索和比对蛋白质结构的工具,专门用于解决大规模蛋白质结构数据的查询问题。其核心是将三维蛋白质结构数据编码为信息丰富的离散表征(tokens),从而加速结构比对的计算过程。Foldseek 使用了一种称为 VQ-VAE(Vector Quantized Variational Autoencoder,矢量量化变分自编码器)的技术,将蛋白质结构信息编码为 20 种独特的 3Di 状态。

核心功能与特点

  • 结构编码:Foldseek 通过识别蛋白质结构中的近邻关系,将每个残基的三维结构转换为相应的离散 token,称为 3Di 状态。这些 tokens 捕捉了残基与其空间邻居之间的几何信息。

  • 高效搜索:Foldseek 的目标是通过快速编码和比对蛋白质结构,提高蛋白质结构搜索的速度和准确性。与传统的蛋白质结构比对工具相比,Foldseek 在处理大规模数据集时具有显著的性能优势。

应用场景:

  • 同源建模:通过比对已知蛋白质结构,Foldseek 可以帮助科学家找到目标蛋白质的近似同源结构,从而推断其功能或三维形态。
  • 蛋白质设计:Foldseek 能够用于快速搜索符合特定几何约束的蛋白质结构,帮助优化蛋白质设计过程。
  • 蛋白质分类:Foldseek 可以用于大规模蛋白质结构数据库的分类和比对,帮助研究人员在庞大的结构数据库中发现相似的结构模块。

工作原理

Foldseek 首先使用 VQ-VAE 将蛋白质结构离散化为 tokens,这些 tokens 基于每个残基的局部三维几何形态进行量化。通过这种方式,Foldseek 可以将复杂的蛋白质结构简化为一种可以快速处理的离散序列表示。然后,Foldseek 使用高效的比对算法在大规模的结构数据库中进行快速搜索。

Foldseek 在 SaProt 中的应用

在 SaProt 模型中,Foldseek 的功能被用于生成结构 tokens,这些 tokens 与残基序列信息相结合,形成了 SaProt 的结构感知词汇(structure-aware vocabulary)。通过这种方式,SaProt 能够同时捕捉蛋白质的一级和三级结构信息,从而提升对蛋白质功能和突变效应的预测能力。

Foldseek 的高效结构比对和编码能力,使得 SaProt 能够处理大量的蛋白质结构数据,并有效提升模型的性能。

优势

  • 速度快:Foldseek 提供了快速搜索和比对蛋白质结构的能力,能够高效处理大规模数据集。
  • 精度高:通过 3Di 状态编码,Foldseek 可以精确捕捉蛋白质的三维几何信息,从而提升比对精度。
  • 可扩展性:Foldseek 能够处理大规模的蛋白质数据库,适用于现代结构生物学研究中的大数据任务。

局限性

尽管 Foldseek 在速度和精度方面表现优异,但其依赖于编码的 3Di token 的质量。如果编码过程中出现误差,可能会影响后续任务的准确性。此外,Foldseek 主要用于静态蛋白质结构的比对,尚未处理蛋白质动态构象变化的问题。

Foldseek 是一个在蛋白质结构比对和搜索中非常有前景的工具,特别适合与其他结构或序列信息结合使用,以提高生物信息学研究的效率。

SaProt 结构

输入

SaProt 的输入由两部分组成: - 残基信息:这是蛋白质的一级结构序列,表示为 ( P = (s1, s2, ..., sn) ),其中 ( s_i ) 表示第 ( i ) 个残基。 - 结构信息:通过 Foldseek 工具生成,每个残基的三维结构信息通过矢量量化变分自编码器(VQ-VAE)被离散化为结构 tokens,表示为 ( f_i ),即每个残基的 3Di 状态。Foldseek 使用 20 种 3Di 状态来表示蛋白质的局部几何结构。

通过将每个残基的序列信息 ( s_i ) 与其对应的结构信息 ( f_i ) 相结合,研究者创造了一种新的结构感知词汇,表示为 ( s1f1, s2f2, ..., snfn )。这种新的表示法同时捕捉了蛋白质的一级序列和三级结构信息。

输出

结构感知词汇作为 SaProt 的输入,经过 Transformer 编码器后,模型输出结合了序列和结构信息的蛋白质表示。这些高维表示可以用于蛋白质功能预测、突变效应预测等任务。

Objective Function

SaProt 的目标函数主要基于 BERT 风格的掩码语言建模 (MLM) 目标,类似于 ESM-1b 和 ESM-2 模型。该目标函数支持蛋白质层面和残基层面的任务,使得 SaProt 能够捕捉蛋白质序列的关键特征,同时结合来自 Foldseek 的结构信息。

掩码策略

SaProt 实现了两种掩码策略:

  1. 策略 1:随机掩盖一部分结构感知 (SA) 词汇中的 token。每个 SA token ( s_i f_i ) 代表一个残基 token ( s_i ) 和其对应的结构 token ( f_i )。模型的任务是通过上下文信息来预测被掩盖的 SA token。

  2. 策略 2:只掩盖残基序列信息 ( s_i ),而保持结构 token ( f_i ) 完整。这种策略让模型更专注于学习序列与结构信息之间的联系,特别是在序列不完整或存在噪声的情况下。

训练目标

SaProt 的训练目标是最小化被掩盖的 token 的预测损失,确保模型能够根据上下文中未掩盖的 SA tokens 进行准确的预测。通过这种方式,模型能够同时捕捉蛋白质的一级和三级结构信息,并通过多种生物学任务的下游任务验证其有效性。