《DeepTCR》
https://doi.org/10.1038/s41467-021-21879-w
Introduction
随着下一代测序(NGS)技术的迅速发展,科学家能够全面描述和理解基因组水平的复杂性,NGS已成为揭示细胞基本功能的“分子显微镜”。其应用扩展到免疫组学领域,特别是T细胞受体(TCR)测序技术,为研究适应性免疫反应提供了重要工具。通过选择性扩增和测序TCR的β链CDR3区域,科学家可以研究免疫系统对病原体或肿瘤抗原的克隆性扩增。
TCR测序的挑战
尽管TCR测序技术提供了宝贵的免疫组库信息,但其数据分析仍面临显著挑战: - 数据复杂性高:抗原特异性TCR通常淹没在大量非特异性背景中。 - 信号提取困难:现有分析方法(如目标特征搜索、序列比对)难以从噪声中分离真正的抗原特异性TCR信号。 - 体内实验困难:体内免疫反应中,特定抗原相关的T细胞比例较低,而大多数T细胞与研究目标无关。
深度学习的潜力
近年来,深度学习(Deep Learning)在图像和语言等领域表现卓越,尤其是卷积神经网络(CNN)的应用,能够自动学习复杂数据中的潜在模式。研究者意识到: 1. 深度学习能够处理高维复杂数据,是解析TCR序列的潜在解决方案。 2. CNN可以自动学习TCR序列中与抗原特异性相关的特征模式,克服传统分析方法的局限性。
研究目标
为应对这些挑战,本研究提出了DeepTCR,一个结合无监督学习和监督学习的深度学习框架。该框架通过学习TCR的CDR3序列和V/D/J基因使用情况的联合表征,能够: - 提取抗原特异性TCR的特征信息; - 改善分类和聚类性能,提高抗原特异性TCR的识别能力; - 支持复杂数据的降噪分析,从背景噪声中识别关键序列。
DeepTCR的优势
- 描述性分析:利用无监督学习方法(如变分自编码器,VAE),揭示TCR序列中的潜在模式。
- 预测能力强:结合监督学习方法(如CNN分类器),高效提取抗原特异性信号。
- 灵活性与通用性:适用于多种数据类型和实验场景,包括单细胞RNA测序、四聚体分选和功能扩增实验。
研究意义
本研究通过整合深度学习和免疫基因组学,为TCR测序数据的高效分析提供了一种新方法: - 帮助揭示TCR序列中隐藏的生物学信息; - 改进抗原特异性TCR的分类和提取; - 支持进一步的免疫学研究,为免疫反应的机制解析提供工具。
模型框架
在本研究中,我们提出的DeepTCR模型是一种集成了无监督学习和监督学习的深度学习框架,旨在处理复杂的T细胞受体(TCR)数据,提取抗原特异性TCR的特征。整个框架由多个核心组件组成,能够有效地学习TCR序列的模式并进行分类、聚类以及特征提取。
1. 数据输入与预处理
DeepTCR模型的输入包括TCR的CDR3序列和V/D/J基因使用情况,这两者共同构成了描述TCR的主要特征。 - CDR3序列:TCR的可变区域,负责识别抗原。该序列在免疫反应中具有高度的多样性,因此对于特定抗原的识别至关重要。 - V/D/J基因使用情况:TCR的基因组成,决定了TCR的基本结构。V、D、J基因的选择对于TCR的特异性及其功能有重要影响。
在数据预处理阶段,我们将CDR3序列和V/D/J基因使用情况转换为数值表示,适合输入深度学习模型。 - CDR3序列:通过嵌入层(embedding layer)将每个氨基酸转换为连续的数值向量,以捕捉氨基酸之间的潜在关系。 - V/D/J基因使用:使用独热编码(one-hot encoding)将每个基因的使用信息转换为离散的数值表示。
2. 特征提取模块
DeepTCR的核心部分是特征提取模块,主要通过卷积神经网络(CNN)和变分自编码器(VAE)来学习TCR序列的潜在特征。
(1)TCR特征提取 - CDR3序列
CDR3序列是TCR的关键组成部分,负责识别和结合特定的抗原。为了从CDR3序列中提取有意义的特征,我们使用了以下步骤: - 嵌入层:首先,CDR3序列通过嵌入层转换为连续的数值向量。这使得TCR序列的氨基酸信息能够在数值空间中进行处理,并使网络能够学习到氨基酸之间的相似性。 - 卷积神经网络(CNN):接下来,使用三层卷积神经网络(CNN)从CDR3序列中提取局部特征。每层卷积操作能够检测不同尺度的序列模式,如氨基酸的组合、局部结构等。
(2)TCR特征提取 - V/D/J基因使用
V/D/J基因使用在TCR序列的多样性和特异性中起到关键作用。为了有效地表示基因信息,DeepTCR使用了以下方法: - 嵌入层:V/D/J基因的每个使用情况首先通过独热编码转换为离散的数值表示。然后,通过一个嵌入层将这些离散数据转换为连续的特征向量,使其适合输入神经网络进行学习。 - 卷积层:对V/D/J基因使用信息进行卷积操作,提取基因之间的关系及其在抗原特异性中的作用。
(3)联合特征表示
最终,DeepTCR将CDR3序列的特征和V/D/J基因使用的特征通过拼接层(concatenation layer)结合,形成一个联合特征向量。该向量包含了从两个方面学习到的TCR特征,能更全面地描述TCR的性质,为后续的分类、聚类等任务提供丰富的信息。
3. 无监督学习 - 变分自编码器(VAE)
为了进行无监督学习,DeepTCR使用了变分自编码器(VAE)来对TCR数据进行降维和特征学习。VAE能够通过学习数据的潜在分布,找到数据中的高维结构,并用于聚类等任务。
(1)VAE架构
VAE通过编码器将输入数据(TCR的CDR3序列和V/D/J基因使用情况)映射到一个潜在空间。这个潜在空间通常是一个多维的高斯分布,能够紧凑地表示TCR序列的结构信息。 - 编码器:编码器使用多个卷积层和全连接层来提取TCR序列的潜在特征,并将这些特征映射到潜在空间。通过对潜在空间的正则化,VAE能够避免过拟合并使学习到的特征具有更好的泛化能力。 - 解码器:解码器将潜在空间中的信息反向映射回原始数据空间,用于重构输入数据(TCR序列)。通过最小化重构误差和变分损失,VAE能够学习到TCR序列的有效表示。
(2)聚类分析
VAE学习到的潜在特征表示可以用于后续的聚类分析。通过对TCR序列进行聚类,我们能够识别出具有相似抗原特异性的TCR群体。VAE的无监督特性使得它能够在没有标签信息的情况下,自动发现潜在的抗原特异性TCR。
4. 监督学习 - 分类模型
除了无监督学习,DeepTCR还集成了监督学习方法,用于进一步提高TCR的分类精度,特别是对于抗原特异性TCR的识别。监督学习的关键在于通过已有的标签数据来训练模型,使得模型能够基于输入的TCR序列预测其抗原特异性。
(1)分类模型架构
DeepTCR采用了基于卷积神经网络(CNN)的分类模型,该模型由输入层、卷积层、全连接层和输出层组成。模型的训练目标是最小化交叉熵损失,输出抗原类别的概率分布。
- 输入层:输入的特征包括CDR3序列和V/D/J基因使用信息。CDR3序列经过嵌入层和卷积层处理后,提取到的特征与V/D/J基因的特征拼接在一起作为最终输入。
- 卷积层:通过多个卷积操作从输入数据中提取关键特征,卷积操作通过滑动窗口来学习不同的序列模式。
- 全连接层:提取到的特征经过全连接层处理后,输入到输出层。
- 输出层:输出层使用Softmax激活函数,将特征映射到特定的抗原类别,给出每个类别的概率值。
(2)训练与评估
我们采用了K-最近邻(KNN)算法对TCR的特征进行分类。训练过程中,使用了五折交叉验证,以确保模型在不同数据集上的泛化能力。评估指标包括AUC(曲线下面积)、召回率、精确率和F1得分。
5. TCR序列的敏感性分析
DeepTCR还可以用于TCR序列的敏感性分析,识别出哪些氨基酸残基对于抗原结合至关重要。通过晶体结构数据和突变分析,我们能够分析TCR序列中的特定残基对抗原结合亲和力的贡献。
(1)敏感性分析
通过在TCR序列中引入单一的氨基酸突变,我们能够评估该突变对抗原结合的影响。利用DeepTCR,我们可以计算不同位置的残基对于预测抗原特异性TCR结合亲和力的贡献。
(2)残基敏感性标志图(RSLs)
通过敏感性分析,生成残基敏感性标志图(RSLs),直观地展示哪些氨基酸位置对抗原结合至关重要。RSLs帮助我们了解TCR与抗原结合的机制,尤其是在TCR工程和设计过程中具有重要意义。
Results(实验结果)
在本研究中,我们评估了DeepTCR在解析复杂T细胞受体(TCR)数据中的有效性,展示其在抗原特异性TCR识别和噪声数据降噪中的卓越性能。研究从无监督学习到监督学习的多个实验角度详细分析了DeepTCR框架的能力,并使用来自小鼠和人类的不同数据集进行了验证。
1. 无监督学习:TCR特征提取与聚类
TCR特征提取
DeepTCR的特征提取模块基于变分自编码器(VAE),通过联合表征TCR的CDR3序列和V/D/J基因使用情况,将离散数据转化为连续数值特征。 - CDR3序列特征提取:CDR3序列是TCR中最具多样性和功能相关性的区域。首先将CDR3序列转化为数值表示,采用可训练的嵌入层,将每个氨基酸映射到一个连续的数值空间。随后,通过三层卷积神经网络(CNN)提取序列特征。CNN通过滑动窗口检测序列中的局部模式,例如抗原结合相关的特定氨基酸组合。 - V/D/J基因使用特征提取:V/D/J基因使用被表示为分类变量,并通过独热编码进行处理。嵌入层将独热编码转化为可训练的连续特征,使模型能够学习基因使用模式与抗原特异性之间的关系。
这些特征在最终通过连接层联合表示为高维潜在空间,捕捉TCR的序列特征及基因使用特征。
聚类分析
为了验证DeepTCR在抗原特异性TCR聚类中的表现,我们使用了从小鼠和人类抗原中获得的九个小鼠数据集和七个人类数据集,进行了聚类实验。 - 实验方法: - 采用层次聚类算法(Agglomerative Clustering),逐步合并序列,生成一系列聚类方案。 - 聚类分析基于DeepTCR的潜在特征表示,分别评估CDR3序列、V/D/J基因使用,以及两者的联合表示。 - 作为对比,使用Hamming距离、K-mer表示、全局序列比对等传统特征提取方法进行相同实验。 - 评估指标: - 方差比率标准(Variance Ratio Criterion):衡量聚类紧凑性,通过比较类内和类间的离散度来评估聚类效果。 - 调整的互信息(Adjusted Mutual Information):基于信息论,量化聚类结果与真实抗原特异性标签之间的一致性。 - 实验结果: - DeepTCR的VAE方法在方差比率标准和调整的互信息评分中均显著优于其他方法。 - 结合CDR3序列与V/D/J基因使用信息的联合表示方法表现最佳,能够更准确地区分不同抗原特异性的TCR群体。
这些结果表明,DeepTCR在特征提取和聚类性能上超越了现有方法,尤其是联合特征表示能够提供最丰富的信息,显著提高了聚类结果的质量。
2. 监督学习:抗原特异性TCR分类
分类模型设计
在监督学习的实验中,我们采用基于卷积神经网络(CNN)的分类模型,用于抗原特异性TCR的分类。模型架构如下: 1. 输入数据: - TCR的CDR3序列(经过嵌入和卷积处理)。 - V/D/J基因使用(通过独热编码和嵌入层处理)。 2. 特征提取: - CDR3序列通过三层卷积神经网络提取模式,生成长度无关的特征表示。 - V/D/J基因使用的信息通过嵌入表示学习潜在特征。 - 两种特征被拼接成一个完整的特征向量。 3. 分类输出: - 全连接层使用Softmax函数,将特征映射到对应的抗原类别。
分类性能评估
为了评估分类性能,我们使用了从抗原特异性TCR实验中获得的标注数据集,分别对九种小鼠抗原和七种人类抗原进行了训练和测试。 - 实验设计: - 使用五折交叉验证对模型进行验证。 - 模型性能指标包括AUC(曲线下面积)、召回率、精确率和F1分数。 - 结果: - DeepTCR模型在所有指标上均优于传统机器学习方法(如随机森林和支持向量机)。 - 使用DeepTCR的联合特征表示(CDR3序列和V/D/J基因使用)分类性能最佳,AUC评分显著提高。 - 在测试数据中,模型能够准确识别抗原特异性TCR,表现出极高的鲁棒性。
抗原特异性TCR提取
通过DeepTCR模型分类后的预测概率,可以识别出具有高抗原特异性的TCR序列。进一步分析表明,这些序列在实验条件下具有高频率和显著的抗原结合特性,能够为后续免疫学研究提供可靠的候选目标。
3. HIV免疫反应中的TCR特异性分析
在HIV免疫反应实验中,我们分析了来自HIV抑制者(elite suppressor)的TCR数据,评估了DeepTCR在识别特定表位的抗原特异性TCR方面的性能。 - 数据来源: - 数据集包含HIV-1 Gag和Nef表位的抗原特异性TCR序列。 - 使用实验检测的免疫反应结果作为标签。 - 实验结果: - DeepTCR能够从HIV感染者的免疫组库中准确识别出与HIV表位相关的TCR序列。 - 特定HIV表位的免疫反应中,抗原特异性TCR的序列多样性较高,但通过DeepTCR模型能够有效从背景噪声中提取出相关序列。
进一步分析揭示,HIV逃逸变体引起的免疫反应比一致性表位的反应具有更高的序列异质性,这表明DeepTCR能够捕捉免疫反应中的细微差异。
4. TCR残基敏感性分析
通过DeepTCR模型的输入扰动分析,我们评估了TCR序列的关键氨基酸残基对抗原结合的贡献。 - 方法: - 收集TCR的晶体结构数据,通过对每个氨基酸位置进行突变,测量模型输出(抗原结合亲和力)的变化。 - 通过这种方式,评估每个残基的重要性及其对抗原结合的敏感性。 - 结果: - 突变敏感性分析显示,某些氨基酸位置(例如Flu-MP表位的β-6位置)对抗原结合的贡献显著。 - 使用残基敏感性标志图(RSLs)直观展示了敏感残基的位置及其对结合亲和力的影响。
这一分析方法为后续的TCR工程提供了新的视角,可以用于设计更高效的抗原特异性TCR。
总结
实验结果验证了DeepTCR在多个方面的卓越性能: 1. 无监督学习:通过VAE生成的潜在特征表示,有效提高了TCR的聚类性能。 2. 监督学习:基于CNN的分类器显著提升了抗原特异性TCR的分类精度。 3. HIV研究:成功应用于HIV免疫反应的TCR特异性分析,揭示了逃逸变体引起的免疫反应异质性。 4. 敏感性分析:帮助识别关键残基,为TCR工程提供重要信息。
这些结果表明,DeepTCR不仅能够提高TCR数据分析的效率和准确性,还为免疫学研究和TCR设计提供了强有力的工具。