本发明提供了一种免疫蛋白配体受体功能预测方法、装置和存储介质,涉及人工智能领域,包括:搭建支持多输入的人工神经网络,人工神经网络用于接收配体与受体向量,输出特定功能的预测分数,人工智能网络至少包括特征提取器、特征融合器和分类器,其中,特征提取器用于提取氨基酸序列向量中的特征向量,特征融合器用于融合蛋白质配体与受体的特征向量,分类器用于对融合后的特征向量进行分类,以输出预测结果;采用迁移学习策略和元学习策略训练人工神经网络;基于训练后的人工神经网络对待预测的受体配体数据进行预测。本发明提供的方法能够预测不同配体与受体蛋白的功能,并泛化预测未见过的配体和受体组合的相互作用功能性质。
1.一种免疫蛋白配体受体功能预测方法,其特征在于,包括:
搭建支持多输入的人工神经网络,所述人工神经网络用于接收配体与受体向量,输出特定功能的预测分数,所述人工神经网络至少包括特征提取器、特征融合器和分类器,其中,所述特征提取器用于提取氨基酸序列向量中的特征向量,所述特征融合器用于融合蛋白质配体与受体的特征向量,所述分类器用于对融合后的特征向量进行分类,以输出预测结果;
采用迁移学习策略和元学习策略训练所述人工神经网络;
基于训练后的所述人工神经网络对待预测的受体配体数据进行预测。
2.根据权利要求1所述的免疫蛋白配体受体功能预测方法,其特征在于,还包括:
对有标注的配体与受体的氨基酸序列的每个氨基酸进行编码,得到氨基酸向量序列;
插入零填充的向量,以使所述氨基酸向量序列达到固定长度;
将非零序列部分在向量序列上滑动来减少神经网络对于序列维度的绝对位置特征的依赖。
3.根据权利要求1所述的免疫蛋白配体受体功能预测方法,其特征在于,采用迁移学习策略训练所述人工神经网络的步骤,具体包括:
采用迁移学习策略单独训练特征提取器,通过编码器-解码器结构在蛋白质序列数据上进行无监督优化,从而使所述特征提取器能够作为编码器学习如何从输入序列向量转换为隐藏空间特征向量。
4.根据权利要求3所述的免疫蛋白配体受体功能预测方法,其特征在于,训练数据来源于通用化的蛋白质数据从而增加特征提取器对于蛋白质序列的理解深度。
5.根据权利要求1所述的免疫蛋白配体受体功能预测方法,其特征在于,采用元学习策略训练所述人工神经网络的步骤,具体包括:
采用基于任务采样的元学习策略训练所述人工神经网络,以平衡网络对于不同配体或不同受体之间的理解深度,并对未见过的受体或未见过的配体提高泛化性;
采用基于超参的元学习策略精调人工神经网络,针对配对的待预测受体与配体的相互作用功能,提高人工神经网络的整体泛化能力,避免过拟合。
6.根据权利要求5所述的免疫蛋白配体受体功能预测方法,其特征在于,所述基于任务采样的元学习策略与所述基于超参的元学习策略合并在同一个训练周期使用,从而同时在超参和数据采样两个角度入手提高模型泛化性。
7.根据权利要求5所述的免疫蛋白配体受体功能预测方法,其特征在于,所述基于超参的元学习策略选取模型权重的L1正则化项损失函数权重与全连接层的dropout概率作为元学习策略中调节的超参,通过元训练集与元验证集在准确度或F1指标上的差异大小来调节超参,从而减少网络精调中的过拟合问题。
8.根据权利要求1至5中任一项所述的免疫蛋白配体受体功能预测方法,其特征在于,所述特征提取器基于ProteinBERT模型实现。
9.一种免疫蛋白配体受体功能预测装置,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的所述程序指令以实现如权利要求1至8中任一项所述的免疫蛋白配体受体功能预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序代码,所述程序代码用于实现如权利要求1至8中任一项所述的免疫蛋白配体受体功能预测方法。
技术领域
[0001]本发明涉及人工智能领域,具体而言,涉及一种免疫蛋白配体受体功能预测方法、装置和存储介质。
背景技术
[0002]深度学习在免疫细胞的各种受体(免疫受体)功能预测方面的应用具有巨大的应用潜力。深度学习作为一种强大的人工智能方法,能够处理复杂的生物信息数据,提取特征,并进行准确的预测。配体和免疫受体的相互作用是决定免疫应答的关键,深度学习可以辅助解析免疫受体-配体互作,从而系统性分析免疫受体介导的免疫功能。深度学习模型的优势在于它们可以通过学习已知配体和受体的相互作用数据来找到配体受体互作的规律。这对于理解免疫配体介导的免疫反应机制、开发免疫疗法和药物优化具有重要意义。随着计算性能的提升和生物数据积累,深度学习在这一领域的应用将继续扩展和深化。但是目前已知的技术手段只能预测免疫细胞的各种受体(比如TCR与BCR,简称为免疫受体)与特定配体的互作,而对未知配体与未知免疫受体组合的预测性能很差。现有的免疫受体特异性功能预测的深度学习方法通常直接采用直接在目标任务数据上端到端训练,然而由于数据获取的局限性,这样的训练策略很容易出现过拟合问题。因此,如何实现广谱中和抗体的直接预测成为亟待解决的技术问题。
发明内容
[0003]本发明旨在至少解决现有技术或相关技术中存在的技术问题之一,公开了一种免疫蛋白配体受体功能预测方法、装置和存储介质,实现同时预测不同配体与不同免疫受体组合的功能,并且能够泛化预测未知配体与未知免疫受体配对组合的相互作用以及配体功能。
[0004]本发明的第一方面公开了一种免疫蛋白配体受体功能预测方法,包括:搭建支持多输入的人工神经网络,人工神经网络用于接收配体与受体向量,输出特定功能的预测分数,人工智能网络至少包括特征提取器、特征融合器和分类器,其中,特征提取器用于提取氨基酸序列向量中的特征向量,特征融合器用于融合蛋白质配体与受体的特征向量,分类器用于对融合后的特征向量进行分类,以输出预测结果;采用迁移学习策略和元学习策略训练人工神经网络;基于训练后的人工神经网络对待预测的受体配体数据进行预测。
[0005]在该技术方案中,人工神经网络的特征融合器采用全局最大池化来去除序列空间特征,并堆叠配体与受体被提取的特征向量来融合二者。该方法也可以替换为注意力机制来对齐特征维度,或通过相加等方式简单融合二者特征。人工神经网络的分类器采用了全连接网络。
[0006]根据本发明公开的免疫蛋白配体受体功能预测方法,优选地,还包括:对有标注的配体与受体的氨基酸序列的每个氨基酸进行编码,得到氨基酸向量序列;插入零填充的向量,以使氨基酸向量序列达到固定长度;将非零序列部分在向量序列上滑动来减少神经网络对于序列维度的绝对位置特征的依赖。
[0007]根据本发明公开的免疫蛋白配体受体功能预测方法,优选地,采用迁移学习策略训练人工神经网络的步骤,具体包括:采用迁移学习策略单独训练特征提取器,通过编码器-解码器结构在蛋白质序列数据上进行无监督优化,从而使特征提取器能够作为编码器学习如何从输入序列向量转换为隐藏空间特征向量。
[0008]在该技术方案中,基于通用蛋白质序列通过掩码重建的无监督学习方式对特征提取器做预训练迁移学习。存在多种替代方案:预训练数据可以替代为更有针对性的多种免疫蛋白氨基酸序列,训练策略也可以替换为聚类等其他无监督或有监督方式。
[0009]根据本发明公开的免疫蛋白配体受体功能预测方法,优选地,训练数据来源于通用化的蛋白质数据从而增加特征提取器对于蛋白质序列的理解深度。
[0010]根据本发明公开的免疫蛋白配体受体功能预测方法,优选地,采用元学习策略训练人工神经网络的步骤,具体包括:采用基于任务采样的元学习策略训练人工神经网络,以平衡网络对于不同配体或不同受体之间的理解深度,并对未见过的受体或未见过的配体提高泛化性;采用基于超参的元学习策略精调人工神经网络,针对配对的待预测受体与配体的相互作用功能,提高人工神经网络的整体泛化能力,避免过拟合。
[0011]在该技术方案中,基于任务采样的元学习方法采用了reptile算法,也可以替换为MAML算法或其他基于采样任务来提高模型对于新任务(未见过的配体或受体)泛化性的方法。
[0012]根据本发明公开的免疫蛋白配体受体功能预测方法,优选地,基于任务采样的元学习策略与基于超参的元学习策略合并在同一个训练周期使用,从而同时在超参和数据采样两个角度入手提高模型泛化性。
[0013]根据本发明公开的免疫蛋白配体受体功能预测方法,优选地,基于超参的元学习策略选取模型权重的L1正则化项损失函数权重与全连接层的dropout概率作为元学习策略中调节的超参,通过元训练集与元验证集在准确度或F1指标上的差异大小来调节超参,从而减少网络精调中的过拟合问题。
[0014]在该技术方案中,所选取的超参可以替换为L2正则项权重、数据增强参数、网络短接参数等其他超参,而衡量元训练集与元验证集预测表现的指标也可以替换为其他评估指标。
[0015]根据本发明公开的免疫蛋白配体受体功能预测方法,优选地,特征提取器基于ProteinBERT模型实现。
[0016]本发明的第二方面公开了一种免疫蛋白配体受体功能预测装置,包括:存储器,用于存储程序指令;处理器,用于调用存储器中存储的程序指令以实现如上述任一技术方案的免疫蛋白配体受体功能预测方法。
[0017]本发明的第三方面公开了一种计算机可读存储介质,该计算机可读存储介质存储有程序代码,程序代码用于实现如上述任一技术方案的免疫蛋白配体受体功能预测方法。
[0018]本发明的有益效果至少包括:现有技术多数仅能单独输入配体或受体序列,用于预测特定配体或受体的特异性功能,而无法同时提供不同配体受体组合的功能性预测。本发明设计了一个多输入网络,输入配体与受体的氨基酸序列,从而预测不同配体与受体蛋白的功能,并能泛化预测未见过的配体和受体组合的相互作用功能性质。现有技术通常只输入相互作用区域的氨基酸序列,但忽略了其他区域变化对蛋白质性质的影响,从而限制了预测准确度。本发明中直接输入整个可变区域的氨基酸序列,确保输入信息的完整性。现有的配体受体特异性功能预测的深度学习方法通常直接采用直接在目标数据上端到端训练,但由于数据获取的局限性,这种训练策略容易导致过拟合。本发明采用迁移学习,基于无监督训练方法对特征提取器模块进行预训练,加深模型对蛋白质的理解。此外,本发明采用新设计的元学习策略对模型进行训练,提升了模型的泛化性。
附图说明
[0019]图1示出了根据本发明的一个实施例的免疫蛋白配体受体功能预测方法的流程示意图。
[0020]图2示出了根据本发明的一个实施例的免疫蛋白配体受体功能预测方法的网络结构示意图。
[0021]图3示出了根据本发明的一个实施例的免疫蛋白配体受体功能预测方法的模型训练流程示意图。
[0022]图4示出了根据本发明的一个实施例的基于任务采样的元学习策略训练人工神经网络的流程示意图。
[0023]图5示出了根据本发明的一个实施例的基于超参的元学习策略精调人工神经网络的流程示意图。
[0024]图6示出了根据本发明的一个实施例的免疫蛋白配体受体功能预测装置的示意框图。
具体实施方式
[0025]为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。
[0026]在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
[0027]如图1和图2所示,根据本发明的一个实施例,本发明公开的免疫蛋白配体受体功能预测方法包括:输入有标注的多受体(或配体)特异性配体数据;原始序列数据处理;构建一个可训练的神经网络模型;基于迁移学习与元学习策略训练神经网络模型;输入待预测的多受体(或配体)体特异性配体数据;使用神经网络模型预测;输出预测结果。具体地:
[0028]步骤1:原始序列数据处理,其中包括配体与受体氨基酸序列的标准化、向量编码、与数据增强,前两者目的是为了将氨基酸序列编码为神经网络可处理的数据形式,后者目的是为了提高深度学习对于数据变化的稳定性。其中序列数据标准化首先截取配体受体的可变区氨基酸序列,并通过长度、测序标记等指标,筛选掉测序结果异常的氨基酸序列。序列向量编码通过将氨基酸序列的每个氨基酸编码为一个向量,从而将氨基酸序列编码为一组向量,再在之后插入零填充的向量从而使该向量序列达到一个固定长度。数据增强通过将非零序列部分在向量序列上滑动来减少神经网络对于序列维度的绝对位置特征的依赖。
[0029]步骤2:搭建一个多输入的人工神经网络,该网络可以输入一组配体与受体向量,并输出一个对其特定功能的预测分数。该网络包括三部分,特征提取器(模块1)、特征融合器(模块2)和分类器(模块3)。其中,特征提取器(模块1)用于提取步骤1所述的氨基酸序列向量中的特征,称为特征向量。该模块1在本发明中分为两或三个分支,分别用于提取蛋白质配体与受体对应的特征向量。特征融合器(模块2)用于融合蛋白质配体与受体的特征向量。可以通过池化和变形对齐配体与受体的特征向量,随即采用拼接或相加的方式融合对应特征向量,得到一个融合后的特征向量分类器(模块3)基于融合后的特征向量进行分类,用以输出预测结果。
[0030]步骤3:采用迁移学习和元学习策略训练人工神经网络,其目的在于通过步骤1中所处理的具有标记的免疫蛋白受体配体对应的特征向量数据,优化步骤2搭建的人工神经网络参数。
[0031]步骤4:使用训练好的人工神经网络模型对待预测的受体配体数据进行预测。
[0032]根据上述实施例,本发明设计了一个多输入网络用于输入配体与受体的氨基酸序列,从而针对配对的配体与受体蛋白间的相互作用功能做出预测。本发明采用了迁移学习,基于无监督的训练方法对特征提取器模块做预训练,从而加深模型对于蛋白质的理解。本发明采用了基于任务采样的元学习策略训练模型,从而平衡不同受体特异性功能的预测表现,并提升对于新受体的泛化性。本发明采用了超参元学习策略训练模型,通过训练集与验证集的预测表现调节超参,从而提升模型对于新配体受体组合的泛化性。其中,免疫蛋白配体受体包含B细胞(抗体轻、重链与抗原序列)和T细胞(TCR和MHC及抗原片段),本发明中描述的功能包含结合功能与中和功能。
[0033]如图3、图4和图5所示,根据上述实施例,优选地,人工神经网络的训练过程具体包括:输入处理后的序列数据;迁移学习训练特征提取器(模块1);基于任务采样的元学习策略训练神经网络;基于超参的元学习策略精调神经网络;输出训练后的模型。具体地:
[0034]步骤3.1:采用迁移学习策略单独训练特征提取器(模块1),通过编码器-解码器结构在蛋白质序列数据上无监督地优化,从而使特征提取器(模块1)能够作为编码器学习如何从输入序列向量转换为隐藏空间特征向量。其中所用蛋白质序列的训练数据可以来源于更通用化的蛋白质数据从而增加特征提取器对于蛋白质序列的理解深度。
[0035]步骤3.2:基于任务采样的元学习策略训练人工神经网络,其目的在于平衡网络对于不同配体或不同受体之间的理解深度,并对不同的未见过的受体或未见过的配体提高泛化性。该方法可以采用MAML或Reptile等算法实现,其原理如图4所示:步骤3.2.1,根据不同受体(或配体)组合划分多个子数据集;步骤3.2.2,拷贝训练模型(元模型)得到一套临时模型参数;步骤3.2.3,随机选取某一子数据集并从中采样;步骤3.2.4,基于采样的数据与标签优化临时模型参数;步骤3.2.5,基于临时模型参数优化元模型参数。
[0036]步骤3.3:基于超参的元学习策略精调人工神经网络,其目的在于针对配对的待预测受体与配体的相互作用功能,提高人工神经网络的整体泛化能力,避免过拟合。其原理如图5所示:步骤3.3.1,根据需要划分元训练集与元验证集;步骤3.3.2,初始化超参并设定超参调整速率;步骤3.3.3,采样元训练数据优化网络模型参数;步骤3.3.4,根据元训练集与元验证数据集的指标优化超参。
[0037]根据上述实施例,优选地,人工神经网络的特征提取器模块1采用ProteinBERT模型。其中也可以替代为其他网络架构或相关模型。
[0038]根据上述实施例,优选地,步骤3.1中基于通用蛋白质序列通过掩码重建的无监督学习方式对特征提取器(模块1)做预训练迁移学习。其中存在多种替代方案:预训练数据可以替代为更有针对性的多种免疫蛋白氨基酸序列,训练策略也可以替换为聚类等其他无监督或有监督方式。
[0039]根据上述实施例,优选地,人工神经网络的特征融合器模块2采用全局最大池化来去除序列空间特征,并堆叠配体与受体被提取的特征向量来融合二者。该方法也可以替换为注意力机制来对齐特征维度,或通过相加等方式简单融合二者特征。
[0040]根据上述实施例,优选地,人工神经网络的分类器模块3采用了全连接网络,该网络结构也可以替换为其他人工神经网络结构。
[0041]根据上述实施例,优选地,步骤3.2所述基于任务采样的元学习方法采用了reptile算法,也可以替换为MAML等其他基于采样任务来提高模型对于新任务(未见过的配体或受体)泛化性的方法。
[0042]根据上述实施例,优选地,步骤3.3所述超参元学习方法选取模型权重的L1正则化项损失函数权重与全连接层的dropout概率作为元学习策略中调节的超参,通过元训练集与元验证集在准确度或F1指标上的差异大小调节这些超参,从而减少网络精调中的过拟合问题。其中所选取的超参可以替换为L2正则项权重、数据增强参数、网络短接参数等其他超参,而衡量元训练集与元验证集预测表现的指标也可以替换为其他评估指标。
[0043]根据上述实施例,优选地,步骤3.2的基于任务采样的元学习方法与步骤3.3的超参元学习方法可以合并在同一个训练周期使用,从而同时在超参和数据采样两个角度入手提高模型泛化性。
[0044]如图6所示,根据本发明的又一个实施例还公开了一种免疫蛋白配体受体功能预测装置600,包括:存储器601,用于存储程序指令;处理器602,用于调用存储器中存储的程序指令以实现如上述实施例的免疫蛋白配体受体功能预测方法。
[0045]根据本发明的又一个实施例还公开了一种计算机可读存储介质,该计算机可读存储介质存储有程序代码,程序代码用于实现如上述实施例的免疫蛋白配体受体功能预测方法。
[0046]上述实施例的各种方法中的全部或部分步骤是可以通过程序来控制相关的硬件来完成,该程序可以存储于可读存储介质中,存储介质包括只读存储器(Read—OnlyMemory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read—Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的可读的任何其他介质。
[0047]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。