本发明涉及计算机处理技术领域,更具体地,涉及一种利用检索增强的非侵入式语音质量评测方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,将预训练模型作为特征提取器提取语音表征,并将多任务头作为分数解码器在MOS数据集上进行微调;步骤S103,收集表征‑分数键值对构建数据存储集;步骤S104,构建近邻学习网络,为每个语音实例动态调整近邻个数,得到检索分数;步骤S105,构建融合网络,为每个语音实例动态调整预测得分和检索得分比例,获得最终得分。
1.一种利用检索增强的非侵入式语音质量评测方法,其特征在于,包括以下步骤:
步骤S101,引入在大规模数据集上训练的模型作为预训练模型;
步骤S102,将步骤S101引入的预训练模型作为特征提取器提取语音表征,并增加多任务头作为分数解码器在MOS数据集上进行微调;
步骤S103,利用步骤S102微调得到的模型进行推理,收集表征-分数键值对构建数据存储集;
步骤S104,构建近邻学习网络,为每个语音实例动态调整步骤S103中的检索近邻个数,得到检索分数;
步骤S105,构建融合网络,为每个语音实例动态调整步骤S102得到的预测得分和步骤S104得到的检索得分的比例,获得最终得分;
所述步骤S105包括:在步骤S102生成预测分数Sp和步骤S104生成的检索分数Sr后,融合网络将为每个实例动态的融合比例,控制最终的评估分数;融合网络的结构与步骤S104中的近邻学习网络一样,但是输入融合了来自两个分数的特征,分别是由分数解码器中的分类头生成的置信度分布[c1,c2,...,cn]和检索过程的特征[d1,d2,...,dNN],融合网络的输出设为[wp,wr],wp和wr分别对应预测分数和检索分数的权重,则最终输出分数S的计算方式为:
S=wpSp+wrSr。
2.如权利要求1所述的利用检索增强的非侵入式语音质量评测方法,其特征在于,所述步骤S101中预训练模型为wav2vec模型。
3.如权利要求1所述的利用检索增强的非侵入式语音质量评测方法,其特征在于,所述分数解码器设置为回归头和分类头的多任务结构,分类头用于输出评估属于每个质量范围的概率,回归头用于直接回归拟合标签打分。
4.如权利要求1所述的利用检索增强的非侵入式语音质量评测方法,其特征在于,所述步骤S102具体如下:对于第i个实例语句ui和对应分数标签si,能得到映射的分类簇标签bi,代表该实例属于哪个分数段吗,在将这种“预训练模型+多任务头”模型通过如下所示的多任务损失函数L进行训练:
L=Lreg(ui,si)+αLcls(ui,bi)
其中Lreg和Lcls分别是均方差损失和交叉熵损失,对应于回归头和分类头,α用于平衡两个头的损失,对每条待推理语音,上述“预训练模型+多任务头”模型可以由回归头输出预测分数Sp,由分类头输出置信度分布[c1,c2,...,cn],n是分数段的个数。
5.如权利要求1所述的利用检索增强的非侵入式语音质量评测方法,其特征在于,所述步骤S103中数据存储集组成为键key和值value构成的键值对(K,V),设f(·)为预训练模型将语音映射为表征的变换,则针对每一个训练实例(ui,si)∈D,D是训练数据集,则对应的数据存储集中第i键值对(ki,vi),有键为ki=f(ui),值vi=si,因此,数据存储集(K,V)可表示为:
(K,V)={f(ui),si|(ui,si)∈D}。
6.如权利要求1所述的利用检索增强的非侵入式语音质量评测方法,其特征在于,所述步骤S104包括对于每个待评估语音,首先利用训练好的预训练模型提取其特征q,再在步骤S103中生成的存储数据集中进行检索,依据距离函数d(q,·)遍历计算q与所有表征的距离,寻找与q最相近的k个表征及其分数,构成最邻近序列N,其中距离函数d(·,·)为两个向量的欧式距离;因此检索分数Sr可由下列公式得到:
其中权重wi与距离成反比;检索范围k是依据构建的近邻学习网络输出的,近邻学习网络是一个由两层全连接网络、一层dropout层和一层softmax层组合形成的轻量级网络,输入是前NN个最近邻表征的距离分布[d1,d2,...,dNN],输出为检索范围k。
技术领域
[0001]本发明涉及计算机处理技术领域,更具体地,涉及一种利用检索增强的非侵入式语音质量评测方法。
背景技术
[0002]语音质量评估是语音技术研究的热点方向,对语音增强、语音合成等领域的发展有重要意义。语音质量评估方法可以分为侵入式评估和非侵入式评估方法。侵入式评估方法以PESQ和POLQA代表,这种方法虽然能获得高质量的评估分数,但是需要干净的参考音频作为对照进行计算,因此在大多数场景中是不适用的。非侵入式语音质量评估不需要参考音频就能获得音频质量,更加方便、快捷、实用。利用深度学习算法预测平均意见得分(meanopinion score,MOS)是典型的非侵入评价方法,它可以以较低的时间和经济成本对语音信号质量进行准确评估。
[0003]利用深度学习算法预测MOS分数的模型可以抽象为两个结构:特征提取器和分数解码器。其中特征解码器是指提取音频特征,得到表征向量。分数解码器是指将表征向量解码为平均意见得分。一般而言,特征提取器和分数解码器可以通过循环神经网络、卷积神经网络和全连接神经网络等参数组合实现。但是由于数据集需要人工标注,因此数据集的规模比较小,很容易出现过拟合等问题。研究人员通过在大规模无标签数据集上进行自监督学习的模型如wav2vec2,hubert等作为特征解码器缓解了数据稀疏问题,这种“预训练+微调”方式也成为了目前解决预测平均意见得分的主流算法。
[0004]以上介绍了非侵入式语音质量评测方法中的MOS预测挑战、模型结构和经典方法。其中用预训练模型作为特征提取器的方法虽然极大地提高了模型性能,但是只是部分解决了数据稀疏问题,在分数解码器部分,依然只能通过有限的平均意见得分进行训练,造成了整体模型的不仅在域内性能受限,而且解决域外数据时性能会急速下降。
发明内容
[0005]为了解决现有方法没有关注到的分数解码器训练中的数据稀疏问题,提升模型对域内和域外语音的质量评估能力,本发明提供一种利用检索增强的非侵入式语音质量评测方法,这种方法在模型的推理阶段引入,通过计算特征的相似度进行分数的预测,不仅可以提升模型在处理域内数据时的表现,而且可以灵活高效地处理跨域问题。
[0006]为实现上述目的,本发明采用如下技术方案:
[0007]一种利用检索增强的非侵入式语音质量评测方法,包括以下步骤:
[0008]步骤S101,引入在大规模数据集上训练的模型作为预训练模型;
[0009]步骤S102,将步骤S101引入的预训练模型作为特征提取器提取语音表征,并增加多任务头作为分数解码器在MOS数据集上进行微调;
[0010]步骤S103,利用步骤S102微调得到的模型进行推理,收集表征-分数键值对构建数据存储集;
[0011]步骤S104,构建近邻学习网络,为每个语音实例动态调整步骤S103中的检索近邻个数,得到检索分数;
[0012]步骤S105,构建融合网络,为每个语音实例动态调整步骤S102得到的预测得分和步骤S104得到的检索得分的融合比例,获得最终得分。
[0013]本技术方案进一步的优化,所述步骤S101中预训练模型为wav2vec模型。
[0014]本技术方案进一步的优化,所述分数解码器设置为回归头和分类头的多任务结构,分类头用于输出评估属于每个质量范围的概率,回归头用于直接回归拟合标签打分。
[0015]本技术方案进一步的优化,所述步骤102具体如下:对于第i个实例语句ui和对应分数标签si,能得到映射的分类簇标签bi,代表该实例属于哪个分数段吗,在将这种“预训练模型+多任务头”模型通过如下所示的多任务损失函数L进行训练:
[0016]L=Lreg(ui,si)+αLcls(ui,bi)
[0017]其中Lreg和Lcls分别是均方差损失和交叉熵损失,对应于回归头和分类头,α用于平衡两个头的损失,对每条待推理语音,上述“预训练模型+多任务头”模型可以由回归头输出预测分数Sp,由分类头输出置信度分布[c1,c2,...,cn],n是分数段的个数。
[0018]本技术方案进一步的优化,所述步骤103中数据存储集组成为键key和值value构成的键值对(K,V),设f(·)为预训练模型将语音映射为表征的变换,则针对每一个训练实例(ui,si)∈D,D是训练数据集,则对应的数据存储集中第i键值对(ki,vi),有键为ki=f(ui),值vi=si,因此,数据存储集(K,V)可表示为:
[0019](K,V)={f(ui),si|(ui,si)∈D}。
[0020]本技术方案进一步的优化,所述步骤104包括对于每个待评估语音,首先利用训练好的预训练模型提取其特征q,再在步骤S103中生成的存储数据集中进行检索,依据距离函数d(·,·)遍历计算q与所有表征的距离,寻找与q最相近的k个表征及其分数,构成最邻近序列N,其中距离函数d(·,·)为两个向量的欧式距离;因此检索分数Sr可由下列公式得到:
[0021]
[0022]其中权重wi与距离成反比;检索范围k是依据构建的近邻学习网络输出的,近邻学习网络是一个由两层全连接网络、一层dropout层和一层softmax层组合形成的轻量级网络,输入是前NN个最近邻表征的距离分布[d1,d2,...,dNN],输出为检索范围k。
[0023]本技术方案进一步的优化,所述步骤105包括:在步骤S102生成预测分数Sp和步骤S104生成的检索分数Sr后,融合网络将为每个实例动态的融合比例,控制最终的评估分数;融合网络的结构与步骤S104中的近邻学习网络一样,但是输入融合了来自两个分数的特征,分别是由分数解码器中的分类头生成的置信度分布[c1,c2,...,cn]和检索过程的特征[d1,d2,...,dNN],融合网络的输出设为[wp,wr],wp和wr分别对应预测分数和检索分数的权重,则最终输出分数S的计算方式为:
[0024]S=wpSp+wrSr。
[0025]区别于现有技术,上述技术方案有益效果如下:通过检索的方式加强分数解码器由于数据稀疏而造成的性能下降问题,同时通过更改数据存储集的内容而无需重新训练就可以在域外数据上实现较好的性能,灵活便捷,可解释性高。
附图说明
[0026]图1为利用检索增强的非侵入式语音质量评测方法流程图。
具体实施方式
[0027]为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
[0028]本发明所采用的方法是:引入预训练模型作为特征提取器,将分数解码器设计为分类置信度头和回归分数头,输出预测得分。然后收集(表征,分数)键值对作为数据存储集,在模型推理时,在数据存储集中寻找待与评估音频的表征最相似的一些表征,并取对应的分数进行依据距离进行加权求和,得到检索分数。其中,寻找相似表征的范围是由设计的近邻学习网络预测得到的。最后构建融合网络,动态学习预测分数和检索分数的融合比例,得到最终的质量评估分数。
[0029]请参阅图1所示,为利用检索增强的非侵入式语音质量评测方法流程图。本发明优先一实施例一种利用检索增强的非侵入式语音质量评测方法,该方法包括以下步骤:
[0030]步骤S101,引入在大规模数据集上训练的模型作为预训练模型。
[0031]在大规模数据集上进行训练得到的预训练模型,如在具有强大的特征表示能力,可以提取语音的通用表征。因此,将预训练模型,如在Librispeech训练的wav2vec 2.0,作为合成音质量评估模型的一部分,可以提高模型的泛化能力和评估性能,但预训练模型只能作为特征提取器,无法改善分数解码器遇到的数据稀疏问题,因此需要进一步学习。
[0032]步骤S102,将步骤S101引入的预训练模型作为特征提取器提取语音表征,并将多任务头作为分数解码器在平均意见得分(mean opinion score,MOS)数据集上进行微调。
[0033]预训练模型作为特征提取器提取语音表征,为了输出分数及对应置信度,分数解码器被设置为回归头和分类头的多任务结构,分类头用于输出评估属于每个质量范围的概率,回归头用于直接回归拟合标签打分。两个头均为全连接层组合实现的轻量级结构。在训练过程中,对于第i个实例语句ui和对应分数标签si,能得到映射的分类簇标签bi,代表该实例属于哪个分数段。在将这种“预训练模型+多任务头”模型通过如下所示的多任务损失函数L进行训练:
[0034]L=Lreg(ui,si)+αLcls(ui,bi)
[0035]其中Lreg和Lcls分别是均方差损失和交叉熵损失,对应于回归头和分类头。α用于平衡两个头的损失。对每条待推理语音,上述“预训练模型+多任务头”模型可以由回归头输出预测分数Sp,由分类头输出置信度分布[c1,c2,...,cn],n是分数段的个数。如分数标签范围为1-5分,分数段长度设置为0.25,则n为16。
[0036]步骤S103,利用步骤S102微调得到的模型进行推理,收集表征-分数键值对构建数据存储集。
[0037]数据存储集是检索增强方式的基础,是检索的最大范围,其组成为键key和值value构成的键值对(K,V)。设f(·)为预训练模型将语音映射为表征的变换,则针对每一个训练实例(ui,si)∈D,D是训练数据集,则对应的数据存储集中第i键值对(ki,vi),有键为ki=f(ui),值vi=si,因此,数据存储集(K,V)可表示为:
[0038](K,V)={f(ui),si|(ui,si)∈D}
[0039]在处理跨域问题时,只需要将D更换为目标域的数据而无需进行任何训练即可达到较好的性能,灵活高效。
[0040]步骤S104,构建近邻学习网络,为每个语音实例动态调整步骤S103中的检索近邻个数,得到检索分数。
[0041]对于每个待评估语音,首先利用训练好的预训练模型提取其特征q,再在步骤S103中生成的存储数据集中进行检索,依据距离函数d(·,·)遍历所有表征,计算其与q与的距离,寻找与q最相近的k个表征及其分数,构成最邻近序列N,其中距离函数d(·,·)为两个向量的欧式距离。因此检索分数Sr可由下列公式得到:
[0042]
[0043]其中权重wi与距离成反比。检索范围k是依据构建的近邻学习网络输出的,近邻学习网络是一个由两层全连接网络、一层dropout层和一层softmax层组合形成的轻量级网络,输入是前64个最近邻表征的距离分布[d1,d2,...,d64],输出为检索范围k。因此,近邻学习网络可以为每个待评估的语音输出最合适的检索范围,提升检索分数的准确性。
[0044]步骤S105,构建融合网络,为每个语音实例动态调整步骤S102得到的预测得分和步骤S104得到的检索得分的融合比例,获得最终得分。
[0045]在步骤S102生成预测分数Sp和步骤S104生成的检索分数Sr后,融合网络将为每个实例动态的融合比例,控制最终的评估分数。融合网络的结构与步骤S104中的近邻学习网络一样,但是输入融合了来自两个分数的特征,分别是由分数解码器中的分类头生成的置信度分布[c1,c2,...,cn]和检索过程的特征[d1,d2,...,d64]。融合网络的输出设为[wp,wr],wp和wr分别对应预测分数和检索分数的权重,则最终输出分数S的计算方式为:
[0046]S=wpSp+wrSr
[0047]通过融合网络,利用分数解码器在不同实例上不同的预测能力,给予适应的检索辅助,进一步提升语音评估性能。
[0048]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
[0049]尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。