基于无监督主动学习优化语音识别的方法、电子设备和存储介质与流程
未命名
10-21
阅读:63
评论:0
1.本技术实施例涉及超大规模语言模型技术领域,特别是涉及一种基于无监督主动学习优化语音识别的方法、电子设备和存储介质。
背景技术:
2.相关技术中,自监督学习(self-supervised learning,ssl)已经成为一种有前途的机器学习范式,它允许我们通过利用数据内部的固有结构,在没有明确标签的情况下,从未标记的数据中学习更强大和独特的特征。最近的工作表明,ssl模型可以为各种下游的语音相关任务,如语音识别、说话人验证和情感识别,提取高质量和可概括的语音表征。
3.ssl模型通常包括两个阶段的训练:预训练和微调。在预训练阶段,一些研究已经证明,使用更高质量的未标记的语音数据可以提高模型的泛化性能。另一方面,为了在下游任务(如自动语音识别asr,automatic speech recognition)中实现高性能,有必要用特定任务的标注数据对预训练模型进行微调。然而,在微调阶段获得标记数据可能是昂贵和具有挑战性的。因此,一个实际的挑战是如何在有限的预算内选择领域相关或任务相关的语音数据进行标注,以最大限度地提高标注的成本效益,使ssl模型更加实用和容易获得。
技术实现要素:
4.本发明实施例提供了一种基于无监督主动学习优化语音识别的方法、电子设备和存储介质,用于至少解决上述技术问题之一。
5.第一方面,本发明实施例提供了一种基于无监督主动学习优化语音识别的方法,包括:使用多个不同的中间模型基于未标记的语音数据生成不同粒度级别的离散表征;使用两个预先训练好的语言模型来计算所述不同粒度级别的离散表征的多个困惑度,其中,所述语言模型包括一个通用语言模型和一个与目标文本关联的目标领域语言模型;使用基于困惑度的对比数据选择方法从所述多个困惑度中选择与目标文本最相关的语音数据。
6.第二方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项基于无监督主动学习优化语音识别的方法。
7.第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项基于无监督主动学习优化语音识别的方法。
8.第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项基于无监督主动学习优化语音识别的方法。
id级别。
25.在一些可选的实施例中,多个不同的中间模型包括有限加权状态转换机、wav2vec-u 2.0和hubert模型,所述中间模型的训练步骤包括:对原始语音信号进行语音活动检测得到原始音频数据;使用特征提取器从所述原始音频数据中提取语音表征,其中,所述特征提取器包括预先训练好的wav2vec 2.0大型模型;将所述语音表征分别输入至所述wav2vec-u 2.0和所述有限加权状态转换机中,其中,所述wav2vec-u 2.0能够输出音素序列,所述有限加权状态转换机能够输出伪标注数据;利用所述音素序列和所述语音表征训练所述有限加权状态转换机的gmm-hmm,其中,所述有限加权状态转换机包括所述gmm-hmm、一个4-gram语言模型和词表,其中,所述4-gram语言模型和所述词表来自训练wav2vec-u 2.0模型的数据准备阶段。
26.在一些可选的实施例中,上述方法还包括:从所述hubert模型的第六层提取表征获得kmeans id;使用k-means算法将所述表征聚类为500个类别,并将得到的kmeans聚类的id作为语言模型的直接输入。其中,k-means是一种常用的聚类算法,其主要目的是将数据分组,使得组内的数据点彼此接近,而不同组的数据点尽可能远离。它的名字中的“k”表示我们想要将数据划分成的组数,而“means”指的是每个组的中心,也就是每个组内所有点的平均值。这里kmeans id表示聚类后的每一组组别下标,例如1,2,3,4,5...,k。
27.在一些可选的实施例中,所述方法还包括:使用子词单元训练两个语言模型,其中,声学上的离散标签被用作两个语言模型的输入,其中,所述通用语言模型在子词级的伪标签上训练,所述目标领域语言模型通过使用有限的特定领域数据样本对所述通用语言模型进行微调得到。
28.在一些可选的实施例中,所述基于困惑度的对比数据选择方法使用音频级别的困惑度。
29.相关技术中,“通过asr的离散语音表征进行无监督数据选择(unsupervised data selection via discrete speech representation for asr)”,以常见的自监督学习框架中的离散语音表征作为输入,并在离散标记上应用对比数据选择方法来选择与目标领域声学相似的语音数据,用于ssl模型的预训练(pretraining)阶段,该方案关注于预训练阶段的数据选择,其所选择的数据并不需要人工标注,并没有解决微调阶段的数据标注的问题。“使用自监督语音模型为asr选择无监督微调数据(unsupervised fine-tuning data selection for asr using self-supervised speech models)“设计了两种用于无监督数据选择的新技术:基于预训练损失的数据选择和基于字节对编码聚类单元(pbpe)的困惑度;用来研究了说话人多样性、性别偏见和主题多样性对下游asr性能的影响,该论文方法只使用了单个语言模型,没有实际的理论解释性,同时,该论文只使用10小时标注数据进行实验,也没有论证数据规模对实验结果的影响;最终的效果也比较一般。
30.本领域技术人员要解决上述技术问题,通常通过粗糙的没有语音信息的表征进行筛选。
31.因为本技术实施例的方案利用不同监督的无监督模型构造了不同的离散表征,基于这些离散的表征我们才能更好地利用我们的对比数据选择算法,不容易想到。
32.本技术实施例的最佳模型使用来自wav2vec-u 2.0的离散表征,也就是通过无监督的方式生成了较高质量的语义单元(音素或者词),这样更有利于应用语言模型进行对比
分析和筛选。同时,本技术实施例的模型也对比了不同层次的语义表征,得到了孰优孰劣的比较结果。
33.请参考图2,其示出了本技术实施例一个具体实现的流程图。其中,discrete representations:离散表征;general language model:通用语言模型;target language model:目标语言模型;ppl-based contrastive selection:基于困惑度的对比选择;selected audio:选定的音频;unlabeled audio pool:无标注的语音数据池;word:单词;phoneme:音素。
34.首先,给定大量的无标注的语音数据,通过有限加权状态转换机(weighted finite state transducers,wfst)、wav2vec-u 2.0以及hubert模型,构建来自不同语义空间的离散表征(词级别、音素级别、k-means id级别)。
35.然后,基于上述的离散表征,通过分别训练两个语言模型(language model),便可以得到关于每一个语音样本的表征困惑度ppl(perplexity)。
36.最后,基于两个困惑度结果,应用contrastive selection(对比选择)进行最终的数据选择。
37.本技术的方案提出了一个完全无监督的筛选语音数据的框架。该框架分别使用不同层次的语义表征作为中间目标,最终筛选出在预算范围内最有价值的训练数据。我们的结果与随机选择相比,在保持相同标注数据的情况下,我们提出的数据选择框架可以实现多达11%的性能提升;在保持相同的词错误率的同时,也可以减少一半的标签成本。
38.进一步地,本技术实施例的模型提出了一种全新的探索语音自监督训练过程中的数据选择方法,可以激发工业界来进一步探索如何才能高效得利用高质量数据进行模型训练;也能够启发学术界如何更有价值的利用手头的数据,从而节约有限的计算成本。
39.本技术实施例提出了一个完全无监督的框架来选择领域相关的语音数据。
40.图3:不同颗粒度的无监督数据选择流程(pipeline)。实线代表发明人切换到单词级别。在这种情况下,通用的语言模型是用来自wfst(加权有限状态转换器,weighted finite state transducer)解码器中的伪标注数据(word sequences)来训练的,而目标语言模型是通过用少批量的特定领域的文本对通用模型进行微调而得到的。发明人研究了不同的粒度水平(k-means id、音素和单词)。
41.如图2所示,该过程涉及使用hubert、wav2vec-u 2.0和wfst等中间模型从未标记的语音数据生成不同粒度级别的离散令牌序列(k-means id、音素、单词)。然后,发明人使用两个预先训练好的语言模型(一个通用lm和一个目标lm)来计算这些序列的困惑度(ppl,perplexity)。最后,发明人应用基于ppl的对比数据选择方法来选择与目标文本最相关的语音数据。
42.在一个具体示例中,发明人使用离散表征作为本技术实施例语言模型的输入单位。baevski等人指出,在不同阶段产生的离散表征可能会捕捉到不同层次的声学信息,这有可能影响语言建模的准确性和后续数据选择的有效性。因此,在选择最合适的语音识别颗粒度水平时,除了最终的识别精度外,还应该考虑其他因素,如微调所需的标记数据量和过程的计算复杂性。
43.发明人在gigaspeech的一个子集上证明了本技术实施例提出的无监督数据选择方法在微调阶段的功效。在相同的粒度水平上,通过只选择与给定语料库密切相关的100个
小时的语音音频,并在不使用任何语言模型的情况下对hubert基础模型进行微调,本技术实施例的方案能够在所有评估的目标领域将单词错误率(wer,word error rate)降低11%以上。本技术的主要贡献可以概括为三个方面:
[0044]-本技术实施例提出了一个新颖的、完全无监督的主动学习框架来选择语音数据,这有效地降低了数据标签的成本。
[0045]-本技术实施例分析了不同颗粒度水平对数据选择的影响,并衡量了过程复杂性和识别准确性之间的权衡。
[0046]-与随机选择相比,本技术实施例提出的框架可以在相同数量的标记数据下降低11%以上的误码率,或者在保持相同误码率的情况下将标记成本降低到一半。
[0047]
2.相关工作
[0048]
2.1.无监督的数据选择
[0049]
无监督数据选择是一项重要的技术,旨在实现削减对标记数据的需求,同时在下游任务中保持对指定目标领域的高性能。在自然语言处理(nlp)领域,已经提出了各种无监督数据选择的方法,包括领域适应(domain adaptation)和主题模型(topic models)。然而,在asr领域,语音的离散表征并不明确,这降低了从nlp领域借用方法的可能性。因此,一个关键的挑战是如何从连续的语音信号中获得离散的标记表征来进行语音数据的选择。lu等人通过自我监督的学习框架将语音信号编码为声学上的离散标记。park等人通过ssl模型计算目标数据集和训练数据集的帧级损失,然后在语料级平均这些损失以进行后续选择。除了基于ssl的方法外,传统的无监督方法也仍然适用。drugman等人从一个语音识别系统中选择了具有低置信度的数据。malhotra等人提出了一种基于熵的方法,用于选择信息量最大且不确定的数据用于asr。
[0050]
2.2.ssl模型
[0051]
近年来,自监督学习吸引了很多人的注意,因为它有可能克服监督学习需要大量标注数据的局限性。它可以被看作是一个两阶段的过程:预训练和微调。在预训练阶段,使用不同的自我监督标准,如生成性(generative);对比性(contrastive);预测性(predictive),在大量未标记的数据上训练一个模型。这些任务帮助模型在没有人类标签的情况下从数据中学习通用表征。在微调阶段,预训练的模型连续使用目标领域较少的标签数据进行训练,表征被转移以适应特定的下游任务,最终导致性能提高。
[0052]
2.3.wav2vec-u 2.0
[0053]
wav2vec-u 2.0是一个具有简化结构的增强型asr系统,无需在音频端进行任何预处理就能达到更高的精度。与其前身类似,wav2vec-u 2.0通过来自wav2vec 2.0或xlsr模型的自我监督的语音表征,从未标记的音频数据中学习语音结构。然后通过生成对抗网络(gan,generative adversarial network)将这些语音表征映射到音素上。
[0054]
3.方法
[0055]
图3:将音频解码为伪标注数据的过程。特征提取器是预先训练好的wav2vec 2.0大型(lv-60)模型。4-gram语言模型和词表(lexicon)来自训练wav2vec-u 2.0模型的数据准备阶段。其中,unlabeled audio pool:无标注的语音数据池;feature extractor:特征提取器;4-gram lm:4-gram语言模型;lexicon:词典;gmm-hmm:一个模型名字;train:训练inference:推理;phoneme sequences:音素序列,音素表征;word sequences:单词序列,单
词表征。
[0056]
首先讨论从原始音频数据中获取音素标签的过程,然后描述了发明人将未标记的音频解码为单词的转换器。这两部分在图3中都有说明。无监督的数据选择策略将在后面阐述。
[0057]
3.1.音素识别器
[0058]
wav2vec-u 2.0是一个高效的无监督asr系统,它的突出特点是能够将从ssl模型(如wav2vec 2.0或hubert)中提取的原始表征作为输入,并为给定的语音信号输出相应的音素序列。
[0059]
在使用ssl模型从语音中提取特征之前,有必要对语音信号进行vad(voice active detection,语音活性检测)以提高识别精度。随后,像wav2vec 2.0这样的ssl模型被用作特征提取器,从预处理后的语音中获得表征。这些提取的特征随后被送入预先训练好的wav2vec-u 2.0模型,该模型输出一串音素作为最终的转录。
[0060]
3.2.基于hmm的转录(transcription)
[0061]
前述内容概述了获得高质量音素转录的过程,它可以作为训练足够稳健的gmm-hmm模型的目标。发明人没有使用梅尔频率倒谱系数(mfcc)特征作为gmm-hmm模型的输入,而是使用了后续内容中将会详细描述的来自特征提取器的相同的帧级表征(frame-level representations)。
[0062]
为了生成伪标注数据,发明人使用了一个4-gram语言模型,并从公共文本语料库中创建了一个词表,该词表也被用于构建wav2vec-u 2.0模型的文本输入。然后,这些都被用来构建一个加权有限状态转换器(wfst,weighted finite state transducer)系统,与之前训练的hmm模型相结合。这个系统使发明人能够从未标记的音频数据中生成词的伪序列。
[0063]
3.3.对比数据选择
[0064]
对比数据选择是一种技术,旨在从较大的数据集中选择与目标领域或任务最相关或最相似的样本。与现有技术不同的是,发明人利用子词单元(sub-word units)(bpe)来训练两个语言模型(lm),其中声学上的离散标签被用作lm的输入。第一个lm是在子词级的伪标签上训练的,因为它们与本技术实施例的任务更相关。尽管发明人试图使用公开的文本数据集作为模型的训练语料,但结果却很一般。第二个语言模型是通过使用有限的特定领域数据样本对第一个lm进行简单的微调得到的。
[0065]
有了这两个训练好的lm,发明人单独计算每个句子的ppl。然而,本技术实施例的对比数据选择算法并不直接使用这些句子级别(sentence-level)的ppl,而是使用音频级别(audio-level)的ppl。句子级别的数据选择可能更复杂、更不准确,而且可能需要更多的先验知识,因为单一的文本不能完全代表语音的主题、情感、语义和其他方面,尤其是当文本质量低、误码率高时。与此相比,音频级别的选择方法可以减轻不相关信息的影响,如由常用词和多主题词组成的短句,从而使本技术实施例的算法能够更专注于选择与主题相关的音频。
[0066]
每个音频的基于困惑度的对比性选择的方程式定义如下:
[0067][0068]
其中,表示对每个音频中所有语料计算的平均困惑度。
[0069]
随后,我们根据η的升序来选择预算(budget)范围内的音频。详见图2的说明。
[0070]
4.实验
[0071]
4.1.数据集
[0072]
4.1.1.librispeech和gigaspeech
[0073]
librispeech语料库是一个广泛使用的语音数据集,它包含了大约1000小时的英语读物的转录音频数据。gigaspeech语料库是一个大规模的多领域英语数据集,由超过10,000小时的高质量标记的音频组成,涵盖不同的主题,如犯罪、科学、新闻等。
[0074]
4.1.2.跨领域数据集
[0075]
本技术介绍了一个中等规模的数据集,由gigaspeech的1000小时跨域子集组成。该数据集的独特之处在于其多来源、多风格的构成,每个主题都包含同等数量的数据。
[0076]
发明人编制的数据集包括4个主题,即犯罪、健康和健身、方法和风格、以及科学和技术。为了确保数据集的主题平衡,发明人在训练集中为这四个主题中的每一个都包含了100小时的音频数据。为了进一步增强数据集,使数据总量达到1000小时,发明人又从有声读物、播客和youtube中增加了600小时的音频数据,这些数据并不属于上述这四个主题。除了训练集,发明人还为4个主题中的每个主题构建了专门的验证和测试集。这些数据集都包含了5小时的音频数据,为模型的开发、评估和比较提供了充足的材料。
[0077]
为了保证训练集、验证集和测试集的完整性和代表性,发明人在采样过程中注意避免这些子集之间的任何音频片段的重叠。具体来说,对于验证和测试集,发明人从gigaspeech的m训练子集中取样,因为这个子集的单词错误率是0%。然而,对于训练集,需要四个主题中的每一个都有100个小时的特定主题数据,而m大小和l大小的子集不能完全提供这些数据。因此,发明人从xl大小的子集中抽出了剩余的音频数据,得到了大约270小时的音频数据,其中单词错误率为4%。
[0078]
4.2.设置
[0079]
在本技术实施例的实验中,使用预先训练好的wav2vec 2.0large(lv-60)模型作为特征提取器来获得语音表征。发明人使用这些从960小时的librispeech中提取的表征和从一个公开的训练语料库中随机选择的30000个文本样本,在wav2vec-u 2.0系统中训练一个足够好的gan模型。最终的模型在librispeech dev-other上达到了10.9%的per。发明人用这个模型对跨域数据集的训练集进行解码,得到音素伪序列,其per值约为18.8%(如图4所示)。
[0080]
为了提高识别精度,发明人用从ssl模型中提取的语音表征作为输入来训练gmm-hmm模型,并利用伪标签作为目标,最终的per为15.4%。发明人通过结合gmm-hmm模型、4-gram语言模型和词表,构建了一个wfst解码器。这使本技术实施例能够对原始音频数据进行解码,以获得词级转录,从而使误码率达到约32.4%(如图4所示)。
[0081]
图4:不同类别上的音素和单词错误率。音素识别结果来自wav2vec-u 2.0解码,而单词识别结果来自wfst解码器的解码。其中,
[0082]
如图2所示,发明人从hubert基础模型的第六层提取表征,获得离散表征。然后发明人应用k-means算法将这些表征聚类为500个类别,并将得到的kmeans聚类的id作为语言模型的直接输入。crime:犯罪;health&fitness:健康和健身;howto&style:方法和风格;science&technology:科学与技术;unthemed:无主题。error rate:错误率。
[0083]
对于基于音素的离散表征,发明人也直接将其作为语言模型的输入,而不做任何进一步处理。然而,考虑到单词词汇量的可扩展性和小模型的性能,发明人使用bpe算法构建了一个词汇量为5000的子词表。
[0084]
然后,发明人使用离散的令牌语料库训练本技术实施例的第一个语言模型,采用长短时记忆(lstm),有2层隐藏单元,向量尺寸为768。该模型的几个关键超参数设置如下:学习率为1.0e-4,历时数设置为10,dropout为0.2。至于第二个语言模型,发明人只是用给定的领域文本和相同的词汇表对第一个模型进行了微调。
[0085]
为了评估选定的100小时数据的质量,发明人采用了现成的预训练的hubert基础模型作为质量评估器。发明人对每个模型进行了80,000步的微调,并使用viterbi算法作为解码方法。
[0086]
4.3.结果
[0087]
图5:不同颗粒度的对比数据选择的误码率。所有报告的结果都是通过在100小时的标记数据上对hubert基础模型进行微调并利用没有语言模型的维特比算法得到的。其中,data selection algorithm:数据选择算法;random:随机;categorized:有特定种类标签的;ppl-based contrastive selection(granularities):基于困惑度的对比选择(颗粒程度);phoneme:音素;words:词序列;words*2:真实的词序列。
[0088]
图5显示了在本技术实施例中使用不同的数据选择策略和离散令牌粒度水平在跨领域数据集的测试集上的wers。所有的结果都是在没有任何语言模型的情况下对测试集进行解码,使用相同的hubert基础模型对100小时的标记数据进行微调。前两行分别显示了随机选择标记的数据和用特定领域分类标签标记的数据的结果。下面几行显示了基于ppl的对比选择方法在不同的离散标记颗粒度水平上的结果,包括k-means id、音素和词级标记。最后一行显示的是使用真实的词序列作为lm输入的结果。总的来说,无论颗粒度如何,基于ppl的对比性选择方法在几乎所有情况下都优于随机抽样。在所有的领域中,使用单词级别的标记会产生最好的结果(相对超过11%),真实伪标注数据的表现甚至更好,而音素级别的标记会产生最高的wer。
[0089]
图6比较了不同时间的标注数据对ssl模型微调性能的影响,使用相同的词级(word-level)对比数据选择方法。与使用我们的框架随机抽取100小时的标注数据相比,本技术实施例只需要50小时的标注数据就可以达到类似的性能,这意味着标注的成本被削减了一半。
[0090]
图6:不同标注数据量的误码率。使用相同的数据选择算法,对不同时间段的标签数据进行了评估。其中,labeled data:标注的数据。
[0091]
4.4.颗粒度分析
[0092]
基于图5的结果和获得不同离散表征的困难度,可以进行颗粒度分析,以确定哪一级的颗粒度对语音识别最有效。尽管使用伪词序列作为颗粒度实现了最好的性能,并且这种性能可以随着误码率的降低而进一步提高,但这个过程需要一个多步骤的推理过程,这
对实现来说可能是个挑战。在这种情况下,k-means的id级表征可能是一个更实用的选择,因为它们是最容易获得的。与伪标注数据相比,hubert k-means ids来自声学特征,可能会捕捉到关于语音信号声学特征的更详细的信息。这可能是使用k-means ids可以取得良好性能的原因。
[0093]
5.5.讨论
[0094]
在本技术实施例中,发明人初步尝试了探索如何进行基于完全无监督方法的数据选择。
[0095]
6.结语
[0096]
近年来,语音的自监督学习(ssl)在提高不同的下游任务(如语音识别)方面表现出很好的效果。在本技术实施例中,发明人研究了在有限的预算内,通过有效的数据选择来进行ssl的微调,从而降低标签成本,同时保持asr的高性能的问题。发明人提出了一个完全无监督的、灵活的主动学习框架,该框架利用基于困惑度的对比选择方法(the perplexity-based contrastive selection method)来选择相关数据。发明人使用三个不同层次的离散标记的颗粒度来分析和比较本技术实施例框架的有效性:k-means id、音素和单词。最佳级别是根据选择性能和过程的复杂性来确定的。本技术实施例的实验结果证实了我们的框架在ssl微调数据选择方面的有效性,它实现了wer的显著改善,同时在注释方面更具有成本效益。
[0097]
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于无监督主动学习优化语音识别的方法;
[0098]
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
[0099]
使用多个不同的中间模型基于未标记的语音数据生成不同粒度级别的离散表征;
[0100]
使用两个预先训练好的语言模型来计算所述不同粒度级别的离散表征的多个困惑度,其中,所述语言模型包括一个通用语言模型和一个与目标文本关联的目标领域语言模型;
[0101]
使用基于困惑度的对比数据选择方法从所述多个困惑度中选择与目标文本最相关的语音数据。
[0102]
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于无监督主动学习优化语音识别的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至基于无监督主动学习优化语音识别的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0103]
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项基于无监督主动学习优化语音识别的方法。
[0104]
图7是本发明实施例提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。基于无监督主动学习优化语音识别的方法的设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例基于无监督主动学习优化语音识别的方法。输入装置730可接收输入的数字或字符信息,以及产生与基于无监督主动学习优化语音识别的装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
[0105]
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
[0106]
作为一种实施方式,上述电子设备应用于基于无监督主动学习优化语音识别的装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
[0107]
使用多个不同的中间模型基于未标记的语音数据生成不同粒度级别的离散表征;
[0108]
使用两个预先训练好的语言模型来计算所述不同粒度级别的离散表征的多个困惑度,其中,所述语言模型包括一个通用语言模型和一个与目标文本关联的目标领域语言模型;
[0109]
使用基于困惑度的对比数据选择方法从所述多个困惑度中选择与目标文本最相关的语音数据。
[0110]
本技术实施例的电子设备以多种形式存在,包括但不限于:
[0111]
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
[0112]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。
[0113]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
[0114]
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
[0115]
(5)其他具有数据交互功能的电子装置。
[0116]
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0117]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可
借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
[0118]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种基于无监督主动学习优化语音识别的方法,包括:使用多个不同的中间模型基于未标记的语音数据生成不同粒度级别的离散表征;使用两个预先训练好的语言模型来计算所述不同粒度级别的离散表征的多个困惑度,其中,所述语言模型包括一个通用语言模型和一个与目标文本关联的目标领域语言模型;使用基于困惑度的对比数据选择方法从所述多个困惑度中选择与目标文本最相关的语音数据。2.根据权利要求1所述的方法,其中,多个不同的中间模型包括有限加权状态转换机、音素识别器和自监督学习模型,所述不同粒度级别的离散表征包括词级别、音素级别和k-means id级别。3.根据权利要求2所述的方法,其中,多个不同的中间模型包括有限加权状态转换机、wav2vec-u 2.0和hubert模型,所述中间模型的训练步骤包括:对原始语音信号进行语音活动检测得到原始音频数据;使用特征提取器从所述原始音频数据中提取语音表征,其中,所述特征提取器包括预先训练好的wav2vec 2.0大型模型;将所述语音表征分别输入至所述wav2vec-u 2.0和所述有限加权状态转换机中,其中,所述wav2vec-u 2.0能够输出音素序列,所述有限加权状态转换机能够输出伪标注数据;利用所述音素序列和所述语音表征训练所述有限加权状态转换机的gmm-hmm,其中,所述有限加权状态转换机包括所述gmm-hmm、一个4-gram语言模型和词表,其中,所述4-gram语言模型和所述词表来自训练wav2vec-u 2.0模型的数据准备阶段。4.根据权利要求3所述的方法,还包括:从所述hubert模型的第六层提取表征获得kmeans id;使用k-means算法将所述表征聚类为500个类别,并将得到的kmeans聚类的id作为语言模型的直接输入。5.根据权利要求1所述的方法,其中,所述方法还包括:使用子词单元训练两个语言模型,其中,声学上的离散标签被用作两个语言模型的输入,其中,所述通用语言模型在子词级的伪标签上训练,所述目标领域语言模型通过使用有限的特定领域数据样本对所述通用语言模型进行微调得到。6.根据权利要求1-5中任一项所述的方法,其中,所述基于困惑度的对比数据选择方法使用音频级别的困惑度。7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。8.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
技术总结
本发明公开基于无监督主动学习优化语音识别的方法、电子设备和存储介质,包括:使用多个不同的中间模型基于未标记的语音数据生成不同粒度级别的离散表征;使用两个预先训练好的语言模型来计算所述不同粒度级别的离散表征的多个困惑度,其中,所述语言模型包括一个通用语言模型和一个与目标文本关联的目标领域语言模型;使用基于困惑度的对比数据选择方法从所述多个困惑度中选择与目标文本最相关的语音数据。本申请实施例的方法通过分别使用不同层次的语义表征作为中间目标,最终筛选出在预算范围内最有价值的训练数据。在预算范围内最有价值的训练数据。在预算范围内最有价值的训练数据。
技术研发人员:俞凯 郑之胜 马子阳 陈谐
受保护的技术使用者:思必驰科技股份有限公司
技术研发日:2023.08.08
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/