基于跨模态表征对齐的英越端到端语音翻译方法
未命名
09-03
阅读:108
评论:0

1.本发明涉及基于跨模态表征对齐的英越端到端语音翻译方法,属于自然语言处理技术领域。
背景技术:
2.端到端语音翻译任务将源语言语音直接翻译为目标语言文本,在多语言视频字幕、多语言会议同传等场景中具有广阔的应用前景。相较于先对源语言语音进行识别再翻译为目标语言文本的级联系统,端到端语音翻译系统具有更低的延迟和更少的参数量,避免了错误传播问题,因此备受研究者关注。目前,面向端到端语音翻译任务的标注数据相对较少,有限标注数据条件下,输入语音和输出文本间的模态差异在较大程度上影响着语音翻译模型的性能。这种模态差异主要表现在:音频长度远远大于其对应的文本长度,导致模型难以学习到语音和文本的对齐关系;音频和文本的结构不同,音频是连续的时序信号,而文本是离散的符号序列,导致模型难以捕捉到语音和文本中对应的语言学规律。目前端到端语音翻译大多利用机器翻译、语音识别领域中较为丰富的数据通过预训练,多任务训练知识蒸馏等方式进行语音翻译辅助训练。然而机器翻译中的训练数据仅为文本模态,语音识别中的训练数据并不具备跨语言特性,故使用这类数据进行语音翻译辅助训练易导致编解码器跨模态映射能力不匹配,因此,如何有效缓解音频和文本之间的模态差异,提升语音翻译模型的跨模态映射能力是端到端语音翻译任务面临的一个重要问题。
技术实现要素:
3.本发明针对英语到越南语端到端语音翻译中英语语音到文本的跨模态映射问题,提出基于跨模态表征对齐的英越端到端语音翻译方法,对英语语音文本表征进行多粒度对齐并进行混合作为并行输入,基于多模态表征的一致性约束进行多任务融合训练,在有限标注数据条件下,建立英语语音文本表征间的统一映射,提升翻译性能。
4.本发明的技术方案是:基于跨模态表征对齐的英越端到端语音翻译方法,所述方法的步骤为:
5.step1、英语到越南语文本翻译预训练,使用英语文本作为输入,越南语文本作为目标,对编码层和解码层进行文本翻译预训练;
6.step2、根据语音文本表征的长度关系进行对齐,根据对齐关系对英语语音与文本表征在词级与句子级进行混合得到英语语音文本词级、句子级混合表征;
7.所述step2的具体步骤为:
8.英语语音文本的词级混合,计算出训练数据中所有英语语音表征序列a=(a1,a2,...a
l
)长度l与英语文本表征序列e=(e1,e2,...em)长度m的数学期望之比λ,对于英语文本表征序列e=(e1,e2,...em)中的任意单词序列ej使用λ进行对齐得到其对应英语语音表征序列的起止位置uj和vj,如下式所示:
[0009][0010]
其中,i,j为文本表征序列中对应元素的位置,其满足1≤j≤m;
[0011]
计算根据位置信息uj和vj对英语语音表征序列进行对齐得到mj,对整个英语语音表征序列进行对齐后表示为m=(m1,m2,...mm),如下式所示:
[0012][0013]
将对齐后的序列混合后得到英语语音文本词级混合表征p=(m1,e1,m2,e2,...mm,em);
[0014]
英语语音文本表征的句子级混合,句子级混合不需要对齐,英语语音文本混合后得到英语语音文本句子级混合表征q=(a1,a2,...a
l
,e1,e2,...em)。
[0015]
step3、使用长度归一融合方法统一英语语音文本词级、句子级混合表征与语音表征的长度;具体的,使用长度归一化融合方法对语音表征与英语语音文本词级、句子级混合表征进行融合,融合方法为交叉注意力,固定其query输入q为音频表征,其value输入v与key输入k为输入表征,过程如下式所示:
[0016]hout
=crossmulityheadattention(qwq,kwk,vwv)
[0017]
wq、wk、wv均为随机初始化的参数矩阵,输入q始终为语音表征,k、v则为对应的输入表征。在不同表征作为输入的情况下,其输出均被映射为与音频表征统一形状。
[0018]
step4、经编码层提取统一了长度后的step3中的表征的抽象语义信息后,使用门控融合方法对语义编码后的英语语音文本词级、句子级混合表征进行融合;
[0019]
具体的,对经过语义编码的英语语音文本词级、句子级混合表征进行融合,先将在隐层维度拼接,使用可学习的wg进行线性映射得到门控单元γ,γ的隐层维度为1,最后使用γ对进行融合得到多粒度融合表征hg,过程如下式所示:
[0020][0021][0022]
step5、在多任务训练框架下,对英语语音表征与门控融合后的英语语音文本词级、句子级混合表征经翻译解码层后输出的结果进行一致性约束。
[0023]
对于英语语音表征与多粒度融合表经翻译编码层的输出h(a)与h(a,e),在h(a)与目标单词序列y计算交叉熵作为损失的基础上,使用jensen-shannon散度计算得到h(a)与h(a,e)的一致性约束损失,如下式所示,l
ce
用于计算交叉熵损失,一致性约束损失l
jsd
的权重系数β为4,过程如下式所示:
[0024]
l=l
ce
(h(a),y)+βl
jsd
(h(a),h(a,e))。
[0025]
本发明的有益效果是:
[0026]
本发明所述方法针对英语语音与文本间的位置关系进行对齐预混合,针对长度差异问题进行一致性融合,针对表征分布的差异使用一致行损失约束。在多个层次弥合英语到越南语语音翻译中语音与文本模态差异,有效的提高英语-越南语端到端语音翻译的效
果。
附图说明
[0027]
图1为本发明总流程图;
[0028]
图2为本发明提出基于跨模态表征对齐的英越端到端语音翻译方法模型图;
[0029]
图3为本发明中提出的英语语音文本表征对齐与混合的示意图;
具体实施方式
[0030]
实施例1:如图1-图3所示,基于跨模态表征对齐的英越端到端语音翻译方法,所述方法的步骤为:
[0031]
step1、英语到越南语文本翻译预训练,使用英语文本作为输入,越南语文本作为目标,对编码层和解码层进行文本翻译预训练;
[0032]
step2、使用开源数据集must-c中的语音翻译数据,对采样率为16000的语音信号序列输入,使用经960小时英语音频预训练的huber提取声学表征,在此基础上加入两个卷积层对声学表征进行下采样得到语音表征,,对于文本输入,使用无监督的unigram sentencespiece模型学习源语言与目标语言双语词表,进行编码与嵌入后得到文本表征。根据语音文本表征的长度关系进行对齐,根据对齐关系对英语语音与文本表征在词级与句子级进行混合得到英语语音文本词级、句子级混合表征;英语语音文本词级、句子级混合表征作为多任务训练时的并行输入。
[0033]
所述step2的具体步骤为:
[0034]
英语语音文本的词级混合,计算出训练数据中所有英语语音表征序列a=(a1,a2,...a
l
)长度l与英语文本表征序列e=(e1,e2,...em)长度m的数学期望之比λ,对于英语文本表征序列e=(e1,e2,...em)中的任意单词序列ej使用λ进行对齐得到其对应英语语音表征序列的起止位置uj和vj,如下式所示:
[0035][0036]
其中,i,j为文本表征序列中对应元素的位置,其满足1≤j≤m;
[0037]
计算根据位置信息uj和vj对英语语音表征序列进行对齐得到mj,对整个英语语音表征序列进行对齐后表示为m=(m1,m2,...mm),如下式所示:
[0038][0039]
将对齐后的序列混合后得到英语语音文本词级混合表征p=(m1,e1,m2,e2,...mm,em);
[0040]
英语语音文本表征的句子级混合,句子级混合不需要对齐,英语语音文本混合后得到英语语音文本句子级混合表征q=(a1,a2,...a
l
,e1,e2,...em)。
[0041]
step3、使用长度归一化融合方法对语音表征与英语语音文本词级、句子级混合表征进行融合,融合方法为交叉注意力,固定其query输入q为音频表征,其value输入v与key输入k为输入表征,过程如下式所示:
[0042]hout
=crossmulityheadattention(qwq,kwk,vwv)
[0043]
wq、wk、wv均为随机初始化的参数矩阵,输入q始终为语音表征,k、v则为对应的输入表征。
[0044]
step4、经编码层提取统一了长度后的step3中的表征的抽象语义信息后,使用门控融合方法对语义编码后的英语语音文本词级、句子级混合表征进行融合;
[0045]
所述step4的具体步骤为:
[0046]
对经过语义编码的英语语音文本词级、句子级混合表征进行融合,先将在隐层维度拼接,使用可学习的wg进行线性映射得到门控单元γ,γ的隐层维度为1,最后使用γ对进行融合得到多粒度融合表征hg,过程如下式所示:
[0047][0048][0049]
step5、在多任务训练框架下,对英语语音表征与门控融合后的英语语音文本词级、句子级混合表征经翻译解码层后输出的结果进行一致性约束。
[0050]
所述step5的具体步骤为:
[0051]
对于英语语音表征与多粒度融合表经翻译编码层的输出h(a)与h(a,e),在h(a)与目标单词序列y计算交叉熵作为损失的基础上,使用jensen-shannon散度计算得到h(a)与h(a,e)的一致性约束损失,如下式所示,l
ce
用于计算交叉熵损失,一致性约束损失l
jsd
的权重系数β为4,过程如下式所示:
[0052]
l=l
ce
(h(a),y)+βl
jsd
(h(a),h(a,e))。
[0053]
本发明所进行的实验基于fairseq的transformer-s2t框架,模型的基本配置中,共享语义编码器有6层,解码层有6层,多头注意力头数为8,隐层变量维度为512,前馈网络的维度为2048,dropout为0.1。所有实验的训练配置参数均如下,使用adam作为优化器,其中,使用标签平滑率为0.1的交叉熵损失作为目标函数。学习率最大阈值为1e-4,学习率预热为4000,使用inverse sqrt动态调整学习率。使用scarebleu作为模型性能的评价指标,使用大小为5的集束算法。
[0054]
为了验证本发明的有效性,在must-c英-越数据集上分别使用fairseq s2t语音翻译系统和使用hubert作为声学编码器的transformer系统与本发明进行对比,下面简称为fairseq-st与hubert-transformer,其中fairseq-st通过语音识别任务进行预训练,其声学特征为fbank特征,对于hubert-transformer,分别在进行文本预训练与不进行文本翻译预训练的条件下进行实验,结果如表1所示。
[0055]
表1.与基线模型对比实验结果
[0056][0057]
在没有经过文本预训练的情况下,使用经预训练的hubert作为声学编码器进行训练bleu值达到了22.6,比在语音识别预训练下以fbank作为特征输入进行训练得到的bleu结果高出1.8,验证了hubert作为声学编码器的有效性。在使用文本翻译进行预训练后,结果再次提高了0.8bleu,表明进行跨模态的预训练对端到端语音翻译是有效的。在此基础上,本发明所提基于跨模态表征对齐的英越端到端语音翻译方法训练得到的bleu再次提升了1.3,验证了本发明所提方法的有效性。
[0058]
本发明首先将英语音频通过声学编码器得到英语语音表征,将音频对应的转录文本进行分词与嵌入后得到英语文本表征,使用文本表征作为输入进行英语到越南语文本翻译预训练;基于英语音频表征与文本表征的长度信息,进行对齐并分别混合得到词级与句子级的混合表征作为多任务训练时的并行输入;针对不同模态表征间的长度差异性,使用长度归一化融合方法统一混合表征与音频表征的长度以减轻混合表征与语音表征之间由长度导致的模态差异问题,使用门控融合方法对混合表征进一步融合得到多粒度混合表征作为解码器输入,对不同模态的输出进行一致性在多任务训练框架下约束,实现英语语音表征与对应文本表征的跨模态对齐;本发明所述方法针对英语语音与文本间的位置关系进行对齐预混合,针对长度差异问题进行一致性融合,针对表征分布的差异使用一致行损失约束。在多个层次弥合英语到越南语语音翻译中语音与文本模态差异,有效的提高英语-越南语端到端语音翻译的效果。
[0059]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
技术特征:
1.基于跨模态表征对齐的英越端到端语音翻译方法,其特征在于,所述方法的步骤为:step1、使用英语文本作为输入,越南语文本作为目标,对编解码层进行文本翻译预训练;step2、根据语音文本表征的长度关系进行对齐,根据对齐关系对英语语音与文本表征在词级与句子级进行混合得到英语语音文本词级、句子级混合表征;step3、使用长度归一融合方法统一英语语音文本词级、句子级混合表征与语音表征的长度;step4、经编码层提取统一了长度后的step3中的表征的抽象语义信息后,使用门控融合方法对语义编码后的英语语音文本词级、句子级混合表征进行融合;step5、在多任务训练框架下,对英语语音表征与门控融合后的英语语音文本词级、句子级混合表征经翻译解码层后输出的结果进行一致性约束。2.根据权利要求1所述的基于跨模态表征对齐的英越端到端语音翻译方法,其特征在于:所述step2的具体步骤为:英语语音文本的词级混合,计算出训练数据中所有英语语音表征序列a=(a1,a2,...a
l
)长度l与英语文本表征序列e=(e1,e2,...e
m
)长度m的数学期望之比λ,对于英语文本表征序列e=(e1,e2,...e
m
)中的任意单词序列e
j
使用λ进行对齐得到其对应英语语音表征序列的起止位置u
j
和v
j
,如下式所示:其中,i,j为文本表征序列中对应元素的位置,其满足1≤j≤m;计算根据位置信息u
j
和v
j
对英语语音表征序列进行对齐得到m
j
,对整个英语语音表征序列进行对齐后表示为m=(m1,m2,...m
m
),如下式所示:将对齐后的序列混合后得到英语语音文本词级混合表征p=(m1,e1,m2,e2,...m
m
,e
m
);英语语音文本表征的句子级混合,句子级混合不需要对齐,英语语音文本混合后得到英语语音文本句子级混合表征q=(a1,a2,...a
l
,e1,e2,...e
m
)。3.根据权利要求1所述的基于跨模态表征对齐的英越端到端语音翻译方法,其特征在于:所述step3的具体步骤为:使用长度归一化融合方法对语音表征与英语语音文本词级、句子级混合表征进行融合,融合方法为交叉注意力,固定其query输入q为音频表征,其value输入v与key输入k为输入表征,过程如下式所示:h
out
=crossmulityheadattention(qw
q
,kwk
,
vw
v
)w
q
、w
k
、w
v
均为随机初始化的参数矩阵,输入q始终为语音表征,k、v则为对应的输入表征。4.根据权利要求1所述的基于跨模态表征对齐的英越端到端语音翻译方法,其特征在于:所述step4的具体步骤为:
对经过语义编码的英语语音文本词级、句子级混合表征进行融合,先将在隐层维度拼接,使用可学习的w
g
进行线性映射得到门控单元γ,γ的隐层维度为1,最后使用γ对进行融合得到多粒度融合表征h
g
,过程如下式所示:,过程如下式所示:5.根据权利要求1所述的基于跨模态表征对齐的英越端到端语音翻译方法,其特征在于:所述step5的具体步骤为:对于英语语音表征与多粒度融合表经翻译编码层的输出h(a)与h(a,e),在h(a)与目标单词序列y计算交叉熵作为损失的基础上,使用jensen-shannon散度计算得到h(a)与h(a,e)的一致性约束损失,如下式所示,l
ce
用于计算交叉熵损失,一致性约束损失l
jsd
的权重系数β为4,过程如下式所示:l=l
ce
(h(a),y)+βl
jsd
(h(a),h(a,e))。
技术总结
本发明涉及基于跨模态表征对齐的英越端到端语音翻译方法,属于自然语言处理技术领域。本发明基于英语音频表征与文本表征的长度信息,进行对齐并分别混合得到词级与句子级的混合表征;使用长度归一化融合方法统一混合表征与音频表征的长度以减轻混合表征与语音表征之间由长度导致的模态差异问题,使用门控融合方法对混合表征进一步融合得到多粒度混合表征作为解码器输入,对不同模态的输出进行一致性在多任务训练框架下约束,实现英语语音表征与对应文本表征的跨模态对齐。本发明为后续在英语到越南语端到端语音翻译以及语音与文本跨模态表征对齐等工作提供强有力的支撑,缓解了英语到越南语语音翻译的跨模态映射困难问题。问题。问题。
技术研发人员:余正涛 周国江 高盛祥
受保护的技术使用者:昆明理工大学
技术研发日:2023.06.02
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/