视频对话的翻译方法、装置、设备、存储介质及程序产品
未命名
09-02
阅读:113
评论:0

1.本技术涉及人工智能技术领域,尤其涉及一种视频对话的翻译方法、装置、设备、存储介质及程序产品。
背景技术:
2.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
3.机器翻译逐渐成为新翻译模型的主流,在相关技术中,对于视频对话的翻译,通常是直接翻译对话文本,由于不同语言之间的语义关系具有多重对应关系,例如,一个英文单词可能对应多重不同的中文语义,那么相关技术直接翻译对话文本而没有考虑视频对话的具体语言使用环境,会造成翻译结果的不准确。
4.对于如何有效提高视频对话翻译的准确性,相关技术尚无有效解决方案。
技术实现要素:
5.本技术实施例提供一种视频对话的翻译方法、装置、计算机可读存储介质及计算机程序产品,能够有效提高视频对话翻译的准确性。
6.本技术实施例的技术方案是这样实现的:
7.本技术实施例提供一种视频对话的翻译方法,包括:
8.获取视频的对话文本,从所述对话文本中获取待翻译语句;
9.从所述视频中提取与所述待翻译语句同步的图像;
10.对所述图像和所述待翻译语句进行第一编码处理,得到与所述待翻译语句对应的多模态上下文,其中,所述多模态上下文包括所述待翻译语句中的每个词分别对应的多模态词向量;
11.基于所述多模态上下文进行解码处理,得到所述待翻译语句中每个词的翻译结果;其中,所述待翻译语句中的后序词是根据前序词的翻译结果、以及所述多模态上下文中所述后序词对应的多模态词向量进行解码处理得到。
12.本技术实施例提供一种视频对话的翻译装置,包括:
13.获取模块,用于获取视频的对话文本,从所述对话文本中获取待翻译语句;
14.提取模块,用于从所述视频中提取与所述待翻译语句同步的图像;
15.编码模块,用于对所述图像和所述待翻译语句进行第一编码处理,得到与所述待翻译语句对应的多模态上下文,其中,所述多模态上下文包括所述待翻译语句中的每个词分别对应的多模态词向量;
16.解码模块,用于基于所述多模态上下文进行解码处理,得到所述待翻译语句中每
个词的翻译结果;其中,所述待翻译语句中的后序词是根据前序词的翻译结果、以及所述多模态上下文中所述后序词对应的多模态词向量进行解码处理得到。
17.本技术实施例提供一种视频对话的翻译装置,包括:
18.存储器,用于存储可执行指令;
19.处理器,用于执行所述存储器中存储的可执行指令时,实现本技术实施例提供的视频对话的翻译方法。
20.本技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本技术实施例提供的视频对话的翻译方法。
21.本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例上述的视频对话的翻译方法。
22.本技术实施例具有以下有益效果:
23.通过从对话文本中获取待翻译语句,并从视频中提取与待翻译语句同步的图像,然后对图像和待翻译语句进行第一编码处理和解码处理,得到待翻译语句中每个词的翻译结果。由于在对待翻译语句进行翻译的过程中,结合了与待翻译语句同步的图像,使得翻译结果更加准确,有效提高了视频对话翻译的准确性。
附图说明
24.图1是本技术实施例提供的视频对话的翻译系统架构的结构示意图;
25.图2是本技术实施例提供的视频对话的翻译装置的结构示意图;
26.图3a至图3h是本技术实施例提供的视频对话的翻译方法的流程示意图;
27.图4a至图4d是本技术实施例提供的视频对话的翻译方法的原理示意图;
28.图5a至图5c是本技术实施例提供的视频对话的翻译方法的原理示意图。
具体实施方式
29.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
30.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
31.在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
32.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
33.对本技术实施例进行进一步详细说明之前,对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。
34.1)机器翻译:机器翻译的特征主要表现为自动化、机械性、以语句为翻译单位、二度摹仿和语境制约有限五大特征,且机器翻译与人工翻译之间的关系并非矛盾、零和的关系,而是相辅相成、相互促进的关系。语言中出现一些变化、新词或者外来词时,机器翻译可以通过升级、完善其语料库,增加对应的新词、外来词文本,使译文适应语言的发展,十分便利。
35.2)自注意力层(self-attention):是一种注意力机制,自注意力机制用于关注整个输入中不同部分之间的相关性。
36.3)多头自注意力层(multi head attention):是一种特殊的自注意力机制,多头自注意力机制通过一个自注意力机制的多次并行运行,将独立的自注意力串联起来。
37.4)文本对话翻译(text dialogue translation,tct):通过文本对话翻译模型实现对话文本的翻译,例如,对话文本的翻译可以是将英文的对话文本翻译成中文的对话文本,也可以是将日文的对话文本翻译成英文的对话文本。作为示例,待翻译的英文对话文本为:“tom:nice to me you;arthur:nice to me you too”,通过文本对话翻译模型对待翻译的英文对话文本进行翻译,翻译后的中文对话文本为:“汤姆:很高兴见到你;亚瑟:我也很高兴见到你”。
38.5)多模态对话翻译(multimodal chat translation,mct):是指融合多种模态实现对话文本的翻译,例如,融合与对话文本相关联的图像实现对话文本的翻译。
39.6)前馈神经网络(feed forward neural network,ffn):是一种人工神经网络,前馈神经网络的各神经元分层排列,每个神经元只与前一层的神经元相连,每一层通过接收前一层的输出,并输出给下一层,各层间没有反馈。前馈神经网络包括感知器网络、bp网络、rbf网络。其中,感知器网络是最简单的前馈网络,它主要用于模式分类,也可用在基于模式分类的学习控制和多模态控制中。感知器网络可分为单层感知器网络和多层感知器网络。bp网络是指连接权调整采用了反向传播(back propagation)学习算法的前馈网络。与感知器不同之处在于,bp网络的神经元变换函数采用了s形函数(sigmoid函数),因此输出量是0~1之间的连续量,可实现从输入到输出的任意的非线性映射。rbf网络是指隐含层神经元由rbf神经元组成的前馈网络。rbf神经元是指神经元的变换函数为rbf(radial basis function,径向基函数)的神经元。典型的rbf网络由三层组成:一个输入层,一个或多个由rbf神经元组成的rbf层(隐含层),一个由线性神经元组成的输出层。
40.7)待翻译语句/翻译结果:在自然语言的翻译过程中,第一语言类的句子被翻译为第二语言类的句子,第一语言类的句子就是待翻译语句,第二语言类的句子就是翻译结果。示意性的,将中文句子翻译为英文句子,中文句子即为待翻译语句,英文句子即为翻译结果:比如,翻译模型将句子“我必须解决这个问题。”翻译为句子“i must solve the problem.”,句子“我必须解决这个问题。”是待翻译语句,句子“i must solve the problem.”是翻译结果。
41.8)自然语言处理(nature language processing,nlp):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一
领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
42.在本技术实施例的实施过程中,申请人发现相关技术存在以下问题:
43.在相关技术中,对于视频对话的翻译,例如,英文电影的中文译制(英文电影中的字幕翻译),通常是通过常规的机器翻译模型直接对待翻译语句进行翻译,而未考虑视频对话所处的语言环境,即,视频画面中所要表达的内容,由于不同语言之间的语义关系具有多重对应关系,例如,一个英文单词可能对应多重不同的中文语义,那么相关技术直接翻译对话文本而没有考虑视频对话的具体语言使用环境,会造成翻译结果的不准确。而且,在相关技术中,通常是直接对句子量级的待翻译语句进行翻译,而未考虑引入待翻译语句的上下文信息,这样也会导致翻译结果不准确。
44.参见下表1,下表1是本技术实施例提供的视频对话的翻译方法和相关技术中的翻译方法的效果对比表。
45.表1效果对比表
46.翻译方法英译中准确率得分中译英准确率得分本技术26.5422.00相关技术25.2122.39
47.由上表1可知,本技术提供的视频对话的翻译方法在中英文翻译的过程中,翻译准确率均高于相关技术,即本技术实施例提供的视频对话的翻译方法的翻译准确性显著高于相关技术。
48.本技术实施例提供一种视频对话的翻译方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够有效提高视频对话翻译的准确性,下面说明本技术实施例提供的视频对话的翻译设备的示例性应用,本技术实施例提供的视频对话的翻译设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。
49.参见图1,图1是本技术实施例提供的视频对话的翻译系统100的架构示意图,为实现视频对话翻译的应用场景(例如,在视频对话翻译的应用场景中,结合视频中与待翻译语句同步的图像,对对话文本中的待翻译语句进行翻译,从而使得翻译结果综合考虑了视频中的图像内容,使得翻译结果更加准确),终端(示例性示出了终端400)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
50.终端400用于供用户使用客户端410,在图形界面410-1(示例性示出了图形界面410-1)显示。终端400和服务器200通过有线或者无线网络相互连接。
51.在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术实施例中不做限
制。
52.在一些实施例中,终端400的客户端接收视频,并将视频通过网络300发送到服务器200,服务器200对视频的对话文本中的待翻译语句进行翻译,得到翻译结果,并将翻译结果发送到终端400中的图形界面410-1中进行显示。
53.在另一些实施例中,终端400的客户端接收视频,并对视频的对话文本中的待翻译语句进行翻译,得到翻译结果,并在终端400中的图形界面410-1中显示翻译结果。
54.在另一些实施例中,终端400(如车载终端)运行导航应用app,对导航应用app中视频的对话文本中的待翻译语句进行翻译,得到翻译结果,并在终端400中的图形界面410-1中显示翻译结果。
55.参见图2,图2是本技术实施例提供的视频对话的翻译方法的服务器200的一种结构示意图,图2所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
56.处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
57.存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
58.存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom,read only memory),易失性存储器可以是随机存取存储器(ram,random access memory)。本技术实施例描述的存储器250旨在包括任意适合类型的存储器。
59.在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
60.操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。
61.网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他电子设备,示例性的网络接口220包括:蓝牙、无线相容性认证(wifi)、和通用串行总线(usb,universal serial bus)等。
62.在一些实施例中,本技术实施例提供的视频对话的翻译装置可以采用软件方式实现,图2示出了存储在存储器250中的视频对话的翻译装置255,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2551、提取模块2552、编码模块2553、解码模块2554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
63.将结合本技术实施例提供的服务器的示例性应用和实施,说明本技术实施例提供的视频对话的翻译方法。
64.在一些实施例中,图4a是本技术实施例提供的视频对话的翻译方法的原理示意图。参见图4a,基于待翻译语句、以及与待翻译语句同步的图像调用编码网络进行第一编码处理,得到与待翻译语句对应的多模态上下文;基于与待翻译语句对应的多模态上下文调用解码网络进行解码处理,得到翻译结果,由于在对待翻译语句进行翻译的过程中,结合了与待翻译语句同步的图像,使得翻译结果更加准确,从而有效提高了视频对话翻译的准确性。
65.参见图3a,图3a是本技术实施例提供的视频对话的翻译方法的流程示意图,将结合图3a示出的步骤101至步骤104进行说明,下述步骤101至步骤104的执行主体可以是前述的服务器或终端。
66.在步骤101中,获取视频的对话文本,从对话文本中获取待翻译语句。
67.在一些实施例中,所获取的视频的对话文本可以是通过对视频的音频内容进行语音识别而得到的,通过对视频的音频内容进行语音识别,得到视频的对话文本,从而从对话文本中依次读取待翻译语句。
68.作为示例,通过对视频的音频内容进行语音识别而得到的视频的对话文本为:“tom:sir,we are headed into a storm of more than 8 knots.angus:if we don't shorten sail and bear off it'll catch us on the beam.”,从对话文本中依次读取待翻译语句1:“tom:sir,we are headed into a storm of more than 8 knots.”和待翻译语句2“angus:if we don't shorten sail and bear off it'll catch us on the beam.”。
69.在步骤102中,从视频中提取与待翻译语句同步的图像。
70.在一些实施例中,视频中与待翻译语句同步的图像可以是视频中与待翻译语句同步播放的视频帧,通过从视频中提取与待翻译语句同步播放的视频帧,并将提取到的视频帧确定为与待翻译语句同步的图像。
71.在一些实施例中,可以从视频中提取与待翻译语句同步的至少一幅图像,那么,与待翻译语句同步的可以是一幅图像,也可以是多幅图像。当与待翻译语句同步的是多幅图像时,在多幅图像中的对话内容没有发生变化时,多幅图像对应同一待翻译语句;在多幅图像中的对话内容发生变化时,多幅图像对应多条待翻译语句。当与待翻译语句同步的是一幅图像时,一幅图像对应一条待翻译语句。
72.作为示例,参见图4b,图4b是本技术实施例提供的视频对话的翻译方法的原理示意图。与待翻译语句:“tom:sir,we are headed into a storm of more than 8 knots.”同步的图像为图像11,与待翻译语句“angus:if we don't shorten sail and bear off it'll catch us on the beam.”同步的图像为图像12。
73.如此,通过从视频中提取与待翻译语句同步的图像,从而便于后续通过所提取的图像对待翻译语句进行翻译,从而显著提高待翻译语句的翻译准确性。
74.在步骤103中,对图像和待翻译语句进行第一编码处理,得到与待翻译语句对应的多模态上下文。
75.在一些实施例中,多模态上下文包括待翻译语句中的每个词分别对应的多模态词向量,多模态向量包括图像的第一向量表示和待翻译语句的向量表示。
76.在一些实施例中,上述第一编码处理包括向量化处理、第二编码处理和嵌入处理;
参见图3b,图3b是本技术实施例提供的视频对话的翻译方法的流程示意图。图3b所示出的步骤103可以通过执行步骤1031至步骤1033实现,下面分别进行说明。
77.在步骤1031中,对图像进行向量化处理,得到图像的第一向量表示。
78.在一些实施例中,对图像进行向量化处理可以通过调用目标检测网络(faster r-cnn)实现,目标检测网络用于对图像进行对象提取处理,得到图像中每个对象的特征信息,然后基于图像中每个对象的特征信息,确定图像的第一向量表示。其中,第一向量表示是图像的向量表达形式。
79.在一些实施例中,参见图3c,图3c是本技术实施例提供的视频对话的翻译方法的流程示意图。图3c所示出的步骤1031可以通过执行步骤10311至步骤10313实现,下面分别进行说明。
80.在步骤10311中,对图像进行对象提取处理,得到图像中每个对象的特征信息。
81.在一些实施例中,对象提取处理用于提取图像中每个对象的特征信息,其中,图像中的对象包括图像中的人物、物体,图像中的对象的特征信息可以是图像中的人物的面部表情、图像中的物体的类型等。
82.在一些实施例中,对象提取处理可以通过目标检测网络实现,即,上述步骤10311可以通过以下方式实现:基于图像调用目标检测网络进行对象提取处理,得到图像中每个对象的特征信息。
83.作为示例,参见图4b,图像11中的对象包括一个人物,图像12中的对象包括两个人物和一个物体。
84.如此,通过对图像进行特征提取处理,从而准确确定出图像中每个对象的特征信息,便于进一步构造图像的第一向量表示,从而使得所确定的图像的第一向量表示能够更加精准的反映出图像的特征信息。
85.在步骤10312中,将每个对象的特征信息进行向量化处理,得到每个对象的向量表示。
86.在一些实施例中,向量化处理用于对图像中对象的特征信息进行向量转换,从而将对象的特征信息转换为对应的向量表示。
87.作为示例,对象1的特征信息为:人物1表情面露笑容,对图像中的对象1的特征信息进行向量化处理之后,得到对象1的向量表示可以为:“[1,2,3,4]”。
[0088]
如此,通过对图像中的每个对象的特征信息进行向量化处理之后,所得到的对象的向量表示,以便于机器对对象的特征信息进行识别,便于后续结合图像对待翻译文本进行翻译。
[0089]
在步骤10313中,将每个对象的向量表示进行合并处理,得到图像的第一向量表示。
[0090]
在一些实施例中,合并处理用于将每个对象的向量表示进行合并,得到图像中所有对象的向量表示的集合,即,图像的第一向量表示。
[0091]
作为示例,当图像中包括对象1和对象2时,对象1的向量表示为“[1,2,3]”,对象2的向量表示为“[3,4,5]”,将对象1的向量表示和对象2的向量表示进行合并处理,所得到的图像的第一向量表示可以为:
[0092][0093]
在步骤1032中,对待翻译语句进行嵌入处理,得到待翻译语句的第二向量表示。
[0094]
在一些实施例中,嵌入处理用于对待翻译语句进行向量转换,嵌入处理可以通过嵌入网络实现,即,上述步骤1032可以通过以下方式实现:基于待翻译语句调用嵌入网络进行嵌入处理,得到待翻译语句的第二向量表示,其中,待翻译语句的第二向量表示是待翻译语句的向量形式。
[0095]
在一些实施例中,参见图3d,图3d是本技术实施例提供的视频对话的翻译方法的流程示意图。图3d所示出的步骤1032可以通过执行步骤10321至步骤10323实现,下面分别进行说明。
[0096]
在步骤10321中,对待翻译语句的对话上下文进行嵌入处理,得到对话上下文的向量表示。
[0097]
在一些实施例中,对话上下文包括对话文本中位于待翻译语句之前和之后的语句。
[0098]
作为示例,参见图4b,当待翻译语句为:“if we don't shorten sail and bear off it'll catch us on the beam.”时,待翻译语句的对话上下文可以为:“sir,we are headed into a storm of more than 8 knots.mr.lawrence,hold our course.”,其中,待翻译语句的对话上下文包括待翻译语句的上文和待翻译语句的下文,待翻译语句的上文是指在待翻译语句之前播放的语句,待翻译语句的下文是指在待翻译语句之后播放的语句,待翻译语句的上文可以为:“sir,we are headed into a storm of more than 8 knots.”,待翻译语句的下文可以为:“mr.lawrence,hold our course.”。
[0099]
在一些实施例中,上述嵌入处理是通过嵌入网络实现的,嵌入网络包括词嵌入层、位置嵌入层、轮次嵌入层以及角色嵌入层,其中,词嵌入层用于进行词嵌入处理,位置嵌入层用于进行位置嵌入处理,轮次嵌入层用于进行轮次嵌入处理,角色嵌入层用于进行角色嵌入处理。
[0100]
在一些实施例中,参见图3e,图3e是本技术实施例提供的视频对话的翻译方法的流程示意图。图3e所示出的步骤10321可以通过执行步骤103211至步骤103215实现,下面分别进行说明。
[0101]
在步骤103211中,基于对话上下文调用词嵌入层进行词嵌入处理,得到对话上下文的词向量表示。
[0102]
在一些实施例中,词嵌入处理用于将对话上下文转换为对话上下文的词向量表示。对话上下文的词向量表示包括对话上下文中的每个词对应的向量表示。
[0103]
作为示例,参见图4c,图4c是本技术实施例提供的视频对话的翻译方法的原理示意图。基于对话上下文调用词嵌入层41进行词嵌入处理,得到对话上下文的词向量表示。
[0104]
在步骤103212中,基于对话上下文调用位置嵌入层进行位置嵌入处理,得到对话上下文的位置向量表示。
[0105]
在一些实施例中,位置向量表示表征对话上下文中的每个词在对话上下文中的位置。
[0106]
作为示例,参见图4c,基于对话上下文调用位置嵌入层42进行位置嵌入处理,得到对话上下文的位置向量表示。
[0107]
在步骤103213中,基于对话上下文调用轮次嵌入层进行轮次嵌入处理,得到对话上下文的轮次向量表示。
[0108]
在一些实施例中,轮次向量表示表征对话上下文中的任意两个对话语句之间的轮次顺序。
[0109]
作为示例,对话语句a和对话语句b之间的轮次顺序可以是对话语句a在对话语句b之前播放,或者,对话语句b在对话语句a之前播放。
[0110]
作为示例,参见图4c,基于对话上下文调用轮次嵌入层43进行轮次嵌入处理,得到对话上下文的轮次向量表示。
[0111]
在步骤103214中,基于对话上下文调用角色嵌入层进行角色嵌入处理,得到对话上下文的角色向量表示。
[0112]
在一些实施例中,角色向量表示表征对话上下文中的每个对话语句的表达主体。
[0113]
作为示例,对话语句a的表达主体为对象1,对话语句b的表达主体为对象2,待翻译语句的对话上下文可以为:“sir,we are headed into a storm of more than 8 knots.mr.lawrence,hold our course.”其中,对话语句a“sir,we are headed into a storm of more than 8knots.”的表达主体可以为人物“mr.lawrence”,对话语句b“mr.lawrence,hold our course.”的表达主体可以为人物“sir”。
[0114]
作为示例,参见图4c,基于对话上下文调用角色嵌入层44进行角色嵌入处理,得到对话上下文的角色向量表示。
[0115]
在步骤103215中,将对话上下文的词向量表示、位置向量表示、轮次向量表示和角色向量表示进行加和处理,得到对话上下文的向量表示。
[0116]
作为示例,对话上下文的向量表示的数学表达式可以为:
[0117]
d=d1+d2+d3+d4ꢀꢀꢀꢀ
(2)
[0118]
其中,d表征对话上下文的向量表示,d1表征对话上下文的词向量表示,d2对话上下文的位置向量表示,d3表征对话上下文的轮次向量表示,d4表征对话上下文的角色向量表示。
[0119]
如此,通过对待翻译语句的对话上下文进行向量转换,从而便于在后续对待翻译语句进行翻译的过程中,结合待翻译语句的对话上下文,使得所得到的翻译结果能够准确贴合对话上下文的语言环境,使得翻译结果更加精准。
[0120]
在步骤10322中,对待翻译语句进行嵌入处理,得到待翻译语句的向量表示。
[0121]
在一些实施例中,对待翻译语句进行嵌入处理可以通过嵌入网络实现,嵌入网络包括词嵌入层和位置嵌入层,其中,词嵌入层用于进行词嵌入处理,位置嵌入层用于进行位置嵌入处理。
[0122]
在一些实施例中,参见图3f,图3f是本技术实施例提供的视频对话的翻译方法的流程示意图。图3f所示出的步骤10322可以通过执行步骤103221至步骤103223实现,下面分别进行说明。
[0123]
在步骤103221中,基于待翻译语句调用词嵌入层进行词嵌入处理,得到待翻译语句的词向量表示。
[0124]
在一些实施例中,词嵌入处理用于将待翻译语句转换为待翻译语句的词向量表示。待翻译语句的词向量表示包括待翻译语句中的每个词对应的向量表示。
[0125]
作为示例,参见图4c,基于待翻译语句调用词嵌入层41进行词嵌入处理,得到待翻译语句的词向量表示。
[0126]
在步骤103222中,基于待翻译语句调用位置嵌入层进行位置嵌入处理,得到待翻译语句的位置向量表示。
[0127]
在一些实施例中,待翻译语句的位置向量表示表征待翻译语句中的每个词在待翻译语句中的位置。
[0128]
作为示例,参见图4c,基于待翻译语句调用位置嵌入层42进行位置嵌入处理,得到待翻译语句的位置向量表示。
[0129]
在步骤103223中,将待翻译语句的词向量表示和待翻译语句的位置向量表示进行加和处理,得到待翻译语句的向量表示。
[0130]
作为示例,待翻译语句的向量表示的数学表达式可以为:
[0131]
f=f1+f2ꢀꢀꢀꢀ
(3)
[0132]
其中,f表征待翻译语句的向量表示,f1表征待翻译语句的词向量表示,f2表征待翻译语句的位置向量表示。
[0133]
如此,通过基于待翻译语句的对话上下文分别调用嵌入网络中的词向量层、位置向量层、轮次向量层和角色向量层进行处理,得到对话上下文的词向量表示、位置向量表示、轮次向量表示和角色向量表示。通过基于待翻译语句分别调用嵌入网络中的词向量层和位置向量层进行处理,得到待翻译语句的词向量表示和待翻译语句的位置向量表示。由于待翻译语句本身是单独的一个语句,并不涉及对话(即多个语句),因此,对待翻译语句仅需调用词向量层和位置向量层进行处理即可,而无需调用轮次向量层和角色向量层进行处理,从而显著提高了向量转换的效率,进而在保证翻译准确性的同时,提高了视频对话翻译的效率。
[0134]
在步骤10323中,将对话上下文的向量表示和待翻译语句的向量表示进行合并处理,得到待翻译语句的第二向量表示。
[0135]
作为示例,待翻译语句的第二向量表示的表达式可以为:
[0136]
u=[f,d]
ꢀꢀꢀꢀ
(4)
[0137]
其中,u表征待翻译语句的第二向量表示,f表征待翻译语句的向量表示,d表征对话上下文的向量表示。
[0138]
在步骤1033中,对第一向量表示和第二向量表示进行第二编码处理,得到与待翻译语句对应的多模态上下文。
[0139]
在一些实施例中,上述第二编码处理包括特征提取处理、图像感知处理、以及空间变换处理,第二编码处理用于对第一向量表示和第二向量表示进行编码。
[0140]
作为示例,参见图4d,对第一向量表示x
img
和第二向量表示x
text1
进行第二编码处理,得到与待翻译语句对应的多模态上下文。
[0141]
在一些实施例中,参见图3g,图3g是本技术实施例提供的视频对话的翻译方法的流程示意图。图3g所示出的步骤1033可以通过执行步骤10331至步骤10333实现,下面分别进行说明。
[0142]
在步骤10331中,对第二向量表示进行特征提取处理,得到第三向量表示。
[0143]
在一些实施例中,特征提取处理可以通过自注意力层实现,即,上述步骤10331可以通过以下方式实现:基于第二向量表示调用自注意力层进行特征提取处理,得到第三向量表示。其中,自注意力层可以是多头自注意力层,也可以是单头自注意力层,可以理解的是,多头自注意力层的特征提取能力优于单头自注意力层。
[0144]
作为示例,参见图4d,基于第二向量表示xt
ext1
调用自注意力层进行特征提取处理,得到第三向量表示xt
ext2
,其中,第三向量表示xt
ext2
的矩阵维度为n
×
d。
[0145]
在步骤10332中,基于第三向量表示和第一向量表示调用图像感知层进行图像感知处理,得到图像感知处理结果。
[0146]
作为示例,参见图4d,基于第三向量表示xt
ext2
和第一向量表示x
img
调用图像感知层进行图像感知处理,得到图像感知处理结果。其中,第一向量表示x
img
的矩阵维度为p
×
d。
[0147]
在一些实施例中,在上述步骤10332中,基于第三向量表示和第一向量表示调用图像感知层进行图像感知处理,得到图像感知处理结果可以通过以下方式实现:将第三向量表示进行标记处理,得到标记后的第三向量表示;将标记后的第三向量表示和第一向量表示进行融合处理,得到融合向量表示;根据融合向量表示和标记后的第三向量表示,确定图像感知处理结果。
[0148]
作为示例,参见图4d,将第三向量表示x
text2
进行标记处理,得到标记后的第三向量表示;将标记后的第三向量表示x
text3
和第一向量表示x
img
进行融合处理,得到融合向量表示根据融合向量表示和标记后的第三向量表示x
text3
,确定图像感知处理结果c。其中,图像感知处理结果c的矩阵维度为(n+p)
×
d,融合处理用于将标记后的第三向量表示和第一向量表示x
img
进行向量拼接。
[0149]
在一些实施例中,上述根据融合向量表示和标记后的第三向量表示,确定图像感知处理结果,可以通过以下方式实现:将融合向量表示进行转置处理,得到融合向量表示的转置向量表示;将标记后的第三向量表示分别进行两次不同的向量变换处理,分别得到第一变换向量表示和第二变换向量表示;对转置向量表示和第一变换向量表示进行归一化处理,得到归一化处理结果;将归一化处理结果和第二变换向量表示进行相乘处理,得到图像感知处理结果。
[0150]
作为示例,参见图4d,将融合向量表示进行转置处理,得到融合向量表示的转置向量表示q;将标记后的第三向量表示x
text3
分别进行两次不同的向量变换处理,分别得到第一变换向量表示k和第二变换向量表示v;对转置向量表示q和第一变换向量表示k进行归一化处理,得到归一化处理结果;将归一化处理结果和第二变换向量表示v进行相乘处理,得到图像感知处理结果c。
[0151]
作为示例,转置向量表示q和第一变换向量表示k进行归一化处理的表达式可以为:
[0152][0153]
其中,w表征归一化处理结果,q表征转置向量表示,k表征第一变换向量表示,d表征矩阵列向量的维度,softmax表征归一化处理。
[0154]
在步骤10333中,对图像感知处理结果进行空间变换处理,得到与待翻译语句对应的多模态上下文。
[0155]
作为示例,参见图4d,基于图像感知处理结果c调用空间变换层进行空间变换处理,得到与待翻译语句对应的多模态上下文。
[0156]
在步骤104中,基于多模态上下文进行解码处理,得到待翻译语句中每个词的翻译结果。
[0157]
在一些实施例中,待翻译语句中的后序词是根据前序词的翻译结果、以及多模态上下文中后序词对应的多模态词向量进行解码处理得到。其中,待翻译语句中的第1个词没有前序词,待翻译语句中的最后一个词没有后续词,那么,待翻译语句中的第1个词是根据多模态上下文中第1个词对应的多模态向量进行解码处理得到。
[0158]
在一些实施例中,参见图3b,图3b所示出的步骤104可以通过执行步骤1041至步骤1043实现,下面分别进行说明。
[0159]
在步骤1041中,对与待翻译语句中的第1个词对应的第1多模态词向量进行解码处理,得到与待翻译语句中的第1个词对应的第一翻译结果。
[0160]
在一些实施例中,解码处理可以通过自注意力处理、空间变换处理和归一化处理实现。
[0161]
在一些实施例中,参见图3h,图3h是本技术实施例提供的视频对话的翻译方法的流程示意图。图3h所示出的步骤1041可以通过执行步骤10411至步骤10413实现,下面分别进行说明。
[0162]
在步骤10411中,对第1多模态词向量进行自注意力处理,得到第1多模态词向量的自注意力处理结果。
[0163]
作为示例,参见图4d,基于第1多模态词向量调用自注意力层42进行自注意力处理,得到第1多模态词向量的自注意力处理结果。
[0164]
在步骤10412中,对第1多模态词向量的自注意力处理结果进行空间变换处理,得到空间变换处理结果。
[0165]
作为示例,基于第1多模态词向量的自注意力处理结果调用空间变换层44进行空间变换处理,得到空间变换处理结果。
[0166]
在步骤10413中,对空间变换处理结果进行归一化处理,将得到的归一化处理结果确定为第一翻译结果。
[0167]
作为示例,参见图4d,基于空间变换处理结果调用归一化处理层进行归一化处理,将得到的归一化处理结果确定为第一翻译结果。
[0168]
在步骤1042中,对与待翻译语句中的前t-1个词对应的第二翻译结果进行第三编码处理,得到与第二翻译结果对应的翻译词向量。
[0169]
在一些实施例中,2≤t≤t,t表征待翻译语句中词的数量。
[0170]
在一些实施例中,第三编码处理可以通过嵌入网络和编码层实现,上述步骤1042可以通过以下方式实现:基于与待翻译语句中的前t-1个词对应的第二翻译结果依次调用嵌入网络和编码层进行第三编码处理,将得到的第三编码处理结果确定为与第二翻译结果对应的翻译词向量。图4d所示出的目标输入可以为与待翻译语句中的前t-1个词对应的第二翻译结果。
[0171]
在步骤1043中,对第t多模态词向量和翻译词向量进行解码处理,得到与待翻译语句中的前t个词对应的第三翻译结果。
[0172]
在一些实施例中,第t多模态词向量是与待翻译语句中的第t个词对应的多模态词向量。
[0173]
作为示例,参加图4d,解码处理可以通过自注意力处理、空间变换处理和归一化处理实现,上述步骤1043可以通过以下方式实现:基于第t多模态词向量和翻译词向量调用自注意力层42进行自注意力处理,得到第t多模态词向量和翻译词向量的自注意力处理结果;基于第t多模态词向量和翻译词向量的自注意力处理结果调用空间变换层44进行空间变换处理,得到空间变换处理结果;基于空间变换处理结果调用归一化处理层进行归一化处理,得到与待翻译语句中的前t个词对应的第三翻译结果。
[0174]
如此,通过从对话文本中获取待翻译语句,并从视频中提取与待翻译语句同步的图像,然后对图像和待翻译语句进行第一编码处理和解码处理,得到待翻译语句中每个词的翻译结果。由于在对待翻译语句进行翻译的过程中,结合了与待翻译语句同步的图像,使得翻译结果更加准确,从而有效提高了视频对话翻译的准确性。
[0175]
下面,将说明本技术实施例在一个实际的翻译视频对话的应用场景中的示例性应用。
[0176]
本技术实施例可以具有如下应用场景,例如,在一个实际的翻译视频对话的应用场景中,参见图5a,图5a是本技术实施例提供的视频对话的翻译方法的效果示意图。参见图5a中的子图a,当待翻译语句为:“x5:mr lawrence,hold our course”时,那么在待翻译语句中,英文单词course对应的中文含义有:(1)(大学中要进行考试或取得资格的)课程;(2)(有关某学科的系列)讲座;(3)(船或飞机的)航向;航线;(4)方针;行动方式;(5)进展;(6)一道菜;(7)比赛场地;(8)江河流向;(9)疗程;(10)(砖、石等墙的)层。那么,在上述待翻译语句中,course的中文含义究竟是哪个呢。通过本技术实施例提供的视频对话的翻译方法对上述待翻译语句进行翻译时,可以结合与待翻译语句同步的图像,判断上述待翻译原语句中,course的中文含义为(船或飞机的)航向、航线,那么,就可以将待翻译语句中的英文单词“course”翻译为(船或飞机的)航向、航线,而不会将英文单词“course”翻译为比赛场地,从而有效提高了视频对话翻译的准确性。
[0177]
参见图5a中的子图b,当待翻译语句为:“x1:oh!take the defibrillator,i'll call 911.”时,通过本技术实施例提供的视频对话的翻译方法对上述待翻译语句进行翻译时,可以结合与待翻译语句同步的图像,判断上述待翻译源语句中,defibrillator的中文含义为除颤器。
[0178]
参见图5a中的子图c,当待翻译原语句为:“where you think you`re going with those?”时,在上述待翻译源语句中,those的中文含义为:(指代已经提及的人或物)那些;那些(尤用于指示或指向在空间、时间上离自己稍远的人或物);用于提供更多的细节、信息。即,those在不同的语境下具有不同的含义。通过本技术实施例提供的视频对话的翻译方法对上述待翻译语句进行翻译时,可以结合与待翻译语句同步的图像(人物手中有“裤子”),判断上述待翻译源语句中,those的所指代的是“the jeans”,从而将待翻译语句中的英文单词“those”翻译为“那些裤子”,而不会将英文单词“those”翻译为其他中文含义,从而有效提高了翻译的准确性。
[0179]
参见图5b,图5b是本技术实施例提供的视频对话的翻译方法的原理示意图。通过图5b所示出的视频对话的翻译架构可以有效建模当前视频场景下的图片信息(即上文所描述的与待翻译语句同步的图像),作为示例,在播放视频时,截取当前视频场景的至少一幅图像,将图像确定为当前场景下的图片信息,即,与当前播放的视频中与对话同步显示的图像的图片信息,从而使得所生成的待翻译语句的译文不仅能表达出待翻译语句原本的含义,而且使得翻译结果能够更好切合当前的对话场景。
[0180]
在一些实施例中,参见图5b,基于对话上下文和待翻译语句调用嵌入层(embedding)进行处理,得到对话上下文和待翻译语句的向量表示(x
text
)。
[0181]
具体的,参见图5c,基于对话上下文分别调用词嵌入层、位置嵌入层、轮次嵌入层和角色嵌入层进行处理,并将词嵌入层、位置嵌入层、轮次嵌入层和角色嵌入层的处理结果进行加和,得到对话上下文的向量表示。基于待翻译语句调用词嵌入层和位置嵌入层进行处理,并将词嵌入层和位置嵌入层的处理结果进行加和,得到待翻译语句的向量表示。其中,位置嵌入层的处理结果表征语句中的每个词在语句中的位置,轮次嵌入层的处理结果表征对话的轮次顺序,角色嵌入层的处理结果用于区别某一对话的表达主体(例如,对话1是a对象的对话文本还是b对象的对话文本)。
[0182]
在一些实施例中,参见图5b,基于图像调用向量化处理层进行向量化处理,得到图像的向量表示(即上文所描述的第一向量表示,x
img
)。具体的,可以通过外部工具faster r-cnn,对图像进行对象提取,得到图像中每个对象的特征信息(object),然后再将每个对象的特征信息进行向量化处理,得到每个对象的向量表示。其中,图像中的对象包括图像中的人物、物体等。
[0183]
在一些实施例中,参见图5b,基于对话上下文和待翻译语句的向量表示(x
text
)调用自注意力层进行处理,再基于处理后的向量表示(x
text2
)和图像的向量表示(x
img
)调用图像感知层进行处理,以此来提取有效的图像信息,然后再基于图像感知处理结果调用空间变换层进行处理,将空间变换层的处理结果输入至解码层(decoder)中,其中,图像感知处理结果是多模态上下文(multi-modal context),多模态上下文可以通过多模态矩阵c表示,多模态矩阵c的矩阵维度为(n+p)
×
d,x
text
的矩阵维度为n
×
d,x
img
的矩阵维度为p
×
d。
[0184]
在一些实施例中,参见图5b,基于对话上下文和待翻译语句的向量表示(x
text
)调用自注意力层进行处理的过程可以通过多头自注意力层实现,多头自注意力层对x
text
进行处理的表达式可以为:
[0185]
x
text2
=multihead([x
text11
,x
text12
])
ꢀꢀꢀꢀ
(6)
[0186]
其中,x
text2
表征处理后的向量表示,x
text11
表征对话上下文,x
text12
表征待翻译语句,multihead表征多头自注意力处理。
[0187]
在一些实施例中,参见图5b,基于处理后的向量表示(x
text2
)和图像的向量表示(x
img
)调用图像感知层进行处理,并基于图像感知处理结果调用空间变换层进行处理,得到空间变换层的处理结果的数学表达式可以为:
[0188]
y=ffn(image(x
text2
,x
img
))
ꢀꢀꢀ
(7)
[0189]
其中,y表征空间变换层的处理结果,ffn表征空间变换处理,x
text2
表征处理后的向量表示,x
img
表征图像的向量表示,image表征图像感知层的处理。
[0190]
在一些实施例中,参见图5b,下面对图像感知层的处理过程进行详细说明,x
text2
∈
rn
×d,其中,n
×
d表征x
text2
的矩阵维度;x
img
∈r
p
×d表征x
img
的矩阵维度,即x
img
可以通过矩阵r
p
×d进行表示,r
p
×d的矩阵维度为p
×
d,其中,n表征行向量的数量,即输入文本中词的个数,p表征图像中对象的个数。
[0191]
在一些实施例中,参见图5b,对处理后的向量表示x
text2
进行标记处理,以便于后续对x
text2
和x
img
进行区分。将x
text2
和x
img
进行拼接处理,得到拼接结果即拼接结果可以通过矩阵r
(n+p)
×d进行表示,其中,r
(n+p)
×d的矩阵维度为(n+p)
×
d。并对拼接结果进行转置处理,得到转置处理结果q,其中,q∈r
(n+p)
×d,即拼接结果和转置处理结果q是矩阵维度相同的两个矩阵。对处理后的向量表示x
text2
分别进行两次不同的矩阵变换处理,得到变换向量表示k(即上文所描述的第一变换向量表示)和变换向量表示v(即上文所描述的第二变换向量表示),其中,k∈rn×d,v∈rn×d。即处理后的向量表示x
text2
、变换向量表示k、变换向量表示v的矩阵维度相同,且矩阵维度为n
×
d。
[0192]
在一些实施例中,参见图5b,对转置处理结果q和变换向量表示k进行归一化处理,得到归一化处理结果w,其中,归一化处理结果的表达式可以为:
[0193][0194]
其中,w表征归一化处理结果,q表征转置处理结果,k表征变换向量表示,d表征矩阵列向量的维度,softmax表征归一化处理。
[0195]
其中,变换向量表示k的表达式可以为:
[0196]
k=x
text2wꢀꢀꢀꢀꢀ
(9)
[0197]
其中,w表征用于进行矩阵变换的任意矩阵。
[0198]
在一些实施例中,参见图5b,将归一化处理结果w和变换向量表示v进行相乘处理,得到图像感知处理结果。
[0199]
在一些实施例中,参见图5b,基于空间变换层的处理结果y中的第一个词向量调用解码网络中的自注意力层进行处理,得到第1待解码结果;基于第1待解码结果调用归一化处理层进行解码处理,得到待翻译语句中的第1个词向量对应的翻译结果。
[0200]
在一些实施例中,参见图5b,基于待翻译语句中的前t-1个词向量对应的翻译结果(目标输入,target input),调用嵌入层进行映射处理,得到待翻译语句的前t-1个词对应的翻译结果的词向量;基于待翻译语句的前t-1个词对应的翻译结果的词向量调用编码层(masked multi-head attention)进行编码处理,得到前t-1个词向量的编码结果;基于前t-1个词向量的编码结果和空间变换层的处理结果y中的第t个词向量调用解码网络中的自注意力层进行自注意力处理,得到第t待解码结果;基于第t待解码结果调用空间变换层进行空间变换处理,得到变换后的第t待解码结果;基于变换后的第t待解码结果调用归一化处理层进行解码处理,得到待翻译语句中的前t个词对应的翻译结果,其中,t大于1,且小于或等于t,t表征待翻译语句中词的个数。
[0201]
在一些实施例中,在生成待翻译语句中的第t个词的翻译结果时,基于待翻译语句中的前t-1个词向量的编码结果y
1:t-1
和空间变换层的处理结果y调用自注意力层进行编码学习,第t待解码结果的表达式可以为:
[0202]hy
=multihead(y
1:t-1
,y,y)
ꢀꢀꢀꢀ
(10)
[0203]
其中,hy表征第t待解码结果,y
1:t-1
表征待翻译语句中的前t-1个词中的任意一个词。
[0204]
在一些实施例中,对第t待解码结果调用空间变换层进行空间变换处理的表达式可以为:
[0205]
h=ffn(hy)
ꢀꢀꢀ
(11)
[0206]
其中,h表征变换后的第t待解码结果。
[0207]
在一些实施例中,参见图5b,归一化处理生成翻译结果的表达式可以为:
[0208]
p=softmax(w0h+b0)
ꢀꢀꢀ
(12)
[0209]
其中,p表征翻译结果,softmax表征归一化处理,w0和b0表征学习参数。
[0210]
在一些实施例中,用于训练的损失函数的表达式可以为:
[0211][0212]
其中,l
mct
表征用于训练的损失函数。
[0213]
通过本技术实施例提供的视频对话的翻译方法,可以从待翻译语句同步的图像中学习到有效信息,并有效增强对话连续性,使得翻译结果更加准确,更加具有使用性,从而显著提高用户体验。
[0214]
可以理解的是,在本技术实施例中,涉及到视频的对话文本等相关的数据,当本技术实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0215]
下面继续说明本技术实施例提供的视频对话的翻译装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的视频对话的翻译装置255中的软件模块可以包括:获取模块2551,用于获取视频的对话文本,从对话文本中获取待翻译语句;提取模块2552,用于从视频中提取与待翻译语句同步的图像;编码模块2553,用于对图像和待翻译语句进行第一编码处理,得到与待翻译语句对应的多模态上下文,其中,多模态上下文包括待翻译语句中的每个词分别对应的多模态词向量;解码模块2554,用于基于多模态上下文进行解码处理,得到待翻译语句中每个词的翻译结果;其中,待翻译语句中的后序词是根据前序词的翻译结果、以及多模态上下文中后序词对应的多模态词向量进行解码处理得到。
[0216]
在一些实施例中,第一编码处理包括向量化处理和第二编码处理;上述编码模块2553,还用于对图像进行向量化处理,得到图像的第一向量表示;对待翻译语句进行嵌入处理,得到待翻译语句的第二向量表示;对第一向量表示和第二向量表示进行第二编码处理,得到与待翻译语句对应的多模态上下文。
[0217]
在一些实施例中,上述编码模块2553,还用于对图像进行对象提取处理,得到图像中每个对象的特征信息;将每个对象的特征信息进行向量化处理,得到每个对象的向量表示;将每个对象的向量表示进行合并处理,得到图像的第一向量表示。
[0218]
在一些实施例中,上述编码模块2553,还用于对待翻译语句的对话上下文进行嵌入处理,得到对话上下文的向量表示,其中,对话上下文包括对话文本中位于待翻译语句之前和之后的语句;对待翻译语句进行嵌入处理,得到待翻译语句的向量表示;将对话上下文的向量表示和待翻译语句的向量表示进行合并处理,得到待翻译语句的第二向量表示。
[0219]
在一些实施例中,嵌入处理是通过嵌入网络实现的,嵌入网络包括词嵌入层、位置
嵌入层、轮次嵌入层以及角色嵌入层;上述编码模块2553,还用于基于对话上下文调用词嵌入层进行词嵌入处理,得到对话上下文的词向量表示;基于对话上下文调用位置嵌入层进行位置嵌入处理,得到对话上下文的位置向量表示,其中,位置向量表示表征对话上下文中的每个词在对话上下文中的位置;基于对话上下文调用轮次嵌入层进行轮次嵌入处理,得到对话上下文的轮次向量表示,其中,轮次向量表示表征对话上下文中的任意两个对话语句之间的轮次顺序;基于对话上下文调用角色嵌入层进行角色嵌入处理,得到对话上下文的角色向量表示,其中,角色向量表示表征对话上下文中的每个对话语句的表达主体;将对话上下文的词向量表示、位置向量表示、轮次向量表示和角色向量表示进行加和处理,得到对话上下文的向量表示。
[0220]
在一些实施例中,上述编码模块2553,还用于基于待翻译语句调用词嵌入层进行词嵌入处理,得到待翻译语句的词向量表示;基于待翻译语句调用位置嵌入层进行位置嵌入处理,得到待翻译语句的位置向量表示,其中,待翻译语句的位置向量表示表征待翻译语句中的每个词在待翻译语句中的位置;将待翻译语句的词向量表示和待翻译语句的位置向量表示进行加和处理,得到待翻译语句的向量表示。
[0221]
在一些实施例中,第二编码处理包括特征提取处理、图像感知处理、以及空间变换处理;上述编码模块2553,还用于对第二向量表示进行特征提取处理,得到第三向量表示;基于第三向量表示和第一向量表示调用图像感知层进行图像感知处理,得到图像感知处理结果;对图像感知处理结果进行空间变换处理,得到与待翻译语句对应的多模态上下文。
[0222]
在一些实施例中,上述编码模块2553,还用于将第三向量表示进行标记处理,得到标记后的第三向量表示;将标记后的第三向量表示和第一向量表示进行融合处理,得到融合向量表示;根据融合向量表示和标记后的第三向量表示,确定图像感知处理结果。
[0223]
在一些实施例中,上述编码模块2553,还用于将融合向量表示进行转置处理,得到融合向量表示的转置向量表示;将标记后的第三向量表示分别进行两次不同的向量变换处理,分别得到第一变换向量表示和第二变换向量表示;对融合向量表示和第一变换向量表示进行归一化处理,得到归一化处理结果;将归一化处理结果和第二变换向量表示进行相乘处理,得到图像感知处理结果。
[0224]
在一些实施例中,上述解码模块2554,还用于对与待翻译语句中的第1个词对应的第1多模态词向量进行解码处理,得到与待翻译语句中的第1个词对应的第一翻译结果;迭代t执行以下处理:对与待翻译语句中的前t-1个词对应的第二翻译结果进行第三编码处理,得到与第二翻译结果对应的翻译词向量,其中,2≤t≤t,t表征待翻译语句中词的数量;对第t多模态词向量和翻译词向量进行解码处理,得到与待翻译语句中的前t个词对应的第三翻译结果,其中,第t多模态词向量是与待翻译语句中的第t个词对应的多模态词向量。
[0225]
在一些实施例中,上述解码模块2554,还用于对第1多模态词向量进行自注意力处理,得到第1多模态词向量的自注意力处理结果;对第1多模态词向量的自注意力处理结果进行空间变换处理,得到空间变换处理结果;对空间变换处理结果进行归一化处理,将得到的归一化处理结果确定为第一翻译结果。
[0226]
本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机
设备执行本技术实施例上述的视频对话的翻译方法。
[0227]
本技术实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本技术实施例提供的视频对话的翻译方法,例如,如图3a示出的视频对话的翻译方法。
[0228]
在一些实施例中,计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
[0229]
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
[0230]
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(html,hyper text markup language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
[0231]
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
[0232]
综上,本技术实施例具有以下有益效果:
[0233]
(1)通过从对话文本中获取待翻译语句,并从视频中提取与待翻译语句同步的图像,然后对图像和待翻译语句进行第一编码处理和解码处理,得到待翻译语句中每个词的翻译结果。由于在对待翻译语句进行翻译的过程中,结合了与待翻译语句同步的图像,使得翻译结果更加准确,从而有效提高了视频对话翻译的准确性。
[0234]
(2)通过从视频中提取与待翻译语句同步的图像,从而便于后续通过所提取的图像对待翻译语句进行翻译,从而显著提高待翻译语句的翻译准确性。
[0235]
(3)通过对图像中的每个对象的特征信息进行向量化处理之后,所得到的对象的向量表示,以便于机器对对象的特征信息进行识别,便于后续结合图像对待翻译文本进行翻译。
[0236]
(4)通过对待翻译语句的对话上下文进行向量转换,从而便于在后续对待翻译语句进行翻译的过程中,结合待翻译语句的对话上下文,使得所得到的翻译结果能够准确贴合对话上下文的语言环境,使得翻译结果更加精准。
[0237]
(5)通过基于待翻译语句的对话上下文分别调用嵌入网络中的词向量层、位置向量层、轮次向量层和角色向量层进行处理,得到对话上下文的词向量表示、位置向量表示、轮次向量表示和角色向量表示。通过基于待翻译语句分别调用嵌入网络中的词向量层和位置向量层进行处理,得到待翻译语句的词向量表示和待翻译语句的位置向量表示。由于待翻译语句本身是单独的一个语句,并不涉及对话(即多个语句),因此,对待翻译语句仅需调用词向量层和位置向量层进行处理即可,而无需调用轮次向量层和角色向量层进行处理,从而显著提高了向量转换的效率,进而在保证翻译准确性的同时,提高了翻译的效率。
[0238]
以上所述,仅为本技术的实施例而已,并非用于限定本技术的保护范围。凡在本申
请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本技术的保护范围之内。
技术特征:
1.一种视频对话的翻译方法,其特征在于,所述方法包括:获取视频的对话文本,从所述对话文本中获取待翻译语句;从所述视频中提取与所述待翻译语句同步的图像;对所述图像和所述待翻译语句进行第一编码处理,得到与所述待翻译语句对应的多模态上下文,其中,所述多模态上下文包括所述待翻译语句中的每个词分别对应的多模态词向量;基于所述多模态上下文进行解码处理,得到所述待翻译语句中每个词的翻译结果;其中,所述待翻译语句中的后序词是根据前序词的翻译结果、以及所述多模态上下文中所述后序词对应的多模态词向量进行解码处理得到。2.根据权利要求1所述的方法,其特征在于,所述第一编码处理包括向量化处理、第二编码处理和嵌入处理;所述对所述图像和所述待翻译语句进行第一编码处理,得到与所述待翻译语句对应的多模态上下文,包括:对所述图像进行向量化处理,得到所述图像的第一向量表示;对所述待翻译语句进行嵌入处理,得到所述待翻译语句的第二向量表示;对所述第一向量表示和所述第二向量表示进行第二编码处理,得到与所述待翻译语句对应的多模态上下文。3.根据权利要求2所述的方法,其特征在于,对所述图像进行向量化处理,得到所述图像的第一向量表示,包括:对所述图像进行对象提取处理,得到所述图像中每个对象的特征信息;将每个所述对象的特征信息进行向量化处理,得到每个所述对象的向量表示;将每个所述对象的向量表示进行合并处理,得到所述图像的第一向量表示。4.根据权利要求2所述的方法,其特征在于,所述对所述待翻译语句进行嵌入处理,得到所述待翻译语句的第二向量表示,包括:对所述待翻译语句的对话上下文进行嵌入处理,得到所述对话上下文的向量表示,其中,所述对话上下文包括所述对话文本中位于所述待翻译语句之前和之后的语句;对所述待翻译语句进行嵌入处理,得到所述待翻译语句的向量表示;将所述对话上下文的向量表示和所述待翻译语句的向量表示进行合并处理,得到所述待翻译语句的第二向量表示。5.根据权利要求4所述的方法,其特征在于,所述嵌入处理是通过嵌入网络实现的,所述嵌入网络包括词嵌入层、位置嵌入层、轮次嵌入层以及角色嵌入层;所述对所述待翻译语句的对话上下文进行嵌入处理,得到所述对话上下文的向量表示,包括:基于所述对话上下文调用所述词嵌入层进行词嵌入处理,得到所述对话上下文的词向量表示;基于所述对话上下文调用所述位置嵌入层进行位置嵌入处理,得到所述对话上下文的位置向量表示,其中,所述位置向量表示表征所述对话上下文中的每个词在所述对话上下文中的位置;基于所述对话上下文调用所述轮次嵌入层进行轮次嵌入处理,得到所述对话上下文的
轮次向量表示,其中,所述轮次向量表示表征所述对话上下文中的任意两个对话语句之间的轮次顺序;基于所述对话上下文调用所述角色嵌入层进行角色嵌入处理,得到所述对话上下文的角色向量表示,其中,所述角色向量表示表征所述对话上下文中的每个对话语句的表达主体;将所述对话上下文的词向量表示、所述位置向量表示、所述轮次向量表示和所述角色向量表示进行加和处理,得到所述对话上下文的向量表示。6.根据权利要求5所述的方法,其特征在于,所述对所述待翻译语句进行嵌入处理,得到所述待翻译语句的向量表示,包括:基于所述待翻译语句调用所述词嵌入层进行词嵌入处理,得到所述待翻译语句的词向量表示;基于所述待翻译语句调用所述位置嵌入层进行位置嵌入处理,得到所述待翻译语句的位置向量表示,其中,所述待翻译语句的位置向量表示表征所述待翻译语句中的每个词在所述待翻译语句中的位置;将所述待翻译语句的词向量表示和所述待翻译语句的位置向量表示进行加和处理,得到所述待翻译语句的向量表示。7.根据权利要求2所述的方法,其特征在于,所述第二编码处理包括特征提取处理、图像感知处理、以及空间变换处理;所述对所述第一向量表示和所述第二向量表示进行第二编码处理,得到与所述待翻译语句对应的多模态上下文,包括:对所述第二向量表示进行所述特征提取处理,得到第三向量表示;基于所述第三向量表示和所述第一向量表示调用图像感知层进行所述图像感知处理,得到图像感知处理结果;对所述图像感知处理结果进行空间变换处理,得到与所述待翻译语句对应的多模态上下文。8.根据权利要求7所述的方法,其特征在于,所述基于所述第三向量表示和所述第一向量表示调用图像感知层进行所述图像感知处理,得到图像感知处理结果,包括:将所述第三向量表示进行标记处理,得到标记后的第三向量表示;将所述标记后的第三向量表示和所述第一向量表示进行融合处理,得到融合向量表示;根据所述融合向量表示和所述标记后的第三向量表示,确定所述图像感知处理结果。9.根据权利要求8所述的方法,其特征在于,所述根据所述融合向量表示和所述标记后的第三向量表示,确定所述图像感知处理结果,包括:将所述融合向量表示进行转置处理,得到所述融合向量表示的转置向量表示;将所述标记后的第三向量表示分别进行两次不同的向量变换处理,分别得到第一变换向量表示和第二变换向量表示;对所述融合向量表示和所述第一变换向量表示进行归一化处理,得到归一化处理结果;将所述归一化处理结果和所述第二变换向量表示进行相乘处理,得到所述图像感知处
理结果。10.根据权利要求1所述的方法,其特征在于,所述基于所述多模态上下文进行解码处理,得到所述待翻译语句中每个词的翻译结果,包括:对与所述待翻译语句中的第1个词对应的第1多模态词向量进行解码处理,得到与所述待翻译语句中的第1个词对应的第一翻译结果;迭代t执行以下处理:对与所述待翻译语句中的前t-1个词对应的第二翻译结果进行第三编码处理,得到与所述第二翻译结果对应的翻译词向量,其中,2≤t≤t,t表征所述待翻译语句中词的数量;对第t多模态词向量和所述翻译词向量进行解码处理,得到与所述待翻译语句中的前t个词对应的第三翻译结果,其中,所述第t多模态词向量是与待翻译语句中的第t个词对应的多模态词向量。11.根据权利要求10所述的方法,其特征在于,所述对与所述待翻译语句中的第1个词对应的第1多模态词向量进行解码处理,得到与所述待翻译语句中的第1个词对应的第一翻译结果,包括:对所述第1多模态词向量进行自注意力处理,得到所述第1多模态词向量的自注意力处理结果;对所述第1多模态词向量的自注意力处理结果进行空间变换处理,得到空间变换处理结果;对所述空间变换处理结果进行归一化处理,将得到的归一化处理结果确定为所述第一翻译结果。12.一种视频对话的翻译装置,其特征在于,所述装置包括:获取模块,用于获取视频的对话文本,从所述对话文本中获取待翻译语句;提取模块,用于从所述视频中提取与所述待翻译语句同步的图像;编码模块,用于对所述图像和所述待翻译语句进行第一编码处理,得到与所述待翻译语句对应的多模态上下文,其中,所述多模态上下文包括所述待翻译语句中的每个词分别对应的多模态词向量;解码模块,用于基于所述多模态上下文进行解码处理,得到所述待翻译语句中每个词的翻译结果;其中,所述待翻译语句中的后序词是根据前序词的翻译结果、以及所述多模态上下文中所述后序词对应的多模态词向量进行解码处理得到。13.一种电子设备,其特征在于,所述电子设备包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令或者计算机程序时,实现权利要求1至11任一项所述的视频对话的翻译方法。14.一种计算机可读存储介质,存储有可执行指令或者计算机程序,其特征在于,所述可执行指令被处理器执行时实现权利要求1至11任一项所述的视频对话的翻译方法。15.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至11任一项所述的视频对话的翻译方法。
技术总结
本申请提供了一种视频对话的翻译方法、装置、设备、存储介质及程序产品;方法包括:获取视频的对话文本,从对话文本中获取待翻译语句;从视频中提取与待翻译语句同步的图像;对图像和待翻译语句进行第一编码处理,得到与待翻译语句对应的多模态上下文,其中,多模态上下文包括待翻译语句中的每个词分别对应的多模态词向量;基于多模态上下文进行解码处理,得到待翻译语句中每个词的翻译结果;其中,待翻译语句中的后序词是根据前序词的翻译结果、以及多模态上下文中后序词对应的多模态词向量进行解码处理得到。通过本申请能够有效提高视频对话翻译的准确性。视频对话翻译的准确性。视频对话翻译的准确性。
技术研发人员:梁云龙 孟凡东 徐金安 陈钰枫
受保护的技术使用者:北京交通大学
技术研发日:2022.02.16
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/