一种基于知识驱动的跨语言简讯生成方法
未命名
08-02
阅读:80
评论:0

1.本发明涉及一种跨语言简讯生成方法,具体涉及一种低资源下融合相关知识并跨越不同语言的简讯生成方法,属于自然语言处理技术领域。
背景技术:
2.随着移动互联网的崛起,信息呈爆炸式增长,各类科技信息的更新速度也不断加快,发挥科技档案信息现实作用的时机越来越短,开发利用科技档案信息的时效性日益紧迫。科技简讯是根据科技情报信息内容产生的具有特定格式、关键讯息的简短讯文,科技简讯能够根据科技信息的收集情况,随时交流有价值的科技档案信息,不仅提高了信息服务的主动性,而且扭转了人们对科技档案信息落后的偏见。
3.科技文献简讯自动生成技术主要以文本生成技术为核心,而传统的文本生成技术,不论是有监督任务还是无监督任务,生成的文本都具有一定的局限性,而科技文献简讯不仅有一定的格式要求,而且需要专业知识的集成。另外,科技文献多是外文撰写并且对应的中文简讯资源较少,因此在有限资源下的跨语言科技文献简讯自动生成技术既可以准确反映出科技档案信息的内容,又具有专业性等特点。
4.传统的跨语言摘要系统基于管道范式。这种系统首先对文档进行翻译,然后对其进行单语言摘要生成。之后shen等人提出使用伪摘要来训练跨语言抽象摘要模型。相比之下,duan等人和ouyang等人通过生成伪源的方法来构建跨语言摘要数据集。zhu等人通过使用往返翻译策略获得了第一个大规模的跨语言摘要数据集。此外,zhu等人提出了一个多任务框架来改进他们的跨语言摘要模型。在此之后,越来越多的研究员提出了更多的方法来改进跨语言摘要生成任务。zhu等人使用指针生成器网络来开发跨语言摘要中的翻译模式。cao等人利用两个编码器和两个解码器共同学习跨语言摘要生成中的句子对齐和汇总。
5.尽管有以上各种工作可以用来实现跨语言简讯生成,但是,在科技简讯生成任务中,仍有许多需要遵循的规则,即“知识”。例如,科技简讯的开始和结尾需要有一定的编写格式要求,或者科技情报当中的关键内容需要以特定的某种方式表现在最终的科技简报当中等等都可以视作知识。然而,到目前为止,还没有专门的方法来解决这种场景。
技术实现要素:
6.本发明的目的是为了实现在低资源场景下,根据科技文献内容生成具有一定的格式要求、专业知识集成的跨语言简讯,创造性地提出一种基于知识驱动的跨语言简讯生成方法,能够在资源较少的场景下,生成更高质量的科技简讯。
7.本发明的创新点在于:通过简讯原型编辑模型来获取科技简讯中的相关知识,然后将知识融合进跨语言简讯生成模型当中,根据预训练-微调范式解决训练资源不够的问题,从而达到低资源场景下的基于知识的跨语言简讯生成。
8.本发明采用以下技术方案实现。
9.首先,通过bi-rnn网络模拟单词之间的相互作用,采用原型文档和简讯之间的双
向注意机制分析相互依赖关系,最终根据隐状态的加权求和,得到“简讯模式”,即知识。
10.然后,基于多任务学习来共享解码器的参数,通过共享整个解码器来执行翻译和简讯生成任务。
11.最后,将获取的知识融合在跨语言简讯生成模型的解码器中,让其参与到最终简讯生成的过程,使用预训练-微调范式,进一步解决低资源的问题。
12.有益效果
13.本发明,对比现有技术,具有以下优点:
14.1.本方法通过对源文档和目标简讯二者之间的相互作用进行分析,从而提取“知识”,并将其引入到跨语言简讯生成的模型结构当中,帮助模型生成更专业,更符合要求的科技简讯。
15.2.本发明通过多任务学习以及预训练-微调范式,解决了低资源的问题,使其即使在训练数据资源较少的情况下,也能跨语言生成较高质量的科技简讯。
附图说明
16.图1是本发明方法总体架构图;
17.图2是本发明方法步骤1中基于transformer的跨语言简讯生成模型;
18.图3是本发明方法步骤2中低资源下的多任务学习模型结构;
19.图4是本发明方法步骤3中简讯知识获取模型结构;
具体实施方式
20.下面结合附图和实施例,对本发明方法做进一步详细说明。应当理解,此处所描述的具体实施例,仅仅用以解释本发明,并不用于限定本发明。
21.本发明的目的是通过以下技术方案实现的。
22.如图1所示,一种基于知识驱动的跨语言简讯生成方法,包括以下步骤:
23.步骤1:基于transformer的跨语言简讯生成建模。
24.具体地,给定一组跨语言简讯数据d,d=(x(i),y(i)),其中x和y都是一组文本序列,使用transformer模型作为跨语言简讯生成的基础框架。如图2所示。
25.包括以下步骤:
26.步骤1.1:源文档编码映射。
27.首先,编码器(encoder)将输入的源文档x=(x1,x2,...,xn)映射为一组连续表示序列z=(z1,z2,...,zn),z的大小随着源序列的长度而发生变化。
28.步骤1.2:多头注意力机制计算。
29.具体地,将源文档进行映射成向量后,通过transformer模型中的编码器(encoder)和解码器(decoder)中的自注意力机制来计算源文档、目标文档的注意力相关系数,如式1所示:
[0030][0031]
其中,q、k、v分别为查询向量、键值向量、值向量,三者均由输入向量经过矩阵变化得到;dk是隐藏层向量维度;t表示转置。
[0032]
步骤1.3:编码器和解码器联合训练。
[0033]
讲编码器和解码器二者进行联合训练,使给定的源序列的目标序列的条件概率最大化,即:令式2最大化:
[0034][0035]
其中,l
θ
表示损失函数,n表示文档数量,p表示条件概率,x表示源文本序列,y表示目标文本序列,θ表示参数,t表示文本序列位置。
[0036]
步骤2:跨语言简讯生成。
[0037]
如图3所示。包括以下步骤:
[0038]
步骤2.1:解码器参数共享。
[0039]
设da为源文档,sa为单语言简讯,sb为跨语言简讯。为了模拟语言之间的交互,需要共享整个解码器来执行翻译和简讯生成任务。
[0040]
具体地,将原本的生成目标sa替换为sa和sb的顺序拼接。对于新生成的目标,解码器学会先生成sa,以sa和da为条件生成sb,然后最大化单语和跨语简讯生成的联合概率。
[0041]
步骤2.2:预训练-微调范式。
[0042]
由于关于跨语言科技简讯多为专家人工撰写,相关的训练数据集少之又少,如果直接进行训练,生成的简讯可能会不尽人意,因此,首先使用步骤1的模型在通用的数据集上进行相关任务的预训练,之后在特定的数据集上进行微调。
[0043]
步骤3:简讯知识获取模型结构。
[0044]
如图4所示。包括以下步骤:
[0045]
步骤3.1:文本向量表示。
[0046]
基于步骤1中的文本表示,使用词嵌入矩阵将源语言文档和目标语言简讯中的每个单词的one-hot来表示映射到高维向量空间中。
[0047]
然后,使用双向循环神经网络bi-rnn来模拟单词之间的相互作用,如式3、式4、式5所示:
[0048][0049][0050][0051]
其中,分别表示x、的bi-rnn中第t步的隐藏状态,rnn中第t步的隐藏状态,分别表示x、的bi-rnn中第t-1步的隐藏状态。e表示词嵌入矩阵。
[0052]
进一步地,选取长短期记忆单元(long short-term memory,lstm)作为bi-rnn的基本单元。
[0053]
步骤3.2:注意力机制attention计算。
[0054]
在步骤3.1中得到源文档和目标简讯的向量表示后,通过步骤1.2的注意力机制计算二者之间的相互作用。注意力机制计算为文档词所对应的简讯词赋予注意权重,在生成新的简讯的过程中,它会学习给高度相关的通用模式化词分配高权重。
[0055]
步骤3.3:隐状态加权求和。
[0056]
通过对隐状态的加权求和可以得到“简讯模式”,即简讯中的知识。
[0057]
步骤4:输出最终的科技简讯。
[0058]
将步骤3的模型结构与步骤1的模型结合。为本发明方法的总体架构图。使用步骤2的方法进行训练,最终得到目标语言的科技简讯。
[0059]
实施例1
[0060]
本发明提供了一种基于知识驱动的跨语言简讯生成方法,其具体实施方式如下:
[0061]
首先,在一个通用的跨语言简讯数据集上,使用transformer模型作为跨语言简讯生成的基础框架,进行预训练。该数据集包含了多种语言的科技文档和对应的简讯,如英文、中文、日文等。
[0062]
然后,在一个特定领域的跨语言科技简讯数据集上,对预训练好的模型进行微调。该数据集包含了某个领域(如人工智能)的科技文档和对应的简讯,以及不同语言之间的翻译关系。为了模拟语言之间的交互,共享整个解码器来执行翻译和简讯生成任务。具体来说,将原本的生成目标sa替换为sa和sb的顺序拼接。对于新生成的目标,解码器学会先生成sa,然后以sa和da为条件生成sb。
[0063]
最后,在给定一个源语言(如英文)的科技文档da时,使用微调好的模型生成目标语言(如中文)的科技简讯sb,并同时获取简讯中所包含的知识。具体来说,使用编码器将输入的源文档映射为一组连续表示序列z,并通过自注意力机制计算源文档、目标文档和解码器状态之间的注意力相关系数。然后使用解码器根据注意力相关系数逐步生成目标语言简讯,并通过双向循环神经网络(bi-rnn)将源文档和目标简讯中每个单词映射到高维向量空间中,并再次计算二者之间相互作用。通过对隐状态加权求和可以得到“简讯模式”,即简讯中所包含知识。
[0064]
实施例2:
[0065]
本发明提供了一种基于知识驱动的跨语言简讯生成方法,其具体实施方式如下:
[0066]
首先,在一个通用的跨语言简讯数据集上,使用transformer模型作为跨语言简讯生成的基础框架,进行预训练。该数据集包含了多种语言的科技文档和对应的简讯,如英文、中文、日文等。
[0067]
然后,在一个特定领域的跨语言科技简讯数据集上,对预训练好的模型进行微调。该数据集包含了某个领域(如人工智能)的科技文档和对应的简讯,以及不同语言之间的翻译关系。为了模拟语言之间的交互,共享整个解码器来执行翻译和简讯生成任务。具体来说,将原本的生成目标sa替换为sa和sb的顺序拼接。对于新生成的目标,解码器学会先生成sa,然后以sa和da为条件生成sb。
[0068]
最后,在给定一个源语言(如英文)的科技文档da时,使用微调好的模型生成目标语言(如中文)的科技简讯sb,并同时获取简讯中所包含的知识。具体来说,使用编码器将输入的源文档映射为一组连续表示序列z,并通过自注意力机制计算源文档、目标文档和解码器状态之间的注意力相关系数。然后使用解码器根据注意力相关系数逐步生成目标语言简讯,并通过双向循环神经网络(bi-rnn)将源文档和目标简讯中每个单词映射到高维向量空间中,并再次计算二者之间相互作用。通过对隐状态加权求和可以得到“简讯模式”,即简讯中所包含知识。
[0069]
与实施例1不同之处在于:在步骤3-2中,在计算attention时,不仅考虑源文档和
目标简讯之间相互作用,还考虑源文档内部以及目标简讯内部单词之间相互作用。这样可以更好地捕捉到源文档和目标简讯中单词之间复杂而多样化地依赖关系。
[0070]
本发明方法可以有效地利用知识驱动机制来提高跨语言科技简讯生成质量,并且可以在低资源情况下进行迁移学习。
[0071]
为了说明本发明的内容及实施方法,本说明书给出了一个具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围,而是帮助理解本发明所述方法。本领域的技术人员应理解:在不脱离本发明及其所附权利要求的精神和范围内,对最佳实施例步骤的各种修改、变化或替换都是可能的。因此,本发明不应局限于最佳实施例及附图所公开的内容。
技术特征:
1.一种基于知识驱动的跨语言简讯生成方法,其特征在于:首先,通过bi-rnn网络模拟单词之间的相互作用,采用原型文档和简讯之间的双向注意机制分析相互依赖关系,最终根据隐状态的加权求和,得到“简讯模式”,即知识;然后,基于多任务学习来共享解码器的参数,通过共享整个解码器来执行翻译和简讯生成任务;最后,将获取的知识融合在跨语言简讯生成模型的解码器中,让其参与到最终简讯生成的过程,使用预训练-微调范式,解决低资源的问题。2.如权利要求1所述的一种基于知识驱动的跨语言简讯生成方法,其特征在于,包括以下步骤:步骤1:基于transformer的跨语言简讯生成建模;给定一组跨语言简讯数据d,d=(x(i),y(i)),其中x和y都是一组文本序列,使用transformer模型作为跨语言简讯生成的基础框架;步骤2:低资源下的跨语言简讯生成,包括以下步骤:步骤2.1:解码器参数共享;设da为源文档,sa为单语言简讯,sb为跨语言简讯;为模拟语言之间的交互,需要共享整个解码器来执行翻译和简讯生成任务,将原本的生成目标sa替换为sa和sb的顺序拼接;对于新生成的目标,解码器学会先生成sa,以sa和da为条件生成sb,然后最大化单语和跨语简讯生成的联合概率;步骤2.2:预训练-微调范式;首先使用步骤1的模型在通用的数据集上进行相关任务的预训练,之后在特定的数据集上进行微调;步骤3:简讯知识获取模型结构,包括以下步骤:步骤3.1:文本向量表示;基于步骤1中的文本表示,使用词嵌入矩阵将源语言文档和目标语言简讯中的每个单词的one-hot来表示映射到高维向量空间中;然后,使用双向循环神经网络bi-rnn来模拟单词之间的相互作用,如下所示:rnn来模拟单词之间的相互作用,如下所示:rnn来模拟单词之间的相互作用,如下所示:其中,分别表示x、的bi-rnn中第t步的隐藏状态,rnn中第t步的隐藏状态,分别表示x、的bi-rnn中第t-1步的隐藏状态;e表示词嵌入矩阵;选取长短期记忆单元lstm作为bi-rnn的基本单元;步骤3.2:注意力机制attention计算;在步骤3.1中得到源文档和目标简讯的向量表示后,通过注意力机制计算二者之间的相互作用;步骤3.3:隐状态加权求和;
通过对隐状态的加权求和得到“简讯模式”,即简讯中的知识;步骤4:输出最终的科技简讯;将步骤3的模型结构与步骤1的模型相结合,使用步骤2的方法进行训练,最终得到目标语言的科技简讯。3.如权利要求2所述的一种基于知识驱动的跨语言简讯生成方法,其特征在于,步骤1包括以下步骤:步骤1.1:进行源文档编码映射;首先,编码器将输入的源文档x=(x1,x2,...,xn)映射为一组连续表示序列z=(z1,z2,...,zn),z的大小随着源序列的长度而发生变化;步骤1.2:多头注意力机制计算;将源文档进行映射成向量后,通过transformer模型中的编码器和解码器中的自注意力机制来计算源文档、目标文档的注意力相关系数,如式1所示:其中,q、k、v分别为查询向量、键值向量、值向量,三者均由输入向量经过矩阵变化得到;d
k
是隐藏层向量维度;t表示转置;步骤1.3:编码器和解码器联合训练;讲编码器和解码器二者进行联合训练,使给定的源序列的目标序列的条件概率最大化,即:令式2最大化:其中,l
θ
表示损失函数,n表示文档数量,p表示条件概率,x表示源文本序列,y表示目标文本序列,θ表示参数,t表示文本序列位置。
技术总结
本发明公开了一种基于知识驱动的跨语言简讯生成方法,属于自然语言处理技术领域。首先通过Bi-RNN网络模拟单词之间的相互作用,采用原型文档和简讯之间的双向注意机制分析相互依赖关系,最终根据隐状态的加权求和得到“简讯模式”。然后基于多任务学习来共享解码器的参数,通过共享整个解码器来执行翻译和简讯生成任务。最后将获取的知识融合在跨语言简讯生成模型的解码器中,让其参与到最终简讯生成的过程,使用预训练-微调范式,进一步解决低资源的问题。本方法能够生成更专业、更符合要求的科技简讯,解决了低资源的问题,即使在训练数据资源较少的情况下,也能跨语言生成较高质量的科技简讯。量的科技简讯。量的科技简讯。
技术研发人员:张华平 张恒瑀 李玉岗
受保护的技术使用者:北京理工大学
技术研发日:2023.03.14
技术公布日:2023/7/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:内嵌式鼻腔过滤器的制作方法 下一篇:一种超声水表及测量方法与流程