一种基于语义关键词的文本生成方法及系统与流程

未命名 10-21 阅读:76 评论:0


1.本发明涉及电子信息领域,具体而言,涉及一种基于语义关键词的文本生成方法及系统。


背景技术:

2.智能续写是自然语言生成技术(nlg)在文本创作场景下的一个具体应用。它是由语言模型,根据用户提供的起始文本,为用户批量生成从语言表达上符合人类书写方式,并且与起始文本存在内容逻辑相关性的语句或文段,自动帮助用户完成文章语句的撰写。随着大规模预训练语言模型的问世,智能续写在小说,剧本等创作场景都展示出了令人惊喜的表现,可以续写出很多用户意想不到的内容,帮助完成文本编辑的同时,也能给用户提供丰富的灵感。而续写意料之外的内容的另一面,是无法写出用户期望的内容,这使得在一些有明确信息点需要传递的场景下,如公文、合同、简历等写作场景,续写的表现往往不尽人意。
3.现有的文本生成方法一般是基于现有预训练语言模型的续写能力,生成的对应的文本。而现有的文本生成方法在生成内容上不可控,因此生成的信息与用户预期的信息内容存在一定差异,同时缺少对用户使用场景的理解,导致无法形成有效的落地应用,实用性较低。
4.鉴于上述技术,寻找一种实用性更高的基于语义关键词的文本生成方法是本领域技术人员亟待解决的问题。


技术实现要素:

5.本发明的目的在于提供一种基于语义关键词的文本生成方法及系统,其能够解决现有的文本生成方法在生成内容上不可控,因此生成的信息与用户预期的信息内容存在一定差异,同时缺少对用户使用场景的理解,导致无法形成有效的落地应用,实用性较低的问题。
6.本发明是这样实现的:
7.第一方面,本技术实施例提供一种基于语义关键词的文本生成方法,包括以下步骤:
8.调取文本信息并采用bert中文预训练模型对所述文本信息进行命名实体识别得到对应的实体信息;
9.判断所述实体信息的识别精度是否满足预设要求;
10.若是,则将所述文本信息的格式转化为所述实体信息以及语料,并基于所述实体信息采用t5模型对所述语料进行可控文本生成任务生成对应的文本;
11.若否,则对所述bert中文预训练模型进行调整并回到所述调取文本信息并采用bert中文预训练模型对所述文本信息进行命名实体识别得到对应的实体信息的步骤。
12.基于第一方面,所述bert中文预训练模型的训练方法包括如下步骤:
13.调取标注过实体信息的训练语料;
14.使用所述bert中文预训练模型对所述训练语料针对命名实体识别任务进行微调;
15.测试所述命名实体识别任务的任务精度,并判断所述任务精度是否满足预设标准;
16.若是,则结束训练生成对应的bert中文预训练模型;
17.若否,则回到所述调取标注过实体信息的训练语料的步骤。
18.基于第一方面,在所述结束训练生成对应的bert中文预训练模型之后,还包括:
19.建立数据集,并将所述训练语料以及所述训练语料生成的命名实体存储在所述数据集中,用于基于所述数据集进行对应的文本内容、应用场景的分类。
20.基于第一方面,所述基于所述实体信息采用t5模型对所述语料进行可控文本生成任务生成对应的文本包括:
21.采用t5模型调取对应的rfkl算法范式,基于所述rfkl算法范式构建对应的场景化的深度知识网络;
22.调取所述实体信息与所述深度知识网络中进行匹配,并基于匹配结果选择对应的应用场景,基于所述应用场景生成对应的文本。
23.基于第一方面,在所述将所述文本信息的格式转化为所述实体信息以及语料,并将采用t5模型对所述语料进行可控文本生成任务生成对应的文本包括:
24.获取生成的所述文本,并联系上文评估所述文本的可用性;
25.若所述文本的可用性未满足预设要求,则对所述t5模型以及所述bert中文预训练模型进行调整,并回到所述调取文本信息并采用bert中文预训练模型对所述文本信息进行命名实体识别得到对应的实体信息的步骤。
26.第二方面,本技术还提供一种基于语义关键词的文本生成系统,包括:
27.命名实体识别模块,用于调取文本信息并采用bert中文预训练模型对所述文本信息进行命名实体识别得到对应的实体信息;
28.判断模块,用于判断所述实体信息的识别精度是否满足预设要求,若是,开启文本生成模块,若否,开启调整模块;
29.文本生成模块,用于将所述文本信息的格式转化为所述实体信息以及语料,并将采用t5模型对所述语料进行可控文本生成任务生成对应的文本;
30.调整模块,用于对所述bert中文预训练模型进行调整并开启命名实体识别模块。
31.第三方面,本技术提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器;当上述一个或多个程序被上述处理器执行时,实现如上述第一方面中任一项上述的方法。
32.第四方面,本技术提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项上述的方法。
33.相对于现有技术,本发明至少具有如下优点或有益效果:
34.本发明提出了一种基于语义关键词的文本生成方法,通过调取文本信息并采用bert中文预训练模型对文本信息进行命名实体识别得到对应的实体信息,将满足预设要求的文本信息的格式转化为实体信息以及语料,并基于实体信息采用t5模型对语料进行可控文本生成任务生成对应的文本,本技术通过引入了bert中文预训练模型和t5模型,不仅仅
可以对于文本信息进行命名实体识别,从而挖掘对应的应用场景,还可以基于对应的实体信息通过t5模型进行对应的可控文本生成,从而不仅仅单纯依据文本信息进行下文的生成,同时还基于实体信息判断应用场景,进而推理出与之关联性高的其他知识,在此基础上,进行逻辑上合理,表达上通顺的续写内容生成,解决了目前市面上续写引擎生成内容难以适用的问题,进一步提高了续写方案的实用性。
35.本发明还提供一种基于语义关键词的文本生成系统,电子设备以及计算机可读存储介质,由于上述的一种基于语义关键词的文本生成系统,电子设备以及计算机可读存储介质与上述的基于语义关键词的文本生成方法对应,因此有益效果同上。
附图说明
36.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
37.图1为本技术实施例提供的一种基于语义关键词的文本生成方法的流程图;
38.图2为本技术提供的一种bert中文预训练模型的训练方法的流程图;
39.图3为本技术实施例提供的一种基于语义关键词的文本生成系统的结构图;
40.图4为本技术实施例提供的一种电子设备的结构框图。
41.图标:1、命名实体识别模块;2、判断模块;3、文本生成模块;4、调整模块;101、存储器;102、处理器;103、通信接口。
具体实施方式
42.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
43.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
44.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
45.实施例
46.图1为本技术实施例提供的一种基于语义关键词的文本生成方法的流程图,如图1所示,该一种基于语义关键词的文本生成方法包括以下步骤:
47.s10:调取文本信息并采用bert中文预训练模型对文本信息进行命名实体识别得到对应的实体信息;
48.需要说明的是,在本实施例中对于具体的文本信息的内容以及bert中文预训练模型的训练方法以及过程不进行限定,可以理解的是,bert是在自然语言处理研究中较为成
熟且先进的技术。bert通过所有transformer层左右上下文共同调节,来预训练深度双向表示。bert主要包括两个预训练任务:mask语言模型和下一句预测,因此可以直接基于mask语言模型进行对应的文本信息的命名实体识别,可以理解的是命名实体识别即指代输入一个语句,它可以给每个词标注该词代表的实体,如:人物、地名等。而针对于bert的下一句预测功能,可以用于在后续基于对应的语料进行辅助对应的文本生成。
49.s11:判断实体信息的识别精度是否满足预设要求,若是,进入步骤s12,若否,进入步骤s13;
50.需要说明的是,这里的识别精度可以是基于对应的实体信息与具体的文本信息的符合程度,仅仅需要对于文本的应用场景进行匹配检测即可,在本实施例中过对于具体的预设要求不进行限定。
51.s12:将文本信息的格式转化为实体信息以及语料,并基于实体信息采用t5模型对语料进行可控文本生成任务生成对应的文本;
52.需要说明的是,t5模型是用于过在一系列提升(规模和语料),t5在一系列摘要生成、问答、文本分类等任务中取得了sota的效果,在本实施例中对于具体的文本生成方式不进行具体限定。
53.s13:对bert中文预训练模型进行调整,并回到步骤s10。
54.需要说明的是,在本实施例中对于具体的调整方式不进行限定,可以理解的是,针对于模型进行调整则是
55.本实施例提出了一种基于语义关键词的文本生成方法,通过调取文本信息并采用bert中文预训练模型对文本信息进行命名实体识别得到对应的实体信息,将满足预设要求的文本信息的格式转化为实体信息以及语料,并基于实体信息采用t5模型对语料进行可控文本生成任务生成对应的文本,本技术通过引入了bert中文预训练模型和t5模型,不仅仅可以对于文本信息进行命名实体识别,从而挖掘对应的应用场景,还可以基于对应的实体信息通过t5模型进行对应的可控文本生成,从而不仅仅单纯依据文本信息进行下文的生成,同时还基于实体信息判断应用场景,进而推理出与之关联性高的其他知识,在此基础上,进行逻辑上合理,表达上通顺的续写内容生成,解决了目前市面上续写引擎生成内容难以适用的问题,进一步提高了续写方案的实用性。
56.上述实施例中对于bert中文预训练模型的训练方式未进行限定,示例性地,在本技术的一些实施例中,图2为本技术提供的一种bert中文预训练模型的训练方法的流程图,如图2所示,该方法包括如下步骤:
57.s20:调取标注过实体信息的训练语料;
58.s21:使用bert中文预训练模型对训练语料针对命名实体识别任务进行微调;
59.s22:测试命名实体识别任务的任务精度,并判断任务精度是否满足预设标准,若是,进入s23,若否,进入s20;
60.s23:结束训练生成对应的bert中文预训练模型。
61.在本技术中提供了具体的bert中文预训练模型的训练方式,同时依据具体的训练方法,不仅仅可以在使用bert中文预训练模型之前进行训练,在上述实施例中需要对bert中文预训练模型进行调整的情况下,也可以采用上述方法对对应的bert中文预训练模型进行再次训练以调整其命名实体识别任务的精度,进一步提高了方案的完整性。
62.考虑到为了便于对后续的应用场景以及文本内容进行分类,示例性地,在本技术的一些实施例中,在结束训练生成对应的bert中文预训练模型之后,还包括:
63.建立数据集,并将训练语料以及训练语料生成的命名实体存储在数据集中,用于基于数据集进行对应的文本内容、应用场景的分类。
64.需要说明的是本实施例中的上述步骤在每一次bert中文预训练模型进行训练时都会记录下对应的训练语料以及训练语料生成的命名实体,并以此为基础增强对应的分类效果,增强了训练语料的应用率,进一步加强了分类以及场景的判断标准。
65.上述实施例中对于具体的t5模型的可控文本生成任务未进行限定,示例性地,在本技术的一些实施例中,基于实体信息采用t5模型对语料进行可控文本生成任务生成对应的文本包括:
66.采用t5模型调取对应的rfkl算法范式,基于rfkl算法范式构建对应的场景化的深度知识网络;
67.调取实体信息与深度知识网络中进行匹配,并基于匹配结果选择对应的应用场景,基于应用场景生成对应的文本。
68.需要说明的是,rfkl范式是知识+语言模型的算法范式,可通过知识的方式一定程度控制文本的内容的生成。将rfkl范式应用到具体场景下,通过构建海量的场景化的深度知识网络,通过识别被续写文本中的知识,进而推理出与之关联性高的其他知识,在此基础解决了目前市面上续写引擎生成内容难以适用的问题上,进行逻辑上合理,表达上通顺的续写内容生成
69.考虑到具体的文本可用性,示例性地,在本技术的一些实施例中,在将文本信息的格式转化为实体信息以及语料,并将采用t5模型对语料进行可控文本生成任务生成对应的文本包括:
70.获取生成的文本,并联系上文评估文本的可用性;
71.若文本的可用性未满足预设要求,则对t5模型以及bert中文预训练模型进行调整,并回到调取文本信息并采用bert中文预训练模型对文本信息进行命名实体识别得到对应的实体信息的步骤。
72.需要说明的是,通过上述的训练方式进行调整,并且重新对文本信息进行实体信息采集以及后续可控文本的生成,进一步提高了生成的文本的可用性。
73.基于同样的发明构思,请参阅图3,图3为本技术实施例提供的一种基于语义关键词的文本生成系统的结构图,本发明还提供一种基于语义关键词的文本生成系统,包括:
74.命名实体识别模块1,用于调取文本信息并采用bert中文预训练模型对所述文本信息进行命名实体识别得到对应的实体信息;
75.判断模块2,用于判断所述实体信息的识别精度是否满足预设要求,若是,开启文本生成模块3,若否,开启调整模块4;
76.文本生成模块3,用于将所述文本信息的格式转化为所述实体信息以及语料,并将采用t5模型对所述语料进行可控文本生成任务生成对应的文本;
77.调整模块4,用于对所述bert中文预训练模型进行调整并开启命名实体识别模块1。
78.上述系统具体实现过程以及对应有益效果请参照本技术实施例提供的一种基于
语义关键词的文本生成方法,在此不再赘述。
79.请参阅图4,图4为本技术实施例提供的一种电子设备的结构框图。该电子设备包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,如本技术实施例所提供的一种基于语义关键词的文本生成系统对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
80.其中,存储器101可以是但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。
81.处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
82.可以理解,图4所示的结构仅为示意,电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
83.最后,本技术还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
84.可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
85.综上所述,本技术实施例提供的一种电子设备以及计算机可读存储介质,具体的实施例以及对应的有益效果见上述的方法部分,在此不进行赘述。
86.以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
87.对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其它的具体形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权
利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

技术特征:
1.一种基于语义关键词的文本生成方法,其特征在于,包括如下步骤:调取文本信息并采用bert中文预训练模型对所述文本信息进行命名实体识别得到对应的实体信息;判断所述实体信息的识别精度是否满足预设要求;若是,则将所述文本信息的格式转化为所述实体信息以及语料,并基于所述实体信息采用t5模型对所述语料进行可控文本生成任务生成对应的文本;若否,则对所述bert中文预训练模型进行调整并回到所述调取文本信息并采用bert中文预训练模型对所述文本信息进行命名实体识别得到对应的实体信息的步骤。2.如权利要求1所述的一种基于语义关键词的文本生成方法,其特征在于,所述bert中文预训练模型的训练方法包括如下步骤:调取标注过实体信息的训练语料;使用所述bert中文预训练模型对所述训练语料针对命名实体识别任务进行微调;测试所述命名实体识别任务的任务精度,并判断所述任务精度是否满足预设标准;若是,则结束训练生成对应的bert中文预训练模型;若否,则回到所述调取标注过实体信息的训练语料的步骤。3.如权利要求2所述的一种基于语义关键词的文本生成方法,其特征在于,在所述结束训练生成对应的bert中文预训练模型之后,还包括:建立数据集,并将所述训练语料以及所述训练语料生成的命名实体存储在所述数据集中,用于基于所述数据集进行对应的文本内容、应用场景的分类。4.如权利要求1所述的一种基于语义关键词的文本生成方法,其特征在于,所述基于所述实体信息采用t5模型对所述语料进行可控文本生成任务生成对应的文本包括:采用t5模型调取对应的rfkl算法范式,基于所述rfkl算法范式构建对应的场景化的深度知识网络;调取所述实体信息与所述深度知识网络中进行匹配,并基于匹配结果选择对应的应用场景,基于所述应用场景生成对应的文本。5.如权利要求1至4任意一项所述的一种基于语义关键词的文本生成方法,其特征在于,在所述将所述文本信息的格式转化为所述实体信息以及语料,并将采用t5模型对所述语料进行可控文本生成任务生成对应的文本包括:获取生成的所述文本,并联系上文评估所述文本的可用性;若所述文本的可用性未满足预设要求,则对所述t5模型以及所述bert中文预训练模型进行调整,并回到所述调取文本信息并采用bert中文预训练模型对所述文本信息进行命名实体识别得到对应的实体信息的步骤。6.一种基于语义关键词的文本生成系统,其特征在于,包括:命名实体识别模块,用于调取文本信息并采用bert中文预训练模型对所述文本信息进行命名实体识别得到对应的实体信息;判断模块,用于判断所述实体信息的识别精度是否满足预设要求,若是,开启文本生成模块,若否,开启调整模块;文本生成模块,用于将所述文本信息的格式转化为所述实体信息以及语料,并将采用t5模型对所述语料进行可控文本生成任务生成对应的文本;
调整模块,用于对所述bert中文预训练模型进行调整并开启命名实体识别模块。7.一种电子设备,其特征在于,包括:存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现如权利要求1-5中任一项所述的方法。8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。

技术总结
本发明提出了一种基于语义关键词的文本生成方法及系统,涉及电子信息领域。本申请提出的方法,通过调取文本信息并采用BERT中文预训练模型对文本信息进行命名实体识别得到对应的实体信息,将满足预设要求的文本信息的格式转化为实体信息以及语料,并基于实体信息采用T5模型对语料进行可控文本生成任务生成对应的文本,不仅仅单纯依据文本信息进行下文的生成,同时还基于实体信息判断应用场景,进而推理出与之关联性高的其他知识,在此基础上,进行逻辑上合理,表达上通顺的续写内容生成,解决了目前市面上续写引擎生成内容难以适用的问题,进一步提高了续写方案的实用性。进一步提高了续写方案的实用性。进一步提高了续写方案的实用性。


技术研发人员:周泽安
受保护的技术使用者:珠海必优科技有限公司
技术研发日:2023.07.19
技术公布日:2023/10/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐