一种基于大语言模型的表单生成方法及系统与流程

未命名 10-26 阅读:130 评论:0


1.本发明属于数据处理技术领域,具体涉及一种基于大语言模型的表单生成方法及系统。


背景技术:

2.基于用户输入内容快速生成总结性的表单可以提高文本工作的工作效率以及审阅人员的审阅效率。表单包含一个标准文档所必须的各个组成部分,如报告文档则包含有标题、报告的章节、报告主要内容、听取报告的对象和时间日期等。通过这样一个模板,可以快速地做出一份符合标准的表单,当前的表单模板主要由人工制作,这就意味着对于每一份需要生成的文本,都需要人工查阅文档、逐个确定文本的组成部分,然后才能制作出适当的表单模板,尤其是对于大量没有预先定义的表单模板的文档,对于现有很多没有表单模板的文档,这种方法效率低下且耗时,人工投入量巨大。


技术实现要素:

3.为了解决现有技术存在的表单生成主要由人工制作,效率低,耗时长的技术问题,本发明提供一种基于大语言模型的表单生成方法及系统。
4.第一方面本发明提供了一种基于大语言模型的表单生成方法,包括:s101:接收用户的输入数据;s102:基于领域知识图谱,确定输入数据的领域本体,其中,领域知识图谱包括wordnet,dbpedia或者yago;s103:在输入数据的领域本体范围内,以归类时长小于预设时长,类别特征相似度最小为第一约束条件,计算输入数据的一次归类特征;s104:基于一次归类特征对应的特征向量,确定归类参数,并基于归类参数调整特征向量,其中,特征向量为一次归类特征对应的二进制数值;s105:采用两点交叉算法,调整归类参数,以归类资源消耗最小为第二约束条件对归类特征进行二次归类,得到二次归类特征,并根据二次归类特征对输入数据进行归类,得到多类子输入数据;s106:利用大语言模型对各类子输入数据进行语义识别,并计算语义识别后的语义相似度;s107:在语义相似度小于预设相似度的情况下,进入s108,否则,返回s105;s108:利用大语言模型生成各类子输入数据的语义概括词;s109:对语义概括词以及语义概括词对应的子输入数据进行组合生成展示表单;其中,s103具体包括:s1031:计算归类时长:
5.其中,l表示归类时长,m表示输入数据的段落数量,表示第α段归类所需时长,表示第α段的接收端信噪比;s1032:计算类别特征相似度:
6.其中,s表示类别特征相似度,表示第β个类别特征,a表示归类空间平滑系数,f表示归类空间摩擦系数;s1033:将归类时长大于预设时长以及类别特征相似度大于预设相似度的类别特征进行融合,得到一次归类特征;s104具体包括:s1041:对一次归类特征进行最大后验假定:
7.其中,n表示最大后验假设计算得到的最大后验假定,表示类别c的先验概率,表示观测数据x的概率,n表示一次归类特征的数量,表示在类别c下观测数据x的出现条件概率,minl表示以归类时长最小所代表的损失函数;s1042:结合最大后验假定,计算归类参数:
8.其中,d表示特征向量a的目标函数,n表示一次归类特征的数量,η表示归类参数,v表示特征向量的辅助向量,即特征向量的辅助参数,表示在给定辅助向量的邻居对象条件下辅助向量的出现概率;s105具体包括:s1051:以归类资源消耗最小为第二约束条件对归类特征进行二次归类:
9.其中,e表示归类资源消耗,表示二次归类特征,表示得到第γ类二次归类特征的计算率,y表示归类过程中的周期资源消耗量,w表示概率权重,表示第γ类二次归类特征的先验概率,表示得到第γ类二次归类特征的接收端信噪比;s1052:根据二次归类特征对输入数据进行归类,得到多类子输入数据。
10.第二方面本发明提供了一种基于大语言模型的表单生成系统,用于执行第一方面中的基于大语言模型的表单生成方法。
11.与现有技术相比,本发明至少具有以下有益技术效果:在本发明中,通过领域知识图谱预先确定输入数据的领域本体,缩小大语言模型的计算范围,在降低表单生成时长的同时,提升表单生成的准确性。另外,在整个表单生成的过程中通过结合归类时长和类别特征相似度对输入数据进行了多次归类,在保证归类效率和归类可行性的同时,提升输入数据的归类准确性,进一步提升生成表单的准确性。在多次分类后,充分利用现有大语言模型的语义解析能力,对分类后的多个子输入数据进行语义解析,并计算解析后的语义相似度,只有语义相似度小于一定程度后才进行表单的语义概括词的生成,否则就调整归类参数重新分类,提升分类结果的高区别性,提升最终生成表单的区别性。自动化的进行表单生成,极大地提高文本工作效率和质量,使文本处理过程更加高效、精确,减轻了人工处理的负担。
附图说明
12.下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
13.图1是本发明提供的一种基于大语言模型的表单生成方法的流程示意图。
具体实施方式
14.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
15.为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
16.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
17.在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
18.另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
19.在一个实施例中,参考说明书附图1,示出了本发明提供的基于大语言模型的表单生成方法的流程示意图。
20.本发明提供的一种基于大语言模型的表单生成方法,包括:
s101:接收用户的输入数据。
21.其中,输入数据可以是自然语言处理中常见的文本数据、数值数据或者其他结构化数据,具体可以是句子、段落、文档等,之后进行文本分类、特征提取、语义相似度计算等,生成最终的表单。
22.s102:基于领域知识图谱,确定输入数据的领域本体。
23.其中,领域知识图谱包括wordnet,dbpedia或者yago。
24.需要说明的是,基于领域知识图谱来确定输入数据的领域本体,这意味着要根据提供的输入数据,通过查询领域知识图谱来找到与输入数据相关的领域信息,这有助于后续的数据处理和分析,以便将输入数据与领域相关的信息进行关联,缩小语义分析的分析范围,提高分析准确性和分析效率。
25.s103:在输入数据的领域本体范围内,以归类时长小于预设时长,类别特征相似度最小为第一约束条件,计算输入数据的一次归类特征。
26.需要说明的是,本领域技术人员可以根据实际需要设置预设时长的大小,本发明在此不做限定。
27.在一种可能的实施方式中,s103具体包括:s1031:计算归类时长:
28.其中,l表示归类时长,m表示输入数据的段落数量,表示第α段归类所需时长,表示第α段的接收端信噪比;s1032:计算类别特征相似度:
29.其中,s表示类别特征相似度,表示第β个类别特征,a表示归类空间平滑系数,f表示归类空间摩擦系数;s1033:将归类时长大于预设时长以及类别特征相似度大于预设相似度的类别特征进行融合,得到一次归类特征。
30.需要说明的是,本领域技术人员可以根据实际需要设置预设相似度的大小,本发明在此不做限定。
31.需要说明的是,确定对输入数据进行归类所需的时间,计算涉及总时长 ,输入数据的段落数量 ,第 i 段归类所需时长,以及第 i 段的接收端信噪比,这个计算有助于了解整体的归类时间,可以根据不同段落的属性和信噪比来确定每个部分的处理时间。系统计算不同类别特征之间的相似度,可以理解为计算不同特征之间的关联程度,类别特征相似度需要综合考虑不同的因素,如归类空间平滑系数和归类空间摩擦系数,以建立特征之间的相似性度量。最后将满足两个条件的类别特征进行融合,归类时长小于预设时长,并且类别特征相似度最小,换句话说,系统会选择在短时间内能够表现出高相似性的类别特征进行融合,这有助于在有限时间内得到有意义的结果。通过计算归类时长,系统可以预测整
个处理过程所需的时间,有助于时间资源的合理分配,同时,选取类别特征相似度最小的特征,可以减少处理的复杂度,提升效率。类别特征相似度的计算有助于挑选那些在语义上更相似的特征,这可以增强归类的精度,融合只考虑高相似性的类别特征,可以避免混淆和干扰。在预设的时长内完成归类有助于资源管理,通过限制归类时间,系统可以在有效时间内产生有用的结果,避免无限的计算,从而优化资源使用。
32.s104:基于一次归类特征对应的特征向量,确定归类参数,并基于归类参数调整特征向量。
33.其中,特征向量为一次归类特征对应的二进制数值。
34.在一种可能的实施方式中,s104具体包括:s1041:对一次归类特征进行最大后验假定:
35.其中,n表示最大后验假设计算得到的最大后验假定,表示类别c的先验概率,表示观测数据x的概率,n表示一次归类特征的数量,表示在类别c下观测数据x的出现条件概率,minl表示以归类时长最小所代表的损失函数;s1042:结合最大后验假定,计算归类参数:
36.其中,d表示特征向量a的目标函数,n表示一次归类特征的数量,η表示归类参数,v表示特征向量的辅助向量,即特征向量的辅助参数,表示在给定辅助向量的邻居对象条件下辅助向量的出现概率。
37.需要说明的是,通过考虑一次归类特征,根据贝叶斯统计方法进行推断,具体来说,系统考虑了每个类别的先验概率,以及在给定一次归类特征的情况下,观测数据出现的概率,这些信息有助于在推断过程中综合考虑类别的概率和数据的分布情况。系统综合考虑了最大后验假设,并根据目标函数 d 来计算归类参数,这个目标函数可能是一个关于归类参数的数学函数,其目的是使得归类后的特征向量与数据的观测情况尽可能匹配,这样的计算可以帮助调整归类参数,从而更好地捕捉数据的特征。通过基于最大后验假设对归类特征进行推断,系统可以更准确地表征不同类别和特征之间的关系,这有助于生成更具信息丰富性的特征向量。调整归类参数有助于将一次归类特征与特定数据集的属性相匹配,这意味着系统可以根据数据的不同特点进行个性化的处理,从而提高处理的效率和准确性。通过考虑最大后验假设和目标函数,系统综合了先验知识和观测数据,从而在归类过程中综合利用了多种信息,提高了归类的综合性能。
38.s105:采用两点交叉算法,调整归类参数,以归类资源消耗最小为第二约束条件对归类特征进行二次归类,得到二次归类特征,并根据二次归类特征对输入数据进行归类,得到多类子输入数据。
39.在一种可能的实施方式中,s105具体包括:s1051:以归类资源消耗最小为第二约束条件对归类特征进行二次归类:
40.其中,e表示归类资源消耗,表示二次归类特征,表示得到第γ类二次归类特征的计算率,y表示归类过程中的周期资源消耗量,w表示概率权重,表示第γ类二次归类特征的先验概率,表示得到第γ类二次归类特征的接收端信噪比;s1052:根据二次归类特征对输入数据进行归类,得到多类子输入数据。
41.需要说明的是,系统使用了两点交叉算法,这是一种优化算法,旨在通过迭代的方式寻找更优的解,系统的目标是最小化归类的资源消耗,这个资源消耗可以包括计算率、周期资源消耗量等,通过调整归类特征,系统尝试找到一组参数,以便在不牺牲资源消耗的情况下,获得更好的归类结果,避免一次分类过程出现的分类区别性低的问题。在获得了经过优化的二次归类特征之后,系统使用这些特征对输入数据进行再次归类,这将导致输入数据被分成多个类别或子集,每个子集代表了相似的特征或属性。通过使用优化算法进行二次归类,系统可以在不增加资源消耗的情况下,获得更高质量的归类结果,这可以提高归类的准确性和实用性。通过以最小的资源消耗为约束条件,系统在进行归类优化时考虑了资源的有效利用,这有助于避免资源浪费,并确保系统在高效处理数据的同时,节省资源。通过多次归类,系统可以将输入数据进一步细分为多个子集,这有助于更深入地了解数据的特征和属性,从而进行更详细的分析和处理。
42.在一种可能的实施方式中,在s105之后还包括:s105a:按照从上至下的存储执行规则,采用 mat 数据结构对二次归类特征进行存储。
43.需要说明的是,采用 mat 数据结构的方式对试卷文档归类特征进行存储,存储具体规则按照从上到下执行,通过将试卷文档归类结果以一串地址连续数据的方式进行指针操作,从根本上避免了传统试卷文档归类数据存储中繁琐的寻址过程,通过直接访问试卷文档归类结果,减少每一次寻找节点内存的寻址时间,进而提升在归类和表单生成过程中的效率,避免计算存储速度不一致导致的频繁卡机问题,优化表单生成过程。
44.s106:利用大语言模型对各类子输入数据进行语义识别,并计算语义识别后的语义相似度。
45.在一种可能的实施方式中,大语言模型包括:bert模型、gpt模型、xlnet模型、roberta模型或者t5模型,s106具体为:s1061:通过余弦相似度计算公式计算语义识别后的语义相似度。
46.需要说明的是,系统使用先进的大型语言模型,例如bert、gpt、xlnet、roberta或t5等,对不同类别的子输入数据进行语义识别,理解每个子输入数据的含义和上下文,以获得更深入的语义信息。为了衡量子输入数据之间的语义相似性,系统使用了余弦相似度计算公式,这个公式通过比较两个向量之间的角度来量化它们之间的相似性,每个子输入数据可能会被表示为向量,而相似度的计算将有助于了解不同子输入数据之间的语义关联程度。利用大型语言模型进行语义识别,可以更准确地捕捉文本数据的语义含义,这相对于传统的基于规则或关键词的方法更具准确性。大型语言模型能够考虑文本的上下文信息,从
而更好地理解文本的含义,这有助于识别意思相近但表述不同的文本,从而得到更准确的语义相似度。使用不同的大型语言模型可以适应不同的文本类型和任务,这种灵活性使得系统在不同领域和任务中都能有效地进行语义识别和相似度计算。得到准确的语义相似度信息后,后续的处理和分析步骤可以更有针对性地进行,从而进一步提高系统的性能。
47.s107:在语义相似度小于预设相似度的情况下,进入s108,否则,返回s105。
48.需要说明的是,通过设定预设相似度阈值,系统可以避免在语义相似度较低的情况下继续处理,从而节省资源和时间,提高处理效率。只有当语义相似度达到一定阈值时,才会继续处理,这有助于确保系统处理的是更具有意义的数据,从而优化最终的处理结果。预设相似度阈值可以根据具体应用的需求进行调整,使系统在不同情况下能够灵活地决定是否继续进行处理。本领域技术人员可以根据实际需要设置预设相似度阈值的大小,本发明在此不做限定。
49.s108:利用大语言模型生成各类子输入数据的语义概括词。
50.在一种可能的实施方式中,s108具体包括:s1081:计算各子输入数据中出现次数大于预设次数的高频词出现概率值:
51.其中,ri表示包含高频词i的相关句子数量, ni表示包含高频词i的句子数量, m表示子输入数据中所有句子的数量,r表示和高频词相关的预置概括词数量,fi表示高频词i在子输入数据中的出现频率,表示高频词i在预置概括词中的出现频率,k1,k2和k表示经验设定参数;s1082:将出现概率最大的预置概括词作为语义概括词。
52.需要说明的是,系统将从上述计算得到的高频词中,选择具有最大出现概率值的预置概括词作为每个子输入数据的语义概括词,这些概括词代表了文本中重要的关键词汇,可以代表子输入数据的主要语义内容。通过计算高频词的概率值并选择出现概率最大的预置概括词,系统可以更准确地提炼出子输入数据的主要语义内容,从而更好地概括数据。语义概括词是对子输入数据的简洁概述,能够更方便地呈现数据的主要信息,减少冗余和噪声。语义概括词有助于人们更快速地理解子输入数据的主要内容,从而提高数据的可读性和理解性。
53.s109:对语义概括词以及语义概括词对应的子输入数据进行组合生成展示表单。
54.在一种可能的实施方式中,s109具体包括:s1091:根据语义概括词以及语义概括词对应的子输入数据的数量,定义展示表单的表单结构;s1092:将语义概括词以及语义概括词对应的子输入数据填充至展示表单。
55.需要说明的是,在表单的生成过程中,系统会根据语义概括词以及其对应的子输入数据的数量,定义生成展示表单的结构,这个表单结构可以包括标题、副标题、数据字段、图表等元素,具体的结构和排列方式根据应用场景和需求来设计。系统将语义概括词和其对应的子输入数据填充至之前定义的展示表单结构中。具体的填充方式可能包括将语义概括词放置在表单的标题或副标题位置,将子输入数据的详细信息填充到数据字段中。生成
展示表单可以将复杂的语义概括和数据信息整合成易于理解的形式,提供一个全面的视图,如果使用图表等可视化元素,可以更直观地呈现数据,增强用户对数据的理解。用户可以通过表单快速获取主要信息,节省研究和分析数据的时间。展示表单能够帮助用户从数据中提取洞察和趋势,支持决策和进一步研究。
56.在一种可能的实施方式中,在s109之后还包括:s110:将展示表单发送至前端进行渲染,并将渲染后的展示表单进行展示。
57.需要说明的是,前端收到来自系统的展示表单数据后,会根据数据中的结构和内容进行渲染,渲染是指将数据转化为用户可见的图形化或文本化展示形式,使用户能够在界面上直观地看到展示表单的内容,这可能包括设置适当的布局、样式、字体、颜色等,以确保展示表单在界面上以易于阅读和理解的方式呈现出来,用户可以通过交互式操作(如滚动、点击等)与展示表单进行互动,以便深入了解数据和语义信息。
58.与现有技术相比,本发明至少具有以下有益技术效果:在本发明中,通过领域知识图谱预先确定输入数据的领域本体,缩小大语言模型的计算范围,在降低表单生成时长的同时,提升表单生成的准确性。另外,在整个表单生成的过程中通过结合归类时长和类别特征相似度对输入数据进行了多次归类,在保证归类效率和归类可行性的同时,提升输入数据的归类准确性,进一步提升生成表单的准确性。在多次分类后,充分利用现有大语言模型的语义解析能力,对分类后的多个子输入数据进行语义解析,并计算解析后的语义相似度,只有语义相似度小于一定程度后才进行表单的语义概括词的生成,否则就调整归类参数重新分类,提升分类结果的高区别性,提升最终生成表单的区别性。自动化的进行表单生成,极大地提高文本工作效率和质量,使文本处理过程更加高效、精确,减轻了人工处理的负担。
实施例2
59.在一个实施例中,本发明提供的一种基于大语言模型的表单生成系统,用于执行实施例1中的基于大语言模型的表单生成方法。
60.本发明提供的一种基于大语言模型的表单生成系统可以实现上述实施例1中的基于大语言模型的表单生成方法的步骤和效果,为避免重复,本发明不再赘述。
61.与现有技术相比,本发明至少具有以下有益技术效果:在本发明中,通过领域知识图谱预先确定输入数据的领域本体,缩小大语言模型的计算范围,在降低表单生成时长的同时,提升表单生成的准确性。另外,在整个表单生成的过程中通过结合归类时长和类别特征相似度对输入数据进行了多次归类,在保证归类效率和归类可行性的同时,提升输入数据的归类准确性,进一步提升生成表单的准确性。在多次分类后,充分利用现有大语言模型的语义解析能力,对分类后的多个子输入数据进行语义解析,并计算解析后的语义相似度,只有语义相似度小于一定程度后才进行表单的语义概括词的生成,否则就调整归类参数重新分类,提升分类结果的高区别性,提升最终生成表单的区别性。自动化的进行表单生成,极大地提高文本工作效率和质量,使文本处理过程更加高效、精确,减轻了人工处理的负担。
62.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛
盾,都应当认为是本说明书记载的范围。
63.以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

技术特征:
1.一种基于大语言模型的表单生成方法,其特征在于,包括:s101:接收用户的输入数据;s102:基于领域知识图谱,确定所述输入数据的领域本体,其中,所述领域知识图谱包括wordnet,dbpedia或者yago;s103:在所述输入数据的领域本体范围内,以归类时长小于预设时长,类别特征相似度最小为第一约束条件,计算所述输入数据的一次归类特征;s104:基于所述一次归类特征对应的特征向量,确定归类参数,并基于所述归类参数调整所述特征向量,其中,所述特征向量为所述一次归类特征对应的二进制数值;s105:采用两点交叉算法,调整所述归类参数,以归类资源消耗最小为第二约束条件对归类特征进行二次归类,得到二次归类特征,并根据所述二次归类特征对所述输入数据进行归类,得到多类子输入数据;s106:利用所述大语言模型对各类所述子输入数据进行语义识别,并计算语义识别后的语义相似度;s107:在所述语义相似度小于预设相似度的情况下,进入s108,否则,返回s105;s108:利用所述大语言模型生成各类所述子输入数据的语义概括词;s109:对所述语义概括词以及所述语义概括词对应的子输入数据进行组合生成展示表单;其中,所述s103具体包括:s1031:计算所述归类时长:;其中,l表示所述归类时长,m表示所述输入数据的段落数量,表示第α段归类所需时长,表示第α段的接收端信噪比;s1032:计算所述类别特征相似度:;其中,s表示所述类别特征相似度,表示第β个类别特征,a表示归类空间平滑系数,f表示归类空间摩擦系数;s1033:将所述归类时长大于所述预设时长以及所述类别特征相似度大于预设相似度的类别特征进行融合,得到所述一次归类特征;所述s104具体包括:s1041:对所述一次归类特征进行最大后验假定:;其中,n表示最大后验假设计算得到的最大后验假定,表示类别c的先验概率,表示观测数据x的概率,n表示所述一次归类特征的数量,表示在类别c下所述观测数据x的出现条件概率,minl表示以所述归类时长最小所代表的损失函数;s1042:结合所述最大后验假定,计算所述归类参数:
;其中,d表示所述特征向量a的目标函数,n表示所述一次归类特征的数量,η表示所述归类参数,v表示所述特征向量的辅助向量,即所述特征向量的辅助参数,表示在给定所述辅助向量的邻居对象条件下所述辅助向量的出现概率;所述s105具体包括:s1051:以归类资源消耗最小为第二约束条件对归类特征进行二次归类:;其中,e表示所述归类资源消耗,表示所述二次归类特征,表示得到第γ类所述二次归类特征的计算率,y表示归类过程中的周期资源消耗量,w表示概率权重,表示第γ类所述二次归类特征的先验概率,表示得到第γ类所述二次归类特征的接收端信噪比;s1052:根据所述二次归类特征对所述输入数据进行归类,得到多类子输入数据。2.根据权利要求1所述的基于大语言模型的表单生成方法,其特征在于,在所述s105之后还包括:s105a:按照从上至下的存储执行规则,采用 mat 数据结构对所述二次归类特征进行存储。3.根据权利要求1所述的基于大语言模型的表单生成方法,其特征在于,所述大语言模型包括:bert模型、gpt模型、xlnet模型、roberta模型或者t5模型,所述s106具体为:s1061:通过余弦相似度计算公式计算语义识别后的语义相似度。4.根据权利要求1所述的基于大语言模型的表单生成方法,其特征在于,所述s108具体包括:s1081:计算各所述子输入数据中出现次数大于预设次数的高频词出现概率值:;其中,r
i
表示包含所述高频词i的相关句子数量, n
i
表示包含所述高频词i的句子数量, m表示所述子输入数据中所有句子的数量,r表示和所述高频词相关的预置概括词数量,f
i
表示所述高频词i在所述子输入数据中的出现频率,表示所述高频词i在所述预置概括词中的出现频率,k1,k2和k表示经验设定参数,q表示所述子输入数据中出现次数大于预设次数的高频词的集合;s1082:将所述出现概率最大的预置概括词作为所述语义概括词。5.根据权利要求1所述的基于大语言模型的表单生成方法,其特征在于,所述s109具体包括:s1091:根据所述语义概括词以及所述语义概括词对应的子输入数据的数量,定义所述展示表单的表单结构;s1092:将所述语义概括词以及所述语义概括词对应的子输入数据填充至所述展示表
单。6.根据权利要求1所述的基于大语言模型的表单生成方法,其特征在于,在所述s109之后还包括:s110:将所述展示表单发送至前端进行渲染,并将渲染后的展示表单进行展示。7.一种基于大语言模型的表单生成系统,其特征在于,用于执行权利要求1至6中任一项所述的基于大语言模型的表单生成方法。

技术总结
本发明公开了一种基于大语言模型的表单生成方法及系统,属于数据处理技术领域,方法包括:接收用户的输入数据;确定输入数据的领域本体;在输入数据的领域本体范围内,计算输入数据的一次归类特征;基于一次归类特征对应的特征向量,确定归类参数,并基于归类参数调整特征向量;采用两点交叉算法,调整归类参数,对归类特征进行二次归类,并根据二次归类特征对输入数据进行归类,得到多类子输入数据;对各类子输入数据进行语义识别,计算语义识别后的语义相似度;在语义相似度小于预设相似度时,利用大预言模型生成各类子输入数据的语义概括词否则,重新调整归类参数进行分类;对语义概括词以及语义概括词对应的子输入数据进行组合生成展示表单。行组合生成展示表单。行组合生成展示表单。


技术研发人员:柴亚团 黄凯凯 陈思远
受保护的技术使用者:无锡容智技术有限公司
技术研发日:2023.09.12
技术公布日:2023/10/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐