基于语义切分的法律文书自动摘要方法和系统

未命名 10-21 阅读:71 评论:0


1.本发明涉及自然语言处理技术领域,尤其涉及一种语义切分的法律文书自动摘要方法和系统。


背景技术:

2.法律文书是法院诉讼结果的真实记录,同时也是法学研究的重要资料。法律从业者需要阅读、检索、学习海量文书,但这些法律文书往往篇幅较长、阅读难度大,简洁明了的法律文本摘要可以有效帮助法律从业者快速了解文书的重点内容。
3.法律文书篇幅一般较长,平均长度达到3000多字。但传统的文本摘要方法往往受到运行资源、模型性能等因素的限制,不能很好地解决长文本摘要的问题,容易出现模型运行时间长、输入文本长度有限、摘要内容不完整等问题。
4.文本摘要方法主要分为抽取式摘要和生成式摘要方法。抽取式摘要从原文筛选部分文本后,将文本拼接形成摘要,实现简单、模型运行速度快,可以用于长文本摘要问题,但是由于摘要内容仅限于原文内容拼接,摘要文本质量不高,往往存在语句不连贯、描述不完整等问题。生成式摘要基于原文语义内容,自动进行复述和重写形成摘要,但模型复杂度高、运行时间长且过长文本无法直接输入模型。先抽取后生成的方法主要是先通过抽取模型提取原文中的重要内容,实现文本的初步缩减后再进行生成式摘要;但抽取阶段需要引入额外的人工标注信息,同时缩减后得到的文本仍然较长,依然存在模型运行时间过长的问题。
5.此外,法律文书作为专业描述类文本,其撰写过程一般遵循特定的模板和语义结构(如民事判决书可以划分为争议类别,原告诉求,被告陈述,事实与理由,裁判依据、裁判主文与尾部共五个部分),对法律文书进行摘要也需要保留原文的语义结构特征。


技术实现要素:

6.为了解决现有技术在法律文书自动摘要方法上输入长度有限、模型运行时间长、摘要结构不完整的问题,本发明提出了一种基于语义切分的法律文书自动摘要方法和系统,用于实现在有限的时间里生成结果完整的法律文书摘要。
7.本发明采用如下技术方案:
8.第一个方面,本发明提供了一种基于语义切分的法律文书自动摘要方法,包括:
9.获取法律文书,基于连续句子分类的方法,对裁判文书进行语义切分,将裁判文书划分为争议类别、原告诉求、被告陈述、事实与理由、以及裁判依据、裁判主文与尾部共五个语义结构的语义段落,分别用连续升序数字对五个语义结构进行编号;
10.对切分后的每个语义段落分别基于生成式文本摘要的方法得到摘要;
11.将同一法律文书切分后的各文本段落生成的摘要按顺序拼接得到最终结果。
12.进一步地,所述的基于连续句子分类的方法,包括:
13.根据标点符号将法律文书划分为多个句子并按照顺序排列;
14.基于bert预训练语言模型获取每一个句子表征,根据表征结果对句子进行分类,得到预测类别序列;
15.对不符合语义结构顺序的分类结果进行修正;
16.将所有划分为同一类的句子按顺序聚合起来,得到不同语义结构的语义段落。
17.进一步地,所述的对不符合语义结构顺序的分类结果进行修正,包括:
18.判断预测类别序列是否递增,若是,则符合语义结构顺序;若不是,则根据异常类别的前后若干个类别情况,对异常类修正为连续升序数字更多的类别,若有2种及以上类别连续升序数字一样多,则修正为整体概率更大的类别上。
19.所述的整体概率是指在句子切分过程中,当句子的类别顺序不符合预设的争议类别、原告诉求、被告陈述、事实与理由、以及裁判依据、裁判主文与尾部的结构顺序时,利用整体概率对切分句子进行重新排序的方法;该方法包括将不符合递增顺序的类别(例如在顺序“22232333”中的“32”)提取出来,并依据其邻近类别的整体概率(即“222”或“333”的概率)判断该类别的真实属性;所述的整体概率是通过计算每个类别概率的乘积得到,基于独立同分布的假设,即认为一句话属于某一类别的概率是独立同分布的,所以整体概率即为各个类别概率的乘积。
20.进一步地,所述的基于生成式文本摘要的方法,表示为:
21.sj=unilmj(dj)
22.其中,sj表示第j个语义段落对应的摘要,unilmi(.)表示第j个语义段落对应的摘要生成模型,dj表示第j个语义段落。
23.进一步地,所述的摘要生成模型采用基于nezha预训练语言模型初始化参数的unilm模型。
24.进一步地,所述的摘要生成模型在训练阶段,以语义段落与真实摘要共同作为输入;在测试阶段,以语义段落作为输入,以自回归方式逐词编码生成摘要。
25.进一步地,所述的训练阶段的损失函数包括:
26.预测摘要的字/词与真实摘要的字/词之间的文本生成损失函数;
27.bio范式序列标注的损失函数;
28.两项损失均采用k稀疏交叉熵损失。
29.第二个方面,本发明提供了一种基于语义切分的法律文书自动摘要系统,用于实现上述的基于语义切分的法律文书自动摘要方法。
30.与现有技术相比,本发明的具备的有益效果是:本发明对法律文书进行自动摘要,使用语义切分的方法,缩短了单次输入生成摘要模型的文本长度,并能够保留完整的原文语义结构特征。
附图说明
31.图1是本发明提供的一种基于语义切分的法律文书自动摘要方法的示意图;为清晰展示模型优化过程,摘要生成模块是处于训练状态的。
32.图2是本发明提供的一种基于语义切分的法律文书自动摘要方法在测试阶段通过自回归的范式逐词生成摘要的示意图。
具体实施方式
33.下面结合附图和实施例对本发明进行进一步说明。附图仅为本发明的示意性图解,附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
34.本发明的目标,是使用语义切分的方法对法律文书进行自动摘要。具体来说,本发明首先通过语义切分的方法将法律文书切分为五个连续的语义段落,然后分别对每个段落实现生成式摘要。本发明中,基于语义切分的法律文书自动摘要主要包含:语义切分模块、摘要生成模块和摘要拼接模块。所述的语义切分模型用于根据法律文书的语义内容将文书自动分成若干段落;摘要生成模型用于在切分的每个段落上,利用文本生成模型生成每个段落的摘要;摘要拼接模块用于将所有语义段落的摘要按顺序合并后,得到法律文书全文的摘要。
35.图1所示为本发明某一实施例的总体框架,模型的输入是中文民事判决文书原文,输出是完整的文书摘要。为了清晰呈现完整的优化过程,图1的摘要生成模块展示的是训练阶段的输入,即同时输入原文与摘要,用摘要部分的模型输出来优化整体模型。
36.图2所示为摘要生成模块在测试阶段生成摘要的过程:以原文为初始输入,使用自回归范式逐词生成摘要,即在每一步上以原文和之前生成的摘要,来生成一个新的词,直到输出代表停止的符号为止(在本实施例中,用[sep]这个特殊符号来代表摘要生成停止)。
[0037]
下面分别对各个模块进行介绍。一、语义切分模块:
[0038]
法律文书可以表示为d={d1,d2,...,dn},其中di表示文书中的第i句话,n表示句子总数。
[0039]
语义切分模块的目标是预测语义结构标签序列l={l1,l2,...,ln},其中li表示文书中第i句话所属的语义结构标签。标签li∈{1,2,3,4,5}分别对应(1)争议类别,(2)原告诉求,(3)被告陈述,(4)事实与理由,(5)裁判依据、裁判主文与尾部共五个部分的文本段落。同时,为了能够使文书正确划分到不同的语义段落中,要求以上五个部分必须是按顺序排列的,也就是要求序列l为不递减序列,即li≤lj,i<j。语义切分模块基于l将法律文书d切分为五个连续、完整部分,可以表示为d={d1,d2,...,d5},分别对应5种语义结构的句子合并得到的语义段落。
[0040]
语义切分模块的步骤为:
[0041]
1.将完整的文书以句子为单位进行分割:可以用句号、冒号等标点符号将法律文书划分为多个句子。
[0042]
2.对每个句子进行表征学习:
[0043]
xi=meanpooling(bert(di))
[0044]
上式中,xi表示第i个句子的表征,di表示第i个句子,bert(.)表示bert模型,meanpooling(.)表示平均池化操作;上述公式表示:首先使用bert[devlin et al.,2018]对文本进行表征,bert是一个常用的通用预训练语言模型,会将输入文本分成多个token,并将每个token映射为对应的词向量。在得到一句话的所有词向量后,对有效token上的所有词向量取平均值(即进行平均池化mean pooling过程),得到可以表示每一句语义信息的向量。
[0045]
这一部分的模型参数冻结,不参与梯度更新,图1中的虚线部分即表示此部分参数是冻结的。这样能有效减少模型的空间和时间代价,同时模型表现力仍然较强。
[0046]
3.利用上一步得到的句子表征,对句子用bigru模型实现分类:
[0047]
pi,hi=bigru(xi)
[0048]
yi=argmax(mlp(pi))
[0049]
由于一句话具体属于哪个类别取决于上下文,因此本发明选择可以与上下文信息进行交互的bigru模型,在每一个时间步输入每一句话的表征,pi为这一时间步的模型输出,hi为这一时间步的隐藏层特征。bigru使每一句话都可以与同篇文书下的前后句文本进行信息交互,再经过多层感知机mlp得到最终在5个语义结构上的概率分布。
[0050]
上述argmax表示,每一句话以概率最大的语义结构作为生成结果。分类结果yi的数值与语义结构的对应为:yi=1代表句子属于争议类别,yi=2代表句子属于原告诉求,yi=3代表句子属于被告陈述,yi=4代表句子属于事实与理由,yi=5代表句子属于裁判依据、裁判主文与尾部。
[0051]
4.对不符合语义顺序的分类结果进行修正:
[0052]
根据上述步骤生成的语义结构对应的分类结果yi在大多数情况下都是连续升序的,即严格按照(1)争议类别、(2)原告诉求、(3)被告陈述、(4)事实与理由和(5)裁判依据、裁判主文与尾部的顺序排列,但有时会出现跳跃、交错的错误情况。在出现这种情况时,需要通过预定义的规则将分类进行修正:将交错的分类结果修正到附近连续升序数字更多的类别,如果有2种及以上类别连续升序数字一样多,则修正到整体概率更大的分类上,强制使其最终的分类结果随句子索引呈现连续升序。
[0053]
所述的整体概率的计算方法为:对于连续升序数字一样多的2种及以上类别,计算每个类别概率的乘积,得到该类别下的整体概率。
[0054]
对于第一种情况,即将交错的分类结果修正到附近连续升序数字更多的类别,给出如下示例样本,经句子分类之后的输出结果序列为:
[0055]
[1 1 1 1 2 2 2 2 3 3 4 4 4 4 3 4 4 4 5 5 5]
[0056]
上述示例中,标粗体的“3”(被告陈述)在“4”(事实与理由)的后面,这是不符合法律文书语义结构的。因为错误标签“3”前后的两个标签都是“4”,因此将“3”直接修正为“4”,得到一个符合语义结构顺序的标签序列:
[0057]
[1 1 1 1 2 2 2 2 3 3 4 4 4 4 4 4 4 4 5 5 5]
[0058]
对于第二种情况,即有2种及以上类别连续升序数字一样多时,给出如下示例样本,经句子分类之后的输出结果序列为:
[0059]
[1 1 2 2 2 3 2 3 3 3 4 4]
[0060]
上述示例中,标粗体的“32”意为“被告陈述”出现在了“原告诉求”之前,这是不符合法律文书语义结构的。因为错误标签“32”前后的标签“2”和“3”一样多,因此在这里将错误标签修正为“2”和“3”中整体概率更大的标签中。在这里,我们假设句子属于某一结构类别的概率是独立同分布的,因此这一整体概率的计算方式是所有该标签句子的概率乘积,即标签“2”的整体概率是错误标签前3个句子属于“2”的概率的乘积,而标签“3”的整体概率是错误标签前3个句子属于“3”的概率的乘积。在本例中,我们假设标签“2”的整体概率更大,因此将错误标签直接修正为“22”,得到一个符合语义结构顺序的标签序列:
[0061]
[1 1 2 2 2 2 2 3 3 3 4 4]
[0062]
5.将分类为同一语义结构的句子合并后,就得到一个完整的语义段落:
[0063]dj
=concat
yi=j
(di)
[0064]
上式中concat指将所有文本按顺序合并的操作,dj就指划分后的一个语义段落,代表一部分完整的语义信息,其中j∈{1,2,3,4,5},语义段落数值与句子所对应的语义结构标签相同。
[0065]
二、摘要生成模块:
[0066]
摘要生成模块构建了一个基于nezha[wei et al.,2019]预训练语言模型初始化参数的unilm[dong et al.,2019]架构摘要生成模型,来实现生成式摘要,输入某一语义段落的原文,生成该语义段落的预测摘要。
[0067]
nezha预训练语言模型是现有技术提出的一种对bert进行改进的通用预训练语言模型,通过使用相对位置编码函数,使得模型的可输入文本长度增大。在实际的实验中使用1024个token作为最大的文本输入,这一长度已经明显超过了bert的限长,即512个token。
[0068]
unilm架构是现有技术提出的统一自然语言理解和自然语言生成的预训练语言模型架构,用于文本到文本任务的传统模型遵循encoder-decoder架构,而bert等仅用了encoder模块来实现自然语言理解等任务,unilm则与bert一样只使用encoder模块,但可以通过修改注意力的掩码矩阵来实现文本生成,在解码的过程中将未输入的部分掩码掉。这就使unilm可以直接使用bert等通用预训练语言模型实现参数初始化,在本发明中使用了对bert进行改进得到的nezha模型。
[0069]
摘要生成模块的公式如下:
[0070]
sj=unilmj(dj)
[0071]
上式中sj是第j个语义段落对应的摘要,unilmi(.)表示第j个语义段落对应的unilm模型,即摘要生成模型,不同的语义段落分别使用不同的unilm摘要生成模型。
[0072]
nezha预训练语言模型的原词表基本遵从按中文字分割的规律,本实施例使用jieba中文分词工具包进行了预分词,增加了一部分词表,实现了这部分词语以词而非字的形式嵌入。这可以保证一些重要的连续字符组成的词语不会被分隔开,如图1中的“借款合同纠纷”一词,就是通过这样的方式增加到词表中的。
[0073]
在训练阶段,unilm以原文与摘要共同作为输入,同时使用如下两项损失函数来共同优化模型:
[0074][0075][0076][0077]
l=l1+l2[0078]
上式定义了一个损失函数,它由两部分组成,这两部分都使用了k稀疏交叉熵来衡
量输出概率与真实标签之间的差异。
[0079]
公式中的si指的是unilm模型直接输出的类别概率,ωk指的是s1,s2,...,sn中最大的前k个元素。这里的k稀疏交叉熵指的是在计算输出概率之前,使用的不是传统的softmax函数,而是仅保留最大的k个概率(即公式中的ωk)来计算softmax函数运算后的概率,并用以计算交叉熵损失函数。
[0080]
第一项损失函数是文本生成损失函数,是摘要部分的输出概率与真实标签之间的文本生成损失函数,使用k稀疏交叉熵来衡量输出概率与真实标签之间的差异,使模型学习到的输出与真实摘要靠近;第二项损失函数是序列标注的损失函数,将真实摘要中与原文相同的内容视作实体,使用bio范式(bio是一种序列标注方法,其中b代表begin(开始),用于标注一个实体的开始部分;i代表inside(内部),用于标注实体的内部部分;o代表outside(外部),用于标注非实体部分)标注出标签序列,计算摘要部分的输出概率与这一标签序列之间的k稀疏交叉熵,这一方法能够鼓励模型输出时直接使用原文中出现的术语,增加生成文本对原文的忠实度。最终模型的总损失是文本生成损失和序列标注损失的和。本发明的目标是最小化这个总损失,以使模型的输出尽可能接近真实的摘要。在测试阶段,unilm以原文作为输入,使用自回归的方法逐词编码生成摘要。自回归语言模型使用先前的词语作为输入,并通过模型的输出来生成下一个词语。这种方式使得生成的序列具有一定的上下文相关性,能够生成具有连贯性和语义准确性的文本。对于逐词生成输出文本序列这一形式的示例,可参考图2。
[0081]
三、摘要拼接模块:
[0082]
将所有语义段落的摘要按顺序合并后,得到法律文书全文的摘要:
[0083]
summary=concat
j={1,2,...5}
(sj)
[0084]
上式中summary指整篇法律文书的摘要。
[0085]
综上,利用本发明提供的一种法律文书摘要自动生成方法,最终输出的法律文书摘要具有完整的结构和准确的内容,并且每一次输入生成模型中的文本缩短,使程序能够并行运行,从而减少了模型的运行时长。
[0086]
本实施例通过一项具体实验来验证本发明的实施效果。
[0087]
(1)数据说明
[0088]
本实验使用的数据集来源于cail(china ai and law challenge)竞赛2020年司法摘要赛道,共包含9484条数据,每条数据包含一篇一审民事判决书原文及其对应人工标注得到的真实摘要。
[0089]
(2)评估指标
[0090]
本实验用文本摘要中常见的自动评估模型生成效果的指标rouge[lin,2004]中rouge-1、rouge-2和rouge-l的f1值作为评估指标,在代码上用python工具包rouge实现。
[0091]
rouge指标的计算基于n-gram的匹配和匹配片段的统计,由于中文可以同时用字和词来作为gram单位,为了公平评估各方法的效果,本实施例中同时评估了rouge指标在字级别和词级别上的结果。
[0092]
(3)对比实验
[0093]
为了全面验证本发明模型的有效性,本次实验将其与几种不同类型的基线模型进行了比较,与本发明模型进行对比的基线模型包括:
[0094]
无监督的抽取式摘要方法:
[0095]
lead-3:经过改进的lead-3算法,选择出现“诉讼请求”的句子及其后两句拼接作为摘要,如果没有“诉讼请求”字样则直接选择索引为11-13的句子。
[0096]
textrank[mihalcea&tarau,2004]:将文本构建为以句子为节点、以句子重复程度为边的图,选取3句pagerank值最高的句子节点,拼接作为摘要。
[0097]
有监督的抽取式摘要方法:
[0098]
bertsum[liu,2019]:使用预训练语言模型对句子进行表征后,直接做二分类问题,将分类为阳性的句子拼接作为摘要。因数据集文本偏长,本实验用可以实现长文本输入的longformer[beltagy et al.,2020]来实现bertsum架构。
[0099]
生成式摘要方法:
[0100]
pointer generator network[see et al.,2017]:使用带复制机制的encoder-decoder模型来实现摘要生成。
[0101]
bert+unilm:使用基于bert预训练语言模型初始化参数的unilm架构摘要生成模型。
[0102]
nezha+unilm:使用基于nezha预训练语言模型初始化参数的unilm架构摘要生成模型。
[0103]
bart[lewis et al.,2019]:encoder-decoder架构的预训练语言模型。
[0104]
cpt[shao et al.,2021]:中文encoder-decoder架构的预训练语言模型。
[0105]
t5 pegasus[su,2021]:中文摘要生成预训练语言模型。
[0106]
spaces[su,2021]:使用先抽取后生成架构实现摘要生成。其中生成部分使用了与本发明方法相似的nezha+unilm模型。
[0107]
测试结果如表1所示:
[0108]
表1模型测试结果
[0109][0110]
由表1可见,本发明在法律文书摘要生成中表现均优于其他参与比较的方法,rouge值均提升。这个结果验证了本发明在法律文书上使用语义切分实现摘要的有效性。
[0111]
除了文本摘要生成指标rouge的提升之外,本发明方法还在运行时间上得到了提
升:相比其他使用了unilm架构的基线模型,本发明方法由于减少了单次输入生成模型的文本长度,而且使用语义切分的方式使得模型可以并行生成各个语义结构的摘要,因此在实际运行的过程中也表现出了用时上的优势,具体实验用时情况如表2所示:
[0112]
表2模型实验用时
[0113][0114]
在计算各个模型的使用时间时,spaces模型需要首先进行预处理和抽取,在每个训练阶段的epoch中进行生成训练;本发明方法则分阶段,在结构分割和生成摘要阶段分别进行训练。由表2可见,在训练阶段,本发明方法的用时比bert+unilm和spaces方法用时略多,但这是可以接受的;由于采用了自回归方法,因此类unilm架构的方法都在测试阶段耗时更久,而在测试阶段,本发明的用时比其他模型的运行时间都更短,这体现了摘要生成阶段使用并行方法的时间优越性。
[0115]
在本实施例中还提供了一种基于语义切分的法律文书自动摘要系统,该系统用于实现上述实施例,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能的。
[0116]
所述的系统包括:
[0117]
语义切分模块,其用于将法律文书按语义切分为争议类别,原告诉求,被告陈述,事实与理由,裁判依据、裁判主文与尾部共五个部分的文本段落;
[0118]
摘要生成模块,其用于对语义切分后的每个文本段落分别生成摘要;
[0119]
摘要拼接模块,其用于将每个文本段落对应的摘要进行拼接,得到整篇法律文书的摘要。
[0120]
上述系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0121]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来
说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:
1.一种基于语义切分的法律文书自动摘要方法,其特征在于,包括:获取法律文书,基于连续句子分类的方法,对裁判文书进行语义切分,将裁判文书划分为争议类别、原告诉求、被告陈述、事实与理由、以及裁判依据、裁判主文与尾部共五个语义结构的语义段落,分别用连续升序数字对五个语义结构进行编号;对切分后的每个语义段落分别基于生成式文本摘要的方法得到摘要;将同一法律文书切分后的各文本段落生成的摘要按顺序拼接得到最终结果。2.根据权利要求1所述的基于语义切分的法律文书自动摘要方法,其特征在于,所述的基于连续句子分类的方法,包括:根据标点符号将法律文书划分为多个句子并按照顺序排列;基于bert预训练语言模型获取每一个句子表征,根据表征结果对句子进行分类,得到预测类别序列;对不符合语义结构顺序的分类结果进行修正;将所有划分为同一类的句子按顺序聚合起来,得到不同语义结构的语义段落。3.根据权利要求2所述的基于语义切分的法律文书自动摘要方法,其特征在于,所述的基于bert预训练语言模型获取每一个句子表征,根据表征结果对句子进行分类,具体为:x
i
=meanpooling(bert(d
i
))p
i
,h
i
=bigru(x
i
)y
i
=argmax(mlp(p
i
))其中,x
i
表示第i个句子的表征,d
i
表示第i个句子,bert(.)表示bert模型,meanpooling(.)表示平均池化操作,bigru(.)表示bigru模型,p
i
,h
i
表示第i个句子的bigru输出及其隐藏层,mlp(.)表示多层感知机,argmax(.)表示取概率最大的语义结构作为生成结果。4.根据权利要求2所述的基于语义切分的法律文书自动摘要方法,其特征在于,所述的对不符合语义结构顺序的分类结果进行修正,包括:判断预测类别序列是否递增,若是,则符合语义结构顺序;若不是,则根据异常类别的前后若干个类别情况,对异常类修正为连续升序数字更多的类别,若有2种及以上类别连续升序数字一样多,则修正为整体概率更大的类别上。5.根据权利要求4所述的基于语义切分的法律文书自动摘要方法,其特征在于,所述的整体概率的计算方法为:对于连续升序数字一样多的2种及以上类别,计算每个类别概率的乘积,得到该类别下的整体概率。6.根据权利要求1所述的基于语义切分的法律文书自动摘要方法,其特征在于,所述的基于生成式文本摘要的方法,表示为:s
j
=unilm
j
(d
j
)其中,s
j
表示第j个语义段落对应的摘要,unilm
i
(.)表示第j个语义段落对应的摘要生成模型,d
j
表示第j个语义段落。7.根据权利要求6所述的基于语义切分的法律文书自动摘要方法,其特征在于,所述的摘要生成模型采用基于nezha预训练语言模型初始化参数的unilm模型。8.根据权利要求6所述的基于语义切分的法律文书自动摘要方法,其特征在于,所述的摘要生成模型在训练阶段,以语义段落与真实摘要共同作为输入;在测试阶段,以语义段落作为输入,以自回归方式逐词编码生成摘要。
9.根据权利要求8所述的基于语义切分的法律文书自动摘要方法,其特征在于,所述的训练阶段的损失函数包括:预测摘要的字/词与真实摘要的字/词之间的文本生成损失函数;bio范式序列标注的损失函数;两项损失均采用k稀疏交叉熵损失。10.一种基于语义切分的法律文书自动摘要系统,其特征在于,包括:语义切分模块,其用于获取法律文书,基于连续句子分类的方法,对裁判文书进行语义切分,将裁判文书划分为争议类别、原告诉求、被告陈述、事实与理由、以及裁判依据、裁判主文与尾部共五个语义结构的语义段落,分别用连续升序数字对五个语义结构进行编号;摘要生成模块,其用于对切分后的每个语义段落分别基于生成式文本摘要的方法得到摘要;摘要拼接模块,其用于将同一法律文书切分后的各文本段落生成的摘要按顺序拼接得到最终结果。

技术总结
本发明公开了一种基于语义切分的法律文书自动摘要方法和系统,属于自然语言处理领域。本发明获取民事一审裁判文书作为输入,使用连续句子分类的方法,对裁判文书进行语义切分,将裁判文书划分为争议类别,原告诉求,被告陈述,事实与理由,裁判依据、裁判主文与尾部共五个部分的文本段落;对切分后的每个文本段落分别使用生成式文本摘要的方法得到摘要;对于同一裁判文书的各切分后段落生成的摘要,按顺序拼接得到最终结果。本发明对法律文书进行自动摘要,使用语义切分的方法,缩短了单次输入生成摘要模型的文本长度,并能够保留完整的原文语义结构特征。文语义结构特征。文语义结构特征。


技术研发人员:杨洋 王惠娟
受保护的技术使用者:浙江大学
技术研发日:2023.07.18
技术公布日:2023/10/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐