一种文本处理方法、系统、电子设备及存储介质与流程

未命名 10-08 阅读:77 评论:0


1.本技术涉及人工智能技术领域,尤其涉及一种文本处理方法、系统、电子设备及存储介质。


背景技术:

2.文本与一般文件不同,它存储的是文字信息,并且遵循人类语言的习惯和规则,人类语言的次序不仅仅是字符的简单重复,还包含了语言的内在规则。
3.当需要对文本进行压缩时,传统的压缩方法都是从文件中字符的出现形式出发,其中,传统的压缩方法包括但不限于:利用字符出现的概率不均衡,根据出现的概率大小来确定编码的长短,实现压缩,比如霍夫曼编码;利用上下文字符的重复出现,利用前面出现的模式来实现压缩,比如字典编码;利用前面的文本,构建预测模型,预测后面的词的出现概率,来实现压缩,比如zpaq算法,它们都没有考虑文本所体现的人类语言的内在规律,导致文本的压缩率较低,因此如何提升文本的压缩率,成为了亟待解决的问题。


技术实现要素:

4.本技术提供一种文本处理方法、系统、电子设备及存储介质,其主要目的在于解决相关技术中在进行文本处理时文本的压缩率较低的问题。
5.为实现上述目的,本技术提供了一种文本处理方法,包括:将目标文本的种子分词输入至预设的大语言模型,计算所述目标文本的预测概率分布;生成所述目标文本的切分样本;根据所述预测概率分布生成所述切分样本的算术编码;根据所述算术编码将所述目标文本压缩为压缩文本。
6.本技术还提供了一种文本处理系统,包括:概率分布预测模块,用于将目标文本的种子分词输入至预设的大语言模型,计算所述目标文本的预测概率分布;文本切分模块,用于生成所述目标文本的切分样本;算术编码模块,用于根据所述预测概率分布生成所述切分样本的算术编码;文本压缩模块,用于根据所述算术编码将所述目标文本压缩为压缩文本。
7.本技术还提供了一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述处理器用于执行存储在所述存储器上的计算机程序;所述处理器执行所述计算机程序时,实现所述文本处理方法中的步骤。
8.本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述文本处理方法的步骤。
9.本技术利用预先训练好的大语言模型进行下一个词的预测是因为预先训练好的大语言模型具有强大的拟合人类语言习惯的能力,它可以理解语法和上下文信息,能够更准确地预测下一个词,这使得能够利用语义级别的信息来压缩文本,而不仅仅是基于统计的字符级别压缩,同时,由于大语言模型预测下一个词的准确率较高,这使得编码所需的数字表示较短,进而提高压缩率,减小文本文件的大小,将目标文本划分为较小的部分,有利
于更有效地进行后续的编码,根据每个分词在文本中出现的概率分配编码区间,预测概率大的分词分配大的编码区间,预测概率小的分词分配编码区间小,高的预测准确率,使得进行编码时编码区间减少的比较少,从而提高压缩率。因此本技术提出文本处理方法、系统、电子设备及存储介质,可以解决文本处理时文本的压缩率较低的问题。
附图说明
10.图1为本技术一实施例提供的文本压缩方法的流程示意图;图2为本技术一实施例提供的区间更新方式的原理示意图;图3为本技术一实施例提供的文本解压方法的流程示意图;图4为本技术一实施例提供的文本处理系统的功能模块图;图5为本技术一实施例提供的电子设备的结构示意图。
11.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
12.应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
13.现有技术中的文本处理仅从文件中字符的出现形式出发,没有考虑字符整体所包含的意义,忽略了文字字符出现的次序跟人类语言习惯相关这一规律,为了克服该局限性,本技术一实施例提供了一种文本压缩方法,该方法利用预先训练好的大语言模型和种子分词进行下一个词的预测,并将预测的概率进行算术编码,实现了对文本文件语义级别的压缩。
14.参照图1所示,为本技术一实施例提供的文本压缩方法的流程示意图。在本实施例中,该文本压缩方法包括:s11、将目标文本的种子分词输入至预设的大语言模型,计算所述目标文本的预测概率分布。
15.在本技术实施例中,所述预设的大语言模型根据目标文本的种子分词计算目标文本的预测概率分布,包括:根据预设的分词词典生成目标文本的文本分词;根据文本分词生成目标文本的编码向量;根据编码向量将目标文本的种子分词输入至预设的大语言模型,利用预设的大语言模型的映射函数生成目标文本的预测概率分布,其中,映射函数为:其中,表示预设的大语言模型(large language model),表示将个种子分词输入至预设的大语言模型得到的输出数据,表示第个目标文本中的文本样本分词表示预设的分词词典中第个分词的概率,表示预设的分词词典中分词的分词总数,表示种子分词的分词总数,标识将从第个文本样本分词到第个文本样本分词输入至预设的大语言模型得到的关于第个分词的预测概率分布,表示第个目标文本中的文本样本分词,表示种子分词的标识,表示预设的分词词典中分词的分词标识。
详细地,根据预设的分词词典生成目标文本的文本分词是指根据预设的分词词典对目标文本的进行分词,可以采用开源的分词器,比如hanlp,jieba等分词器,例如:将“利用大语言模型进行文本压缩,能极大提高文本的压缩率。”分词后得到
ꢀ“
利用|大|语言|模型|进行|文本|压缩|,|能|极大|提高|文本|的|压缩率|。|”,另外,当目标文本中存在英文时,可以利用英文各个单词之间的分隔符对目标文本进行分词处理,其中,hanlp,jieba等分词器仅仅是为了说明方案的可实施性而进行的示例性举例,并不限定本方案必须采用hanlp,jieba等分词器。
16.详细地,预设的分词词典是预先构建的词典,可通过把中文文本中可能出现的词及英文的单词,编码成一个词典,并对词典中的词按顺序编码,词典的总长度为n,例如:{ 1:我们, 2:大, 3:语言, 4:的, 5:文本, 6:模型, 7:利用, 8:进行,9:压缩, 10:压缩率,11:能, 12:提高, 13:极大, 14:

,’,15:

。’,

,n:unk}。
17.详细地,根据文本分词生成目标文本的编码向量是指根据文本分词在预设的分词词典中的位置生成文本分词的分词编码,亦即,目标文本中每个文本分词从预设的分词词典中查找对应的编号,并对分词编码进行拼接得到目标文本的编码向量,例如:“利用|大|语言|模型|进行|文本|压缩|,|能|极大|提高|文本|的|压缩率|。|”可以编码为[7,2,3,6,7,5,9,14,11,13,12,5,4,10,15]。
[0018]
详细地,映射函数还可以根据种子分词的不同选取表示为下列形式:其中,表示预设的大语言模型(large language model),表示将个种子分词输入至预设的大语言模型得到的输出数据,表示第个目标文本中的文本样本分词表示预设的分词词典中第个分词的概率,表示预设的分词词典中分词的分词总数,表示种子分词的分词总数,标识将从第个文本样本分词到第个文本样本分词输入至预设的大语言模型得到的关于第个分词的预测概率分布,表示第个目标文本中的文本样本分词,表示种子分词的标识,表示预设的分词词典中分词的分词标识,表示目标文本的文本长度。进一步地,表示将目标文本的从第个文本样本分词到第个文本样本分词作为种子分词输入至预设的大语言模型得到的关于第个的文本样本分词的概率分布;表示将目标文本的从第个文本样本分词到第个文本样本分词作为种子分词输入至预设的大语言模型得到的关于第个的文本样本分词的概率分布;表示将目标文本的从第个
文本样本分词到第个文本样本分词作为种子分词输入至预设的大语言模型得到的关于第个的文本样本分词的概率分布。
[0019]
详细地,在根据编码向量将目标文本的种子分词输入至预设的大语言模型之前,还包括:构建初始大语言模型;利用预设的训练语料对初始大语言模型进行初始结构参数配置,得到通用大语言模型;对通用大语言模型进行任务微调,得到适用于压缩任务的大语言模型,确定适用于压缩任务的大语言模型为预设的大语言模型。
[0020]
详细地,预设的大语言模型可以是chatglm-6b模型,chatglm-6b仅仅是为了说明方案的可实施性而进行的示例性举例,本方案也可以采用其他通用大语言模型,比如llama,bloom等,chatglm-6b模型是一个包含60亿参数的语言模型,它的整体结构类似于transformer模型,但针对参数数量达到几十亿级别的需求进行了一些改进,其中,一项改进是采用旋转编码来进行位置嵌入,旋转编码是一种将位置信息以旋转方式编码的技术,有助于模型有效捕捉长距离的依赖关系,另一个改进是在前向网络中采用高斯误差线性单元作为激活函数,高斯误差线性单元是一种非线性激活函数,引入了平滑的非线性特性,可以提高模型的表达能力,另外,在正则化方面,chatglm-6b使用了deepnorm正则化,通过在模型中应用归一化层来防止过拟合,chatglm-6b的主体模块是glmblock,一般配置下,采用堆叠28个glmblock,隐藏层维度大小为4096,注意力头数为32,参数数量达到60亿,这样的配置使得chatglm-6b具有更大的容量和预测能力。
[0021]
详细地,利用预设的训练语料对初始大语言模型进行初始结构参数配置是指对预设的训练语料进行编码,将编码后的指示和输入语句作为初始大语言模型的输入,编码后的输出语句作为训练目标,通过多轮的训练来使模型的输出与训练目标的误差最小化,从而实现初始大语言模型的初始结构参数配置。
[0022]
进一步地,训练过程使用adamw优化算法,它是一种基于梯度的优化算法,有助于在训练过程中更快地收敛到更好的模型参数,在每个训练步骤中,模型根据预测与目标之间的误差计算梯度,并更新模型参以减小误差,重复这一过程,模型逐渐优化,使输出文本更接近训练目标,同时,由于训练大语言模型可能需要大量的显存,尤其是在保存模型参数、梯度以及相关统计信息的情况下,可以通过使用deepspeed的数据并行架构,将训练过程划分为多个小批量并行处理,从而降低每个批次的显存需求,其中,deepspeed是一个优化深度学习训练的库,它提供了数据并行等技术,可以将模型的训练分布在多个gpu上,以减少单个gpu的显存压力。
[0023]
详细地,对通用大语言模型进行任务微调是为了训练模型的softmax分类层,使其能够准确地在给定上文情况下预测出下一个词的出现概率,选择一个预训练的大语言模型,该模型具有生成式能力,在模型的最后一层添加一个新的softmax分类层,该层的输出是预设的分词词典中每个分词的出现概率,对于任务微调,只需更新新添加的softmax分类层的参数,保持大模型的其他参数不变。
[0024]
s12、生成目标文本的切分样本。
[0025]
在本技术实施例中,生成目标文本的切分样本,包括:利用预先获取的段落分词数对目标文本进行文本切分,得到目标文本的切分样本,切分样本的向量表示为:
其中,表示第段切分样本,表示第段切分样本中的第个切分样本分词,表示第段切分样本中的第个切分样本分词,表示第个目标文本中的文本样本分词,表示切分样本的段落标识,表示切分样本分词的分词总数,表示切分样本中的种子分词的分词总数。
[0026]
详细地,假定预先获取的段落分词数为x,已知目标文本的文本长度为m,种子分词总数为l,可以得到d个切分样本,亦即,,生成目标文本的切分样本可以减少编码的长度,提高速度。
[0027]
详细地,切分样本的表现形式可以为:其中,表示第段切分样本,表示第段切分样本中的第个切分样本分词,表示第段切分样本中的第个切分样本分词,表示第个目标文本中的文本样本分词,表示切分样本的段落标识,表示切分样本分词的分词总数,表示切分样本中的种子分词的分词总数,d表示切分样本的样本总数。
[0028]
进一步地,表示第段切分样本,表示第段切分样本,第段切分样本。
[0029]
s13、根据预测概率分布生成切分样本的算术编码。
[0030]
在本技术实施例中,根据预测概率分布生成切分样本的算术编码,包括:利用如下累计概率算法和预测概率分布生成目标文本中的文本样本分词的累积概率:其中,表示第个目标文本中的文本样本分词关于预设的分词词典中第个分词的累积概率,表示累积概率的标识,表示第个文本样本分词关于预设的分词词典中第个分词的累积概率,表示第个文本样本分词关于预设的分词词典中第个分词的累积概率,表示预设的分词词典中分词的分词总数,表示种子分词的标识,表示预设的分词词典中分词的分词标识,表示第个分词表示预设的分词词典中第个分词的概率,表示第个分词表示预设的分词词典中第个分词的概率;根据累积概率生成切分样本中切分样本分词所对应的分词累积概率;根据分词累积概率生成切分样本分词的分词概率区间,
根据分词概率区间逐个对切分样本中的切分样本分词进行分词编码,得到切分样本的算术编码。
[0031]
详细地,根据累积概率可以生成概率区间,例如:第个分词的概率区间为(),其中,表示第个分词的累积概率,表示第个分词的累积概率,可以基于此,利用累积概率生成切分样本中切分样本分词所对应的分词累积概率。
[0032]
进一步地,根据累积概率生成切分样本中切分样本分词所对应的分词累积概率是指由于切分样本分词与目标文本中的文本存在一一对应关系,可以按照切分样本中切分样本分词对累积概率进行划分,从而生成切分样本分词所对应的分词累积概率,分词累积概率可以表示为:其中,表示分词累积概率的概率分布,表示第个切分样本分词所对应的分词累积概率,表示第个切分样本分词所对应的分词累积概率,表示第个切分样本分词所对应的分词累积概率,表示切分样本的段落标识,表示切分样本分词的分词总数,表示种子分词的分词总数。
[0033]
详细地,根据分词累积概率生成切分样本分词的分词概率区间是指根据分词累积概率构成切分样本分词的分词概率区间的区间上界和区间下界,例如:其中,表示第个切分样本第个切分样本分词的分词概率区间的区间上界,表示第个切分样本第个切分样本分词的分词概率区间的区间下界,表示第个切分样本第个切分样本分词的分词概率区间,表示根据目标文本中的第个文本样本分词的累积概率确定的第个切分样本分词的分词概率区间的区间上界,表示根据目标文本中的第个文本样本分词的累积概率确定的第个切分样本分词的分词概率区间的区间下界,表示种子分词的分词总数,表示切分样本分词的分词标识,表示切分样本的段落标识,表示切分样本分词的分词总数,表示文本样本分词的分词标识。
[0034]
详细地,根据分词概率区间逐个对切分样本中的切分样本分词进行分词编码,得到切分样本的算术编码,包括:根据切分样本的首位待编码分词所对应的分词概率区间生成首位待编码分词的第一编码区间;根据首位待编码分词的相邻待编码分词所对应的分词概率区间和第一编码区间进行编码区间更新,得到相邻待编码分词的更新编码区间;根据更新编码区间生成相邻待解码分词的相邻编码值,直至编码区间更新次数达到预设的编码阈值,得到切分样本的算术编码。
[0035]
详细地,根据切分样本的首位待编码分词所对应的分词概率区间生成首位待编码分词的第一编码区间是指先从切分样本中每一个切分样本分词所对应的概率区间
确定出第一概率区间,再利用选定一个大整数b和第一概率区间生成首位待编码分词的第一编码区间(),其中,。
[0036]
详细地,参图2所示,根据首位待编码分词的相邻待编码分词所对应的分词概率区间和第一编码区间进行编码区间更新,得到相邻待编码分词的更新编码区间可以根据如下编码区间更新算法进行:其中,表示第二编码区间的区间下界,表示第二编码区间的区间上界,表示第一编码区间的区间下界,表示第一编码区间的区间上界,表示首位待编码分词的相邻待编码分词所对应的第二概率区间的区间下界,表示首位待编码分词的相邻待编码分词所对应的第二概率区间的区间上界,表示切分样本的段落标识。
[0037]
同理,第个待编码分词的编码区间可以由第个待编码分词的编码区间和第个待编码分词的概率区间生成,计算公式为:其中,表示第个待编码分词的编码区间的区间下界,表示第个待编码分词的编码区间的区间上界,表示第个待编码分词的编码区间的区间下界,表示第个待编码分词的编码区间的区间上界,表示第个待编码分词的概率区间的区间下界,表示第个待编码分词的概率区间的区间上界,表示切分样本的段落标识,表示待编码分词的分词标识。
[0038]
详细地,预设的编码阈值与待编码分词的分词总数有关,当待编码分词的分词总数为时,预设的编码阈值为,在第个待编码分词的编码区间取一个长度比较短的整数做为切分样本的算术编码。
[0039]
s14、根据算术编码将目标文本压缩为压缩文本。
[0040]
在本技术实施例中,根据算术编码将目标文本压缩为压缩文本,包括:根据切分样本在目标文本中的排列顺序将种子分词和算术编码拼接为目标文本的压缩文本。
[0041]
详细地,根据切分样本在目标文本中的排列顺序将种子分词和算术编码拼接为目标文本的压缩文本是指将前面的个种子分词和整个目标文本的算术编码一起保存,完成目标文本的压缩过程。
[0042]
参照图3所示,为本技术一实施例提供的文本解压方法的流程示意图。在本实施例中,该文本解压方法包括:s31、根据种子分词和大语言模型生成压缩文本内首位待解码分词的预测区间。
[0043]
在本技术实施例中,根据种子分词和大语言模型生成压缩文本内首位待解码分词的预测区间,包括:将种子分词输入至大语言模型,利用大语言模型的映射函数生成压缩文本内首位待解码分词的预测概率分布;根据预测概率分布生成首位待解码分词的预测区
间。
[0044]
详细地,压缩文本内首位待解码分词的预测概率分布为:其中,表示压缩文本内首位待解码分词的预测概率分布,表示首位待解码分词为预设的分词词典中第个分词的累积概率,表示首位待解码分词为预设的分词词典中第个分词的累积概率,表示预设的分词词典中分词的分词总数,表示种子分词的标识。
[0045]
详细地,根据预测概率分布生成首位待解码分词的预测区间是指将预测概率分布中预测区间的上界和下界分别乘以大整数得到的区间为首位待解码分词的预测区间,其中,首位待解码分词的预测区间为:其中,表示压缩文本内首位待解码分词的预测概率分布,表示首位待解码分词为预设的分词词典中第个分词的累积概率,表示首位待解码分词为预设的分词词典中第个分词的累积概率,表示预设的分词词典中分词的分词总数,表示种子分词的标识,表示大整数。
[0046]
s32、根据算术编码和预测区间生成首位待解码分词的首位解码分词及首位解码分词的第一解码区间。
[0047]
在本技术实施例中,根据算术编码和预测区间生成首位待解码分词的首位解码分词及首位解码分词的第一解码区间,包括:根据算术编码和预测区间的上界和下界选取预测区间中的首位目标区间,其中,算术编码大于首位目标区间的下界,并且算术编码小于首位目标区间的上界;根据首位目标区间生成首位待解码分词的首位解码分词及首位解码分词的第一解码区间。
[0048]
详细地,根据算术编码和预测区间的上界和下界选取预测区间中的首位目标区间是指根据如下不等式确定算术编码的所在区间:其中,表示压缩文本的算术编码,表示首位待解码分词为预设的分词词典中第个分词的累积概率,表示首位待解码分词为预设的分词词典中第个分词的累积概率,表示种子分词的标识,表示大整数。
[0049]
进一步地,假设,可以确定首位待解码分词为预设的分词词典中的第个分词。
[0050]
s33、利用第一解码区间对首位待解码分词的相邻待解码分词进行预测区间更新,得到相邻待解码分词的更新预测区间。
[0051]
在本技术实施例中,利用第一解码区间对首位待解码分词的相邻待解码分词进行
预测区间更新,得到相邻待解码分词的更新预测区间,包括:利用如下预测区间更新算法和第一解码区间对首位待解码分词的相邻待解码分词进行预测区间更新,得到相邻待解码分词的更新预测区间:其中,表示相邻待解码分词的更新预测区间,表示第一解码区间的区间下界,表示第一解码区间的区间上界,表示根据预测区间确定的相邻待解码分词关于预设的分词词典中第个分词的累积概率,表示根据预测区间确定的相邻待解码分词关于预设的分词词典中第个分词的累积概率,表示预设的分词词典中分词的分词总数,表示压缩文本中待解码分词的分词标识。
[0052]
s34、根据更新预测区间和算术编码生成相邻待解码分词的相邻解码分词,直至解码区间更新次数达到预设的解码阈值,得到压缩文本的解压文本。
[0053]
在本技术实施例中,根据更新预测区间和算术编码生成相邻待解码分词的相邻解码分词,直至解码区间更新次数达到预设的解码阈值,得到压缩文本的解压文本,包括:根据算术编码和更新预测区间的上界和下界选取更新预测区间中的相邻目标区间,其中,算术编码大于相邻目标区间的下界,并且算术编码小于相邻目标区间的上界;根据相邻目标区间生成相邻待解码分词的相邻解码分词,直至解码区间更新次数达到预设的解码阈值,将压缩文本的解码分词和种子分词按分词顺序拼接为压缩文本的解压文本。
[0054]
详细地,根据算术编码和更新预测区间的上界和下界选取更新预测区间中的相邻目标区间是指根据如下不等式确定算术编码的所在区间:其中,表示压缩文本的算术编码,表示相邻待解码分词为预设的分词词典中第个分词的累积概率,表示相邻待解码分词为预设的分词词典中第个分词的累积概率,表示种子分词的标识,表示第一解码区间的区间下界,表示第一解码区间的区间上界。
[0055]
进一步地,假设,可以确定相邻待解码分词为预设的分词词典中的第个分词,以此类推,可以解出连续的个待解码分词,根据解码得到的分词和种子分词生成压缩文本的解压文本。
[0056]
如图4所示,是本技术一实施例提供的文本处理系统的功能模块图,该文本处理系统可应用于前述文本压缩方法和/或文本解压方法。
[0057]
本实施例的文本处理系统400可以安装于电子设备中。根据实现的功能,文本处理系统400可以包括概率分布预测模块401、文本切分模块402、算术编码模块403及文本压缩模块404。本技术模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0058]
在本实施例中,关于各模块/单元的功能如下:概率分布预测模块401,用于预设的大语言模型根据目标文本的种子分词计算目标文本的预测概率分布;文本切分模块402,用于生成目标文本的切分样本;算术编码模块403,用于根据预测概率分布生成切分样本的算术编码;文本压缩模块404,用于根据算术编码将目标文本压缩为压缩文本。
[0059]
如图5所示,是本技术一实施例提供的用于实现包括前述文本压缩方法和/或文本解压方法的文本处理方法的电子设备的结构示意图。
[0060]
电子设备可以包括处理器51、存储器52、通信总线53以及通信接口54,还可以包括存储在存储器52中并可在处理器51上运行的计算机程序,如文本处理程序。
[0061]
其中,处理器51在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器51是电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在存储器52内的程序或者模块(例如执行文本处理程序等),以及调用存储在存储器52内的数据,以执行电子设备的各种功能和处理数据。
[0062]
存储器52至少包括一种类型的存储介质,存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器52在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。存储器52在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,存储器52还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器52不仅可以用于存储安装于电子设备的应用软件及各类数据,例如文本处理程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0063]
通信总线53可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。总线被设置为实现存储器52以及至少一个处理器51等之间的连接通信。
[0064]
通信接口54用于上述电子设备与其他电子设备之间的通信,包括网络接口和用户接口。可选地,网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0065]
图中仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图中示出的结构并不构成对电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部
件,或者不同的部件布置。
[0066]
例如,尽管未示出,电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理系统与至少一个处理器51逻辑相连,从而通过电源管理系统实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0067]
应该了解,实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0068]
具体地,处理器51对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
[0069]
进一步地,电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。存储介质可以是易失性的,也可以是非易失性的。例如,存储介质可以包括:能够携带计算机程序代码的任何实体或系统、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0070]
在本技术所提供的几个实施例中,应该理解到,所揭露的电子设备,系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0071]
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0072]
另外,在本技术各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0073]
对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其他的具体形式实现本技术。
[0074]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0075]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
[0076]
最后应说明的是,以上实施例仅用以说明本技术的技术方案而非限制,尽管参照较佳实施例对本技术进行了详细说明,本领域的普通技术人员应当理解,可以对本技术的技术方案进行修改或等同替换,而不脱离本技术技术方案的精神和范围。

技术特征:
1.一种文本处理方法,其特征在于,方法包括:将目标文本的种子分词输入至预设的大语言模型,计算所述目标文本的预测概率分布;生成所述目标文本的切分样本;根据所述预测概率分布生成所述切分样本的算术编码;根据所述算术编码将所述目标文本压缩为压缩文本。2.如权利要求1所述的文本处理方法,其特征在于,所述将目标文本的种子分词输入至预设的大语言模型,计算所述目标文本的预测概率分布,包括:根据预设的分词词典生成目标文本的文本分词;根据所述文本分词生成所述目标文本的编码向量;根据所述编码向量将所述目标文本的种子分词输入至预设的大语言模型,利用所述预设的大语言模型的映射函数生成所述目标文本的预测概率分布,其中,所述映射函数为:其中,表示所述大语言模型(large language model),表示将个所述种子分词输入至预设的大语言模型得到的输出数据,表示第个所述目标文本中的文本样本分词是预设的分词词典中第个分词的概率,表示所述预设的分词词典中分词的分词总数,表示所述种子分词的分词总数,标识将从第个所述文本样本分词到第个所述文本样本分词输入至所述预设的大语言模型得到的关于第个分词的预测概率分布,表示第个所述目标文本中的文本样本分词,表示所述种子分词的标识, 表示所述预设的分词词典中分词的分词标识。3.如权利要求2所述的文本处理方法,其特征在于,在根据所述编码向量将所述目标文本的种子分词输入至预设的大语言模型之前,还包括:构建初始大语言模型;利用预设的训练语料对所述初始大语言模型进行初始结构参数配置,得到通用大语言模型;对所述通用大语言模型进行任务微调,得到适用于压缩任务的大语言模型,确定所述适用于压缩任务的大语言模型为预设的大语言模型。4.如权利要求1所述的文本处理方法,其特征在于,所述生成所述目标文本的切分样本,包括:利用预先获取的段落分词数对所述目标文本进行文本切分,得到所述目标文本的切分样本,所述切分样本的向量表示为:其中,表示第段所述切分样本,表示第段所述切分样本中的第个切分样本分词,表示第段所述切分样本中的第个切分样本分词,表示第
个所述目标文本中的文本样本分词,表示所述切分样本的段落标识,表示所述切分样本分词的分词总数,表示所述切分样本中的种子分词的分词总数。5.如权利要求1所述的文本处理方法,其特征在于,所述根据所述预测概率分布生成所述切分样本的算术编码,包括:利用如下累计概率算法和所述预测概率分布生成所述目标文本中的文本样本分词的累积概率:其中,表示第个所述目标文本中的文本样本分词关于预设的分词词典中第个分词的累积概率,表示所述累积概率的标识,表示第个所述文本样本分词关于所述预设的分词词典中第个分词的累积概率,表示第个所述文本样本分词关于所述预设的分词词典中第个分词的累积概率,表示所述预设的分词词典中分词的分词总数,表示所述种子分词的标识, 表示所述预设的分词词典中分词的分词标识,表示第个分词表示所述预设的分词词典中第个分词的概率,表示第个分词表示所述预设的分词词典中第个分词的概率;根据所述累积概率生成所述切分样本中切分样本分词所对应的分词累积概率;根据所述分词累积概率生成所述切分样本分词的分词概率区间,根据所述分词概率区间逐个对所述切分样本中的切分样本分词进行分词编码,得到所述切分样本的算术编码。6.如权利要求5所述的文本处理方法,其特征在于,所述根据所述分词概率区间逐个对所述切分样本中的切分样本分词进行分词编码,得到所述切分样本的算术编码,包括:根据所述切分样本的首位待编码分词所对应的分词概率区间生成所述首位待编码分词的第一编码区间;根据所述首位待编码分词的相邻待编码分词所对应的分词概率区间和所述第一编码区间进行编码区间更新,得到所述相邻待编码分词的更新编码区间;根据所述更新编码区间生成所述相邻待解码分词的相邻编码值,直至编码区间更新次数达到预设的编码阈值,得到所述切分样本的算术编码。7.如权利要求1所述的文本处理方法,其特征在于,所述根据所述算术编码将所述目标文本压缩为压缩文本,包括:根据所述切分样本在所述目标文本中的排列顺序将所述种子分词和所述算术编码拼接为所述目标文本的压缩文本。8.如权利要求1至7中任意一项所述的文本处理方法,其特征在于,所述根据所述算术编码将所述目标文本压缩为压缩文本之后,还包括:根据所述种子分词和所述大语言模型生成所述压缩文本内首位待解码分词的预测区
间;根据所述算术编码和所述预测区间生成所述首位待解码分词的首位解码分词及所述首位解码分词的第一解码区间;利用所述第一解码区间对所述首位待解码分词的相邻待解码分词进行预测区间更新,得到所述相邻待解码分词的更新预测区间;根据所述更新预测区间和所述算术编码生成所述相邻待解码分词的相邻解码分词,直至解码区间更新次数达到预设的解码阈值,得到所述压缩文本的解压文本。9.如权利要求8所述的文本处理方法,其特征在于,所述根据所述种子分词和所述大语言模型生成所述压缩文本内首位待解码分词的预测区间,包括:将所述种子分词输入至所述大语言模型,利用所述大语言模型的映射函数生成所述压缩文本内首位待解码分词的预测概率分布;根据所述预测概率分布生成所述首位待解码分词的预测区间。10.如权利要求8所述的文本处理方法,其特征在于,所述根据所述算术编码和所述预测区间生成所述首位待解码分词的首位解码分词及所述首位解码分词的第一解码区间,包括:根据所述算术编码和所述预测区间的上界和下界选取所述预测区间中的首位目标区间,其中,所述算术编码大于所述首位目标区间的下界,并且所述算术编码小于所述首位目标区间的上界;根据所述首位目标区间生成所述首位待解码分词的首位解码分词及所述首位解码分词的第一解码区间。11.如权利要求8所述的文本处理方法,其特征在于,所述利用所述第一解码区间对所述首位待解码分词的相邻待解码分词进行预测区间更新,得到所述相邻待解码分词的更新预测区间,包括:利用如下预测区间更新算法和所述第一解码区间对所述首位待解码分词的相邻待解码分词进行预测区间更新,得到所述相邻待解码分词的更新预测区间:其中,表示所述相邻待解码分词的更新预测区间,表示所述第一解码区间的区间下界,表示所述第一解码区间的区间上界,表示根据所述预测区间确定的所述相邻待解码分词关于预设的分词词典中第个分词的累积概率,表示根据所述预测区间确定的所述相邻待解码分词关于预设的分词词典中第个分词的累积概率,表示预设的分词词典中分词的分词总数,表示所述压缩文本中待解码分词的分词标识。12.如权利要求8所述的文本处理方法,其特征在于,所述根据所述更新预测区间和所述算术编码生成所述相邻待解码分词的相邻解码分词,直至解码区间更新次数达到预设的解码阈值,得到所述压缩文本的解压文本,包括:根据所述算术编码和所述更新预测区间的上界和下界选取所述更新预测区间中的相
邻目标区间,其中,所述算术编码大于所述相邻目标区间的下界,并且所述算术编码小于所述相邻目标区间的上界;根据所述相邻目标区间生成所述相邻待解码分词的相邻解码分词,直至解码区间更新次数达到预设的解码阈值,将所述压缩文本的解码分词和所述种子分词按分词顺序拼接为所述压缩文本的解压文本。13.一种文本处理系统,其特征在于,所述系统包括:概率分布预测模块,用于将目标文本的种子分词输入至预设的大语言模型,计算所述目标文本的预测概率分布;文本切分模块,用于生成所述目标文本的切分样本;算术编码模块,用于根据所述预测概率分布生成所述切分样本的算术编码;文本压缩模块,用于根据所述算术编码将所述目标文本压缩为压缩文本。14.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述处理器用于执行存储在所述存储器上的计算机程序;所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至12中任意一项所述的文本处理方法。15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至12中任意一项所述的文本处理方法。

技术总结
本申请涉及人工智能技术领域,揭露了一种文本处理方法、系统、电子设备以及存储介质,包括:将目标文本的种子分词输入至预设的大语言模型,计算所述目标文本的预测概率分布,根据预测概率分布生成目标文本的算术编码;根据算术编码将目标文本压缩为压缩文本;根据种子分词和大语言模型生成压缩文本内首位待解码分词的预测区间;根据算术编码和预测区间生成首位解码分词及第一解码区间;通过对预测区间的不断更新,逐个完成压缩文本中待解码分词的解码,得到压缩文本的解压文本。通过本申请实施的大语言模型计算目标文本的预测概率分布以及根据预测概率分布进行目标文本的算术编码和解码,可以提高文本处理时的文本的压缩率。可以提高文本处理时的文本的压缩率。可以提高文本处理时的文本的压缩率。


技术研发人员:刘知胜 黄泼 罗桦槟
受保护的技术使用者:深圳市领存技术有限公司
技术研发日:2023.08.28
技术公布日:2023/10/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐