商品信息的文本解析方法及装置与流程
未命名
08-29
阅读:148
评论:0

1.本公开涉及信息检索技术领域,尤其涉及商品信息的文本解析方法及装置。
背景技术:
2.在当前的电商市场中,存在大量的棉花娃娃商品,但这些信息通常是以自然语言的形式表达,包含有大量影视、动画、游戏等垂直行业领域知识,以及商家自行创造的娃娃名字等信息,难以被计算机理解和处理。
3.因此,如何识别棉花娃娃的商品信息,以成为可以被计算机理解和处理的信息成为亟待解决的问题。
技术实现要素:
4.为克服相关技术中存在的问题,本公开实施例提供商品信息的文本解析方法及装置。所述技术方案如下:
5.根据本公开实施例的第一方面,提供一种商品信息的文本解析方法,包括:
6.获取棉花娃娃对应商品信息的文本数据;
7.接收人工标注的预设数量的所述文本数据的结构化标签,所述结构化标签中包括:所述棉花娃娃的属性,和/或,所述棉花娃娃的尺寸,和/或,所述棉花娃娃的姓名,和/或,所述棉花娃娃的类型;
8.将所述结构化标签和所述结构化标签对应的文本数据输入大语言模型,以对所述大语言模型进行训练,得到目标大语言模型,其中,所述目标大语言模型的输出为解析后的结构化标签;
9.接收待解析棉花娃娃对应商品信息的待解析文本数据;
10.将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签。
11.本公开实施例提供一种商品信息的文本解析方法,包括:获取棉花娃娃对应商品信息的文本数据;接收人工标注的预设数量的文本数据的结构化标签,结构化标签中包括:棉花娃娃的属性,和/或,棉花娃娃的尺寸,和/或,棉花娃娃的姓名,和/或,棉花娃娃的类型;将结构化标签和结构化标签对应的文本数据输入大语言模型,以对大语言模型进行训练,得到目标大语言模型,其中,目标大语言模型的输出为解析后的结构化标签;接收待解析棉花娃娃对应商品信息的待解析文本数据;将待解析商品标题的文本数据输入目标大语言模型,并通过目标大语言模型输出待解析商品标题的文本数据的结构化标签。其中,可以无需依赖行业知识,利用大语言模型技术,自动地将商品信息转化为结构化数据,以便于计算机理解和处理,并且方便后续商业应用的使用。
12.在一个实施例中,所述预设数量为整数,且小于或等于10。
13.在一个实施例中,所述目标大语言模型输出的结构化标签的格式为xml,或者,json。
14.在一个实施例中,所述方法还包括:
15.将所述待解析文本数据的结构化标签保存至数据库或文件系统中。
16.在一个实施例中,所述将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签,包括:
17.将所述待解析商品标题的文本数据输入所述目标大语言模型;
18.输出提示信息;所述提示信息提示会对所述待解析商品标题的文本数据进行解析,并且缺省值会以空字符串代替;
19.输出所述待解析商品标题的文本数据的结构化标签。
20.在一个实施例中,所述大语言模型为:chatgpt,或者,gpt-4。
21.根据本公开实施例的第二方面,提供一种商品信息的文本解析装置,包括:
22.获取模块,用于获取棉花娃娃对应商品信息的文本数据;
23.第一接收模块,用于接收人工标注的预设数量的所述文本数据的结构化标签,所述结构化标签中包括:所述棉花娃娃的属性,和/或,所述棉花娃娃的尺寸,和/或,所述棉花娃娃的姓名,和/或,所述棉花娃娃的类型;
24.训练模块,用于将所述结构化标签和所述结构化标签对应的文本数据输入大语言模型,以对所述大语言模型进行训练,得到目标大语言模型,其中,所述目标大语言模型的输出为解析后的结构化标签;
25.第二接收模块,用于接收待解析棉花娃娃对应商品信息的待解析文本数据;
26.解析模块,用于将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签。
27.在一个实施例中,所述预设数量为整数,且小于或等于10。
28.在一个实施例中,所述目标大语言模型输出的结构化标签的格式为xml,或者,json。
29.在一个实施例中,所述装置还包括:
30.保存模块,用于将所述待解析文本数据的结构化标签保存至数据库或文件系统中。
31.在一个实施例中,所述解析模块,包括:
32.输入子模块,用于将所述待解析商品标题的文本数据输入所述目标大语言模型;
33.第一输出子模块,用于输出提示信息;所述提示信息提示会对所述待解析商品标题的文本数据进行解析,并且缺省值会以空字符串代替;
34.第二输出子模块,用于输出所述待解析商品标题的文本数据的结构化标签。
35.在一个实施例中,所述大语言模型为:chatgpt,或者,gpt-4。
36.根据本公开实施例的第三方面,提供一种商品信息的文本解析装置,包括:
37.处理器;
38.用于存储处理器可执行指令的存储器;
39.其中,所述处理器被配置为:
40.获取棉花娃娃对应商品信息的文本数据;
41.接收人工标注的预设数量的所述文本数据的结构化标签,所述结构化标签中包括:所述棉花娃娃的属性,和/或,所述棉花娃娃的尺寸,和/或,所述棉花娃娃的姓名,和/
或,所述棉花娃娃的类型;
42.将所述结构化标签和所述结构化标签对应的文本数据输入大语言模型,以对所述大语言模型进行训练,得到目标大语言模型,其中,所述目标大语言模型的输出为解析后的结构化标签;
43.接收待解析棉花娃娃对应商品信息的待解析文本数据;
44.将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签。
45.根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项所述方法的步骤。
46.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
47.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
48.图1是根据一示例性实施例示出的商品信息的文本解析方法的流程图。
49.图2是根据一示例性实施例示出的一种商品信息的文本解析装置的框图。
50.图3是根据一示例性实施例示出的一种用于商品信息的文本解析装置80的框图。
具体实施方式
51.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
52.在当前的电商市场中,存在大量的棉花娃娃商品,但这些信息通常是以自然语言的形式表达,包含有大量影视、动画、游戏等垂直行业领域知识,以及商家自行创造的娃娃名字等信息,难以被计算机理解和处理。为了解决这个问题,本公开提出了一种基于大语言模型技术的棉花娃娃商品文本解析方法,能够在不依赖大量垂直行业知识的情况下,自动地将棉花娃娃商品信息转化为结构化数据,从而支持各种商业应用。
53.图1是根据一示例性实施例示出的商品信息的文本解析方法的流程图,如图1所示,包括以下步骤s101-s105:
54.在步骤s101中,获取棉花娃娃对应商品信息的文本数据;其中,棉花娃娃对应商品信息的文本数据为自然语言的形式,且难以被计算机理解和处理。
55.可以从电商网站或其他来源获取棉花娃娃商品信息的文本数据。
56.例如:从电商网站获取的棉花娃娃商品文本信息为:
57.商品标题:【收藏数调】魈咪原神魈属性20cm棉花娃娃。
58.在步骤s102中,接收人工标注的预设数量的文本数据的结构化标签,结构化标签中包括:棉花娃娃的属性,和/或,棉花娃娃的尺寸,和/或,棉花娃娃的姓名,和/或,棉花娃娃的类型;
59.可以人工标注少量“商品信息文本
–
结构化标签”样本(约10个左右,也可以小于10个)。
60.继续按照上述的例子,人工标注的结构化标签格式为:
61.解析结果:{"属性":"原神-魈","娃名":"魈咪","尺寸":"20cm","类型":"裸娃"}
62.在步骤s103中,将结构化标签和结构化标签对应的文本数据输入大语言模型,以对大语言模型进行训练,得到目标大语言模型,其中,目标大语言模型的输出为解析后的结构化标签;
63.将人工标注的结构化标签和结构化标签对应的文本数据作为大语言模型的提示语,输入大语言模型进行训练,使用大语言模型技术对文本数据进行解析,以识别棉花娃娃的各个参数特征,如属性、尺寸等。
64.根据目标大语言模型的解析结果生成结构化标签,格式可以是xml,或者,json。
65.其中,大语言模型技术是指一种基于深度学习的,参数规模在千亿级别以上的自然语言处理技术,可以是chatgpt、gpt-4等模型。
66.在步骤s104中,接收待解析棉花娃娃对应商品信息的待解析文本数据;
67.在步骤s105中,将待解析商品标题的文本数据输入目标大语言模型,并通过目标大语言模型输出待解析商品标题的文本数据的结构化标签。
68.上述步骤s105包括以下子步骤a1-a3:
69.a1、将待解析商品标题的文本数据输入目标大语言模型;
70.a2、输出提示信息;提示信息提示会对待解析商品标题的文本数据进行解析,并且缺省值会以空字符串代替;
71.a3、输出待解析商品标题的文本数据的结构化标签。
72.将待解析商品标题的文本数据输入训练后的大语言模型后,可以输出如下提示信息:
73.学习了以上样例后,接下来对新的商品标题进行解析,缺省值以空字符串代替。结果用json格式显示,且只显示解析结果,不显示商品标题。
74.在得到了待解析商品标题的文本数据的结构化标签后,还可以将待解析文本数据的结构化标签保存至数据库或文件系统中。
75.本公开提供的方法包括:训练过程和预测过程,具体的,训练过程:根据期望得到的结构化解析结果,对真实商品标题生成“标题-结构化结果”的样本10个左右,并结合相应提示词输入已经过预训练的大语言模型。预测过程:获取期望模型解析的棉花娃娃商品标题,其中,利用少量样本使大语言模型,对棉花娃娃商品信息文本进行自然语言理解和分析,能够在不依赖行业领域知识的情况下,直接根据样本文本学会行业内商品命名风格和习惯,从而根据这类风格习惯,在文本内容中准确提取出指定特征参数(如:娃娃属性、娃娃名字等)。该方法能够克服传统基于规则的文本解析方法存在的局限性,如处理复杂文本、适应新领域等。并且还可以自动地将商品信息转化为结构化数据,方便后续商业应用的使用。同时,该方法还可以自动地更新模型,以保持与电商市场的变化同步,以适应市场的变化,从而提高解析准确率和效率。也即,可以利用少量样本使大语言模型学会棉花娃娃类商品标题的命名习惯,从而在不依赖大量行业领域知识的情况下,可适用于棉花娃娃这类涉及明星、影视、二次元等多种垂直领域的商品,并能从商品标题信息中识别出实际和领域知
识相关的名词。在电商业务上,尤其是缺乏足够相关知识语料储备的领域的搜索推荐业务中具备实用性。
76.下述为本公开装置实施例,可以用于执行本公开方法实施例。
77.图2是根据一示例性实施例示出的一种商品信息的文本解析装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图2所示,该商品信息的文本解析装置包括:
78.获取模块11,用于获取棉花娃娃对应商品信息的文本数据;
79.第一接收模块12,用于接收人工标注的预设数量的所述文本数据的结构化标签,所述结构化标签中包括:所述棉花娃娃的属性,和/或,所述棉花娃娃的尺寸,和/或,所述棉花娃娃的姓名,和/或,所述棉花娃娃的类型;
80.训练模块13,用于将所述结构化标签和所述结构化标签对应的文本数据输入大语言模型,以对所述大语言模型进行训练,得到目标大语言模型,其中,所述目标大语言模型的输出为解析后的结构化标签;
81.第二接收模块14,用于接收待解析棉花娃娃对应商品信息的待解析文本数据;
82.解析模块15,用于将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签。
83.在一个实施例中,所述预设数量为整数,且小于或等于10。
84.在一个实施例中,所述目标大语言模型输出的结构化标签的格式为xml,或者,json。
85.在一个实施例中,所述装置还包括:
86.保存模块,用于将所述待解析文本数据的结构化标签保存至数据库或文件系统中。
87.在一个实施例中,所述解析模块,包括:
88.输入子模块,用于将所述待解析商品标题的文本数据输入所述目标大语言模型;
89.第一输出子模块,用于输出提示信息;所述提示信息提示会对所述待解析商品标题的文本数据进行解析,并且缺省值会以空字符串代替;
90.第二输出子模块,用于输出所述待解析商品标题的文本数据的结构化标签。
91.在一个实施例中,所述大语言模型为:chatgpt,或者,gpt-4。
92.本公开实施例还提供一种商品信息的文本解析装置,包括:
93.处理器;
94.用于存储处理器可执行指令的存储器;
95.其中,处理器被配置为:
96.获取棉花娃娃对应商品信息的文本数据;
97.接收人工标注的预设数量的所述文本数据的结构化标签,所述结构化标签中包括:所述棉花娃娃的属性,和/或,所述棉花娃娃的尺寸,和/或,所述棉花娃娃的姓名,和/或,所述棉花娃娃的类型;
98.将所述结构化标签和所述结构化标签对应的文本数据输入大语言模型,以对所述大语言模型进行训练,得到目标大语言模型,其中,所述目标大语言模型的输出为解析后的结构化标签;
99.接收待解析棉花娃娃对应商品信息的待解析文本数据;
100.将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签。
101.上述处理器还可被配置为:
102.在一个实施例中,所述预设数量为整数,且小于或等于10。
103.在一个实施例中,所述目标大语言模型输出的结构化标签的格式为xml,或者,json。
104.在一个实施例中,所述处理器还被配置为:
105.将所述待解析文本数据的结构化标签保存至数据库或文件系统中。
106.在一个实施例中,所述将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签,包括:
107.将所述待解析商品标题的文本数据输入所述目标大语言模型;
108.输出提示信息;所述提示信息提示会对所述待解析商品标题的文本数据进行解析,并且缺省值会以空字符串代替;
109.输出所述待解析商品标题的文本数据的结构化标签。
110.在一个实施例中,所述大语言模型为:chatgpt,或者,gpt-4。
111.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
112.图3是根据一示例性实施例示出的一种用于商品信息的文本解析装置80的框图,该装置适用于终端设备。例如,装置80可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
113.装置80可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。
114.处理组件802通常控制装置80的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
115.存储器804被配置为存储各种类型的数据以支持在装置80的操作。这些数据的示例包括用于在装置80上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
116.电源组件806为装置80的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置80生成、管理和分配电力相关联的组件。
117.多媒体组件808包括在所述装置80和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏
幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置80处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
118.音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置80处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
119.i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
120.传感器组件814包括一个或多个传感器,用于为装置80提供各个方面的状态评估。例如,传感器组件814可以检测到装置80的打开/关闭状态,组件的相对定位,例如所述组件为装置80的显示器和小键盘,传感器组件814还可以检测装置80或装置80一个组件的位置改变,用户与装置80接触的存在或不存在,装置80方位或加速/减速和装置80的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
121.通信组件816被配置为便于装置80和其他设备之间有线或无线方式的通信。装置80可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
122.在示例性实施例中,装置80可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子组件实现,用于执行上述方法。
123.在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置80的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
124.一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置80的处理器执行时,使得装置80能够执行上述.的商品信息的文本解析方法,所述方法包括:
125.获取棉花娃娃对应商品信息的文本数据;
126.接收人工标注的预设数量的所述文本数据的结构化标签,所述结构化标签中包括:所述棉花娃娃的属性,和/或,所述棉花娃娃的尺寸,和/或,所述棉花娃娃的姓名,和/
或,所述棉花娃娃的类型;
127.将所述结构化标签和所述结构化标签对应的文本数据输入大语言模型,以对所述大语言模型进行训练,得到目标大语言模型,其中,所述目标大语言模型的输出为解析后的结构化标签;
128.接收待解析棉花娃娃对应商品信息的待解析文本数据;
129.将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签。
130.在一个实施例中,所述预设数量为整数,且小于或等于10。
131.在一个实施例中,所述目标大语言模型输出的结构化标签的格式为xml,或者,json。
132.在一个实施例中,所述处理器还被配置为:
133.将所述待解析文本数据的结构化标签保存至数据库或文件系统中。
134.在一个实施例中,所述将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签,包括:
135.将所述待解析商品标题的文本数据输入所述目标大语言模型;
136.输出提示信息;所述提示信息提示会对所述待解析商品标题的文本数据进行解析,并且缺省值会以空字符串代替;
137.输出所述待解析商品标题的文本数据的结构化标签。
138.在一个实施例中,所述大语言模型为:chatgpt,或者,gpt-4。
139.本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
140.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
技术特征:
1.一种商品信息的文本解析方法,其特征在于,包括:获取棉花娃娃对应商品信息的文本数据;接收人工标注的预设数量的所述文本数据的结构化标签,所述结构化标签中包括:所述棉花娃娃的属性,和/或,所述棉花娃娃的尺寸,和/或,所述棉花娃娃的姓名,和/或,所述棉花娃娃的类型;将所述结构化标签和所述结构化标签对应的文本数据输入大语言模型,以对所述大语言模型进行训练,得到目标大语言模型,其中,所述目标大语言模型的输出为解析后的结构化标签;接收待解析棉花娃娃对应商品信息的待解析文本数据;将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签。2.根据权利要求1所述的方法,其特征在于,所述预设数量为整数,且小于或等于10。3.根据权利要求1所述的方法,其特征在于,所述目标大语言模型输出的结构化标签的格式为xml,或者,json。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述待解析文本数据的结构化标签保存至数据库或文件系统中。5.根据权利要求1所述的方法,其特征在于,所述将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签,包括:将所述待解析商品标题的文本数据输入所述目标大语言模型;输出提示信息;所述提示信息提示会对所述待解析商品标题的文本数据进行解析,并且缺省值会以空字符串代替;输出所述待解析商品标题的文本数据的结构化标签。6.根据权利要求1所述的方法,其特征在于,所述大语言模型为:chatgpt,或者,gpt-4。7.一种商品信息的文本解析装置,其特征在于,包括:获取模块,用于获取棉花娃娃对应商品信息的文本数据;第一接收模块,用于接收人工标注的预设数量的所述文本数据的结构化标签,所述结构化标签中包括:所述棉花娃娃的属性,和/或,所述棉花娃娃的尺寸,和/或,所述棉花娃娃的姓名,和/或,所述棉花娃娃的类型;训练模块,用于将所述结构化标签和所述结构化标签对应的文本数据输入大语言模型,以对所述大语言模型进行训练,得到目标大语言模型,其中,所述目标大语言模型的输出为解析后的结构化标签;第二接收模块,用于接收待解析棉花娃娃对应商品信息的待解析文本数据;解析模块,用于将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签。8.根据权利要求1所述的方法,其特征在于,所述预设数量为整数,且小于或等于10。9.一种商品信息的文本解析装置,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:获取棉花娃娃对应商品信息的文本数据;接收人工标注的预设数量的所述文本数据的结构化标签,所述结构化标签中包括:所述棉花娃娃的属性,和/或,所述棉花娃娃的尺寸,和/或,所述棉花娃娃的姓名,和/或,所述棉花娃娃的类型;将所述结构化标签和所述结构化标签对应的文本数据输入大语言模型,以对所述大语言模型进行训练,得到目标大语言模型,其中,所述目标大语言模型的输出为解析后的结构化标签;接收待解析棉花娃娃对应商品信息的待解析文本数据;将所述待解析商品标题的文本数据输入所述目标大语言模型,并通过所述目标大语言模型输出所述待解析商品标题的文本数据的结构化标签。10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
技术总结
本公开是关于商品信息的文本解析方法及装置。该方法包括:获取棉花娃娃对应商品信息的文本数据;接收人工标注的预设数量的文本数据的结构化标签;将结构化标签和结构化标签对应的文本数据输入大语言模型,以对大语言模型进行训练,得到目标大语言模型,其中,目标大语言模型的输出为解析后的结构化标签;接收待解析棉花娃娃对应商品信息的待解析文本数据;将待解析商品标题的文本数据输入目标大语言模型,并通过目标大语言模型输出待解析商品标题的文本数据的结构化标签。其中,可以无需依赖行业知识,利用大语言模型技术,自动地将商品信息转化为结构化数据,以便于计算机理解和处理,并且方便后续商业应用的使用。并且方便后续商业应用的使用。并且方便后续商业应用的使用。
技术研发人员:明晨曦
受保护的技术使用者:无线生活(北京)信息技术有限公司
技术研发日:2023.05.31
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/