中文时间信息的识别方法、装置、设备及存储介质与流程
未命名
09-24
阅读:42
评论:0
1.本公开涉及自然语言处理技术领域,尤其涉及一种中文时间信息的识别方法、装置、设备及存储介质。
背景技术:
2.语音交互技术也被称为自然语言理解,随着语音交互技术的发展,语音交互技术已经被广泛应用到各个领域。目前在汽车领域,车辆已经具备自然语言处理能力,并能够根据用户的指令执行相应的操作,实现人与车辆之间的自然语言通信。
3.目前,在人们的日常生活中,时间是一个非常重要的维度,人们的工作日程的安排,学习计划的制定都需要时间这一维度。让车辆正确的识别时间有着重大的作用与意义,但是在中文时间识别方面,目前只能识别出自然语言中的公历日期,无法识别中国农历干支纪年法的日期,用户体验较差。
技术实现要素:
4.为了解决上述技术问题,本公开提供了一种中文时间信息的识别方法、装置、设备及存储介质,能够识别传统农历干支纪年法、传统节日时间以及传统的十二时辰,提高识别中文时间信息的效率与准确度。
5.第一方面,本公开提供了一种中文时间信息的识别处理方法,包括:
6.对待处理的文本进行分词处理,得到分词结果;
7.对所述分词结果中的字符的类型进行标注,得到所述分词结果的标注信息,所述类型包括时间数词和时间单位;
8.基于所述分词结果以及所述分词结果的标注信息,确定得到所述文本中包含的时间实体;
9.响应于所述时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到所述时间实体对应的公历时间。
10.在一些实施例中,所述对待处理的文本进行分词处理,得到分词结果包括:
11.基于预设的词典库对所述文本进行分词处理,得到至少一种备选的分词结果,所述词典库中包括农历的时间实体;
12.分别针对每种备选的分词结果生成对应的有向无环图;
13.基于预设模型确定各有向无环图对应的概率,将概率最大的有向无环图对应的分词结果确定为所述文本的分词结果。
14.在一些实施例中,所述对所述分词结果中的字符的类型进行标注,得到所述分词结果的标注信息,包括:
15.采用第一标签对所述分词结果中的时间数词进行标注;
16.采用第二标签对所述分词结果中的时间单位进行标注;
17.采用第三标签对所述分词结果中除时间数词和时间单位以外的字符进行标注。
18.在一些实施例中,所述对所述分词结果中的字符的类型进行标注,得到所述分词结果的标注信息,还包括:
19.采用第四标签对农历的时间数词和时间单位进行标注。
20.在一些实施例中,所述基于所述分词结果以及所述分词结果的标注信息,确定得到所述文本中包含的时间实体,包括:
21.基于所述分词结果和所述分词结果的标注信息,确定所述分词结果中由时间数词和时间单位组成的词汇为时间实体。
22.在一些实施例中,所述响应于所述时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到所述时间实体对应的公历时间之前,所述方法还包括:
23.基于预设的词典库,确定所述时间实体是否是农历的时间实体。
24.第二方面,本公开提供了一种中文时间信息的识别装置,包括:
25.分词单元,用于对待处理的文本进行分词处理,得到分词结果;
26.标注单元,用于对所述分词结果中的字符的类型进行标注,得到所述分词结果的标注信息,所述类型包括时间数词和时间单位;
27.确定单元,用于基于所述分词结果以及所述分词结果的标注信息,确定得到所述文本中包含的时间实体;
28.转换单元,用于响应于所述时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到所述时间实体对应的公历时间。
29.在一些实施例中,所述分词单元包括:
30.分词子单元,用于基于预设的词典库对所述文本进行分词处理,得到至少一种备选的分词结果,所述词典库中包括农历的时间实体;
31.生成子单元,用于分别针对每种备选的分词结果生成对应的有向无环图;
32.确定子单元,用于基于预设模型确定各有向无环图对应的概率,将概率最大的有向无环图对应的分词结果确定为所述文本的分词结果。
33.第三方面,本公开提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如第一方面任一项所述方法的步骤。
34.第四方面,本公开提供了一种电子设备,包括:
35.一个或多个处理器;
36.存储器,用于存储一个或多个程序或指令;
37.所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至6任一项所述方法的步骤。
38.本公开实施例提供的技术方案与现有技术相比具有如下优点:
39.本公开提供一种中文时间信息的识别方法、装置、设备及存储介质,首先对待处理的文本进行分词,获取到分词结果,然后对分词结果中的字符的类型进行标注,获取到分词结果的标注信息,其中,类型包括时间数词和时间单位,进一步地基于分词结果与分词结果的标注信息,确定得到文本中包含的时间实体,如果时间实体为农历的时间实体,则基于农历时间与公历时间之间的映射关系,确定得到农历的时间实体对应的公历时间。由此,能够识别传统农历纪年法、传统节日时间以及传统的十二时辰,提高识别中文时间信息的效率与准确度。
附图说明
40.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
41.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
42.图1为本公开实施例提供的一种中文时间信息的识别方法的流程图;
43.图2为本公开实施例提供的一种备选分词结果的有向无环图示意图;
44.图3为本公开实施例提供的一种中文时间信息的识别装置的结构框图;
45.图4为本公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
46.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
47.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
48.图1为本公开实施例提供的一种中文时间信息的识别方法的流程图。本方法适用于人机语音交互时对用户的中文时间信息进行识别的情况,可应用于车辆等具有语音交互能力的设备。本方法可以示例性的由车辆中的车机来执行。如图1所示,该方法包括以下步骤:
49.s110、对待处理的文本进行分词处理,得到分词结果。
50.其中,待处理文本为需要进行识别的文本,在本公开实施例中即为用户与车机进行语音交互时用户的语音信息通过车机转换得到的文本。
51.进行分词处理可以理解为对待处理文本进行词语划分的过程。
52.具体地,在用户与车机进行语音交互时,车机接收到用户的语音信息,将用户的语音信息转换为待处理文本,随后对待处理文本中的词语进行划分,得到分词结果。
53.在本公开实施例中,可以预设词典库,在对待处理文本进行分词处理时,可以依照预设的词典库进行分词处理。
54.由此,在依照预设的词典库进行分词处理时,可以有效提高分词处理的效率。
55.在一些实施例中,对待处理的文本进行分词处理,得到分词结果,包括:
56.s11、基于预设的词典库对文本进行分词处理,得到至少一种备选的分词结果,词典库中包括农历的时间实体。
57.s12、分别针对每种备选的分词结果生成对应的有向无环图。
58.s13、基于预设模型确定各有向无环图对应的概率,将概率最大的有向无环图对应的分词结果确定为文本的分词结果。
59.其中,预设的词典库可以采用前缀词典树的方式建立得到。预设的词典库可以包括时间实体,尤其是农历的时间实体。
60.在一些实施例中,预设的词典库还可以包括各种传统节日以及传统的十二时辰的计时法。
61.备选的分词结果为依照预设的词典库对待处理文本进行分词处理后得到的可能的分词结果,备选的分词结果可以有多个。
62.有向无环图为无回路的有向图,在本公开实施例中备选的分词结果可以用有向无环图进行表示。
63.图2为本公开实施例提供的一种备选分词结果的有向无环图示意图。如图2所示,对待识别文本“他于庚子年辛巳月戊辰日出生”进行分词的一种备选的分词结果为“他\于\庚子年辛巳月戊辰日\出生”,根据此备选的分词结果的各分词的顺序关系建立有向无环图。而待识别文本“他于庚子年辛巳月戊辰日出生”也可以有其他备选结果,例如“他\于\庚子年\辛巳月戊辰日\出生”。
64.预设模型为对于可能出现的有向无环图建立的计算对应概率的模型,而有向无环图的概率越高,则分词结果越合理。
65.概率最大的有向无环图为待处理文本的各分词结果中最合理的分词结果。
66.具体地,基于预设的包括农历的时间实体的词典库对待处理文本进行分词处理时,不同的词汇前缀会有不同的分词结果,对于不同前缀而得到的不同分词结果,可分别生成对应的有向无环图,再根据预设模型确定各有向无环图对应的概率,而概率最大的有向无环图可确定为待处理文本的分词结果。
67.由此,在对待处理文本进行分词时,可以对包括农历的时间实体进行分词,并且可以得到最合理的分词结果。
68.s120、对分词结果中的字符的类型进行标注,得到分词结果的标注信息,类型包括时间数词和时间单位。
69.其中,字符的类型可以根据字符的含义确定也可以根据字符的属性确定。在本公开实施例中字符类型主要包括时间数词与时间单位。
70.分词结果的标注信息为对分词结果进行标注后得到的标签。
71.在一些实施例中,对分词结果中的字符的类型进行标注,得到分词结果的标注信息,包括:
72.s21、采用第一标签对分词结果中的时间数词进行标注;
73.s22、采用第二标签对分词结果中的时间单位进行标注;
74.s23、采用第三标签对分词结果中除时间数词和时间单位以外的字符进行标注。
75.其中,第一标签、第二标签和第三标签可以根据需要进行设定,比如第一标签可以示例性的被具体为m,即分词结果中表示时间数词的字符可以用m进行标注。
76.第二标签可以示例性的被具体为t,即分词结果中表示时间单位的字符可以用t进行标注。
77.第三标签可以示例性的被具体为o,即分词结果中出现除表示时间数词以及时间单位以外的字符可以用o标注。
78.举例来说,对于根据最大概率有向无环图确定的分词结果,在对其中的字符进行标注时,可使用第一标签m对分词结果中表示时间数词的字符进行标注,使用第二标签t对分词结果中表示时间单位的字符进行标注,而表示除时间数词以及时间单位以外的字符可
使用第三标签o进行标注,最终得到分词结果的标注信息。
79.由此,在得到最合理的分词结果之后,可以确定分词结果中的时间数词以及时间单位,有利于识别时间信息。
80.在一些实施例中,对分词结果中的字符的类型进行标注,得到分词结果的标注信息,还可以包括:
81.采用第四标签对农历的时间数词和时间单位进行标注。
82.其中,第四标签可以是h,即分词结果中表示农历的时间数词和时间单位的字符可以用h进行标注。另外,时间数词、时间单位对应的标签可以有两个,农历的时间数据对应的标签可以包括m和h,农历的时间单位对应的标签可以包括t和h。
83.在其他实施方式中,第四标签可以采用其他的字符或字符串对相应地字符进行标注,在此不限定。
84.由此,通过第四标签可以区分农历的时间数词以及时间单位,便于快速识别文本中农历的时间实体。
85.s130、基于分词结果以及分词结果的标注信息,确定得到文本中包含的时间实体。
86.其中,时间实体可以由时间数词和时间单位组成。在本公开实施例中时间实体可以是农历的时间实体,也可以是公历的时间实体。
87.在一些实施例中,基于分词结果以及分词结果的标注信息,确定得到文本中包含的时间实体,包括:
88.基于分词结果和分词结果的标注信息,确定分词结果中由时间数词和时间单位组成的词汇为时间实体。
89.具体地,在完成对分词结果的标注以后,可以在时间数词以及时间单位的标注的基础上确定由时间数词和时间单位组成的时间实体,时间实体可以是公历的时间实体也可以是农历的时间实体。
90.由此,可以在对分词结果的字符类型标注的基础上,确定由时间数词与时间单位组成的时间实体。
91.s140、响应于时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到时间实体对应的公历时间。
92.其中,农历时间与公历时间之间的映射关系可以为农历时间转换公历时间的关系式。
93.具体地,在确定时间实体为农历的时间实体时,可以依照农历时间于公历时间之间的映射关系,将农历时间转换为公历时间。
94.由此,将农历时间转换为公历时间,可以适应车机的自然语言理解能力,提高用户的交互体验。
95.在一些实施例中,响应于时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到时间实体对应的公历时间之前,方法还包括:
96.基于预设的词典库,确定时间实体是否是农历的时间实体。
97.具体地,在预设的词典库中包含农历的时间实体,可以在确定时间实体是否是农历的时间实体时,在预设的词典库中进行匹配,若匹配到预设的词典库中包含对应的农历的时间实体,则确定时间实体为农历的时间实体,若没有匹配到预设的词典库中包含对应
的农历的时间实体,则确定时间实体为公历的时间实体。
98.由此,可以在预设的词典库的基础上确定农历的时间实体,进而将农历时间转换为公历时间。
99.在另一些实施例中,响应于时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到时间实体对应的公历时间之前,方法还包括:
100.基于分词结果的标注信息,确定时间实体是否是农历的时间实体。
101.具体地,在采用第四字符对农历的时间数词与时间单位进行标注时,可以结合第四字符标注的时间数词与时间单位确定时间实体为农历的时间实体。
102.由此,可以提高对农历时间实体的识别准确度,避免出现对农历时间实体识别错误的情况。
103.目前,在语音交互方面,对于中文时间的识别与提取采取的是正则规则或者机器学习的方式,而两种方式会出现中文时间识别不全或者提取错误的情况,并且在对中文时间信息进行处理时由于正则规则对于重复出现的中文时间信息的重复识别,使得对于中文时间的识别效率较低。
104.本公开实施例提供的中文时间信息的识别方法,首先对待处理的文本进行分词,获取到分词结果,然后对分词结果中的字符的类型进行标注,获取到分词结果的标注信息,其中,类型包括时间数词和时间单位,进一步地基于分词结果与分词结果的标注信息,确定得到文本中包含的时间实体,最后相应时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到时间实体对应的公历时间。在确定重复出现时间实体时,可以在同一前缀的条件下避免重复地对时间实体进行识别,能够识别中国传统农历纪年法、传统节日时间以及中国传统的十二时辰,提高识别中文时间信息的效率与准确度。
105.在本公开另一种实施方式中,为了识别中文时间信息中包含的各种传统节日以及十二时辰计时法,可以在确定时间实体时基于预设的词典库确定包含各种传统节日以及十二时辰计时法的时间实体。
106.在本公开实施例中,基于预设的词典库,确定包含各种传统节日以及十二时辰计时法的时间实体。
107.具体地,若分词结果中出现包含传统节日或十二时辰计时法的时间实体,可以根据预设的词典库,匹配上述包含传统节日或十二时辰计时法的时间实体。
108.由此,可以完善对于中文时间信息的提取方法,提高用户的交互体验。
109.在另一些实施例中,基于分词结果以及分词结果的标注信息,确定包含各种传统节日以及十二时辰计时法的时间实体。
110.其中,分词结果的标注信息可以包括传统节日以及十二时辰计时法的标注。
111.示例性地,分词结果中出现传统节日时,可以标注为jr,分词结果中出现十二时辰计时法时,可以标注为iw,在此标注方式不作限定。
112.具体地,若分词结果中出现传统节日或十二时辰计时法的时间实体,可以根据分词结果以及分词结果的标注信息,确定包含各种传统节日以及十二时辰计时法的时间实体。
113.由此,可以提高识别包含各种传统节日以及十二时辰计时法的时间实体的准确度。
114.在本公开又一种实施方式中,为了使识别的中文时间信息适用于车机,可以将识别出的中文时间信息转换为相应的格式。
115.在本公开实施例中,响应于识别的中文时间信息,将识别的中文时间信息转换为对应时间实体的标准格式。
116.具体地,车机以公历时间为准,在将农历的时间转换为公历时间后,若时间实体为日期(date),则转换为yyyy-mm-dd的格式,若时间实体为日期时间(datetime),则转换成yyyy-mm-dd hh:mm:ss的格式,若时间实体为时间(time),则转换为hh:mm:ss的格式。
117.由此,可以使识别的中文时间信息格式统一,更加容易提取,提高用户交互体验。
118.对应本公开实施例提供的中文时间信息的识别方法,本公开实施例还提供里一种中文时间信息的识别装置。图3为本公开实施例提供的一种中文时间信息的识别装置的结构框图,如图3所示,该中文时间信息的识别装置包括:
119.分词单元301,用于对待处理的文本进行分词处理,得到分词结果。
120.标注单元302,用于对分词结果中的字符的类型进行标注,得到分词结果的标注信息,类型包括时间数词和时间单位。
121.确定单元303,用于基于分词结果以及分词结果的标注信息,确定得到文本中包含的时间实体。
122.转换单元304,用于响应于时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到时间实体对应的公历时间。
123.在一些实施例中,分词单元包括:
124.分词子单元,用于基于预设的词典库对文本进行分词处理,得到至少一种备选的分词结果,词典库中包括农历的时间实体。
125.生成子单元,用于分别针对每种备选的分词结果生成对应的有向无环图;
126.确定子单元,用于基于预设模型确定各有向无环图对应的概率,将概率最大的有向无环图对应的分词结果确定为文本的分词结果。
127.在一些实施例中,标注单元具体用于:
128.采用第一标签对分词结果中的时间数词进行标注;
129.采用第二标签对分词结果中的时间单位进行标注;
130.采用第三标签对分词结果中除时间数词和时间单位以外的字符进行标注。
131.在一些实施例中,标注单元具体用于:
132.采用第四标签对农历的时间数词和时间单位进行标注。
133.在一些实施例中,确定单元具体用于:
134.基于分词结果和分词结果的标注信息,确定分词结果中由时间数词和时间单位组成的词汇为时间实体。
135.在一些实施例中,转换单元具体用于:
136.基于预设的词典库,确定时间实体是否是农历的时间实体。
137.以上实施例公开的中文时间信息的识别装置能够执行以上各实施例公开的中文时间信息的识别方法,具有相同或相应的有益效果,为避免重复,在此不再赘述。
138.本公开还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述任一种方法的步骤。
139.示例性地,程序或指令使计算机执行一种中文时间信息的识别方法,该方法包括:
140.对待处理的文本进行分词处理,得到分词结果;
141.对分词结果中的字符的类型进行标注,得到分词结果的标注信息,类型包括时间数词和时间单位;
142.基于分词结果以及分词结果的标注信息,确定得到文本中包含的时间实体;
143.响应于时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到时间实体对应的公历时间。
144.可选的,该计算机可执行指令在由计算机处理器执行时还可以用于执行本公开所提供的上述任意中文时间信息的识别方法的技术方案,实现对应的有益效果。
145.通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本技术可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例的方法。
146.本公开还提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序或指令;处理器通过调用存储器存储的程序或指令,用于执行上述任一种方法的步骤,实现对应的有益效果。
147.图4为本公开提供的电子设备的硬件结构示意图。如图4所示,电子设备包括一个或多个处理器401和存储器402。
148.处理器401可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
149.存储器402可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器401可以运行所述程序指令,以实现上文所述的本公开的实施例的控制器检测方法,和/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
150.在一个示例中,电子设备还可以包括:输入装置403和输出装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
151.此外,该输入装置403还可以包括例如键盘、鼠标等等。
152.该输出装置404可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
153.当然,为了简化,图4中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
154.需要说明的是,在本文中,诸如术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
155.以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种中文时间信息的识别方法,其特征在于,包括:对待处理的文本进行分词处理,得到分词结果;对所述分词结果中的字符的类型进行标注,得到所述分词结果的标注信息,所述类型包括时间数词和时间单位;基于所述分词结果以及所述分词结果的标注信息,确定得到所述文本中包含的时间实体;响应于所述时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到所述时间实体对应的公历时间。2.根据权利要求1所述的方法,其特征在于,所述对待处理的文本进行分词处理,得到分词结果包括:基于预设的词典库对所述文本进行分词处理,得到至少一种备选的分词结果,所述词典库中包括农历的时间实体;分别针对每种备选的分词结果生成对应的有向无环图;基于预设模型确定各有向无环图对应的概率,将概率最大的有向无环图对应的分词结果确定为所述文本的分词结果。3.根据权利要求1所述的方法,其特征向在于,所述对所述分词结果中的字符的类型进行标注,得到所述分词结果的标注信息,包括:采用第一标签对所述分词结果中的时间数词进行标注;采用第二标签对所述分词结果中的时间单位进行标注;采用第三标签对所述分词结果中除时间数词和时间单位以外的字符进行标注。4.根据权利要求3所述的方法,其特征在于,所述对所述分词结果中的字符的类型进行标注,得到所述分词结果的标注信息,还包括:采用第四标签对农历的时间数词和时间单位进行标注。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述分词结果以及所述分词结果的标注信息,确定得到所述文本中包含的时间实体,包括:基于所述分词结果和所述分词结果的标注信息,确定所述分词结果中由时间数词和时间单位组成的词汇为时间实体。6.根据权利要求1所述的方法,其特征在于,所述响应于所述时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到所述时间实体对应的公历时间之前,所述方法还包括:基于预设的词典库,确定所述时间实体是否是农历的时间实体。7.一种中文时间信息的识别装置,其特征在于,包括:分词单元,用于对待处理的文本进行分词处理,得到分词结果;标注单元,用于对所述分词结果中的字符的类型进行标注,得到所述分词结果的标注信息,所述类型包括时间数词和时间单位;确定单元,用于基于所述分词结果以及所述分词结果的标注信息,确定得到所述文本中包含的时间实体;转换单元,用于响应于所述时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到所述时间实体对应的公历时间。
8.根据权利要求7所述的装置,其特征在于,所述分词单元包括:分词子单元,用于基于预设的词典库对所述文本进行分词处理,得到至少一种备选的分词结果,所述词典库中包括农历的时间实体;生成子单元,用于分别针对每种备选的分词结果生成对应的有向无环图;确定子单元,用于基于预设模型确定各有向无环图对应的概率,将概率最大的有向无环图对应的分词结果确定为所述文本的分词结果。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至6任一项所述方法的步骤。10.一种电子设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序或指令;所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至6任一项所述方法的步骤。
技术总结
本公开涉及一种中文时间信息的识别方法、装置、设备及存储介质。其中,中文时间信息的识别方法包括:对待处理的文本进行分词处理,得到分词结果;对分词结果中的字符的类型进行标注,得到分词结果的标注信息,类型包括时间数词和时间单位;基于分词结果以及分词结果的标注信息,确定得到文本中包含的时间实体;响应于时间实体为农历的时间实体,基于农历时间与公历时间之间的映射关系,确定得到时间实体对应的公历时间。通过本公开的技术方案,能够识别传统农历干支纪年法、传统节日时间以及传统的十二时辰,提高识别中文时间信息的效率与准确度。确度。确度。
技术研发人员:巴翔
受保护的技术使用者:北京罗克维尔斯科技有限公司
技术研发日:2022.03.17
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/