一种化学品知识图数据库的构建方法及其构建装置
未命名
09-29
阅读:74
评论:0
1.本发明涉及信息集成、数据融合及知识图谱等技术领域,尤其涉及一种化学品知识图数据库的构建方法、一种化学品知识图数据库的构建装置以及一种计算机可读存储介质。
背景技术:
2.由于化工产业全流程涉及大量危险化学品,且种类繁多,特性各异。危险化学品的生产、运输、存储与使用的每一个环节存在安全隐患,都可能导致生命财产安全受到威胁。
3.目前来说,在涉及危险化学品的实际工业过程中,由于各生产小组、各部门在业务过程中均会产生不同的数据,因而危险化学品在数据来源以及数据形式上均存在多样性,这使得对于危险化学品的监管方面难以做到数据侧的统筹兼顾与即时方便的获取,而数据信息的多样、分散不利于综合管理与信息获取。源自不同数据平台的数据会使得数据信息的获取变得复杂,降低数据获取效率,进而导致当用户有获取信息的需求时,很难通过一个简单的访问入口获取来自不同数据源的危险化学品的状态信息。
4.为了克服现有技术存在的上述缺陷,本领域亟需一种化学品知识图数据库的构建技术,能够融合不同来源、不同样式的危险化学品的信息数据,打破数据之间的壁垒,从而提供更加简洁有效的访问入口,高效获取危险化学品信息,以便更好地为用户提供信息服务与辅助决策。
技术实现要素:
5.以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之前序。
6.为了克服现有技术存在的上述缺陷,本发明提供了一种化学品知识图数据库的构建方法、一种化学品知识图数据库的构建装置以及一种计算机可读存储介质,能够融合不同来源、不同样式的危险化学品的信息数据,打破数据之间的壁垒,从而提供更加简洁有效的访问入口,高效获取危险化学品信息,以便更好地为用户提供信息服务与辅助决策。
7.具体来说,根据本发明的第一方面提供的一种化学品知识图数据库的构建方法包括以下步骤:从数据源获取涉及化学品知识的多条字段信息;根据知识图谱中的本体定义和本体约束,获取各所述字段信息所对应的由语义三元组表示的映射配置记录;将各所述映射配置记录与所述数据源进行数据链接,以将各所述映射配置记录分别转化为连接所述数据源的数据三元组;以及基于连接所述数据源的数据三元组,构建所述化学品知识图数据库。
8.进一步地,在本发明的一些实施例中,所述本体定义包括本体的类别属性、关系属性和/或数据属性,所述本体约束包括所述类别属性、所述关系属性和/或所述数据属性之
间的相互约束关系,所述根据知识图谱中的本体定义和本体约束,获取各所述字段信息对应的由语义三元组表示的映射配置记录的步骤包括:根据所述本体的类别属性、关系属性和/或数据属性,确定所述字段信息所对应的至少一条映射规则;根据所述类别属性、关系属性和/或数据属性之间的相互约束关系,确定所述至少一条映射规则的唯一性;将满足唯一性的至少一条所述映射规则所对应的多条映射配置记录,组合成映射关系表。
9.进一步地,在本发明的一些实施例中,所述映射规则包括主-谓-宾形式的语义三元组,所述根据所述本体的类别属性、关系属性和/或数据属性,确定所述字段信息所对应的至少一条映射规则的步骤包括:根据包括作为主语的所述类别属性的第一字段信息,确定其对应的第一映射规则为《第一字段名,rdf:type,类别属性》,在此,所述第一字段名具有普遍性,所述rdf:type为类型定义描述符,所述类别属性表示所述第一字段名所对应的类别属性;以及根据包括作为谓语的关系属性及其后连接宾语的第二字段信息,确定其对应的第二映射规则为《第二字段名,关系属性,第三字段名》,在此,所述第二字段名和所述第三字段名受制于所述第一映射规则的约束;此外,根据包括作为谓语的数据属性及其后连接宾语的第三字段信息,确定其对应的第三映射规则为《第四字段名,数据属性,第五字段名》,在此,所述第四字段名受制于所述第一映射规则的约束,所述第五字段名具有普遍性且包含数值信息。
10.进一步地,在本发明的一些实施例中,所述根据所述本体的类别属性、关系属性和/或数据属性,确定所述字段信息所对应的至少一条映射规则的步骤还包括:根据包括作为别名的字段名的第四字段信息,确定其对应的第四映射规则为《第六字段名,rdfs:label,第七字段名》,在此,所述第六字段名受制于所述第一映射规则的约束,所述rdfs:label为指定的别名标签,所述第七字段名为所述第六字段名所对应的别名名称。
11.进一步地,在本发明的一些实施例中,所述根据所述类别属性、关系属性和/或数据属性之间的相互约束关系,确定所述至少一条映射规则的唯一性的步骤包括:响应于任一所述字段信息被定义为第一类别、第一关系或第一数据属性,则不再将其定义为与所述第一类别、所述第一关系或所述第一数据属性类型处于同维度的第二类别、第二关系或第二数据属性。
12.进一步地,在本发明的一些实施例中,所述将各所述映射配置记录与所述数据源进行数据链接,以将各所述映射配置记录分别转化为连接所述数据源的数据三元组的步骤包括:获取所述数据源中的数据源表内容;将各所述映射配置记录分别连接对应的数据源表内容,以获得多条连接所述数据源的数据三元组;以及基于所述映射规则,对各所述各条映射配置记录进行分类,并将其对应的数据三元组分为类型定义三元组、关系属性三元组、数据属性三元组以及标签三元组。
13.进一步地,在本发明的一些实施例中,所述基于连接所述数据源的数据三元组,构建所述化学品知识图数据库的步骤包括:将所述数据三元组以数据流形式存储至图数据库,以构建所述化学品知识图数据库。
14.此外,根据本发明的第二方面提供的一种化学品知识图数据库的构建装置包括存储器及处理器。所述存储器上存储有计算机指令。所述处理器连接所述存储器,并被配置用于执行所述存储器上存储的计算机指令,以实施如本发明的第一方面中任一项所述的化学品知识图数据库的构建方法。
15.此外,根据本发明的第三方面提供的一种计算机可读存储介质,其上存储有计算机指令。所述计算机指令被处理器执行时,实施如本发明的第一方面中任一项所述的化学品知识图数据库的构建方法。
附图说明
16.在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
17.图1示出了根据本发明的一些实施例所提供的一种化学品知识图数据库的构建方法的流程示意图;
18.图2示出了根据本发明的另一些实施例所提供的化学品知识图数据库的构建框图;
19.图3示出了根据本发明的一些实施例所提供的映射关系的流程示意图;
20.图4示出了根据本发明的一些实施例所提供的数据链接的流程示意图;以及
21.图5示出了根据本发明的另一些实施例所提供的一种化学品知识图数据库的构建装置的结构框图。
22.附图标记
23.10
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
数据源连接模块;
24.11
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
知识图谱本体模块;
25.12
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
映射配置模块;
26.13
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
数据链接与融合模块;
27.500
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
化学品知识图数据库的构建装置;
28.510
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
存储器;
29.520
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理器;
30.s110~s140
ꢀꢀꢀꢀ
步骤;
31.s121~s123
ꢀꢀꢀꢀ
步骤;以及
32.s131~s133步骤。
具体实施方式
33.以下由特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合优选实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解,以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外,为了避免混乱或模糊本发明的重点,有些具体细节将在描述中被省略。
34.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本
发明中的具体含义。
35.另外,在以下的说明中所使用的“上”、“下”、“左”、“右”、“顶”、“底”、“水平”、“垂直”应被理解为该段以及相关附图中所绘示的方位。此相对性的用语仅是为了方便说明之用,其并不代表其所叙述的装置需以特定方位来制造或运作,因此不应理解为对本发明的限制。
36.能理解的是,虽然在此可使用用语“第一”、“第二”、“第三”等来叙述各种组件、区域、层和/或部分,这些组件、区域、层和/或部分不应被这些用语限定,且这些用语仅是用来区别不同的组件、区域、层和/或部分。因此,以下讨论的第一组件、区域、层和/或部分可在不偏离本发明一些实施例的情况下被称为第二组件、区域、层和/或部分。
37.如上所述,目前来说,在涉及危险化学品的实际工业过程中,由于各生产小组、各部门在业务过程中均会产生不同的数据,因而危险化学品的数据来源与数据形式都存在着多样性,这使得对于危险化学品的监管方面难以做到数据侧的统筹兼顾与即时方便的获取,而数据信息的多样、分散不利于综合管理与信息获取。用户往往需要通过多平台、多接口来获取数据信息,很难通过一个简单的访问入口获取来自不同数据源的危险化学品的状态信息。
38.为了克服现有技术存在的上述缺陷,本发明提供了一种化学品知识图数据库的构建方法、一种化学品知识图数据库的构建装置及一种计算机可读存储介质,能够融合不同来源、不同样式的危险化学品的信息数据,打破数据之间的壁垒,从而提供更加简洁有效的访问入口,高效获取危险化学品信息,以便更好地为用户提供信息服务与辅助决策。
39.在一些非限制性的实施例中,本发明的第一方面提供的上述化学品知识图数据库的构建方法,可以基于本发明的第二方面提供的化学品知识图数据库的构建装置来实施。
40.具体来说,请结合参看图1,图1示出了根据本发明的一些实施例提供的一种化学品知识图数据库的构建方法。化学品知识图数据库的构建方法主要包括以下步骤:
41.s110:从数据源获取涉及化学品知识的多条字段信息。
42.具体来说,可以参看图2,图2示出了根据本发明的另一些实施例所提供的化学品知识图数据库的构建框图。
43.如图2所示,在本发明的一些实施例中,可以通过数据源连接模块10来连接外部的多个数据源以方便用户快速获取到企业各部门、各领域的各种类型文件数据。可连接的数据源的文件数据可以包括逗号分隔值(csv)文件、excel文件,以及各类结构化数据库文件,例如mysql、postgresql、microsoft access、sqlite、db2、dm、oracle、sql server等数据库服务的数据文件。数据源连接模块10中的各类驱动程序可以直接连接、加载和读取上述多个数据源并访问数据信息,以从上述多个数据源中,获得与危险化学品相关的多条字段信息。可选地,驱动程序可以包括mysql、postgresql、microsoft access、sqlite、db2、dm、oracle、sql server、excel和csv文件等数据源驱动程序。
44.进一步地,在一些优选的实施例中,如若将本发明后续应用于化学品知识的智能交互问答,据源连接模块10还可以基于大量的用户问题,即以需要化工企业或监管单位的数据库数据作为交互问答的数据基础,获取这些与用户问题相关的子数据库中所涉及的化学品知识的多条字段信息,其中,字段信息可以包括设备信息、产品信息等。可选地,获得的字段信息可以传输给映射配置模块12,以进行后续的映射配置操作。
45.s120:根据知识图谱中的本体定义和本体约束,获取各字段信息所对应的由语义三元组表示的映射配置记录。
46.如图2所示,在本发明的一些实施例中,可以先通过知识图谱本体模块11来确定后续获取字段的本体定义与本体约束。
47.具体来说,知识图谱本体模块11可以是多种满足网络本体语言(web ontology language,owl)规范和资源描述框架(resource deion framework,rdfs)规范的危险化学品知识图谱本体。知识图谱本体模块11中主要包含本体定义与本体约束。在此,本体定义可以包括本体的实体类的类别属性、关系属性和/或数据属性,本体约束可以用于定义以上本体定义三者内部之间相互约束关系,例如互斥关系。
48.举例说明,在本发明一些可选的实施例中,危险化学品本体的类定义中可以包含或者不包含“施工人员”、“人员”或“人”等特定类型的实体类及其约束。知识图谱本体模块11可以定义为5危险化学品领域本体,但不强行约束具体的本体形式。举例说明,本体1中可以定义包含“施工人员”、“生产人员”、“运输人员”、“气态化学品”、“液态化学品”和“固态化学品”、“有限公司企业”、“集团企业”、“四轮卡车”和“八轮卡车”等本体类,且这些相似类中存在互斥约束。本体2中可以定义“人员”、“化学品”、“化工企业”和“载具”等本体类,且互相之间不存在本体约束。因此只要本体能概括上述多个数据源中,和/或整理和分类的问题中涉及的抽象概念,并能完成后续的映射配置过程,则该本体1和本体2的形式均可满足要求。
49.另外,当本体约束包括上述本体定义三者内部之间的互斥约束关系时,即本体1所对应的本体类和本体2所对应的本体类之间存在互斥约束,则已经被定义为本体1的实体,不能再被定义为本体2。
50.知识图谱本体模块11将生成的危险化学品领域知识图谱中的本体定义与本体约束可以传输至映射配置模块12,映射配置模块12结合上述从数据源连接模块10获得的涉及化学品知识的多条字段信息,通过整理和分类上述多个数据源,和/或用户可能或频繁出现的问题,将该本体内容与数据源/数据库字段进行一一对应的映射配置,并将其持久化存储。
51.具体来说,如图2所示,在连接的多个数据源和/或与用户问题相关的子数据库中选择所需的数据源,在确定的数据源中获取所需的数据列或数据字段信息。随后,将获取的数据字段信息映射本体内容。具体请参看图3,图3示出了根据本发明的一些实施例所提供的映射关系的流程示意图。如图3所示,上述步骤s120可以进一步包括步骤s121~s123。
52.s121:根据本体的类别属性、关系属性和/或数据属性,确定字段信息所对应的至少一条映射规则。
53.在一些可选的实施例中,映射规则可以为主-谓-宾形式的语义三元组。具体来说,可以根据包括作为主语的类别属性的第一字段信息,可以确定其对应的第一映射规则为《第一字段名,rdf:type,类别属性》,其中,第一字段名具有普遍性,rdf:type为类型定义描述符,上述类别属性表示上述第一字段名所对应的类别属性。举例来说,在本发明中指定数据源中的特定字段为危险化学品领域知识图谱本体的实体类型(即客观数据实体对应的本体类),第一字段数据对应客观世界的化学品时,则可以定义第一字段为本体内容中的“化学品”类,得到映射配置记录为《第一字段名,rdf:type,本体中化学品类唯一标识符》。
54.进一步地,在一些可选的实施例中,第二字段信息连接本体中的关系属性作为谓
语(即语义三元组中的第二项),其后连接语义三元组中的宾语,可以确定其对应的第二映射规则为《第二字段名,关系属性,第三字段名》,其中,第二字段名和第三字段名受制于上述第一映射规则的约束。举例来说,第二字段的所有数据为化学品,且已经通过第一映射规则指定为本体的“化学品”类,第三字段的所有数据为运输企业的名称,且已经通过第一映射规则指定为“化工企业”类,那么可以使用本体定义的关系属性“有承运企业”作为该条映射配置的谓语,得到映射配置记录为《第二字段名,有承运企业,第三字段名》。
55.进一步地,在一些可选的实施例中,第三字段信息连接本体中的数据属性作为谓语(即语义三元组中的第二项),其后连接语义三元组中的宾语,可以确定其对应的第三映射规则为《第四字段名,数据属性,第五字段名》,其中,第四字段名受制于上述第一映射规则的约束,第五字段名具有普遍性且包含数值信息。举例说明,第四字段的所有数据为化工企业,且已经通过第一映射规则指定为本体的“化工企业”类,那么可以使用本体定义的数据属性“地址位于”作为映射配置的谓语,得到映射配置记录为《第四字段名,地址位于,第五字段名》。
56.优选地,在一些实施例中,还可以根据包括作为别名的字段名的第四字段信息,来确定其对应的第四映射规则为《第六字段名,rdfs:label,第七字段名》,其中,第六字段名受制于上述第一映射规则的约束,rdfs:label为指定的别名标签,第七字段名为所述第六字段名所对应的别名名称。举例来说,当第六字段的所有数据为公司税号,且已经被第一映射规则定义为“化工企业”本体类时,可以为第六字段数据新增一个便于用户读取的企业名称,该名称出现在数据表的第七字段中,可以得到映射配置记录为《第六字段名,rdfs:label,第七字段名》,其中别名标签可以是人类友好标签,以便于用户辨识。
57.s122:根据所述类别属性、关系属性和/或数据属性之间的相互约束关系,确定至少一条映射规则的唯一性。
58.具体来说,响应于任一上述字段信息被定义为第一类别、第一关系或第一数据属性,则不再将其定义为与先前第一类别、第一关系或第一数据属性类型处于同维度的第二类别、第二关系或第二数据属性,从而确定上述至少一条映射规则的唯一性。举例来说,当本体内容出现“化学品”类和“装置”类的同维度且具有互斥约束的属性时,那么当一个字段被定义为“化学品”类后,该字段将不能被定义为“装置”类。
59.s123:将满足唯一性的至少一条映射规则所对应的多条映射配置记录,组合成映射关系表。
60.在一些可选的实施例中,映射配置模块12中获得多条映射配置记录,可以将多条符合上述映射规则以及上述唯一性的映射配置记录整合成映射关系表。可选地,映射配置模块12中还可以对多条映射配置记录进行分类整理,以获得化学品知识相关的多份不同类型的映射关系表,并将该映射关系表持久化存储。
61.s130:将各映射配置记录与数据源进行数据链接,以将各映射配置记录分别转化为连接所述数据源的数据三元组。
62.具体来说,可以参看图4,图4示出了根据本发明的一些实施例所提供的数据链接的流程示意图。如图4所示,上述步骤s130可以进一步包括步骤s131~s133。
63.s131:获取数据源中的数据源表内容。
64.在一些可选的实施例中,多个数据源中的数据信息可以整理成表格形式。
65.s132:将各映射配置记录分别连接对应的数据源表内容,以获得多条连接数据源的数据三元组。
66.举例来说,请参看下表1。如表1所示,映射配置模块12中的映射关系表中的信息有“字段名称”,即“公司名”、与本体内容一一对应的映射配置记录,以及数据源连接信息,即“公司税号”。值得注意的是,映射关系表中的字段名称,仅仅是一个名称,并没有真实的表数据,并且数据源连接信息是用于辅助后台程序获取该字段的真实数据,并不包括该字段的真实数据,用以帮助数据链接过程。数据链接最终将数据源表中的真实数据与本体内容链接为数据三元组形式。此时,一条映射配置记录,可以链接出许多真实数据三元组,其具体数量取决于数据源内表字段的数据量。
67.公司税号主营业务公司名税号1化学品生产a公司税号2化学品物流承运b公司
………………
税号10000化工设备销售n公司
68.表1
69.s133:基于映射规则,对各条映射配置记录进行分类,并将其对应的数据三元组分为类型定义三元组、关系属性三元组、数据属性三元组以及标签三元组。
70.具体来说,在一些实施例中,基于对构建的映射关系表中的记录内容依次逐条查询与读取,其中包括记录的危险化学品数据源字段和/或危险化学品本体信息,本体信息记录的是本体类、关系属性和数据属性,数据源字段可以是用户问题及其答案所涉及的字段。在完成数据与语义三元组的链接后,最终可链接为类型定义三元组《实体,rdf:type,实体型》、标签三元组《实体,rdfs:label,属性值》、本体关系属性三元组《实体,关系属性,实体》和本体数据属性三元组《实体,数据属性,属性值》的四大类型语义三元组。这四种类型三元组对应上述第一~第四映射规则中的至少一条。值得注意的是,此时,数据链接的三元组内使用的数据不再是字段名,而使用的是该字段包含的所有数据,因此,映射配置表内的一条映射配置记录,可以通过链接得到成千上万对三元组数据。
71.举例来说,在上述表1所示的实施例中,在字段名为“税号”的字段里含有1万个税号数据,那么类型定义三元组可以得到从《税号编号1,rdf:type,化工企业》、《税号编号2,rdf:type,化工企业》
……
一直到《税号编号10000,rdf:type,化工企业》,共1万对类型定义三元组。相应地,标签三元组从《税号编号1,rdfs:label,a公司名》到《税号编号10000,rdfs:label,n公司名称》,共10000对三元组。相应地,本体关系属性三元组会出现对应字段数量的本体关系属性三元组《某化学品,有承运企业,某化工企业》。而本体数据属性三元组会出现相应字段数据数量的三元组《某企业,地址位于,某地址》。
72.s140:基于连接数据源的数据三元组,构建化学品知识图数据库。
73.在完成上述数据链接后,即可得到化学品知识图数据库需要存储的数据。如图2所示,在本实施例中,使用区别于传统结构化数据库的图数据库来对数据链接后的规范数据,进行数据融合并持久化存储。
74.具体来说,由于数据来源的领域可能是化工企业、政府单位等多处领域,并且这些数据可能存储在不同类型的结构化数据库,例如excel文件和csv文件,以及半结构化数据
库,例如json等类型文件,因此可以对上述不同来源的数据进行数据融合,即将不同存储的类型、不同来源的类型、不同领域数据类型规范地汇总到一个图数据库中。进一步地,本实施例中还可以选择不同类型的图数据库,例如,neo4j、orientdb、arangodb、janusgraph和dgraph等图数据库将这些数据以数据流形式进行持久化存储,以构建化学品知识图数据库。
75.进一步地,在一些优选的实施例中,可以基于本发明构建的化学品知识图数据库,对该化学品知识抽取的知识库中的数据进行机器学习的模型训练,从而可以针对一些化学品信息相关的复杂问题,快速地提供问答结果,为用户提供高效的获取化学品信息的入口,从而降低安全事故的发生率。
76.具体来说,在化学品知识图数据库的交互界面,获取涉及化学品知识的问题。然后,通过对问题进行关键词识别,以确定至少一个关键词,其中,关键词包括实体关键词和/或本体关系属性关键词。最后,经由向量模型进行基于关键词的语义分析,并将语义分析的结果作为该问题的答案输出,并显示于交互界面。
77.举例来说,用户发起问题,问句为“储罐5号的主要物质是什么”。先对问句中的实体进行关键字识别,再对问句中的关系属性进行关键字识别。本实施例中,识别出实体关键字“储罐5号”与关系属性关键字“主要物质”。根据实体关键字与关系属性关键字的数量和相对位置,对上述问句意图分析。本实施例中,实体关键字在关系属性关键字之前,可以按照主谓宾三元组的语义,即已知主语“储罐5号”和谓语“主要物质”,求解三元组《储罐5号,主要物质,尾实体》中的尾实体,其中,尾实体在语义上也是宾语,由此分析出了问句需要查询宾语。
78.随后,将意图转化为向量模型计算。继续以上述为例,以“储罐5号”实体对应的向量作为头实体,“主要物质”关系属性对应的向量作为谓语向量,经过向量运算后,得出待定结果参考的第三向量。使用第三向量与实体向量模型中的各个实体向量做差,得到差值后,再取差值的范数。可以通过经验设定阈值,设置所有范数结果中小于阈值的,为需要查找的问句结果。例如,阈值设置为0.05时,则差值的范数结果为0.06、0.071所对应的向量实体都认为是不符合要求的查询结果,而差值的范数结果为0.04、0.001所对应的向量实体被认为是用户需要的查询结果。结果规范化通过交互界面,可选地,以文字、语音、图像或视频的形式展示反馈给用户。
79.尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
80.至此,已经介绍了本发明第一方面所提供的一种化学品知识图数据库的构建方法。本发明的第二方面还提供了一种化学品知识图数据库的构建装置。请参看图5,图5示出了根据本发明的另一些实施例所提供的一种化学品知识图数据库的构建装置的结构框图。
81.如图5所示,该化学品知识图数据库的构建装置500中可以配置存储器510及处理器520。该存储器510包括但不限于本发明的第三方面提供的上述计算机可读存储介质,其上存储有计算机指令。该处理器520连接该存储器510,被配置用于执行该存储器510上存储的计算机指令,以实施本发明的第一方面提供的上述化学品知识图数据库的构建方法。
82.另外,本领域的技术人员可以理解,上述第一方面所述的这些化学品知识图数据库的构建方法的实施例只是本发明提供的一些非限制性的实施方式,旨在清楚地展示本发明的主要构思,并提供一些便于公众实施的具体方案,而非用于限制该化学品知识图数据库的构建装置500的全部工作方式或全部功能。同样地,该化学品知识图数据库的构建装置500也只是本发明提供的一种非限制性的实施方式,不对上述化学品知识图数据库的构建方法中各步骤的实施主体构成限制。
83.综上,本发明提供了一种化学品知识图数据库的构建方法、一种化学品知识图数据库的构建装置,以及一种计算机可读存储介质,能够融合不同来源、不同样式的信息数据,打破数据之间的壁垒,从而提供更加简洁有效的访问入口,以便高效获取危险化学品信息,更好地为用户提供信息服务与辅助决策。并且,通过打破数据之间的壁垒,高效获取危险化学品信息,快速发现危险化学品全生命周期过程可能存在的安全隐患。用户更加容易发现潜在的安全生产问题,能够有效地避免生产事故的发生,从而降低重特大安全生产事故发生率,保障人民在实际生产过程中的人身安全与企业财产安全。
84.提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。
技术特征:
1.一种化学品知识图数据库的构建方法,其特征在于,包括以下步骤:从数据源获取涉及化学品知识的多条字段信息;根据知识图谱中的本体定义和本体约束,获取各所述字段信息所对应的由语义三元组表示的映射配置记录;将各所述映射配置记录与所述数据源进行数据链接,以将各所述映射配置记录分别转化为连接所述数据源的数据三元组;以及基于连接所述数据源的数据三元组,构建所述化学品知识图数据库。2.如权利要求1所述的构建方法,其特征在于,所述本体定义包括本体的类别属性、关系属性和/或数据属性,所述本体约束包括所述类别属性、所述关系属性和/或所述数据属性之间的相互约束关系,所述根据知识图谱中的本体定义和本体约束,获取各所述字段信息对应的由语义三元组表示的映射配置记录的步骤包括:根据所述本体的类别属性、关系属性和/或数据属性,确定所述字段信息所对应的至少一条映射规则;根据所述类别属性、关系属性和/或数据属性之间的相互约束关系,确定所述至少一条映射规则的唯一性;将满足唯一性的至少一条所述映射规则所对应的多条映射配置记录,组合成映射关系表。3.如权利要求2所述的构建方法,其特征在于,所述映射规则包括主-谓-宾形式的语义三元组,所述根据所述本体的类别属性、关系属性和/或数据属性,确定所述字段信息所对应的至少一条映射规则的步骤包括:根据包括作为主语的所述类别属性的第一字段信息,确定其对应的第一映射规则为<第一字段名,rdf:type,类别属性>,其中,所述第一字段名具有普遍性,所述rdf:type为类型定义描述符,所述类别属性表示所述第一字段名所对应的类别属性;以及根据包括作为谓语的关系属性及其后连接宾语的第二字段信息,确定其对应的第二映射规则为<第二字段名,关系属性,第三字段名>,其中,所述第二字段名和所述第三字段名受制于所述第一映射规则的约束;和/或根据包括作为谓语的数据属性及其后连接宾语的第三字段信息,确定其对应的第三映射规则为<第四字段名,数据属性,第五字段名>,其中,所述第四字段名受制于所述第一映射规则的约束,所述第五字段名具有普遍性且包含数值信息。4.如权利要求3所述的构建方法,其特征在于,所述根据所述本体的类别属性、关系属性和/或数据属性,确定所述字段信息所对应的至少一条映射规则的步骤还包括:根据包括作为别名的字段名的第四字段信息,确定其对应的第四映射规则为<第六字段名,rdfs:label,第七字段名>,其中,所述第六字段名受制于所述第一映射规则的约束,所述rdfs:label为指定的别名标签,所述第七字段名为所述第六字段名所对应的别名名称。5.如权利要求2所述的构建方法,其特征在于,所述根据所述类别属性、关系属性和/或数据属性之间的相互约束关系,确定所述至少一条映射规则的唯一性的步骤包括:响应于任一所述字段信息被定义为第一类别、第一关系或第一数据属性,则不再将其定义为与所述第一类别、所述第一关系或所述第一数据属性类型处于同维度的第二类别、
第二关系或第二数据属性。6.如权利要求4所述的构建方法,其特征在于,所述将各所述映射配置记录与所述数据源进行数据链接,以将各所述映射配置记录分别转化为连接所述数据源的数据三元组的步骤包括:获取所述数据源中的数据源表内容;将各所述映射配置记录分别连接对应的数据源表内容,以获得多条连接所述数据源的数据三元组;以及基于所述映射规则,对各所述各条映射配置记录进行分类,并将其对应的数据三元组分为类型定义三元组、关系属性三元组、数据属性三元组以及标签三元组。7.如权利要求1所述的构建方法,其特征在于,所述基于连接所述数据源的数据三元组,构建所述化学品知识图数据库的步骤包括:将所述数据三元组以数据流形式存储至图数据库,以构建所述化学品知识图数据库。8.一种化学品知识图数据库的构建装置,其特征在于,包括:存储器;以及处理器,所述处理器连接所述存储器,并被配置用于实施如权利要求1~7中任一项所述的化学品知识图数据库的构建方法。9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时,实施如权利要求1~7中任一项所述的化学品知识图数据库的构建方法。
技术总结
本发明提供了一种化学品知识图数据库的构建方法及其构建装置。该存储方法包括以下步骤:从数据源获取涉及化学品知识的多条字段信息;根据知识图谱中的本体定义和本体约束,获取各该字段信息所对应的由语义三元组表示的映射配置记录;将各该映射配置记录与该数据源进行数据链接,以将各该映射配置记录分别转化为连接该数据源的数据三元组;以及基于连接该数据源的数据三元组,构建该化学品知识图数据库。通过实施上述构建方法,能够融合不同来源、不同样式的危险化学品的信息数据,打破数据之间的壁垒,从而提供更加简洁有效的访问入口,高效地获取危险化学品信息,以便更好地为用户提供信息服务与辅助决策。提供信息服务与辅助决策。提供信息服务与辅助决策。
技术研发人员:钱锋 王冰 唐漾
受保护的技术使用者:华东理工大学
技术研发日:2023.05.17
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/