一种检索数据库信息系统及其检索方法与流程

未命名 10-19 阅读:65 评论:0


1.本发明涉及信息检索技术,具体涉及一种检索数据库信息系统及其检索方法。


背景技术:

2.实时数据库作为工业监控系统中用来存放过程历史数据的基础数据库,具有测点数量多(百万级别),数据存储量大(tb级别),写入速度高,查询请求频繁的特点。在现有的实时数据库中,对于这些海量数据的检索方式通常是对每个数据文件建立一个私有索引,用于索引数据文件内的数据块;为所有数据文件建立一个全局索引,该全局索引记录每个数据文件存储的数据的时标范围。查询某个测点的某个时标范围的数据时,首先通过全局索引检索到存储数据时标范围与查询时标范围有交集的数据文件,然后遍历这些数据文件,通过数据文件的私有索引遍历数据文件中的数据块,最后查询数据块的数据返回给用户。
3.现有的在数据库信息检索系统进行使用时,由于测点很多,不同的测点的写入频率差异很大,由于数据文件的时标范围包含多种数据,因此通过全局索引查询时总会返回数据文件,全局索引返回了大量没有用户所需的数据文件,因此导致检索性能低下,因此,在一个数据文件中不同测点存储的数据的时标范围差异很大,导致数据文件的时标范围被扩大。


技术实现要素:

4.本发明的目的是提供一种检索数据库信息系统及其检索方法,以解决现有技术中的上述不足之处。
5.为了实现上述目的,本发明提供如下技术方案:一种检索数据库信息系统及其检索方法,包括:
6.客户端模块,用于提供检索接口和结果返回接口;
7.预处理模块,用于接收客户端模块输入的待检索数据,并对待检索数据进行预处理,所述预处理包括遍历信息起始节点、信息文本分类以及根据分类的信息文本进行分词;
8.数据节点数据库,用于将存储数据分为多个节点,并将部分节点进行存储,所述数据节点数据库内设置有数据库存放索引表,所述数据库存放索引表在整个系统内分布存放;
9.检索调度和查询模块,所述检索调度和查询模块包括检索调度子模块和检索执行子模块,所述检索调度子模块用于根据待检索数据的不同类型进行检索请求的发布,所述检索执行子模块用于接收检索调度子模块发出的检索请求通过根据同类型检索请求的重要程度进行排序分发;
10.检索模块,用于接收检索调度和查询模块发出的检索请求进行待检索数据的检索,同时将检索结果发送至客户端模块的结果返回接口。
11.进一步地,所述预处理模块包括:
12.索引模块,用于为检索模块提供接口,提供关键字位置信息和计算关键字同目标元组的匹配程度;
13.文本分类模块,用于对待索引信息进行分类;
14.分词模块,用于通过对待检索数据的不同信息起始节点的遍历形成不同的关键字,并对不同的关键字与数据库元组建立索引;
15.数据结构模块,用于识别待索引数据的数据结构。
16.进一步地,所述检索模块包括:
17.关键字提取模块,用于提取对检索结果影响较大的关键字,以及取出不会影响检索结果的关键字;
18.关键词分组模块,用于成对关键词集合按照关键词所对应的文档数量进行等长划分;
19.检索构建模块,用于基于关键词分组倒排索引结构的生成;
20.检索结果模块,用于判断检索结果是否与待检索数据吻合。
21.进一步地,所述关键字提取模块的具体工作方法为:
22.第一步,关键字预处理;
23.第二步,根据类间权重tf_idf算法,算出tf_idf算法数值w
t
,其中tf_idf算法数值w
t
的计算方法的公式如下所示
[0024][0025]
其中式中,n表示数据库中数据的总数,ni为数据库中包含特征项t的关键字数,其中,表示文件中所有字词出现的次数总和,即词n
ij
在第j个数据中出现的次数,n
i,j
表示该词在信息中的出现次数,maxλ
c,i
表示第i个关键字在第c类信息中出现最多的次数,λc表示每一类信息的总词数;
[0026]
第三步,根据给出的平均信息嫡公式,算出平均信息嫡we,其中平均信息嫡we的计算方法的公式如下所示
[0027][0028]
其中,f
wk
表示词w在信息k中频率,nw表示词w在整个信息集中的频率,n表示关键词的总数;
[0029]
第四步,任选一个关键词i,根据关键词提取的权值计算方法,计算出textrank的权值,其中关键词提取的权值计算方法的公式如下所示,
[0030][0031]
其中,w
t
(i)表示词i根据算法计算出的改进的tf_idf算法的值,we(i)表示词i平均信息嫡值,然后将计算出的w
t
(i)和we(i)代入到上式中,从而得到textrank算法的权值;
[0032]
第五步,根据textrank计算公式,算出对应的textrank值。
[0033]
进一步地,所述关键词分组模块进行分组的具体方法为:
[0034]
通过函数来对关键词集合中的关键词进行聚类操作,并且在聚类地过发明程调用distancewords函数来进行计算关键词与关键词之间的距离;接着使用getlist函数发明来对聚类后的关键词进行重新排序,获取新的关键词序列表;然后使用groupwords函数对发明关键词集合进行划分,划分成若干个关键词分组;最后调用creategroupvectors函数来为每个关键词分组生成其对应的关键词分组向量。
[0035]
一种检索数据库信息系统及其检索方法,所述具体检索方法为:
[0036]
s1、通过客户端模块登录检索系统;
[0037]
s2、通过客户端模块提供的检索接口输入需要检索的数据;
[0038]
s3、通过预处理模块对输入的待检索数据进行预处理;
[0039]
s4、通过索引模块对不同的关键字与数据库元组建立索引,提供关键字位置信息和计算关键字同目标元组的匹配程度;
[0040]
s5、通过数据节点数据库将存储数据分为多个节点,并将部分节点进行存储;
[0041]
s6、通过检索调度和查询模块根据待检索数据的不同类型进行检索请求的发布;
[0042]
s7、根据发出的检索请求通过根据同类型检索请求的重要程度进行排序分发;
[0043]
s8、通过检索模块接收检索调度和查询模块发出的检索请求进行待检索数据的检索;
[0044]
s9、将检索结果发送至客户端模块的结果返回接口进行结果返回。
[0045]
与现有技术相比,本发明提供的一种检索数据库信息系统及其检索方法,通过关键字提取模块提取对检索结果影响较大的关键字,并通过关键词分组模块将关键词集合按照关键词所对应的文档数量进行等长划分,通过检索构建模块基于关键词分组倒排索引结构的生成,并通过检索结果模块判断检索结果是否与待检索数据吻合,这样设置可以避免数据关键字较多增加服务器运算负担,同时可以避免相同数据在不同的数据检索结果造成检索干扰。
附图说明
[0046]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0047]
图1为本发明实施例提供的整体流程结构示意图。
具体实施方式
[0048]
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发
明作进一步的详细介绍。
[0049]
实施例一:
[0050]
请参阅图1,一种检索数据库信息系统及其检索方法,包括:
[0051]
客户端模块,用于提供检索接口和结果返回接口;
[0052]
预处理模块,用于接收客户端模块输入的待检索数据,并对待检索数据进行预处理,预处理包括遍历信息起始节点、信息文本分类以及根据分类的信息文本进行分词;
[0053]
数据节点数据库,用于将存储数据分为多个节点,并将部分节点进行存储,数据节点数据库内设置有数据库存放索引表,数据库存放索引表在整个系统内分布存放;
[0054]
检索调度和查询模块,检索调度和查询模块包括检索调度子模块和检索执行子模块,检索调度子模块用于根据待检索数据的不同类型进行检索请求的发布,检索执行子模块用于接收检索调度子模块发出的检索请求通过根据同类型检索请求的重要程度进行排序分发;
[0055]
检索模块,用于接收检索调度和查询模块发出的检索请求进行待检索数据的检索,同时将检索结果发送至客户端模块的结果返回接口。
[0056]
用户通过客户端模块登录检索系统,通过客户端模块提供的检索接口输入需要检索的数据,预处理模块对输入的待检索数据进行预处理,其中预处理包括并对待检索数据的不同信息起始节点的遍历形成不同的关键字,并通过索引模块对不同的关键字与数据库元组建立索引,提供关键字位置信息和计算关键字同目标元组的匹配程度,然后通过数据节点数据库将存储数据分为多个节点,并将部分节点进行存储,通过检索调度和查询模块根据待检索数据的不同类型进行检索请求的发布,并根据发出的检索请求通过根据同类型检索请求的重要程度进行排序分发,通过检索模块接收检索调度和查询模块发出的检索请求进行待检索数据的检索,同时将检索结果发送至客户端模块的结果返回接口进行结果返回。
[0057]
预处理模块包括:
[0058]
索引模块,用于为检索模块提供接口,提供关键字位置信息和计算关键字同目标元组的匹配程度;
[0059]
文本分类模块,用于对待索引信息进行分类;
[0060]
分词模块,用于通过对待检索数据的不同信息起始节点的遍历形成不同的关键字,并对不同的关键字与数据库元组建立索引;
[0061]
数据结构模块,用于识别待索引数据的数据结构。
[0062]
这样设置通过并提供关键字位置信息和计算关键字同目标元组的匹配程度,通过文本分类模块将待索引信息进行分类,通过分词模块对待检索数据的不同信息起始节点的遍历形成不同的关键字,并对不同的关键字通过索引模块与数据库元组建立索引,通过数据结构模块识别待索引数据的数据结构,并通过索引模块提供关键字位置信息和计算关键字同目标元组的匹配程度。
[0063]
检索模块包括:
[0064]
关键字提取模块,用于提取对检索结果影响较大的关键字,以及取出不会影响检索结果的关键字;
[0065]
关键词分组模块,用于成对关键词集合按照关键词所对应的文档数量进行等长划
分;
[0066]
检索构建模块,用于基于关键词分组倒排索引结构的生成;
[0067]
检索结果模块,用于判断检索结果是否与待检索数据吻合。
[0068]
其中检索模块的具体检索方法为,通过关键字提取模块提取对检索结果影响较大的关键字,并通过关键词分组模块将关键词集合按照关键词所对应的文档数量进行等长划分,通过检索构建模块基于关键词分组倒排索引结构的生成,并通过检索结果模块判断检索结果是否与待检索数据吻合,这样设置可以避免数据关键字较多增加服务器运算负担,同时可以避免相同数据在不同的数据检索结果造成检索干扰。
[0069]
关键字提取模块的具体工作方法为:
[0070]
第一步,关键字预处理;
[0071]
第二步,根据类间权重tf_idf算法,算出tf_idf算法数值w
t
,其中tf_idf算法数值w
t
的计算方法的公式如下所示
[0072][0073]
其中式中,n表示数据库中数据的总数,ni为数据库中包含特征项t的关键字数,其中,表示文件中所有字词出现的次数总和,即词n
ij
在第j个数据中出现的次数,n
i,j
表示该词在信息中的出现次数,maxλ
c,i
表示第i个关键字在第c类信息中出现最多的次数,λc表示每一类信息的总词数;
[0074]
第三步,根据给出的平均信息嫡公式,算出平均信息嫡we,其中平均信息嫡we的计算方法的公式如下所示
[0075][0076]
其中,f
wk
表示词w在信息k中频率,nw表示词w在整个信息集中的频率,n表示关键词的总数;
[0077]
第四步,任选一个关键词i,根据关键词提取的权值计算方法,计算出textrank的权值,其中关键词提取的权值计算方法的公式如下所示,
[0078][0079]
其中,w
t
(i)表示词i根据算法计算出的改进的tf_idf算法的值,we(i)表示词i平均信息嫡值,然后将计算出的w
t
(i)和we(i)代入到上式中,从而得到textrank算法的权值;
[0080]
第五步,根据textrank计算公式,算出对应的textrank值,其中textrank计算公
式。
[0081]
关键词分组模块进行分组的具体方法为:
[0082]
通过函数来对关键词集合中的关键词进行聚类操作,并且在聚类地过发明程调用distancewords函数来进行计算关键词与关键词之间的距离;接着使用getlist函数发明来对聚类后的关键词进行重新排序,获取新的关键词序列表;然后使用groupwords函数对发明关键词集合进行划分,划分成若干个关键词分组;最后调用creategroupvectors函数来为每个关键词分组生成其对应的关键词分组向量,其中distancewords函数、getlist函数以及creategroupvectors函数均为现有函数的基本运用故不作解释。
[0083]
实施例二:
[0084]
一种检索数据库信息检索方法,数据库检索数据的具体检索方法为:
[0085]
s1、通过客户端模块登录检索系统;
[0086]
s2、通过客户端模块提供的检索接口输入需要检索的数据;
[0087]
s3、通过预处理模块对输入的待检索数据进行预处理;
[0088]
s4、通过索引模块对不同的关键字与数据库元组建立索引,提供关键字位置信息和计算关键字同目标元组的匹配程度;
[0089]
s5、通过数据节点数据库将存储数据分为多个节点,并将部分节点进行存储;
[0090]
s6、通过检索调度和查询模块根据待检索数据的不同类型进行检索请求的发布;
[0091]
s7、根据发出的检索请求通过根据同类型检索请求的重要程度进行排序分发;
[0092]
s8、通过检索模块接收检索调度和查询模块发出的检索请求进行待检索数据的检索;
[0093]
s9、将检索结果发送至客户端模块的结果返回接口进行结果返回。
[0094]
工作原理:使用时,通过客户端模块登录检索系统,通过客户端模块提供的检索接口输入需要检索的数据,预处理模块对输入的待检索数据进行预处理,其中预处理包括并对待检索数据的不同信息起始节点的遍历形成不同的关键字,并通过索引模块对不同的关键字与数据库元组建立索引,提供关键字位置信息和计算关键字同目标元组的匹配程度,然后通过数据节点数据库将存储数据分为多个节点,并将部分节点进行存储,通过检索调度和查询模块根据待检索数据的不同类型进行检索请求的发布,并根据发出的检索请求通过根据同类型检索请求的重要程度进行排序分发,通过检索模块接收检索调度和查询模块发出的检索请求进行待检索数据的检索,同时将检索结果发送至客户端模块的结果返回接口进行结果返回。
[0095]
以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。

技术特征:
1.一种检索数据库信息系统,其特征在于,包括:客户端模块,用于提供检索接口和结果返回接口;预处理模块,用于接收客户端模块输入的待检索数据,并对待检索数据进行预处理,所述预处理包括遍历信息起始节点、信息文本分类以及根据分类的信息文本进行分词;数据节点数据库,用于将存储数据分为多个节点,并将部分节点进行存储,所述数据节点数据库内设置有数据库存放索引表,所述数据库存放索引表在整个系统内分布存放;检索调度和查询模块,所述检索调度和查询模块包括检索调度子模块和检索执行子模块,所述检索调度子模块用于根据待检索数据的不同类型进行检索请求的发布,所述检索执行子模块用于接收检索调度子模块发出的检索请求通过根据同类型检索请求的重要程度进行排序分发;检索模块,用于接收检索调度和查询模块发出的检索请求进行待检索数据的检索,同时将检索结果发送至客户端模块的结果返回接口。2.根据权利要求1所述的一种检索数据库信息系统,其特征在于,所述预处理模块包括:索引模块,用于为检索模块提供接口,提供关键字位置信息和计算关键字同目标元组的匹配程度;文本分类模块,用于对待索引信息进行分类;分词模块,用于通过对待检索数据的不同信息起始节点的遍历形成不同的关键字,并对不同的关键字与数据库元组建立索引;数据结构模块,用于识别待索引数据的数据结构。3.根据权利要求1所述的一种检索数据库信息系统,其特征在于,所述检索模块包括:关键字提取模块,用于提取对检索结果影响较大的关键字,以及取出不会影响检索结果的关键字;关键词分组模块,用于成对关键词集合按照关键词所对应的文档数量进行等长划分;检索构建模块,用于基于关键词分组倒排索引结构的生成;检索结果模块,用于判断检索结果是否与待检索数据吻合。4.根据权利要求3所述的一种检索数据库信息系统,其特征在于,所述关键字提取模块的具体工作方法为:第一步,关键字预处理;第二步,根据类间权重tf_idf算法,算出tf_idf算法数值w
t
,其中tf_idf算法数值w
t
的计算方法的公式如下所示其中式中,n表示数据库中数据的总数,n
i
为数据库中包含特征项t的关键字数,其中,
表示文件中所有字词出现的次数总和,即词n
ij
在第j个数据中出现的次数,n
i,j
表示该词在信息中的出现次数,maxλ
c,i
表示第i个关键字在第c类信息中出现最多的次数,λ
c
表示每一类信息的总词数;第三步,根据给出的平均信息嫡公式,算出平均信息嫡w
e
,其中平均信息嫡w
e
的计算方法的公式如下所示其中,f
wk
表示词w在信息k中频率,n
w
表示词w在整个信息集中的频率,n表示关键词的总数;第四步,任选一个关键词i,根据关键词提取的权值计算方法,计算出textrank的权值,其中关键词提取的权值计算方法的公式如下所示,其中,w
t
(i)表示词i根据算法计算出的改进的tf_idf算法的值,w
e
(i)表示词i平均信息嫡值,然后将计算出的w
t
(i)和w
e
(i)代入到上式中,从而得到textrank算法的权值;第五步,根据textrank计算公式,算出对应的textrank值。5.根据权利要求3所述的一种检索数据库信息系统,其特征在于,所述关键词分组模块进行分组的具体方法为:通过函数来对关键词集合中的关键词进行聚类操作,并且在聚类的过程调用distancewords函数来进行计算关键词与关键词之间的距离;接着使用getlist函数发明来对聚类后的关键词进行重新排序,获取新的关键词序列表;然后使用groupwords函数对发明关键词集合进行划分,划分成若干个关键词分组;最后调用creategroupvectors函数来为每个关键词分组生成其对应的关键词分组向量。6.一种适用于权利要求1-权利要求5任一项所述的检索数据库信息检索方法,其特征在于,所述具体检索方法为:s1、通过客户端模块登录检索系统;s2、通过客户端模块提供的检索接口输入需要检索的数据;s3、通过预处理模块对输入的待检索数据进行预处理;s4、通过索引模块对不同的关键字与数据库元组建立索引,提供关键字位置信息和计算关键字同目标元组的匹配程度;s5、通过数据节点数据库将存储数据分为多个节点,并将部分节点进行存储;s6、通过检索调度和查询模块根据待检索数据的不同类型进行检索请求的发布;s7、根据发出的检索请求通过根据同类型检索请求的重要程度进行排序分发;s8、通过检索模块接收检索调度和查询模块发出的检索请求进行待检索数据的检索;s9、将检索结果发送至客户端模块的结果返回接口进行结果返回。

技术总结
本发明公开了一种检索数据库信息系统及其检索方法,涉及信息检索领域,包括:客户端模块,用于提供检索接口和结果返回接口;预处理模块,用于接收客户端模块输入的待检索数据,并对待检索数据进行预处理;该检索数据库信息系统及其检索方法,通过关键字提取模块提取对检索结果影响较大的关键字,并通过关键词分组模块将关键词集合按照关键词所对应的文档数量进行等长划分,通过检索构建模块基于关键词分组倒排索引结构的生成,并通过检索结果模块判断检索结果是否与待检索数据吻合,这样设置可以避免数据关键字较多增加服务器运算负担,同时可以避免相同数据在不同的数据检索结果造成检索干扰。造成检索干扰。造成检索干扰。


技术研发人员:王世冲
受保护的技术使用者:安徽中科君诚信息科技有限公司
技术研发日:2023.04.28
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐