一种数字图书馆数据挖掘方法与流程
未命名
10-08
阅读:86
评论:0

1.本发明涉及数据挖掘技术领域,尤其涉及一种数字图书馆数据挖掘方法。
背景技术:
2.数据挖掘技术在数字图书馆领域的应用越来越广泛,可以帮助数字图书馆管理者及时、高效地获取数字图书馆的用户数据,实现数字图书馆数据精准挖掘。目前,数字图书馆具有数据量庞大、借阅种类多样、信息密度大等特点,数字图书馆的数据挖掘存在较多的不确定因素,导致数据的挖掘结果存在较大的不确定性。虽然已经发明了一些数字图书馆数据挖掘方法,但是仍不能有效解决数字图书馆数据的挖掘结果不确定问题。
技术实现要素:
3.本发明的目的是要提供一种数字图书馆数据挖掘方法。
4.为达到上述目的,本发明是按照以下技术方案实施的:
5.本发明包括以下步骤:
6.a获取数字图书馆中的读者历史行为数据,对所述读者历史行为数据进行预处理;
7.b将预处理后的所述读者历史行为数据输入分类模型获得关键词,包括遍历预处理后的所述读者历史行为数据生成候选关键词,标注所述候选关键词得到有标注数据和无标注数据,筛选有标注数据作为初始训练数据,训练得到分类模型,用训练好的所述分类模型对无标注数据中的所述候选关键词进行分类预测,计算无标注数据的置信度,不断迭代直到所述无标注数据的置信度皆小于95%终止迭代,将所述置信度大于95%的的无标注数据加入所述初始训练数据并将所述初始训练数据作为关键词输出;
8.c向量化所述关键词,计算向量化后的所述关键词中词语的相似度,合并相似度高的词语得到独立数据,提取所述独立数据的特征,根据所述特征对预处理后的所述读者行为行为数据进行分类,获得分类结果;
9.d对所述分类结果进行聚类分析获得聚类结果,将所述聚类结果作为挖掘结果并输出。
10.进一步的,步骤a中所述预处理的方法,包括:
11.a、将带分词的字符串从左到右切分为w1,w2,
…
,wm,计算当前词与前驱词的概率;计算该词的累计概率值,保留大的累计概率,直到该字符串结束;从wm开始,按照从右到左的顺序,将前驱词输出分词结束;
[0012][0013]
[0014]
其中字符串词m个,相关的当前词n(1≤n≤n),当前词与前驱词的概率为p,累计概率值为字符串i的个数为m,相关的当前词n个数为n,分字符串i的切分为wi;
[0015]
b、获取停用词列表并手动添加缺失的常见停用词得到列表包,所述列表包含常见的无意义的词语,遍历所述分词后的词语列表,将其中出现在停用词列表中的词语去除。
[0016]
进一步的,在步骤b中所述遍历预处理后的所述读者历史行为数据生成候选关键词的方法,包括使用词频统计将频繁出现所述检索数据和所述借阅数据中的词语作为候选关键词。
[0017]
进一步的,在步骤b中所述标注所述候选关键词得到有标注数据和无标注数据的方法,包括:
[0018]
将所述候选关键词转化为为观测序列和状态序列并输入,确定需要标注的不同标签和观测集;确定所述分类模型的初始状态概率分布、状态转移概率矩阵和观测概率矩阵;
[0019]
计算所述标注模型每个时刻的前向概率和后向概率:
[0020]
δ
t
(i)=p(o1,o1,
…
,o
t
,i
t
=qi;λ)
[0021]
θ
t
(i)=p(o
t+1
,o
t+2
,
…
,o
t
,i
t
=qi;λ)
[0022]
其中t时刻的前向概率为δ
t
(i),观测序列为o1,o1,
…
,o
t
状态为qi,给定模型λ,t时刻的后向概率为θ
t
(i),从时刻t+1到时刻t的观测序列为o
t+1
,o
t+2
,
…
,o
t
;
[0023]
将观测序列输入确定所述参数后的所述标注模型进行标注,将标注后的观测序列和状态序列根据有无标注分成有标注数据和无标注数据。
[0024]
进一步的,所述计算无标注数据的置信度的方法,包括:
[0025]
获取未标注数据在所述标注模型中的概率分布,根据概率分布计算熵值:
[0026]
e(vi)=-∑p(vi)log2p(vi)
[0027]
其中第i个无标注数据vi熵值为e(vi),第i个无标注数据的概率分布为p(vi),置信度为一减去熵值。
[0028]
进一步的,所述筛选有标注数据作为初始训练数据的方法,包括将有标注数据划分成训练集和测试集,使用训练集训练所述分类模型,使用测试集对训练好的所述分类模型进行评估,重复训练和评估所述分类模型,选择不同的训练集和测试集得到分类模型的评估结果,根据平均测试误差的选择分类模型,使用选择的分类模型筛选有标注数据作为初始训练数据。
[0029]
进一步的,所述分类模型,基于支持向量机算法,包括通过非线性映射函数将原始模式空间映射到高维特征空间,在特征空间中构造出完美分类的决策边界,对线性或非线性数据进行分类。
[0030]
进一步的,所述根据所述特征对预处理后的所述读者行为行为数据进行分类的方法,包括构建根节点,随机选取预处理后的所述读者历史行为数据作为训练数据,将训练数据放在根节点,根据所述特征将训练数据分成子集,若分类正确则构建叶节点,将子集分到对应的叶节点,若子集分类不正确则重新选取特征,直到所有训练数据子集被正确分类,输出分类结果。
[0031]
进一步的,所述提取所述独立数据的特征的方法,包括:
[0032]
根据词条在所述训独立数据中出现的次数计算词条的词频;根据所述独立数据涉及的文件总数目与所述独立数据的文件的数目计算所述独立数据的逆文档频率;计算所述
独立数据的词频-逆向文件频率并排序,输出词频-逆向文件频率大于阈值的独立数据为所述提取的特征;
[0033][0034][0035]
t=r
i,j
*di[0036]
其中候选关键词i在文件j中的词频为r
i,j
,候选关键词i在文件j中出现的次数为n
i,j
,文件j中所有词汇出现的次数总和为∑kn
k,j
,候选关键词i的词频-逆向文件频率为t,语料库中的文件总数d,包含候选关键词i的文档数为ci。
[0037]
进一步的,所述对所述分类结果进行聚类分析获得聚类结果的方法,包括:
[0038]
将所述分类结果作为样本输入,给定启发式的确定合适的距离阈值,从分类结果中随机读入样本点作为类中心,并放入中心集合中更新数据集;
[0039]
分别与聚类中心集合的类中心点计算得到最小欧氏距离,遍历整个数据集,得到初始聚类中心集合;将分类结果分别与聚类中心集合的中心计算欧氏距离,将样本加入到聚类中心对应的簇中得到聚类簇;
[0040]
通过所述聚类簇再次计算每个聚类簇的类中心位置,将计算结果作为新的聚类中心;重复操作直到聚类中心不再变化,再次计算聚类簇与聚类簇中心的欧式距离得到新的聚类中心集合,通过欧式距离公式将样本点加入到聚类中完成聚类;
[0041][0042]
其中第一聚类簇(x2,y2)到第二聚类簇(x1,y1)欧式距离为d。
[0043]
本发明的有益效果是:
[0044]
本发明是一种数字图书馆数据挖掘方法,与现有技术相比,本发明具有以下技术效果:
[0045]
1.本发明通过预处理、获得关键词、数据分类和聚类分析步骤,可以提高数字图书馆数据挖掘的准确性,从而提高数据挖掘的精度,可以大大节省人力和时间成本,提高工作效率,可以实现对数字图书馆数据的实时挖掘,及时发现和处理数字图书馆数据的潜在信息,对数字图书馆的数据挖掘具有重要意义,可以适应不同读者、不同位置的数字图书馆的数据挖掘需求,具有一定的普适性。
[0046]
2.本发明的方法可以综合考虑数字图书馆的读者行为数据,利用聚类分析将数据挖掘问题转化为聚类问题,通过对已知行为数据的关键词提取和分类,实现对数据挖掘的准确把控。该方法不仅可以提高数据挖掘的精度,同时具有较好的可解释性,可以直接应用于数字图书馆数据挖掘系统中。
附图说明
[0047]
图1为本发明一种数字图书馆数据挖掘方法的步骤流程图。
具体实施方式
[0048]
下面以及具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
[0049]
本发明数字图书馆数据挖掘方法包括以下步骤:
[0050]
如图1所示,在本实施例中,包括以下步骤:
[0051]
a获取数字图书馆中的读者历史行为数据,对所述读者历史行为数据进行预处理;
[0052]
b将预处理后的所述读者历史行为数据输入分类模型获得关键词,包括遍历预处理后的所述读者历史行为数据生成候选关键词,标注所述候选关键词得到有标注数据和无标注数据,筛选有标注数据作为初始训练数据,训练得到分类模型,用训练好的所述分类模型对无标注数据中的所述候选关键词进行分类预测,计算无标注数据的置信度,不断迭代直到所述无标注数据的置信度皆小于95%终止迭代,将所述置信度大于95%的的无标注数据加入所述初始训练数据并将所述初始训练数据作为关键词输出;
[0053]
c向量化所述关键词,计算向量化后的所述关键词中词语的相似度,合并相似度高的词语得到独立数据,提取所述独立数据的特征,根据所述特征对预处理后的所述读者行为行为数据进行分类,获得分类结果;
[0054]
d对所述分类结果进行聚类分析获得聚类结果,将所述聚类结果作为挖掘结果并输出。
[0055]
在本实施例中,步骤a中所述预处理的方法,包括:
[0056]
a、将带分词的字符串从左到右切分为w1,w2,
…
,wm,计算当前词与前驱词的概率;计算该词的累计概率值,保留大的累计概率,直到该字符串结束;从wm开始,按照从右到左的顺序,将前驱词输出分词结束;
[0057][0058][0059]
其中字符串词m个,相关的当前词n(1≤n≤n),当前词与前驱词的概率为p,累计概率值为字符串i的个数为m,相关的当前词n个数为n,分字符串i的切分为wi;
[0060]
b、获取停用词列表并手动添加缺失的常见停用词得到列表包,所述列表包含常见的无意义的词语,遍历所述分词后的词语列表,将其中出现在停用词列表中的词语去除;
[0061]
在实际评估中,读者输入“我想找一本关于人工智能的书籍”,分词后为“我/想/找/一本/关于/人工智能/的/书籍”,去停用词后为“想/找/一本/人工智能/书籍”。
[0062]
在本实施例中,在步骤b中所述遍历预处理后的所述读者历史行为数据生成候选关键词的方法,包括使用词频统计将频繁出现所述检索数据和所述借阅数据中的词语作为候选关键词;
[0063]
在实际评估中,“想/找/一本/人工智能/书籍”的候选关键词为“人工智能”。
[0064]
在本实施例中,在步骤b中所述标注所述候选关键词得到有标注数据和无标注数据的方法,包括:
[0065]
将所述候选关键词转化为为观测序列和状态序列并输入,确定需要标注的不同标签和观测集;确定所述分类模型的初始状态概率分布、状态转移概率矩阵和观测概率矩阵;
[0066]
计算所述标注模型每个时刻的前向概率和后向概率:
[0067]
δ
t
(i)=p(o1,o1,
…
,o
t
,i
t
=qi;λ)
[0068]
θ
t
(i)=p(o
t+1
,o
t+2
,
…
,o
t
,i
t
=qi;λ)
[0069]
其中t时刻的前向概率为δ
t
(i),观测序列为o1,o1,
…
,o
t
状态为qi,给定模型λ,t时刻的后向概率为θ
t
(i),从时刻t+1到时刻t的观测序列为o
t+1
,o
t+2
,
…
,o
t
;
[0070]
将观测序列输入确定所述参数后的所述标注模型进行标注,将标注后的观测序列和状态序列根据有无标注分成有标注数据和无标注数据;
[0071]
在实际评估中,句子“我喜欢这个电影”,特征为“我喜欢”,“喜欢这个”,“这个电影”,有标注数据:我喜欢这个电影、这个电影给了我很多感动,我真的很喜欢它、我觉得这部电影很好看,特别是它的视觉和英语;无标注数据:这个电影让我感到很满意、我觉得这个电影很棒、这个电影给我带来很多快乐。
[0072]
在本实施例中,所述计算无标注数据的置信度的方法,包括:
[0073]
获取未标注数据在所述标注模型中的概率分布,根据概率分布计算熵值:
[0074]
e(vi)=-∑p(vi)log2p(vi)
[0075]
其中第i个无标注数据vi熵值为e(vi),第i个无标注数据的概率分布为p(vi),置信度为一减去熵值。
[0076]
在本实施例中,所述筛选有标注数据作为初始训练数据的方法,包括将有标注数据划分成训练集和测试集,使用训练集训练所述分类模型,使用测试集对训练好的所述分类模型进行评估,重复训练和评估所述分类模型,选择不同的训练集和测试集得到分类模型的评估结果,根据平均测试误差的选择分类模型,使用选择的分类模型筛选有标注数据作为初始训练数据;
[0077]
在实际评估中,筛选“我喜欢这个电影”的特征:名词“我”、“这个电影”,动词“喜欢”。
[0078]
在本实施例中,所述分类模型,基于支持向量机算法,包括通过非线性映射函数将原始模式空间映射到高维特征空间,在特征空间中构造出完美分类的决策边界,对线性或非线性数据进行分类。
[0079]
在本实施例中,所述根据所述特征对预处理后的所述读者行为行为数据进行分类的方法,包括构建根节点,随机选取预处理后的所述读者历史行为数据作为训练数据,将训练数据放在根节点,根据所述特征将训练数据分成子集,若分类正确则构建叶节点,将子集分到对应的叶节点,若子集分类不正确则重新选取特征,直到所有训练数据子集被正确分类,输出分类结果。
[0080]
在本实施例中,所述提取所述独立数据的特征的方法,包括:
[0081]
根据词条在所述训独立数据中出现的次数计算词条的词频;根据所述独立数据涉及的文件总数目与所述独立数据的文件的数目计算所述独立数据的逆文档频率;计算所述独立数据的词频-逆向文件频率并排序,输出词频-逆向文件频率大于阈值的独立数据为所述提取的特征;
[0082][0083][0084]
t=r
i,j
*di[0085]
其中候选关键词i在文件j中的词频为r
i,j
,候选关键词i在文件j中出现的次数为n
i,j
,文件j中所有词汇出现的次数总和为∑kn
k,j
,候选关键词i的词频-逆向文件频率为t,语料库中的文件总数d,包含候选关键词i的文档数为ci;
[0086]
在实际评估中,“我向凯瑟琳复仇了,但我是真的爱她,爱到了骨子里”,初始数据为“向凯瑟琳复仇,爱,爱到骨子里”,处理数据为“向/凯瑟琳/复仇/爱/爱/到/骨子/里”,独立数据为“向/凯瑟琳/复仇/爱”,提取的特征为“复仇”,“爱”。
[0087]
在本实施例中,所述对所述分类结果进行聚类分析获得聚类结果的方法,包括:
[0088]
将样本所述分类结果输入,给定启发式的确定合适的距离阈值,从分类结果中随机读入样本点作为类中心,并放入中心集合中更新数据集;
[0089]
从当前数据集中随机抽取,分别与聚类中心集合的类中心点计算得到最小欧氏距离,遍历整个数据集,得到初始聚类中心集合;
[0090]
将分类结果分别与聚类中心集合中的中心计算欧氏距离,与距离阈值比较,将样本加入到聚类中心对应的簇中得到聚类簇;通过所述聚类簇再次计算每个聚类簇的类中心位置,将计算结果作为新的聚类中心;
[0091]
重复操作直到聚类中心不再变化,再次计算聚类簇与聚类簇中心的欧式距离得到新的聚类中心集合;将分类结果的样本分别与新的数据集合中心的簇中心计算欧式距离,得到新的簇集合,计算聚类簇的平均类中心,得到新的聚类中心集合,重复操作直到聚类中心不再变化,得到最终的聚类中心集合,通过欧式距离公式将样本点加入到聚类中完成聚类;
[0092][0093]
其中第一聚类簇(x2,y2)到第二聚类簇(x1,y1)欧式距离为d;
[0094]
在实际评估中,聚类结果为人工智能、虐恋小说、电影评价。
[0095]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种数字图书馆数据挖掘方法,其特征在于,包括以下步骤:a获取数字图书馆中的读者历史行为数据,对所述读者历史行为数据进行预处理;b将预处理后的所述读者历史行为数据输入分类模型获得关键词,包括遍历预处理后的所述读者历史行为数据生成候选关键词,标注所述候选关键词得到有标注数据和无标注数据,筛选有标注数据作为初始训练数据,训练得到分类模型,用训练好的所述分类模型对无标注数据中的所述候选关键词进行分类预测,计算无标注数据的置信度,不断迭代直到所述无标注数据的置信度皆小于95%终止迭代,将所述置信度大于95%的的无标注数据加入所述初始训练数据并将所述初始训练数据作为关键词输出;c向量化所述关键词,计算向量化后的所述关键词中词语的相似度,合并相似度高的词语得到独立数据,提取所述独立数据的特征,根据所述特征对预处理后的所述读者行为行为数据进行分类,获得分类结果;d对所述分类结果进行聚类分析获得聚类结果,将所述聚类结果作为挖掘结果并输出。2.根据权利要求1所述一种数字图书馆数据挖掘方法,其特征在于,在步骤a中所述预处理的方法,包括:a、将带分词的字符串从左到右切分为w1,w2,
…
,w
m
,计算当前词与前驱词的概率;计算该词的累计概率值,保留大的累计概率,直到该字符串结束;从w
m
开始,按照从右到左的顺序,将前驱词输出分词结束;序,将前驱词输出分词结束;其中字符串词m个,相关的当前词n(1≤n≤n),当前词与前驱词的概率为p,累计概率值为字符串i的个数为m,相关的当前词n个数为n,分字符串i的切分为w
i
;b、获取停用词列表并手动添加缺失的常见停用词得到列表包,所述列表包含常见的无意义的词语,遍历所述分词后的词语列表,将其中出现在停用词列表中的词语去除。3.根据权利要求1所述一种数字图书馆数据挖掘方法,其特征在于,在步骤b中所述遍历预处理后的所述读者历史行为数据生成候选关键词的方法,包括使用词频统计将频繁出现所述检索数据和所述借阅数据中的词语作为候选关键词。4.根据权利要求1所述一种数字图书馆数据挖掘方法,其特征在于,在步骤b中所述标注所述候选关键词得到有标注数据和无标注数据的方法,包括:将所述候选关键词转化为为观测序列和状态序列并输入,确定需要标注的不同标签和观测集;确定所述分类模型的初始状态概率分布、状态转移概率矩阵和观测概率矩阵;计算所述标注模型每个时刻的前向概率和后向概率:δ
t
(i)=p(o1,o1,
…
,o
t
,i
t
=q
i
;λ)θ
t
(i)=p(o
t+1
,o
t+2
,
…
,o
t
,i
t
=q
i
;λ)其中t时刻的前向概率为δ
t
(i),观测序列为o1,o1,
…
,o
t
状态为q
i
,给定模型λ,t时刻的
后向概率为θ
t
(i),从时刻t+1到时刻t的观测序列为o
t+1
,o
t+2
,
…
,o
t
;将观测序列输入确定所述参数后的所述标注模型进行标注,将标注后的观测序列和状态序列根据有无标注分成有标注数据和无标注数据。5.根据权利要求1所述一种数字图书馆数据挖掘方法,其特征在于,所述计算无标注数据的置信度的方法,包括:获取未标注数据在所述标注模型中的概率分布,根据概率分布计算熵值:e(v
i
)=-∑p(v
i
)log2p(v
i
)其中第i个无标注数据v
i
熵值为e(v
i
),第i个无标注数据的概率分布为p(v
i
),置信度为一减去熵值。6.根据权利要求1所述一种数字图书馆数据挖掘方法,其特征在于,所述筛选有标注数据作为初始训练数据的方法,包括将有标注数据划分成训练集和测试集,使用训练集训练所述分类模型,使用测试集对训练好的所述分类模型进行评估,重复训练和评估所述分类模型,选择不同的训练集和测试集得到分类模型的评估结果,根据平均测试误差的选择分类模型,使用选择的分类模型筛选有标注数据作为初始训练数据。7.根据权利要求1所述一种数字图书馆数据挖掘方法,其特征在于,所述分类模型,基于支持向量机算法,包括通过非线性映射函数将原始模式空间映射到高维特征空间,在特征空间中构造出完美分类的决策边界,对线性或非线性数据进行分类。8.根据权利要求1所述一种数字图书馆数据挖掘方法,其特征在于,所述根据所述特征对预处理后的所述读者行为行为数据进行分类的方法,包括构建根节点,随机选取预处理后的所述读者历史行为数据作为训练数据,将训练数据放在根节点,根据所述特征将训练数据分成子集,若分类正确则构建叶节点,将子集分到对应的叶节点,若子集分类不正确则重新选取特征,直到所有训练数据子集被正确分类,输出分类结果。9.根据权利要求1所述一种数字图书馆数据挖掘方法,其特征在于,所述提取所述独立数据的特征的方法,包括:根据词条在所述独立数据中出现的次数计算词条的词频;根据所述独立数据涉及的文件总数目与所述独立数据的文件的数目计算所述独立数据的逆文档频率;计算所述独立数据的词频-逆向文件频率并排序,输出词频-逆向文件频率大于阈值的独立数据为所述提取的特征;的特征;t=r
i,j
*d
i
其中候选关键词i在文件j中的词频为r
i,j
,候选关键词i在文件j中出现的次数为n
i,j
,文件j中所有词汇出现的次数总和为∑
k
n
k,j
,候选关键词i的词频-逆向文件频率为t,语料库中的文件总数d,包含候选关键词i的文档数为c
i
。10.根据权利要求1所述一种数字图书馆数据挖掘方法,其特征在于,所述对所述分类结果进行聚类分析获得聚类结果的方法,包括:
将所述分类结果作为样本输入,给定启发式的确定合适的距离阈值,从分类结果中随机读入样本点作为类中心,并放入中心集合中更新数据集;分别与聚类中心集合的类中心点计算得到最小欧氏距离,遍历整个数据集,得到初始聚类中心集合;将分类结果分别与聚类中心集合的中心计算欧氏距离,将样本加入到聚类中心对应的簇中得到聚类簇;通过所述聚类簇再次计算每个聚类簇的类中心位置,将计算结果作为新的聚类中心;重复操作直到聚类中心不再变化,再次计算聚类簇与聚类簇中心的欧式距离得到新的聚类中心集合,通过欧式距离公式将样本点加入到聚类中完成聚类;其中第一聚类簇(x2,y2)到第二聚类簇点(x1,y1)欧式距离为d。
技术总结
本发明公开了一种数字图书馆数据挖掘方法,包括获取数字图书馆中的读者历史行为数据,对所述读者历史行为数据进行预处理,将预处理后的所述读者历史行为数据输入分类模型获得关键词,向量化所述关键词,计算向量化后的所述关键词中词语的相似度,合并相似度高的词语得到独立数据,提取所述独立数据的特征,根据所述特征对预处理后的所述读者行为行为数据进行分类,获得分类结果,对所述分类结果进行聚类分析获得聚类结果,将所述聚类结果作为挖掘结果并输出。该方法不仅可以提高数据挖掘精度,同时具有较好的可解释性,可以直接应用于数据图书馆数据挖掘中。用于数据图书馆数据挖掘中。用于数据图书馆数据挖掘中。
技术研发人员:旻苏 王霞
受保护的技术使用者:中国标准化研究院
技术研发日:2023.07.07
技术公布日:2023/10/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/