一种数据分类存储方法、装置及计算机存储介质与流程
未命名
09-24
阅读:59
评论:0
1.本技术涉及计算机软件技术领域,尤其涉及一种数据分类存储方法、装置及计算机存储介质。
背景技术:
2.数据爬取是一种常用的获取信息的手段。例如,在舆情分析平台中,常通过爬虫的方式获取数据,然后对大数据进行分析以得到舆论信息的走向以及发展态势。然而,在爬取数据的过程中,数据都是混乱存放的,后续进行查找和分析时比较麻烦,造成了不必要的资源和性能浪费。
技术实现要素:
3.本技术提供了一种数据分类存储方法、装置及计算机存储介质,能够将爬取到的数据按照各自的类别进行分类存储,避免数据存放混乱。
4.本技术的技术方案是这样实现的:
5.第一方面,本技术提供了一种数据分类存储方法,该方法包括:
6.对预设信息源进行爬取处理,得到至少一条数据;
7.对所述至少一条数据进行分类处理,确定所述至少一条数据各自的类别标识;
8.基于所述至少一条数据各自的类别标识,确定所述至少一条数据各自的存储位置;
9.将所述至少一条数据存储到各自的存储位置。
10.第二方面,本技术提供了一种数据分类存储装置,该数据分类存储装置包括获取单元、分类单元、确定单元和存储单元,其中,
11.获取单元,配置为对预设信息源进行爬取处理,得到至少一条数据;
12.分类单元,配置为对所述至少一条数据进行分类处理,确定所述至少一条数据各自的类别标识;
13.确定单元,配置为基于所述至少一条数据各自的类别标识,确定所述至少一条数据各自的存储位置;
14.所述存储单元,配置为将所述至少一条数据存储到各自的存储位置。
15.第三方面,本技术提供了一种数据分类存储装置,该数据分类存储装置包括存储器和处理器;其中,
16.所述存储器,用于存储能够在所述处理器上运行的计算机程序;
17.所述处理器,用于在运行所述计算机程序时,执行如第一方面所述方法的步骤。
18.第四方面,本技术提供了一种计算机存储介质,该计算机存储介质存储有数据分类存储程序,该数据分类存储程序被至少一个处理器执行时实现如第一方面所述方法的步骤。
19.本技术实施例提供了一种数据分类存储方法、装置及计算机存储介质,通过对预
设信息源进行爬取处理,得到至少一条数据;对至少一条数据进行分类处理,确定至少一条数据各自的类别标识;基于至少一条数据各自的类别标识,确定至少一条数据各自的存储位置;将所述至少一条数据存储到各自的存储位置。这样,通过将爬取到的数据按照各自的类别进行分类存储,能够避免数据存放混乱,后续可以有效提升数据的查询效率。
附图说明
20.图1为本技术实施例提供的一种数据分类存储方法的流程示意图。
21.图2为本技术实施例提供的另一种数据分类存储方法的流程示意图。
22.图3为本技术实施例提供的又一种数据分类存储方法的原理示意图。
23.图4为本技术实施例提供的一种数据分类存储装置的组成结构示意图。
24.图5为本技术实施例提供的一种数据分类存储装置的具体硬件结构示意图。
25.图6为本技术实施例提供的一种数据分类存储系统的组成结构示意图。
具体实施方式
26.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关申请相关的部分。
27.除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的,不是旨在限制本公开。
28.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
29.需要指出,本公开实施例所涉及的术语“第一\第二\第三”仅是用于区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
30.数据爬取是一种常用的获取信息的手段。在爬取数据过程中,数据一般是按照各个分布式存储系统进行混乱存放;或者,按照数据被爬取的时间进行存放,例如某个存储位置存放当天爬取的数据。这样,如果日后需要调用不同类型数据进行处理,需要遍历所有数据进行查找,不能精确的定位并抓取数据,造成不必要的资源和性能的浪费。
31.基于此,本技术实施例提供了一种数据分类存储方法,通过对预设信息源进行爬取处理,得到至少一条数据;对至少一条数据进行分类处理,确定至少一条数据各自的类别标识;基于至少一条数据各自的类别标识,确定至少一条数据各自的存储位置;将所述至少一条数据存储到各自的存储位置。这样,通过将爬取到的数据按照各自的类别进行分类存储,能够避免数据存放混乱,后续可以有效提升数据的查询效率。
32.下面将结合附图对本技术各实施例进行详细说明。
33.在本技术的一实施例中,参见图1,其示出了本技术实施例提供的一种数据分类存储方法的流程示意图,如图1所示,该方法可以包括:
34.s101:对预设信息源进行爬取处理,得到至少一条数据。
35.需要说明的是,本技术实施例提供的数据分类存储方法应用于多种计算设备,例如个人计算机、笔记本电脑、云计算系统等。
36.在这里,爬取处理可以是通过爬虫工具(例如scripy)进行的。
37.s102:对至少一条数据进行分类处理,确定至少一条数据各自的类别标识。
38.需要说明的是,由于爬取到的数据可能包含多种不同类型的数据,为了便于后续查找和分析,可以对爬取到的数据进行分类处理。
39.在进行分类处理时,具体的分类依据可以根据实际应用场景确定。例如,将数据分为图像、文字、声音等类别;又例如,将数据按照主题相关性进行分类,例如强相关、中相关、弱相关等等。
40.s103:基于至少一条数据各自的类别标识,确定至少一条数据各自的存储位置。
41.s104:将至少一条数据存储到各自的存储位置。
42.需要说明的是,依据数据的类别标识,为不同类别标识的数据划分对应的存储位置。这样,通过将爬取到的数据按照各自的类别进行分类存储,能够避免数据存放混乱,后续可以有效提升数据的查询效率。
43.需要说明的是,为了进一步细分各个数据,在对数据进行分类后,还可以对数据进行更为细致的属性分析。下面以至少一条数据中的任意一条数据为例进行具体说明。
44.在一些实施例中,参见图2,所述基于至少一条数据各自的类别标识,确定至少一条数据各自的存储位置,可以包括:
45.s201:基于第一数据的类别标识,确定第一数据的存储范围。
46.在这里,第一数据是至少一条数据的任意一个;
47.s202:对第一数据进行属性分析,得到属性分类结果。
48.s203:基于属性分类结果,从第一数据的存储范围中确定第一数据的存储位置。
49.下面以类别标识包括图像、文字和声音为例进行详细说明。如果类别标识为其他体系,也可进行适应性理解。
50.在一些实施例中,如图3所示,所述基于第一数据的类别标识,确定第一数据的存储范围,包括:
51.在第一数据的类别标识为图像的情况下,确定第一数据的存储范围为第一预设存储范围,可以表示为[a:b];在第一数据的类别标识为文字的情况下,确定第一数据的存储范围为第二预设存储范围,可以表示为[c:d];在第一数据的类别标识为声音的情况下,确定第一数据的存储范围为第三预设存储范围,可以表示为[e:f]。
[0052]
在此基础上,对于不同类别的数据,属性分析的内容是不同的,具体可根据实际应用场景确定。示例性的,如果第一数据为图像,属性分析包括:判断其为纯图像或者含文字图像,和/或,判断其为模糊图像还是清晰图像;如果第一数据为文字,属性分析包括:判断其冷热程度值。如果第一数据为声音,属性分析包括:判断其持续时间长度。
[0053]
在一种具体的实施例中,在第一数据的类别标识为图像的情况下,属性分类结果用于指示第一数据是否为纯图像和/或第一数据是否为清晰图像。因此,所述对第一数据进行属性分析,得到属性分类结果,可以包括:
[0054]
对第一数据进行图像识别处理,得到第一识别结果;其中,第一识别结果指示第一
数据为纯图像或者含文字图像;和/或,对第一数据进行清晰度判断,得到第二识别结果;第二识别结果指示第一数据对应的图像为清晰图像或者模糊图像。
[0055]
以下提供两种具体情况。
[0056]
第一种情况:属性分类结果可以包括:(1)纯图像,(2)含文字图像。此时,仅需要对第一数据进行图像识别处理即可。在这里,图像识别处理可以利用已有的图像识别算法进行,在此不作赘述。
[0057]
这样,若第一数据为纯图像,则第一数据的存储位置为[a:b]中的sk1
图
[per],若第一数据为含文字图像,则第一数据的存储位置为[a:b]中的sk1
图
[wd]。
[0058]
第二种情况,如图3所示,属性分类结果可以包括:(1)纯图像且清晰图像,(2)纯图像且模糊图像,(3)含文字图像且清晰图像,(4)含文字图像且模糊图像。此时,需要对第一数据分别进行图像识别处理和清晰度判断。
[0059]
在这里,对于纯图像和含文字图像,清晰度判断的方法可以是不同的。
[0060]
在所述第一数据为纯图像数据的情况下,所述对第一数据进行清晰度判断,得到第二识别结果,可以包括:
[0061]
基于空间域图像质量评估算法mscn对第一数据对应的图像进行处理,得到mscn系数图;在mscn系数图中,统计满足第一预设条件的mscn系数的和值,得到目标统计值;将目标统计值和第一预设值进行比较,以根据比较结果得到第二识别结果。
[0062]
也就是说,在第一数据为纯图像的情况下,清晰度判断的具体步骤可以包括:对(第一数据对应的)待识别图像进行预处理得到mscn(mean subtracted contrast normalized)图像,进而统计mscn图像中对应的条状图中,在0.1-0.5范围内的mscn系数{mscn},将上述系数进行求和处理,得到第一测量值sum{mscn};对比第一测量值sum{mscn}和第一预设阈值,如果第一测量值sum{mscn}大于第一预设阈值,则第一数据为模糊图像;如果第一测量值sum{mscn}小于(或等于)第一预设阈值,则第一数据为清晰图像。
[0063]
在所述第一数据为含文字图像数据的情况下,所述对第一数据进行清晰度判断,得到第二识别结果,可以包括:
[0064]
对第一数据对应的图像进行计算、归一化和量化处理,得到梯度幅值图;在梯度幅值图中,统计满足第二预设条件的梯度幅度值的数量,得到目标数量;将目标数量和第二预设值进行比较,以根据比较结果得到第二识别结果。
[0065]
在第一数据为含文字图像的情况下,清晰度判断的具体步骤可以包括:对(第一数据对应的)待识别图像的梯度幅值进行计算,对梯度幅值进行归一化处理,归一化后的范围为0-1区间;对梯度幅值进行量化,并将梯度幅值控制在0-0.5范围内;统计量化后的梯度幅度的条形图中的[0~rate(比率常数)]/gap范围内的非0点数,得到第二测量值,gap是指条形图中的条形宽度;对比第二测量值和第二预设阈值,如果第二测量值大于第二预设阈值,则该第一数据为模糊图像;如果第二测量值小于(或等于)第二预设阈值,则该第一数据为清晰图像。
[0066]
这样,如图3所示,若第一数据为纯图像且模糊图像,则第一数据的存储位置为[a:b]中的sk1
图
[per,糊];若第一数据为纯图像且清晰图像,则第一数据的存储位置为[a:b]中的sk1
图
[per,清];若第一数据为含文字图像且模糊图像,则第一数据的存储位置为[a:b]中的sk1
图
[wd,糊];若第一数据为含文字图像且清晰图像,则第一数据的存储位置为[a:b]中
的sk1
图
[wd,清]。
[0067]
在一些实施例中,在第一数据的类别标识为文字的情况下,属性分类结果至少包括普通舆情和热点舆情;所述对第一数据进行属性分析,得到属性分类结果,可以包括:
[0068]
对第一数据进行情感分析,得到第一数据的置信度值;确定第一数据的曝光度值和第一数据的热度值;对置信度值、曝光度值和热度值进行计算,得到第一数据的冷热程度值;在冷热程度值小于第三预设值的情况下,确定第一数据为普通舆情;在冷热程度值大于或等于第三预设值的情况下,确定第一数据为热点舆情。
[0069]
需要说明的是,对于文字来说,需要依据第一数据的冷热程度值,进一步确定第一数据在sk2
字
中的具体冷热存放位置。
[0070]
在本实施例中,利用第一数据的置信度值、第一数据的曝光度值以及第一数据的热度值来计算第一数据的冷热程度值l(ψ)。
[0071]
示例性的,可以使用式(1)来计算第一数据的冷热程度值l(ψ)。
[0072][0073]
其中,em(ψ)为第一数据ψ的置信度值,为第一数据ψ在t+k时刻的曝光度值,t为抓取到第一数据ψ的时间,k为第一数据ψ划分类别标识所用的时间,为第一数据的热度值。
[0074]
在这里,对于第一数据的置信度值em(ψ),可以使用现有自然语言处理(natural language processing,nlp)技术中的文本情感分析模型得到。
[0075]
对于第一数据的曝光度值可以基于与第一数据类似的舆情(下称相同舆情)的发布数量和曝光度来计算得到。示例性的,获取最近1小时内已有的相同舆情,得到其发布人信息及发布网站信息。其中,t为抓取到第一数据的时间(假设一个舆情从发布到抓取到的时间是固定的)。这里,可以使用式(2)来计算第一数据的曝光度值
[0076][0077]
其中,用来计算在自媒体类网站下的第一数据的曝光度值,用来计算在普通网站下的第一数据的曝光度值。这里对自媒体类网站和普通网站进行分开计算,再进行求和得到第一数据的曝光度值
[0078]
具体来说,自媒体类网站是基于发布者的粉丝情况来计算第一数据的曝光度值,其中,μi为第i个自媒体网站的曝光力度,fan(u
ij
)为第i个自媒体网站中第j个发布者的粉丝数。i∈n,j∈m,n是指自媒体网站的总数量,m是指对应的自媒体网站的发布者的总数量。普通网站是基于日常活跃用户来计算第一数据的曝光度值,其中,νi为第i个普通网站的曝光力度,dui为第i个普通网站的日常活跃用户的总数量。
[0079]
这里,通过上述计算,将自媒体网站和普通网站的曝光力度分别考虑进来,提升第一数据的曝光度值计算的准确性。
[0080]
对于第一数据的热度值其表示为第一数据在t+k时刻的热度值。可以基于评论数、转发数、点赞数及对应人员的影响力来计算得到。
[0081]
示例性的,可以使用式(3)来计算第一数据的热度值
[0082][0083]
其中,cmt、fwd和thumb依次表示第一数据的总评论数、总转发数和总点赞数,cmtv、fwdv和thumbv依次表示粉丝数大于n的用户的评论数、转发数、点赞数,w1、w2、w3、w1'、w2'、w3'分别为对应的权重。
[0084]
应理解,对应人员的影响力体现在仅将粉丝数大于n的用户作为计算对象,即只有影响力较大的用户的数据(评论数、转发数、点赞数)纳入计算。
[0085]
这样,根据式(1)~式(3)能够计算第一数据的冷热程度值,在冷热程度值小于第三预设值的情况下,确定第一数据为普通舆情;在冷热程度值大于或等于第三预设值的情况下,确定第一数据为热点舆情。进一步的,如图3所示,若第一数据为普通舆情,则第一数据的存储位置为[c:d]中的sk2
字
[冷];若第一数据为热点舆情,则第一数据的存储位置为[c:d]中的sk2
字
[热]。
[0086]
在一些实施例中,在第一数据的类别标识为声音的情况下,属性分类结果至少包括短时数据、中时数据和长时数据;所述对第一数据进行属性分析,得到属性分类结果,包括:
[0087]
确定第一数据的持续时间;在第一数据的持续时间属于第一预设时间范围的情况下,确定第一数据为无效数据,且丢弃无效数据;在第一数据的持续时间属于第二预设时间范围的情况下,确定第一数据为短时数据;在第一数据的持续时间属于第三预设时间范围的情况下,确定第一数据为中时数据;在第一数据的持续时间属于第四预设时间范围的情况下,确定第一数据为长时数据。
[0088]
需要说明的是,若第一数据的类别标识为声音,则第一数据的存储位置为[e:f]中的sk3
音
。
[0089]
在一种情况中,若第一数据的持续时间小于等于a秒,即属于第一预设时间范围的情况,则判定第一数据为无效数据,且丢弃无效数据;若第一数据的持续时间大于a秒小于等于b分钟,即属于第二预设时间范围的情况,则判定第一数据为短时数据,此时第一数据的存储位置为[e:f]中的sk3
音
[短];若第一数据的持续时间大于b分钟小于等于c分钟,即属于第三预设时间范围的情况,则判定第一数据为中时数据,此时第一数据的存储位置为[e:f]中的sk3
音
[中];若第一数据的持续时间大于c分钟,即属于第四预设时间范围的情况,则判定第一数据为长时数据,此时第一数据的存储位置为[e:f]中的sk3
音
[长]。在另一种情况中,若第一数据的持续时间小于a秒,即属于第一预设时间范围的情况,则判定第一数据为无效数据,且丢弃无效数据;若第一数据的持续时间大于等于a秒小于b分钟,即属于第二预设时间范围的情况,则判定第一数据为短时数据,此时第一数据的存储位置为[e:f]中的sk3
音
[短];若第一数据的持续时间大于等于b分钟小于c分钟,即属于第三预设时间范围的
情况,则判定第一数据为中时数据,此时第一数据的存储位置为[e:f]中的sk3
音
[中];若第一数据的持续时间大于等于c分钟,即属于第四预设时间范围的情况,则判定第一数据为长时数据,此时第一数据的存储位置为[e:f]中的sk3
音
[长]。
[0090]
在这里,a<b<c,a、b、c需要根据实际应用场景确定,本公开实施例不作具体限定。
[0091]
综上所述,在本技术实施例中,对于爬取到的第一数据,首先,对第一数据进行分类处理,确定第一数据的存储范围。然后,对于不同类别下的第一数据继续进行属性分析,在对应的存储范围内进一步分配不同的存储位置。在第一数据的类别标识为图像的前提下,利用现有的图像识别技术,判断第一数据为纯图像还是含文字图像,在此基础上,进一步判断第一数据是否为模糊图像,进而确定第一数据具体的存储位置。在第一数据的类别标识为文字的前提下,使用nlp技术中的文本情感分析模型得到第一数据的置信度值,基于相同舆情的发布数量和曝光度计算得到第一数据的曝光度值,基于评论数、转发数、点赞数及对应人员的影响力计算得到第一数据的热度值。对第一数据的置信度值、第一数据的曝光度值和第一数据的热度值进行计算,得到第一数据的冷热程度值,进而确定第一数据具体的存储位置。在第一数据的类别标识为声音的前提下,依据第一数据的持续时间,判断第一数据为短时数据、中时数据或者长时数据,进而确定第一数据具体的存储位置。
[0092]
在一些实施例中,在确定至少一条数据各自的存储位置之后,该方法还可以包括:
[0093]
基于存储范围、属性分类结果和存储位置,对应生成至少一条数据各自的数据存储标签。
[0094]
需要说明的是,若第一数据的类别标识为图像,则第一数据的存储位置标签为{[a:b],sk1
图
∈[per/wd,清/糊]};若第一数据的类别标识为文字,则第一数据的存储位置标签为{[c:d],sk2
字
∈[冷/热]};若第一数据的类别标识为声音,则第一数据的存储位置标签为{[e:f],sk3
音
∈[短/中/长]}。
[0095]
在一些实施例中,该方法还包括:
[0096]
对至少一条数据各自对应的存储位置进行统计,得到数据存储信息;将数据存储信息进行可视化处理。
[0097]
这样,通过将数据存储信息以可视化方式展示给技术人员,技术人员可以更加清晰直观的了解各数据的存储位置,方便后续的检索和查找。
[0098]
从以上可以看出,本技术实施例中,将图像、声音、文字按照一定的存储分配规律进行存储,其中,图像考虑了图像自身内容的因素,将图像按照是否含有文字以及清晰度进行划分;文本信息考虑了数据的冷热程度值,将较为热门的文本信息存储在一个位置,将较为冷门的文本信息存储在另一个位置,便于后续的舆情分析。
[0099]
本技术实施例提供了一种数据分类存储方法,通过将图像、声音、文字按照一定的存储分配规律进行存储,能够有效解决数据存储不规范导致的后续数据提取分析时混乱的问题,还可以有效提升舆情产品信息的查询效率。
[0100]
在本技术的再一实施例中,参见图4,其示出了本技术实施例提供的一种数据分类存储装置40的组成结构示意图。如图4所示,该数据分类存储装置40包括获取单元401、分类单元402、确定单元403和存储单元404,其中,
[0101]
获取单元401,配置为预设信息源进行爬取处理,得到至少一条数据;
[0102]
分类单元402,配置为对至少一条数据进行分类处理,确定至少一条数据各自的类别标识;
[0103]
确定单元403,配置为基于至少一条数据各自的类别标识,确定至少一条数据各自的存储位置;
[0104]
存储单元404,配置为将至少一条数据存储到各自的存储位置
[0105]
在一些实施例中,确定单元403,具体配置为基于第一数据的类别标识,确定第一数据的存储范围;其中,第一数据是至少一条数据的任意一个;对第一数据进行属性分析,得到属性分类结果;基于属性分类结果,从第一数据的存储范围中确定第一数据的存储位置。
[0106]
在一些实施例中,确定单元403,还配置为在第一数据的类别标识为图像的情况下,确定第一数据的存储范围为第一预设存储范围;在第一数据的类别标识为文字的情况下,确定第一数据的存储范围为第二预设存储范围;在第一数据的类别标识为声音的情况下,确定第一数据的存储范围为第三预设存储范围。
[0107]
在一些实施例中,确定单元403,还配置为对第一数据进行属性分析,得到属性分类结果,包括:对第一数据进行图像识别处理,得到第一识别结果;其中,第一识别结果指示第一数据为纯图像或者含文字图像;和/或,对第一数据进行清晰度判断,得到第二识别结果;第二识别结果指示第一数据对应的图像为清晰图像或者模糊图像。
[0108]
在一些实施例中,确定单元403,还配置为在第一数据为纯图像数据的情况下,基于空间域图像质量评估算法mscn对第一数据对应的图像进行处理,得到mscn系数图;在mscn系数图中,统计满足第一预设条件的mscn系数的和值,得到目标统计值;将目标统计值和第一预设值进行比较,以根据比较结果得到第二识别结果;或者,在第一数据为含文字图像数据的情况下,对第一数据对应的图像进行计算、归一化和量化处理,得到梯度幅值图;在梯度幅值图中,统计满足第二预设条件的梯度幅度值的数量,得到目标数量;将目标数量和第二预设值进行比较,以根据比较结果得到第二识别结果。
[0109]
在一些实施例中,确定单元403,还配置为对第一数据进行属性分析,得到属性分类结果,包括:对第一数据进行情感分析,得到第一数据的置信度值;确定第一数据的曝光度值和第一数据的热度值;对第一数据的置信度值、第一数据的曝光度值和第一数据的热度值进行计算,得到第一数据的冷热程度值;在冷热程度值小于第三预设值的情况下,确定第一数据为普通舆情;在冷热程度值大于或等于第三预设值的情况下,确定第一数据为热点舆情。
[0110]
在一些实施例中,确定单元403,还配置为对第一数据进行属性分析,得到属性分类结果,包括:确定第一数据的持续时间;在第一数据的持续时间属于第一预设时间范围的情况下,确定第一数据为无效数据,且丢弃无效数据;在第一数据的持续时间属于第二预设时间范围的情况下,确定第一数据为短时数据;在第一数据的持续时间属于第三时间范围的情况下,确定第一数据为中时数据;在第一数据的持续时间属于第四预设时间范围的情况下,确定第一数据为长时数据。
[0111]
可以理解地,在本实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成
在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0112]
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0113]
因此,本实施例提供了一种计算机存储介质,该计算机存储介质存储有数据分类存储程序,所述数据分类存储程序被至少一个处理器执行时实现前述实施例中任一项所述的方法的步骤。
[0114]
基于上述的一种数据分类存储装置40的组成以及计算机存储介质,参见图5,其示出了本技术实施例提供的一种数据分类存储装置40的具体硬件结构示例,如图5所示,所述数据分类存储装置40可以包括:通信接口601、存储器602和处理器603;各个组件通过总线设备604耦合在一起。可理解,总线设备604用于实现这些组件之间的连接通信。总线设备604除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线设备604。其中,
[0115]
通信接口601,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
[0116]
存储器602,用于存储能够在处理器603上运行的计算机程序;
[0117]
处理器603,用于在运行所述计算机程序时,执行:
[0118]
对预设信息源进行爬取处理,得到至少一条数据;
[0119]
对至少一条数据进行分类处理,确定至少一条数据各自的类别标识;
[0120]
基于至少一条数据各自的类别标识,确定至少一条数据各自的存储位置;
[0121]
将至少一条数据存储到各自的存储位置。
[0122]
可以理解,本技术实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步链动态随机存取存储器(synchronous link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本技术描述的设备和方法的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
[0123]
而处理器603可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器603中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器603可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器603读取存储器602中的信息,结合其硬件完成上述方法的步骤。
[0124]
可以理解的是,本技术描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dsp device,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0125]
对于软件实现,可通过执行本技术所述功能的模块(例如过程、函数等)来实现本技术所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0126]
可选地,作为另一个实施例,处理器603还配置为在运行所述计算机程序时,执行前述实施例中任一项所述的方法的步骤。
[0127]
基于上述数据分类存储装置40的组成以及硬件结构示意图,参见图6,其示出了本技术实施例提供的一种数据分类存储系统70的组成结构示意图。如图6所示,该数据分类存储系统70至少包括前述实施例中任一项所述的数据分类存储装置40。
[0128]
对于数据分类存储系统70而言,这样,通过将爬取到的数据按照各自的类别进行分类存储,能够避免数据存放混乱,后续可以有效提升数据的查询效率。
[0129]
以上所述,仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。
[0130]
需要说明的是,在本技术中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0131]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0132]
本技术所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
[0133]
本技术所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
[0134]
本技术所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
[0135]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种数据分类存储方法,其特征在于,所述方法包括:对预设信息源进行爬取处理,得到至少一条数据;对所述至少一条数据进行分类处理,确定所述至少一条数据各自的类别标识;基于所述至少一条数据各自的类别标识,确定所述至少一条数据各自的存储位置;将所述至少一条数据存储到各自的存储位置。2.根据权利要求1所述的数据分类存储方法,其特征在于,所述基于所述至少一条数据各自的类别标识,确定所述至少一条数据各自的存储位置,包括:基于第一数据的类别标识,确定所述第一数据的存储范围;其中,所述第一数据是所述至少一条数据的任意一个;对所述第一数据进行属性分析,得到属性分类结果;基于所述属性分类结果,从所述第一数据的存储范围中确定所述第一数据的存储位置。3.根据权利要求2所述的数据分类存储方法,其特征在于,所述基于第一数据的类别标识,确定所述第一数据的存储范围,包括:在所述第一数据的类别标识为图像的情况下,确定所述第一数据的存储范围为第一预设存储范围;在所述第一数据的类别标识为文字的情况下,确定所述第一数据的存储范围为第二预设存储范围;在所述第一数据的类别标识为声音的情况下,确定所述第一数据的存储范围为第三预设存储范围。4.根据权利要求3所述的数据分类存储方法,其特征在于,在所述第一数据的类别标识为图像的情况下,所述属性分类结果用于指示所述第一数据是否为纯图像和/或所述第一数据是否为清晰图像;所述对所述第一数据进行属性分析,得到属性分类结果,包括:对所述第一数据进行图像识别处理,得到第一识别结果;其中,所述第一识别结果指示所述第一数据为纯图像或者含文字图像;和/或,对所述第一数据进行清晰度判断,得到第二识别结果;所述第二识别结果指示所述第一数据对应的图像为清晰图像或者模糊图像。5.根据权利要求4所述的数据分类存储方法,其特征在于,在所述第一数据为纯图像数据的情况下,所述对所述第一数据进行清晰度判断,得到第二识别结果,包括:基于空间域图像质量评估算法mscn对所述第一数据对应的图像进行处理,得到mscn系数图;在所述mscn系数图中,统计满足第一预设条件的mscn系数的和值,得到目标统计值;将所述目标统计值和第一预设值进行比较,以根据比较结果得到所述第二识别结果;在所述第一数据为含文字图像数据的情况下,所述对所述第一数据进行清晰度判断,得到第二识别结果,包括:对所述第一数据对应的图像进行计算、归一化和量化处理,得到梯度幅值图;在所述梯度幅值图中,统计满足第二预设条件的梯度幅度值的数量,得到目标数量;将所述目标数量和第二预设值进行比较,以根据比较结果得到所述第二识别结果。6.根据权利要求3所述的数据分类存储方法,其特征在于,在所述第一数据的类别标识
为文字的情况下,所述属性分类结果至少包括普通舆情和热点舆情;所述对所述第一数据进行属性分析,得到属性分类结果,包括:对所述第一数据进行情感分析,得到所述第一数据的置信度值;确定所述第一数据的曝光度值和所述第一数据的热度值;对所述置信度值、所述曝光度值和所述热度值进行计算,得到所述第一数据的冷热程度值;在所述冷热程度值小于第三预设值的情况下,确定所述第一数据为普通舆情;在所述冷热程度值大于或等于第三预设值的情况下,确定所述第一数据为热点舆情。7.根据权利要求3所述的数据分类存储方法,其特征在于,在所述第一数据的类别标识为声音的情况下,所述属性分类结果至少包括短时数据、中时数据和长时数据;所述对所述第一数据进行属性分析,得到属性分类结果,包括:确定所述第一数据的持续时间;在所述第一数据的持续时间属于第一预设时间范围的情况下,确定所述第一数据为无效数据,且丢弃所述无效数据;在所述第一数据的持续时间属于第二预设时间范围的情况下,确定所述第一数据为短时数据;在所述第一数据的持续时间属于第三预设时间范围的情况下,确定所述第一数据为中时数据;在所述第一数据的持续时间属于第四预设时间范围的情况下,确定所述第一数据为长时数据。8.一种数据分类存储装置,其特征在于,所述数据分类存储装置包括获取单元、分类单元、确定单元和存储单元,其中,所述获取单元,配置为对预设信息源进行爬取处理,得到至少一条数据;所述分类单元,配置为对所述至少一条数据进行分类处理,确定所述至少一条数据各自的类别标识;所述确定单元,配置为基于所述至少一条数据各自的类别标识,确定所述至少一条数据各自的存储位置;所述存储单元,配置为将所述至少一条数据存储到各自的存储位置。9.一种数据分类存储装置,其特征在于,所述数据分类存储装置包括存储器和处理器;其中,所述存储器,用于存储能够在所述处理器上运行的计算机程序;所述处理器,用于在运行所述计算机程序时,执行如权利要求1至7任一项所述方法的步骤。10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有数据分类存储程序,所述数据分类存储程序被至少一个处理器执行时实现如权利要求1至7任一项所述方法的步骤。
技术总结
本申请提供一种数据分类存储方法、装置及计算机存储介质,通过对预设信息源进行爬取处理,得到至少一条数据;对至少一条数据进行分类处理,确定至少一条数据各自的类别标识;基于至少一条数据各自的类别标识,确定至少一条数据各自的存储位置;将至少一条数据存储到各自的存储位置。这样,通过将爬取到的数据按照各自的类别进行分类存储,能够避免数据存放混乱,后续可以有效提升数据的查询效率。后续可以有效提升数据的查询效率。后续可以有效提升数据的查询效率。
技术研发人员:刘婷
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2022.07.08
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/