一种基于科技服务信息智能抓取系统数据收集方法与流程

未命名 08-29 阅读:129 评论:0


1.本发明涉及科技服务信息技术领域,更具体地涉及一种基于科技服务信息智能抓取系统数据收集方法。


背景技术:

2.数据抓取系统是指通过程序自动化方式从互联网上爬取信息并进行处理的一种系统,数据抓取系统可以在不需要人工干预的情况下,准确地获取指定网站上的数据,并将其转化为结构化的数据格式,数据抓取系统主要由爬虫引擎、解析器和存储器三部分组成。
3.在进行数据时,爬虫引擎负责从指定网站上下载页面内容,解析器则对爬虫引擎下载下来的页面进行解析,并提取出需要的信息;存储器则将提取出来的信息保存到数据库中,从而进行数据收集,但是传统的数据收集方法存在以下问题:
4.在进行现有的数据识别时,无法识别出已经过期的数据,因此在进行后续的数据收集时,无法将需要的数据进行抓取,且在进行数据抓取时,采用爬虫进行抓取,爬虫无法对进行抓取的对象数据进行计算与识别,因此最终所抓取到的数据较多,且数据内含有众多无法使用或者同为过滤的数据;
5.当爬虫将数据进行抓取后,此时进行抓取的数据内含有较多的空缺值、异常值以及重复的部分,将其直接合并到原本的数据内,则合并后的数据会出现无法使用的情况。


技术实现要素:

6.为了克服现有技术的上述缺陷,本发明的实施条例提供一种基于科技服务信息智能抓取系统数据收集方法,以解决背景技术中所提出的技术问题。
7.为实现上述目的,本发明提供如下技术方案:一种基于科技服务信息智能抓取系统数据收集方法,包括以下步骤:
8.步骤s1、判断单元判断客户端内缓存数据的实时性,并判断出过期的缓存数据;
9.步骤s2、抓取单元将需要进行抓取的诗句进行识别,并抓取过期缓存数据的相应最新数据;
10.步骤s3、清洗单元用于将抓取单元所抓取到的数据进行清洗处理,保证抓取后数据的完整性与正确性;
11.步骤s4、合并单元将进行清洗处理后的数据与客户端内的缓存数据进行合并;
12.步骤s5、同步单元将未能进行合并的数据进行同步处理后,使其进行合并;
13.还包括客户端、判断单元、抓取单元、清洗单元以及合并单元,所述客户端用于缓存抓取收集到的数据,所述判断单元用于判断客户端内缓存数据的实时性,所述抓取单元用于抓取过期缓存数据的相应最新数据,所述清洗单元用于将抓取单元所抓取到的数据进行清洗处理,所述合并单元用于将抓取到的数据与客户端内的数据进行合并;
14.所述判断单元包括采集模块、处理模块以及判断模块,所述采集模块采集客户端内缓存数据的实时因素以及时间线因素,实时因素为数据源抽取数据和数据传输到本地之
间的时间差,时间线因素为数据源生成数据的时间,所述处理模块接收采集模块所采集的实时因素以及时间线因素并生成实时因素数据ss以及时间线因素数据sj,并生成判断值p,所述判断模块接收判断值p并与阈值q进行对比,判断值p大于阈值时,判断模块发送抓取指令给抓取单元。
15.在一个优选的实施方式中,所述处理模块将实时因素数据ss以及时间线因素数据sj进行联立,并形成判断值p,其判断值p的计算公式为式中,0≤k1≤1,且0≤k2≤1,k1、k2均为权重且k1+k2=1。
16.在一个优选的实施方式中,所述抓取单元内包括识别模块、排序模块以及抓取模块,所述识别模块用于识别对象数据的偏好度信息、对象数据的热门程度信息以及对象数据的新鲜程度信息,排序模块接收识别模块所识别的信息并对其进行排序,抓取模块抓取采用爬虫抓取排序在第一位的对象数据。
17.在一个优选的实施方式中,所述排序模块的排序公式为k=2ph+3rm+5xx,式中ph为对象数据的偏好度信息,rm为对象数据的热门程度信息,xx为对象数据的新鲜程度信息。
18.在一个优选的实施方式中,所述清洗单元包括空缺值处理模块、异常值处理模块以及数据去重模块,空缺值处理模块采用判定树归纳法的方式进行空缺值补充,判定树归纳法获得空缺值编码数据的公式为gain(a)=i(s1,...,sm)-e(a),式中i为给定样本数据的期望信息,其计算公式为式中s为数据样本,pi为其发生的概率,m为数据样本的数量,式中e(a)为树枝的分支,其计算公式为式中a为数据属性,v为数据属性所具有的不同值,s
mj
为数据样本在数据属性上所具有的值。
19.在一个优选的实施方式中,所述异常值处理模块基于距离的孤立点进行异常值检测,数据整体集合中不大n部分与对象o之间的距离大于d,此时对象o为一个一个孤立点,对象o在d为半径的范围内超过最大对象数目m,此时便存在异常,异常值处理模块将全部的异常点进行整合后发送给维护单元,维护单元用于将异常点进行手动修改。
20.在一个优选的实施方式中,所述数据去重模块用于检测两组数据的相似度,当两组数据的相似度超过阈值y时,此时将一组数据进行删除,阈值y的初始值为70%,且阈值y的具体值可由管理人员进行重新设定。
21.在一个优选的实施方式中,所述合并单元接收清洗单元进行清洗后的数据,并将清洗后的数据建立索引,将多个索引到的数据与客户端内缓存的数据进行合并,所建立的索引包括文字索引、位图索引、图片索引以及空间索引。
22.在一个优选的实施方式中,所述同步单元采用同步化算法进行同步处理,且同步化算法公式为式中u(k)为抓取数据的数据取样序列,u(k+1)为客户端内数据取样序列,k为取样点数,t为抓取数据与客户端内数据的时间差,t
s0
为抓取数据的取样周期,ts为客户端内数据的取样周期。
23.本发明的技术效果和优点:
24.1、本发明通过采集模块采集实时因素以及时间线因素,因此可以准确地表示客户端内的数据实时性,及时寻找到过期的数据,将实时因素以及时间线因素整体进行计算,当
发现其过期时,即判断值p大于阈值q时,此时判断模块发送抓取指令给抓取单元,抓取单元能够抓取最新的数据,从而保证客户端内的数据均为最新的数据;
25.2、本发明通过设有抓取单元,抓取单元在进行数据抓取时,识别模块进行识别后,此时再通过排序模块进行对象数据的排序,由于需要进行抓取的对象数据较多,因此将其进行排序后,将排序在第一的对象数据进行抓取,此时可以抓取到最新且最需要的数据;
26.3、本发明通过设有空缺值处理模块、异常值处理模块以及数据去重模块,采用判定树归纳法进行空缺值的填充,准确度较高,采用距离与孤立点进行检测,其依据在距离的基础上,从而可以对不同类型的数据进行检测,将相同或者相似的数据进行删除。
附图说明
27.图1为本发明的整体收集步骤示意图。
28.图2为本发明的整体系统组成示意图。
具体实施方式
29.下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整的描述,另外,在以下的实施方式中记载的各结构的形态只不过是例示,本发明所涉及的一种基于科技服务信息智能抓取系统数据收集方法并不限定于在以下的实施方式中记载的各结构,在本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施方式都属于本发明保护的范围。
30.参照图1,本发明提供了一种基于科技服务信息智能抓取系统数据收集方法,包括以下步骤:
31.步骤s1、判断单元判断客户端内缓存数据的实时性,并判断出过期的缓存数据;
32.步骤s2、抓取单元将需要进行抓取的诗句进行识别,并抓取过期缓存数据的相应最新数据;
33.步骤s3、清洗单元用于将抓取单元所抓取到的数据进行清洗处理,保证抓取后数据的完整性与正确性;
34.步骤s4、合并单元将进行清洗处理后的数据与客户端内的缓存数据进行合并;
35.步骤s5、同步单元将未能进行合并的数据进行同步处理后,使其进行合并;
36.参照图2,还包括客户端、判断单元、抓取单元、清洗单元以及合并单元,客户端用于缓存抓取收集到的数据,判断单元用于判断客户端内缓存数据的实时性,抓取单元用于抓取过期缓存数据的相应最新数据,清洗单元用于将抓取单元所抓取到的数据进行清洗处理,合并单元用于将抓取到的数据与客户端内的数据进行合并;
37.判断单元包括采集模块、处理模块以及判断模块,采集模块采集客户端内缓存数据的实时因素以及时间线因素,实时因素为数据源抽取数据和数据传输到本地之间的时间差,时间线因素为数据源生成数据的时间,处理模块接收采集模块所采集的实时因素以及时间线因素并生成实时因素数据ss以及时间线因素数据sj,并生成判断值p,判断模块接收判断值p并与阈值q进行对比,判断值p大于阈值时,判断模块发送抓取指令给抓取单元;
38.处理模块将实时因素数据ss以及时间线因素数据sj进行联立,并形成判断值p,其判断值p的计算公式为式中,0≤k1≤1,且0≤k2≤1,k1、k2均为权重且
k1+k2=1。
39.本技术实施例中,采集模块采集实时因素以及时间线因素,因此可以准确地表示客户端内的数据实时性,及时寻找到过期的数据,实时因素为数据源抽取数据和数据传输到本地之间的时间差,例如一个银行账户数据与银行系统中实时数据的新鲜程度,时间线因素为数据源生成数据的时间,比如车票网站中,车票价格的改变的时间,因此将实时因素以及时间线因素整体进行计算,当发现其过期时,即判断值p大于阈值q时,此时判断模块发送抓取指令给抓取单元,抓取单元能够抓取最新的数据,从而保证客户端内的数据均为最新的数据。
40.进一步的,抓取单元内包括识别模块、排序模块以及抓取模块,识别模块用于识别对象数据的偏好度信息、对象数据的热门程度信息以及对象数据的新鲜程度信息,排序模块接收识别模块所识别的信息并对其进行排序,抓取模块抓取采用爬虫抓取排序在第一位的对象数据,排序模块的排序公式为k=2ph+3rm+5xx,式中ph为对象数据的偏好度信息,rm为对象数据的热门程度信息,xx为对象数据的新鲜程度信。
41.本技术实施例中,抓取单元在进行数据抓取时,识别模块进行识别后,此时再通过排序模块进行对象数据的排序,由于需要进行抓取的对象数据较多,因此将其进行排序后,将排序在第一的对象数据进行抓取,此时可以抓取到最新且最需要的数据,此外,需要说明的是,采用爬虫进行数据抓取为本领域技术人员的一种常规技术手段,本技术不对其做详细限定。
42.进一步的,清洗单元包括空缺值处理模块、异常值处理模块以及数据去重模块,空缺值处理模块采用判定树归纳法的方式进行空缺值补充,判定树归纳法获得空缺值编码数据的公式为gain(a)=i(s1,...,sm)-e(a),式中i为给定样本数据的期望信息,其计算公式为式中s为数据样本,pi为其发生的概率,m为数据样本的数量,式中e(a)为树枝的分支,其计算公式为式中a为数据属性,v为数据属性所具有的不同值,s
mj
为数据样本在数据属性上所具有的值,当数据进行抓取后,此时数据在进行传输时,无法保证数据的完全性,因此会出现数据丢失或者异常的情况,当数据出现丢失时,此时会出现空缺值,而将空缺值进行忽略或者采用其余值进行替换,最终的数据会发生变化,但是本技术采用判定树归纳法进行空缺值的填充,准确度较高,并且可以识别较为重要的字段,因此进行填充后的数据与原数据在方向上不会发生改变,因此所抓取的数据百传输回客户端时均能正常进行使用。
43.进一步的,异常值处理模块基于距离的孤立点进行异常值检测,数据整体集合中不大n部分与对象o之间的距离大于d,此时对象o为一个一个孤立点,对象o在d为半径的范围内超过最大对象数目m,此时便存在异常,异常值处理模块将全部的异常点进行整合后发送给维护单元,维护单元用于将异常点进行手动修改,本技术通过爬虫进行数据抓取时,会抓取不同类型的数据,因此采用传统的统计法进行异常检测时,其适用度较低,采用本技术的距离与孤立点进行检测,其依据在距离的基础上,从而可以对不同类型的数据进行检测,从而适合本技术进行使用,且在检测时更加高效。
44.进一步的,数据去重模块用于检测两组数据的相似度,当两组数据的相似度超过
阈值y时,此时将一组数据进行删除,阈值y的初始值为70%,且阈值y的具体值可由管理人员进行重新设定,数据去重模块将相同或者相似的数据进行删除,从而提高后续处理的速度,避免进行重复数据进行反复处理而浪费时间,并且采用阈值y作为删除的指标,且阈值y进而根据进行采集的实际数据种类而进行重新设定,使其具有较好的适应性。
45.进一步的,合并单元接收清洗单元进行清洗后的数据,并将清洗后的数据建立索引,将多个索引到的数据与客户端内缓存的数据进行合并,所建立的索引包括文字索引、位图索引、图片索引以及空间索引,通过将清洗后的数据建立索引,并将索引后的数据进行合并,此时即可将客户端内过期的数据进行替换,保证客户端内数据的实时性,且可建立不同类型的索引,因此可以将不同类型的数据进行合并,并且可减少合并出现问题。
46.进一步的,同步单元采用同步化算法进行同步处理,且同步化算法公式为式中u(k)为抓取数据的数据取样序列,u(k+1)为客户端内数据取样序列,k为取样点数,t为抓取数据与客户端内数据的时间差,t
s0
为抓取数据的取样周期,ts为客户端内数据的取样周期,在进行数据合并时,客户端内的数据与抓取的数据内难免会出现无法合并的情况,此时主要是由于数据之间不同步所导致,因此本技术将客户端内的数据与抓取的数据进行同步处理,进行同步处理后的客户端内的数据与抓取的数据之间不会产生无法合并的情况,从而便于数据同步的进行,且同步单元仅对合并后无法合并的数据进行同步处理,而非对全部的数据进行同步处理,避免对全部数据进行同步处理而浪费时间的问题,进而会提高本技术在进行数据抓取与收集的工作效率。
47.上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行计算机指令或计算机程序时,全部或部分地产生按照本技术实施例的流程或功能。计算机可以为通用计算机、专用计算机、计算机网络或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。可用介质可以是磁性介质、光介质或者半导体介质。半导体介质可以是固态硬盘。
48.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
49.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
50.在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件
可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
51.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
52.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
53.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
54.最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于科技服务信息智能抓取系统数据收集方法,其特征在于:包括以下步骤:步骤s1、判断单元判断客户端内缓存数据的实时性,并判断出过期的缓存数据;步骤s2、抓取单元将需要进行抓取的诗句进行识别,并抓取过期缓存数据的相应最新数据;步骤s3、清洗单元用于将抓取单元所抓取到的数据进行清洗处理,保证抓取后数据的完整性与正确性;步骤s4、合并单元将进行清洗处理后的数据与客户端内的缓存数据进行合并;步骤s5、同步单元将未能进行合并的数据进行同步处理后,使其进行合并;还包括客户端、判断单元、抓取单元、清洗单元、合并单元以及同步单元,所述客户端用于缓存抓取收集到的数据,所述判断单元用于判断客户端内缓存数据的实时性,所述抓取单元用于抓取过期缓存数据的相应最新数据,所述清洗单元用于将抓取单元所抓取到的数据进行清洗处理,所述合并单元用于将抓取到的数据与客户端内的数据进行合并,所述同步单元用于将未能进行合并的数据进行同步处理后,使其进行合并。2.根据权利要求1所述的一种基于科技服务信息智能抓取系统数据收集方法,其特征在于:所述判断单元包括采集模块、处理模块以及判断模块,所述采集模块采集客户端内缓存数据的实时因素以及时间线因素,实时因素为数据源抽取数据和数据传输到本地之间的时间差,时间线因素为数据源生成数据的时间,所述处理模块接收采集模块所采集的实时因素以及时间线因素并生成实时因素数据ss以及时间线因素数据sj,并生成判断值p,所述判断模块接收判断值p并与阈值q进行对比,判断值p大于阈值时,判断模块发送抓取指令给抓取单元。3.根据权利要求2所述的一种基于科技服务信息智能抓取系统数据收集方法,其特征在于:所述处理模块将实时因素数据ss以及时间线因素数据sj进行联立,并形成判断值p,其判断值p的计算公式为式中,0≤k1≤1,且0≤k2≤1,k1、k2均为权重且k1+k2=1。4.根据权利要求1所述的一种基于科技服务信息智能抓取系统数据收集方法,其特征在于:所述抓取单元内包括识别模块、排序模块以及抓取模块,所述识别模块用于识别对象数据的偏好度信息、对象数据的热门程度信息以及对象数据的新鲜程度信息,排序模块接收识别模块所识别的信息并对其进行排序,抓取模块抓取采用爬虫抓取排序在第一位的对象数据。5.根据权利要求4所述的一种基于科技服务信息智能抓取系统数据收集方法,其特征在于:所述排序模块的排序公式为k=2ph+3rm+5xx,式中ph为对象数据的偏好度信息,rm为对象数据的热门程度信息,xx为对象数据的新鲜程度信息。6.根据权利要求1所述的一种基于科技服务信息智能抓取系统数据收集方法,其特征在于:所述清洗单元包括空缺值处理模块、异常值处理模块以及数据去重模块,空缺值处理模块采用判定树归纳法的方式进行空缺值补充,判定树归纳法获得空缺值编码数据的公式为gain(a)=i(s1,...,s
m
)-e(a),式中i为给定样本数据的期望信息,其计算公式为式中s为数据样本,pi为其发生的概率,m为数据样本的数量,式
中e(a)为树枝的分支,其计算公式为式中a为数据属性,v为数据属性所具有的不同值,s
mj
为数据样本在数据属性上所具有的值。7.根据权利要求6所述的一种基于科技服务信息智能抓取系统数据收集方法,其特征在于:所述异常值处理模块基于距离的孤立点进行异常值检测,数据整体集合中不大n部分与对象o之间的距离大于d,此时对象o为一个一个孤立点,对象o在d为半径的范围内超过最大对象数目m,此时便存在异常,异常值处理模块将全部的异常点进行整合后发送给维护单元,维护单元用于将异常点进行手动修改。8.根据权利要求6所述的一种基于科技服务信息智能抓取系统数据收集方法,其特征在于:所述数据去重模块用于检测两组数据的相似度,当两组数据的相似度超过阈值y时,此时将一组数据进行删除,阈值y的初始值为70%,且阈值y的具体值可由管理人员进行重新设定。9.根据权利要求1所述的一种基于科技服务信息智能抓取系统数据收集方法,其特征在于:所述合并单元接收清洗单元进行清洗后的数据,并将清洗后的数据建立索引,将多个索引到的数据与客户端内缓存的数据进行合并,所建立的索引包括文字索引、位图索引、图片索引以及空间索引。10.根据权利要求1所述的一种基于科技服务信息智能抓取系统数据收集方法,其特征在于:所述同步单元采用同步化算法进行同步处理,且同步化算法公式为式中u(k)为抓取数据的数据取样序列,u(k+1)为客户端内数据取样序列,k为取样点数,t为抓取数据与客户端内数据的时间差,t
s0
为抓取数据的取样周期,t
s
为客户端内数据的取样周期。

技术总结
本发明涉及科技服务信息技术领域,且公开了一种基于科技服务信息智能抓取系统数据收集方法,包括客户端、判断单元、抓取单元、清洗单元、合并单元以及同步单元,所述客户端用于缓存抓取收集到的数据,所述判断单元用于判断客户端内缓存数据的实时性,所述抓取单元用于抓取过期缓存数据的相应最新数据,所述清洗单元用于将抓取单元所抓取到的数据进行清洗处理,所述合并单元用于将抓取到的数据与客户端内的数据进行合并,所述同步单元用于将未能进行合并的数据进行同步处理后,使其进行合并;本发明通过采集模块采集实时因素以及时间线因素,因此可以准确地表示客户端内的数据实时性,及时寻找到过期的数据。及时寻找到过期的数据。及时寻找到过期的数据。


技术研发人员:司鹏韬
受保护的技术使用者:郑州历奇教学设备有限公司
技术研发日:2023.06.14
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐