流量数据的处理方法、装置、电子设备及存储介质与流程
未命名
09-22
阅读:64
评论:0
1.本公开涉及计算机技术领域,尤其涉及互联网、大数据等技术领域。
背景技术:
2.现有技术中,一般是基于规则引擎对业务流量进行检测,以检测出如爬虫流量等业务异常流量,然而采用规则引擎对流量进行检测的时候,得到的流量的检测结果可能会出现误判,比如将异常的流量检测为正常的流量。因此,如何能够提升对流量检测的准确率,就成为需要解决的问题。
技术实现要素:
3.本公开提供了一种流量数据的处理方法、装置、电子设备及存储介质。
4.根据本公开的第一方面,提供了一种流量数据的处理方法,包括:
5.在待测流量对应的标识属于目标标识维度的情况下,提取所述待测流量,其中,所述目标标识维度为基于检测结果发生误判的目标历史流量得到的;
6.对所述待测流量的时序信息进行检测,得到第一检测结果,其中,所述第一检测结果用于指示所述待测流量的时序信息是否正常;
7.基于所述第一检测结果生成所述待测流量的上报信息,将所述上报信息发送至规则引擎,其中,所述规则引擎用于基于所述上报信息检测所述待测流量。
8.根据本公开的第二方面,提供了一种流量数据的处理装置,包括:
9.待测流量获取模块,用于在待测流量对应的标识属于目标标识维度的情况下,提取所述待测流量,其中,所述目标标识维度为基于检测结果发生误判的目标历史流量得到的;
10.第一时序检测模块,用于对所述待测流量的时序信息进行检测,得到第一检测结果,其中,所述第一检测结果用于指示所述待测流量的时序信息是否正常;
11.上报信息生成模块,用于基于所述第一检测结果生成所述待测流量的上报信息,将所述上报信息发送至规则引擎,其中,所述规则引擎用于基于所述上报信息检测所述待测流量。
12.根据本公开的第三方面,提供了一种电子设备,包括:
13.至少一个处理器;以及
14.与所述至少一个处理器通信连接的存储器;其中,
15.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面的流量数据的处理方法。
16.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行前述第一方面的流量数据的处理方法。
17.根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述第一方面的流量数据的处理方法。
18.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
19.本实施例提供的技术方案,能够基于目标标识维度提取容易发生误判的待测流量;针对该容易发生误判的待测流量,在采用规则引擎检测前,进行了时序检测,及根据时序检测得到的第一检测结果生成上报信息,以使得规则引擎可以基于该上报信息更准确检测所述待测流量,如此能够通过预先对容易发生误判的待测流量预先进行时序检测,结合时序检测的结果再生成上报信息,使得规则引擎通过上报信息再进行待测流量的检测,可以降低规则引擎发生误判的概率,从而提高对待测流量检测的准确性。
附图说明
20.附图用于更好地理解本方案,不构成对本公开的限定。其中:
21.图1是根据本公开一实施例提供的流量数据的处理方法的流程示意图;
22.图2是根据本公开一实施例提供的正常时序序列趋势图;
23.图3是根据本公开一实施例提供的异常时序序列趋势图;
24.图4是根据本公开一实施例提供的对待测流量的处理流程示意图;
25.图5是根据本公开一实施例提供的流量数据的处理装置的一种示意性框图;
26.图6是根据本公开一实施例提供的流量数据的处理装置的又一种示意性框图;
27.图7是本公开实施例提供的电子设备的框图。
具体实施方式
28.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
29.本公开第一方面实施例提供了一种流量数据的处理方法,如图1所示,包括:
30.s101,在待测流量对应的标识属于目标标识维度的情况下,提取所述待测流量,其中,所述目标标识维度为基于检测结果发生误判的目标历史流量得到的;
31.s102,对所述待测流量的时序信息进行检测,得到第一检测结果,其中,所述第一检测结果用于指示所述待测流量的时序信息是否正常;
32.s103,基于所述第一检测结果生成所述待测流量的上报信息,将所述上报信息发送至规则引擎,其中,所述规则引擎用于基于所述上报信息检测所述待测流量。
33.上述流量数据的处理方法可以由电子设备实现。示例性的,该电子设备可以是具备计算能力和/或处理能力的终端或服务器等。
34.通过采用上述方案,能够基于目标标识维度提取容易发生误判的待测流量;针对该容易发生误判的待测流量,在采用规则引擎检测前,进行了时序检测,及根据时序检测得到的第一检测结果生成上报信息,以使得规则引擎可以基于该上报信息更准确检测所述待测流量,如此能够通过预先对容易发生误判的待测流量预先进行时序检测,结合时序检测的结果再生成上报信息,使得规则引擎通过上报信息再进行待测流量的检测,可以降低规则引擎发生误判的概率,从而提高对待测流量检测的准确性。
35.在一些可能的实施方式中,在确定所述待测流量对应的标识属于目标标识维度之前,所述方法还包括:对候选历史流量的时序信息进行检测,得到所述候选历史流量的时序检测结果,其中,所述候选历史流量的检测结果为异常;在基于所述候选历史流量的时序检测结果,确定所述候选历史流量的检测结果发生误判的情况下,将所述候选历史流量作为目标历史流量,基于所述目标历史流量对应的标识所属的标识维度,得到所述目标标识维度。
36.其中,所述对候选历史流量的时序信息进行检测,得到所述候选历史流量的时序检测结果之前,可以包括:获取规则引擎对多个历史流量的检测结果,在任意一个历史流量为异常的情况下,获取该历史流量,并将该历史流量作为候选历史流量。针对检测结果为异常的一个或多个历史流量中每个历史流量均可以分别作为候选历史流量进行相同的分析和处理,这里不做一一赘述。
37.其中,所述获取规则引擎对多个历史流量的检测结果之前,可以包括:生成多个历史流量,将所述多个历史流量发送至规则引擎。所述生成多个历史流量,可以包括:对目标业务线的第一部分日志进行标准化,得到目标业务线的第一部分标准化日志,基于标识对所述第一部分标准化日志进行聚合,得到所述多个历史流量。聚合产生的所述多个历史流量中每个历史流量对应一个标识,且不同历史流量对应不同标识。其中,标准化的处理可以包括:数据清洗、字段提取、落库等等至少之一,这里不对其进行穷举和限定。
38.所述多个历史流量中任意一个历史流量对应的标识,可以是以下任意之一:第一ip(internet protocol,互联网协议)地址、第二ip地址、第三ip地址、第一ipc地址、第二ipc地址、第三ipc地址、第一ua(user agent,用户代理)、第二ua、第三ua、第一ja3指纹、第二ja3指纹、第三ja3指纹等。其中,ipc地址是指ip地址的前三段,如ip地址为1.2.3.4,则ip地址中前三段是1.2.3。ja3指纹是一种对传输层安全应用程序进行指纹识别的方法,ja3指纹能唯一标识对应的浏览器。应理解,所述任意一个历史流量对应的标识还可以包括本领域已知的除上述标识以外的其它标识,在此不做限制。对应的,所述任意一个历史流量的标识所属的标识维度,可以是以下任意之一:ip相关维度、ua维度、指纹标识维度。应理解,所述任意一个历史流量对应的标识所属的标识维度还可以包括本领域已知的除上述维度以外的其它标识维度,在此不做限制。其中,所述ip相关维度可以是ip地址维度,也可以是ipc地址维度。所述指纹标识维度可以是,但不限于,ja3指纹维度。
39.需要说明的是,上述标识维度相当于标识的类别,任意一个标识维度下可以有一个或多个标识。
40.所述对候选历史流量的时序信息进行检测,得到所述候选历史流量的时序检测结果,具体可以包括:获得所述候选历史流量的时序信息;对所述候选历史流量的时序信息进行检测,得到所述候选历史流量的时序检测结果。
41.其中,所述候选历史流量的时序信息可以为时序序列,该时序序列可以是所述候选历史流量对应的标识在目标时段的时序序列。其中,目标时段可以包括多个子时段。举例来说,在所述目标时段为1天、且所述目标时段中的各子时段为1分钟的情况下,所述候选历史流量的时序信息为24*60=1440维度的特征,该24*60=1440维度的特征中每个数值可以表示对应的1分钟内所述候选历史流量对应的标识针对目标业务线的请求次数。对应的,获得所述候选历史流量的时序信息,可以是:统计一天内每分钟所述候选历史流量对应的标
识针对目标业务线的请求次数,得到1440个请求次数。该1440个请求次数即为所述候选历史流量的时序信息。上述统计处理,可以采用大数据计算引擎进行统计,所述大数据计算引擎可以是spark平台。
42.其中,目标时段和子时段对应的时间窗口,可以根据具体场景和具体需求进行设置,例如,目标时段除了可以是1天还可以是2天、3天等,子时段除了可以是1分钟还可以是5分钟、10分钟、30分钟、60分钟等,在此不做限制。
43.所述对所述候选历史流量的时序信息进行检测,得到所述候选历史流量的时序检测结果的方法有多种,在此不做限制。在一种优选示例中,对所述候选历史流量的时序信息进行检测,得到所述候选历史流量的时序检测结果,具体可以包括:计算所述候选历史流量的时序信息与多个第一参考数据的多个相似度,其中,所述多个第一参考数据包括多个第一正常时序参考数据和一个或多个第一异常时序参考数据,所述多个第一正常时序参考数据的数量大于所述一个或多个第一异常时序参考数据的数量,所述多个相似度中不同的相似度对应不同的第一参考数据;从所述多个相似度中选取最大的第一数量个目标相似度,确定所述第一数量个目标相似度分别对应的目标参考数据,其中,所述第一数量小于所述多个相似度的数量;在所述第一数量个目标相似度分别对应的目标参考数据中,第一正常时序目标参考数据的数量大于第一异常时序目标参考数据的数量的情况下,确定所述候选历史流量的时序信息为正常;在所述第一数量个目标相似度分别对应的目标参考数据中,第一异常时序目标参考数据的数量大于第一正常时序目标参考数据的数量的情况下,得到所述候选历史流量的时序检测结果,所述时序检测结果用于指示所述候选历史流量的时序信息为异常。
44.其中,所述多个相似度的数量等于所述多个第一正常时序参考数据的数量加所述一个或多个第一异常时序参考数据的数量的和。所述第一数量为整数,所述第一数量的值可以根据需求,灵活设置,在此不做限制。在一优选实施例中,所述第一数量为奇数。
45.其中,所述多个第一正常时序参考数据中的每个第一正常时序参考数据可以是业务场景下较典型的正常时序数据,所述一个或多个第一异常时序参考数据中的每个第一异常时序参考数据可以是业务场景下较典型的异常时序数据。在一些示例中,所述多个第一正常时序参考数据中任意一个第一正常时序参考数据的趋势可以类似图2所示的正常时序序列趋势中的任意之一。在一些示例中,所述一个或多个第一异常时序参考数据中任意一个第一异常时序参考数据的趋势可以类似图3所示的异常时序序列趋势中的任意之一。应理解,任意一个第一时序参考数据还可以类似除图2以外的正常时序序列趋势,任意一个第一异常时序参考数据的趋势还可以类似除图3以外的异常时序序列趋势,在此不做限制。图2和图3中横坐标表示时间,单位可以是分钟;纵坐标表示归一化后的请求次数。
46.上述技术方案中,所述多个第一正常时序参考数据的数量大于所述一个或多个第一异常时序参考数据的数量,利用了多个第一参考数据不平衡的特性,有利于提高所述候选历史流量的时序信息被检测为正常时序的概率,继而有利于将发生误判的目标历史流量检出,进而有利于后续准确地获取目标标识维度。
47.上述对所述候选历史流量的时序信息的检测过程,可以由第一预设时序检测模型完成,具体可以包括:将所述候选历史流量的时序信息输入至所述第一预设时序检测模型,得到所述第一预设时序检测模型输出的所述候选历史流量的时序检测结果。其中,所述时
序检测结果为异常或者正常,所述第一预设时序检测模型所使用或采用的一种或多种算法中至少可以包括k最邻近分类(k-nearest neighbor,knn)算法。
48.所述第一预设时序检测模型是通过如下方式确定的:
49.第一步,获取规则引擎对目标业务线一天或多天的多个流量样本的检测结果,得到正常流量集合和异常流量集合,所述正常流量集合内包含的多个流量样本的检测结果为正常,所述异常流量集合内包含的多个流量样本的检测结果为异常。
50.第二步,基于正常流量集合,得到多个候选正样本,具体可以包括:(1)针对所述正常流量集合内的多个流量样本,获取每个流量样本的时序信息,得到多个正常时序样本。获取方式可以与前述获得所述候选历史流量的时序信息的方式相同,在此不做赘述。(2)统计所述多个正常时序样本中每个正常时序样本的请求次数和用户数;在任意一个正常时序样本的请求次数大于第一阈值、且用户数大于第二阈值的情况下,确定该正常时序样本为候选正样本,基于此处理,可以从所述多个正常时序样本中得到多个候选正样本。第一阈值和第二阈值可以根据实际场景灵活设置,在此不做限制。示例性的,第一阈值可以是5000,第二阈值可以是30,则针对任意一个正常时序样本,若该正常时序样本的请求次数大于5000,且用户数大于30时,将该正常时序样本作为候选正样本。在一种具体实施方式中,采用请求次数大于5000,且用户数大于30,对所述多个正常时序样本进行筛选,得到182个候选正样本。
51.类似地,基于异常流量集合,得到多个候选负样本,具体可以包括:(1)针对所述异常流量集合内的多个流量样本,获取每个流量样本的时序信息,得到多个异常时序样本。获取方式可以与前述获得所述候选历史流量的时序信息的方式相同,在此不做赘述。(2)统计所述多个异常时序样本中每个异常时序样本的请求次数和用户数;在任意一个异常时序样本,的请求次数大于第三阈值、且用户数小于第四阈值的情况下,确定该异常时序样本为候选负样本,基于此处理,可以从所述多个异常时序样本中得到多个候选负样本。第三阈值和第四阈值可以根据实际场景灵活设置,在此不做限制。示例性的,第三阈值可以是5000,第四阈值可以是10,则针对任意一个异常时序样本,若该异常时序样本的请求次数大于5000,且用户数小于10时,将该异常时序样本作为候选负样本。在一种具体实施方式中,采用请求次数大于5000,且用户数小于10,对所述多个异常时序样本进行筛选,得到103个候选负样本。
52.第三步,基于多个候选正样本和多个候选负样本,得到第一验证集,具体可以包括:从所述多个候选正样本中随机挑选多个第一目标候选正样本;从所述多个候选负样本中随机挑选多个第一目标候选负样本;使用多个第一目标候选正样本和多个第一目标候选负样本,构建第一验证集。其中,多个第一目标候选正样本的数量可以大于多个第一目标候选负样本的数量。例如,从所述182个候选正样本中随机挑选40个第一目标候选正样本;从所述103个候选负样本中随机挑选20个第一目标候选负样本;该40个第一目标候选正样本和该20个第一目标候选负样本构成第一验证集。
53.第四步,从多个候选负样本选取第一预设数量个第一参考负样本。选取方式,可以是:对所述多个候选负样本按请求次数从大到小进行排序,选取请求次数最大的第一预设数量个第一参考负样本。其中,所述第一预设数量的值可以根据用户经验等确定,在此不做限制。例如,所述第一预设数量的值为15时,上述处理可以是:将所述103个候选负样本按请
求次数从大到小进行排序,选取请求次数最大的15个第一参考负样本。
54.第五步,基于第一预设数量个第一参考负样本,确定第一目标数量个第一参考正样本及前述第一数量的值,具体可以包括:(1)构建多个第一中间模型。所述多个第一中间模型中每个第一中间模型,计算相似度时使用的是第一预设数量个第一参考负样本和x个第一参考正样本,以及选取的目标相似度的数量是k,其中,x大于第一预设数量,且x小于或等于第一预设数量与第二预设数量的和,第二预设数量大于1,k为奇数。所述多个第一中间模型中不同第一中间模型使用的x个第一参考正样本和/或k的值不同。需要说明的是,对于任意一个第一中间模型,当其使用x个第一参考正样本时,其使用的x个第一参考正样本可以通以下方式获得:对所述多个候选正样本按请求次数从大到小进行排序,选取请求次数最大的x个第一参考正样本。(2)将上述构建的第一验证集输入所述每个第一中间模型进行检测,获得所述每个第一中间模型对所述第一验证集的第一检测准确率,以得到与所述多个第一中间模型分别对应的多个第一检测准确率。(3)将所述多个第一检测准确率中最高第一检测准确率对应的第一目标中间模型作为第一预设时序检测模型。所述第一目标中间模型中使用的第一预设数量个第一参考负样本和x个第一参考正样本即为所述第一预设时序检测模型中涉及的多个第一参考数据;所述第一目标中间模型中使用的k的值即为第一数量的值。
55.例如,第五步在具体实施时,使第一预设数量为15,第二预设数量为10,确定使用15个第一参考负样本;x依次从16起逐个取至25,k依次取1、3、5、7、9,可以确定x取16且k取1时,对应的第一中间模型,确定x取17且k取1时,对应的第一中间模型,确定x取19且k取3时,对应的第一中间模型,等等,在此不做枚举,以得到50个第一中间模型;采用该50个第一中间模型对验证集进行检测,得到每个第一中间模型的检测准确率,以得到50个第一检测准确率;将该50个第一检测准确率中最高第一检测率对应的第一目标中间模型作为所述第一预设时序检测模型。假设该第一目标中间模型对应的x等于19,k等于3,则该第一目标中间模型使用的15个第一参考负样本和19个第一参考正样本即为所述第一预设时序检测模型中涉及的多个第一参考数据;所述第一目标中间模型中使用的3即为第一数量的值。
56.上述训练方法,采用遍历的x和k的方式,可以获得准确率较高的第一预设时序检测模型。
57.所述基于所述候选历史流量的时序检测结果,确定所述候选历史流量的检测结果发生误判,具体可以包括:在所述候选历史流量的时序检测结果指示所述候选历史流量的时序信息为正常的情况下,确定所述候选历史流量的检测结果发生误判;或在所述候选历史流量的时序检测结果指示所述候选历史流量的时序信息为正常的情况下,采用人工或其他方式对所述候选历史流量进行再次判断,当再次判断所述候选历史流量为正常流量的情况下,确定所述候选历史流量的检测结果发生误判。
58.需要说明的是,发生误判的候选历史流量(即目标历史流量)可以有一个或多个。当目标历史流量有多个时,若该多个目标历史流量中每个目标历史流量所属的标识维度相同,可以得到一个目标标识维度;若该多个目标历史流量中每个目标历史流量所属的标识维度不同,可以得到多个目标标识维度。
59.通过采用上述方案,能够基于候选历史流量的时序检测结果确定候选历史流量的检测结果是否发生误判,并在发生误判的情况下,将所述候选历史流量作为目标历史流量,
继而基于所述目标历史流量对应的标识所属的标识维度得到目标标识维度,进而能基于目标标识维度提取待测流量。因此,通过上述技术方案,能够提供容易发生误判的目标历史流量的目标标识维度,保证了后续准确的提取容易发生误判的待测流量。
60.在一些可能的实施方式中,所述在待测流量对应的标识属于目标标识维度的情况下,提取所述待测流量,具体可以包括:对于多个流量中任意一个流量,在该流量对应的标识属于目标标识维度的情况下,将该流量作为待测流量。
61.其中,所述多个流量的生成方式与前述多个历史流量的生成方式类似,包括:对目标业务线的第二部分日志进行标准化,得到目标业务线的第二部分标准化日志,基于标识对所述第二部分标准化日志进行聚合,得到所述多个流量。聚合产生的所述多个流量中每个流量对应一个标识,且不同流量对应不同标识。所述第二部分标准化日志与前述第一部分标准化日志不同,所述第二部分标准化日志是在所述第一部分标准化日志之后产生的。
62.可以看出,待测流量可以有一个或多个,基于前述描述可以知道,目标标识维度也可以有一个或多个,目标历史流量也可以有一个或多个。由于多个待测流量中的每个待测流量涉及的处理方式相同,多个目标标识维度中的每个目标标识维度涉及的处理方式相同,多个目标历史流量中的每个目标历史流量涉及的处理方式相同,因此,为了清楚和节约篇幅,本实施例中针对待测流量、目标标识维度、目标历史流量等的描述只站在一个的角度进行描述。
63.在一些可能的实施方式中,所述对所述待测流量的时序信息进行检测,得到第一检测结果,包括:计算所述待测流量的时序信息与多个第一参考数据的多个第一相似度,其中,所述多个第一参考数据包括多个第一正常时序参考数据和一个或多个第一异常时序参考数据,所述多个第一正常时序参考数据的数量大于所述一个或多个第一异常时序参考数据的数量,所述多个第一相似度中不同的第一相似度对应不同的第一参考数据;从所述多个第一相似度中选取最大的第一数量个第一目标相似度,确定所述第一数量个第一目标相似度分别对应的第一目标参考数据,其中,所述第一数量小于所述多个第一相似度的数量;在所述第一数量个第一目标相似度分别对应的第一目标参考数据中,第一正常时序目标参考数据的数量大于第一异常时序目标参考数据的数量的情况下,得到第一检测结果,所述第一检测结果用于指示所述待测流量的时序信息为正常。
64.其中,所述多个第一相似度的数量等于所述多个第一正常时序参考数据的数量加所述一个或多个第一异常时序参考数据的数量的和。所述第一数量为整数,所述第一数量的值可以根据需求,灵活设置,在此不做限制。在一优选实施例中,所述第一数量为奇数。
65.由前述描述可以看出,所述待测流量的时序信息的表示方式与所述候选历史流量的时序信息表示方法相同;对所述待测流量的时序信息进行检测,得到第一检测结果的处理过程与前述对候选历史流量的时序信息进行检测,得到所述候选历史流量的时序检测结果的处理过程相同,因此,在此不做赘述。需要说明的是,对所述待测流量的时序信息进行检测,也可以采用前述的第一预设时序检测模型。
66.上述技术方案,所述多个第一正常时序参考数据的数量大于所述一个或多个第一异常时序参考数据的数量,利用了多个第一参考数据不平衡的特性,有利于提高待测流量的时序信息被检测为正常时序的概率,继而有利于生成表示待测流量为正常的第一检测结果,进而后续规则引擎可以基于该上报信息更准确检测所述待测流量是否异常,降低规则
引擎发生误判的概率,从而提高对待测流量检测的准确性。
67.在一些可能的实施方式中,所述基于所述第一检测结果生成所述待测流量的上报信息,将所述上报信息发送至规则引擎,包括:在所述第一检测结果指示所述待测流量的时序信息是正常的情况下,对所述待测流量对应的多种特征中的标识的属性特征进行过滤,得到所述待测流量的一个或多个待上报特征,将所述一个或多个待上报特征添加至上报信息中,发送所述上报信息至所述规则引擎。
68.其中,标识的属性特征可以用异常或正常来描述,也可以用黑或白来描述。所述待测流量对应的多种特征包括标识的属性特征。所述一个或多个待上报信息中不包括标识的属性特征,可以包括所述待测流量的其他特征。所述其他特征可以是统计特征和/或行为特征。统计特征可以是如1分钟内的请求数等。行为特征可以是如点击间隔,鼠标轨迹、触屏轨迹等。
69.使用规则引擎检测流量时发现:某些流量规则引擎在检测某些流量发生误判的原因是,这些流量的标识的属性特征命中规则引擎的用于确定流量为异常的目标策略。例如,该目标策略是,在待测流量的标识所属的目标标识维度为黑,且其他特征满足某条件时,确定待测流量为异常。例如,发生误判的多个待测流量对应的标识都属于ja3维度,线上引擎对所述多个流量检测时,都用了包括ja3指纹维度为黑的策略。因此,对于属于ja3维度的标识对应的待测流量,线上引擎在对其检测时,如果不基于其标识的属性特征,就可以降低线上引擎发生误判的概率。
70.通过上述技术方案,在所述第一检测结果指示所述待测流量的时序信息是正常的情况下,不将标识的属性特征添加至上报信息,进而规则引擎在基于该上报信息检测所述待测流量是否异常时,不会基于标识的属性特征,降低了线上引擎发生误判的概率,提高了对待测流量检测的准确性。
71.在另一些可能的实施方式中,所述基于所述第一检测结果生成所述待测流量的上报信息,将所述上报信息发送至规则引擎,包括:在所述第一检测结果指示所述待测流量的时序信息是异常的情况下,将所述待测流量对应的多种特征添加至上报信息中,发送所述上报信息至所述规则引擎。
72.由于规则引擎发生误判是将正常流量判断为异常流量,所以若所述第一检测结果指示所述待测流量的时序信息是异常的情况下,就可以不对待测流量对应的多种特征进行过滤,直接将所述多种特征添加至上报信息中,使规则引擎能基于该上报信息检测所述待测流量是否异常。该多种特征可以包括待测流量对应的标识的属性特征。
73.在一些可能的实施方式中,所述将所述上报信息发送至规则引擎之后,所述方法还包括:从所述规则引擎获取所述待测流量的第二检测结果,其中,所述第二检测结果为基于所述上报信息对所述待测流量检测得到的;在基于所述第二检测结果确定所述待测流量正常的情况下,对所述待测流量的时序信息进行检测,得到第三检测结果;在所述第三检测结果指示所述待测流量的时序信息是异常的情况下,确定所述待测流量是异常流量。
74.其中,在所述第三检测结果指示所述待测流量的时序信息是异常的情况下,除了可以确定所述待测流量是异常流量,还可以确定所述第二检测结果错误,及确定所述待测流量为所述规则引擎漏检的异常流量。
75.在一些可能的实施方式中,所述对所述待测流量的时序信息进行检测,得到第三
检测结果,包括:计算所述待测流量的时序信息与多个第二参考数据的多个第二相似度,其中,所述多个第二参考数据包括一个或多个第二正常时序参考数据和多个第二异常时序参考数据,所述一个或多个第二正常时序参考数据的数量小于所述多个第二异常时序参考数据的数量,所述多个第二相似度中不同的第二相似度对应不同的第二参考数据;从所述多个第二相似度中选取最大的第二数量个第二目标相似度,确定所述第二数量个第二目标相似度分别对应的第二目标参考数据,其中,所述第二数量小于所述多个第二相似度的数量;在所述第二数量个第二目标相似度分别对应的第二目标参考数据中,第二正常时序目标参考数据的数量小于第二异常时序目标参考数据的数量的情况下,得到第三检测结果,所述第三检测结果用于指示所述待测流量是异常流量。
76.其中,所述多个第二相似度的数量等于所述一个或多个第二正常时序参考数据的数量加所述多个第二异常时序参考数据的数量的和。所述第二数量为整数,所述第二数量的值可以根据需求,灵活设置,在此不做限制。在一优选示例中,所述第二数量为奇数。
77.可以看出,所述对所述待测流量的时序信息进行检测,得到第三检测结果的处理过程与前述对候选历史流量的时序信息进行检测,得到所述候选历史流量的时序检测结果的处理过程类似,因此,在此不做赘述。
78.所述对所述待测流量的时序信息进行检测,得到第三检测结果的检测过程也可以由时序检测模型完成,如通过第二时序检测模型完成。确定该第二时序检测模型的方式可以与前述确定所述第一预设时序检测模型的方式类似,不同点仅在于第二时序检测模型的确定步骤中的在第三步、第四步和第五步与前述第一时序检测模型的确定步骤中的不同,因此下文仅针对第二时序检测模型的确定步骤中的第三步、第四步和第五步进行说明,具体地:
79.第三步,基于多个候选正样本和多个候选负样本,得到第二验证集,具体可以包括:从所述多个候选正样本中随机挑选多个第二目标候选正样本;从所述多个候选负样本中随机挑选多个第二目标候选负样本;使用多个第二目标候选正样本和多个第二目标候选负样本,构建第二验证集。其中,多个第二目标候选正样本的数量可以小于多个第二目标候选负样本的数量。例如,从所述182个候选正样本中随机挑选20个第二目标候选正样本;从所述103个候选负样本中随机挑选40个第二目标候选负样本;该20个第二目标候选正样本和该40个第二目标候选负样本构成第二验证集。
80.第四步,从多个候选正样本选取第第三预设数量个第二参考正样本。选取方式,可以是:对所述多个候选正样本按请求次数从大到小进行排序,选取请求次数最大的第三预设数量个第二参考正样本。其中,所述第三预设数量的值可以根据用户经验等确定,在此不做限制。例如,所述第三预设数量的值为15时,上述处理可以是:将所述182个候选正样本按请求次数从大到小进行排序,选取请求次数最大的15个第二参考正样本。
81.第五步,基于第三预设数量个第二参考正样本,确定第二目标数量个第二参考负样本及前述第二数量的值,具体可以包括:(1)构建多个第二中间模型。所述多个第二中间模型中每个第二中间模型,计算相似度时使用的是第三预设数量个第二参考正样本和x个第二参考负样本,以及选取的第二目标相似度的数量是k,其中,x大于第三预设数量,且x小于或等于第三预设数量与第四预设数量的和,第四预设数量大于1,k为奇数。所述多个第二中间模型中不同第二中间模型使用的x个第二参考负样本和/或k的值不同。需要说明的是,
对于任意一个第二中间模型,当其使用x个第二参考负样本时,其使用的x个第二参考负样本可以通以下方式获得:对所述多个候选负样本按请求次数从大到小进行排序,选取请求次数最大的x个第二参考负样本。(2)将上述构建的第二验证集输入所述每个第二中间模型进行检测,获得所述每个第二中间模型对所述第二验证集的第二检测准确率,以得到与所述多个第二中间模型分别对应的多个第二检测准确率。(3)将所述多个第二检测准确率中最高第二检测准确率对应的第二目标中间模型作为第二预设时序检测模型。所述第二目标中间模型中使用的第三预设数量个第二参考正样本和x个第二参考负样本即为所述第二预设时序检测模型中涉及的多个第二参考数据;所述第二目标中间模型中使用的k的值即为第二数量的值。
82.例如,第五步在具体实施时,使第三预设数量为15,第四预设数量为10,确定使用15个第二参考正样本;x依次从16起逐个取至25,k依次取1、3、5、7、9,可以确定x取16且k取1时,对应的第二中间模型,确定x取17且k取1时,对应的第二中间模型,确定x取19且k取3时,对应的第二中间模型,等等,在此不做枚举,以得到50个第二中间模型;采用该50个第二中间模型对验证集进行检测,得到每个第二中间模型的检测准确率,以得到50个第二检测准确率;将该50个第二检测准确率中最高第二检测率对应的第二目标中间模型作为所述第二预设时序检测模型。假设该第二目标中间模型对应的x等于19,k等于3,则该第二目标中间模型使用的15个第二参考正样本和19个第二参考负样本即为所述第二预设时序检测模型中涉及的多个第二参考数据;所述第二目标中间模型中使用的3即为第二数量的值。
83.上述训练方法,采用遍历的x和k的方式,可以获得准确率较高的第二预设时序检测模型。
84.通过上述技术方案,在基于所述第二检测结果确定所述待测流量正常的情况下,对所述待测流量的时序信息进行再次检测,得到第三检测结果,并第三检测结果指示所述待测流量的时序信息是异常的情况下,确定所述待测流量是异常流量,避免所述待测流量为异常流量时未被所述规则引擎检出为异常,即避免所述规则引擎对待测流量的漏检,提高了对待测流量的检测准确率。
85.并且,所述一个或多个第二正常时序参考数据的数量小于所述多个第二异常时序参考数据的数量,利用了多个第二参考数据不平衡的特性,有利于提高待测流量的时序信息被检测为异常时序的概率,有利于将漏检的待测流量检出,提高了对待测流量的检测准确率。
86.如图4所示,示例性地,采用前述方法对待测流量的处理,包括:
87.s401,基于标识对所述第二部分标准化日志进行聚合,得到多个流量。其中,标识可以是ip地址、ipc地址、ja3指纹、ua等。聚合处理以采用大数据计算引擎进行统计,所述大数据计算引擎可以是spark平台。
88.s402,对于多个流量中任意一个流量,在该流量对应的标识属于目标标识维度的情况下,将该流量作为待测流量。
89.s403,获取待测流量的时序信息。获取方式可以是基于待测流量的标识,统计该标识在目标时段的各子时段的时序序列。在所述目标时段为1天、且所述目标时段中的各子时段为1分钟的情况下,所述待测流量的时序信息为24*60=1440维度的特征,该24*60=1440维度的特征中每个数值可以表示对应的1分钟内所述待测流量对应的标识针对目标业务线
的请求次数。目标时段可以是1天、2天等,子时段除了可以是1分钟、5分钟、10分钟等。统计处理以采用大数据计算引擎进行统计,所述大数据计算引擎可以是spark平台。
90.s404,将所述待测流量的时序信息输入第一预设时序检测模型,得到所述第一预设时序检测模型输出的第一检测结果。
91.s405,基于所述第一检测结果生成该待测流量的上报信息,将所述上报信息发送至规则引擎。
92.s406,从所述规则引擎获取所述待测流量的第二检测结果,其中,所述第二检测结果为基于所述上报信息对所述待测流量检测得到的。
93.s407,在基于所述第二检测结果确定该待测流量异常的情况下,确定该待测流量是异常流量。
94.s408,在基于所述第二检测结果确定所述待测流量正常的情况下,对所述待测流量的时序信息进行检测,得到第三检测结果。
95.s409,在所述第三检测结果指示所述待测流量的时序信息是异常的情况下,确定所述待测流量是异常流量。
96.s410,在所述第三检测结果指示该待测流量的时序信息是正常的情况下,确定该待测流量是正常流量。
97.本公开第二方面实施例提供了一种流量数据的处理装置,如图5所示,包括:
98.待测流量获取模块501,用于在待测流量对应的标识属于目标标识维度的情况下,提取所述待测流量,其中,所述目标标识维度为基于检测结果发生误判的目标历史流量得到的;
99.第一时序检测模块502,用于对所述待测流量的时序信息进行检测,得到第一检测结果,其中,所述第一检测结果用于指示所述待测流量的时序信息是否正常;
100.上报信息生成模块503,用于基于所述第一检测结果生成所述待测流量的上报信息,将所述上报信息发送至规则引擎,其中,所述规则引擎用于基于所述上报信息检测所述待测流量。
101.在一些可能的实施方式中,所述上报信息生成模块503,用于在所述第一检测结果指示所述待测流量的时序信息是正常的情况下,对所述待测流量对应的多种特征中的标识的属性特征进行过滤,得到所述待测流量的一个或多个待上报特征,将所述一个或多个待上报特征添加至上报信息中,发送所述上报信息至所述规则引擎。
102.如图6所示,在一些可能的实施方式中,所述装置还包括:目标标识维度确定模块504,用于对候选历史流量的时序信息进行检测,得到所述候选历史流量的时序检测结果,其中,所述候选历史流量的检测结果为异常;在基于所述候选历史流量的时序检测结果,确定所述候选历史流量的检测结果发生误判的情况下,将所述候选历史流量作为目标历史流量,基于所述目标历史流量对应的标识所属的标识维度,得到所述目标标识维度。
103.在一些可能的实施方式中,图5或图6中的所述第一时序检测模块502,用于计算所述待测流量的时序信息与多个第一参考数据的多个第一相似度,其中,所述多个第一参考数据包括多个第一正常时序参考数据和一个或多个第一异常时序参考数据,所述多个第一正常时序参考数据的数量大于所述一个或多个第一异常时序参考数据的数量,所述多个第一相似度中不同的第一相似度对应不同的第一参考数据;从所述多个第一相似度中选取最
大的第一数量个第一目标相似度,确定所述第一数量个第一目标相似度分别对应的第一目标参考数据,其中,所述第一数量小于所述多个第一相似度的数量;在所述第一数量个第一目标相似度分别对应的第一目标参考数据中,第一正常时序目标参考数据的数量大于第一异常时序目标参考数据的数量的情况下,得到第一检测结果,所述第一检测结果用于指示所述待测流量的时序信息为正常。
104.请再次参阅图6,在一些可能的实施方式中,所述装置还包括:
105.检测结果获取模块505,用于从所述规则引擎获取所述待测流量的第二检测结果,其中,所述第二检测结果为基于所述上报信息对所述待测流量检测得到的;
106.第二时序检测模块506,用于在基于所述第二检测结果确定所述待测流量正常的情况下,对所述待测流量的时序信息进行检测,得到第三检测结果;在所述第三检测结果指示所述待测流量的时序信息是异常的情况下,确定所述待测流量是异常流量。
107.在一些可能的实施方式中,第二时序检测模块506,用于计算所述待测流量的时序信息与多个第二参考数据的多个第二相似度,其中,所述多个第二参考数据包括一个或多个第二正常时序参考数据和多个第二异常时序参考数据,所述一个或多个第二正常时序参考数据的数量小于所述多个第二异常时序参考数据的数量,所述多个第二相似度中不同的第二相似度对应不同的第二参考数据;从所述多个第二相似度中选取最大的第二数量个第二目标相似度,确定所述第二数量个第二目标相似度分别对应的第二目标参考数据,其中,所述第二数量小于所述多个第二相似度的数量;在所述第二数量个第二目标相似度分别对应的第二目标参考数据中,第二正常时序目标参考数据的数量小于第二异常时序目标参考数据的数量的情况下,得到第三检测结果,所述第三检测结果用于指示所述待测流量是异常流量。
108.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
109.图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
110.如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram703中,还可存储电子设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
111.电子设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
112.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单
元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理。例如,在一些实施例中,上文所描述的各个方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到ram703并由计算单元701执行时,可以执行上文所描述的各个方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上文所描述的各个方法。
113.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
114.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
115.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
116.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
117.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
118.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
119.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
120.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
技术特征:
1.一种流量数据的处理方法,包括:在待测流量对应的标识属于目标标识维度的情况下,提取所述待测流量,其中,所述目标标识维度为基于检测结果发生误判的目标历史流量得到的;对所述待测流量的时序信息进行检测,得到第一检测结果,其中,所述第一检测结果用于指示所述待测流量的时序信息是否正常;基于所述第一检测结果生成所述待测流量的上报信息,将所述上报信息发送至规则引擎,其中,所述规则引擎用于基于所述上报信息检测所述待测流量。2.根据权利要求1所述的方法,其中,所述基于所述第一检测结果生成所述待测流量的上报信息,将所述上报信息发送至规则引擎,包括:在所述第一检测结果指示所述待测流量的时序信息是正常的情况下,对所述待测流量对应的多种特征中的标识的属性特征进行过滤,得到所述待测流量的一个或多个待上报特征,将所述一个或多个待上报特征添加至上报信息中,发送所述上报信息至所述规则引擎。3.根据权利要求1所述的方法,所述方法还包括:对候选历史流量的时序信息进行检测,得到所述候选历史流量的时序检测结果,其中,所述候选历史流量的检测结果为异常;在基于所述候选历史流量的时序检测结果,确定所述候选历史流量的检测结果发生误判的情况下,将所述候选历史流量作为目标历史流量,基于所述目标历史流量对应的标识所属的标识维度,得到所述目标标识维度。4.根据权利要求1所述的方法,其中,所述对所述待测流量的时序信息进行检测,得到第一检测结果,包括:计算所述待测流量的时序信息与多个第一参考数据的多个第一相似度,其中,所述多个第一参考数据包括多个第一正常时序参考数据和一个或多个第一异常时序参考数据,所述多个第一正常时序参考数据的数量大于所述一个或多个第一异常时序参考数据的数量,所述多个第一相似度中不同的第一相似度对应不同的第一参考数据;从所述多个第一相似度中选取最大的第一数量个第一目标相似度,确定所述第一数量个第一目标相似度分别对应的第一目标参考数据,其中,所述第一数量小于所述多个第一相似度的数量;在所述第一数量个第一目标相似度分别对应的第一目标参考数据中,第一正常时序目标参考数据的数量大于第一异常时序目标参考数据的数量的情况下,得到第一检测结果,所述第一检测结果用于指示所述待测流量的时序信息为正常。5.根据权利要求1所述的方法,其中,所述将所述上报信息发送至规则引擎之后,所述方法还包括:从所述规则引擎获取所述待测流量的第二检测结果,其中,所述第二检测结果为基于所述上报信息对所述待测流量检测得到的;在基于所述第二检测结果确定所述待测流量正常的情况下,对所述待测流量的时序信息进行检测,得到第三检测结果;在所述第三检测结果指示所述待测流量的时序信息是异常的情况下,确定所述待测流量是异常流量。6.根据权利要求5所述的方法,其中,所述对所述待测流量的时序信息进行检测,得到
第三检测结果,包括:计算所述待测流量的时序信息与多个第二参考数据的多个第二相似度,其中,所述多个第二参考数据包括一个或多个第二正常时序参考数据和多个第二异常时序参考数据,所述一个或多个第二正常时序参考数据的数量小于所述多个第二异常时序参考数据的数量,所述多个第二相似度中不同的第二相似度对应不同的第二参考数据;从所述多个第二相似度中选取最大的第二数量个第二目标相似度,确定所述第二数量个第二目标相似度分别对应的第二目标参考数据,其中,所述第二数量小于所述多个第二相似度的数量;在所述第二数量个第二目标相似度分别对应的第二目标参考数据中,第二正常时序目标参考数据的数量小于第二异常时序目标参考数据的数量的情况下,得到第三检测结果,所述第三检测结果用于指示所述待测流量是异常流量。7.一种流量数据的处理装置,包括:待测流量获取模块,用于在待测流量对应的标识属于目标标识维度的情况下,提取所述待测流量,其中,所述目标标识维度为基于检测结果发生误判的目标历史流量得到的;第一时序检测模块,用于对所述待测流量的时序信息进行检测,得到第一检测结果,其中,所述第一检测结果用于指示所述待测流量的时序信息是否正常;上报信息生成模块,用于基于所述第一检测结果生成所述待测流量的上报信息,将所述上报信息发送至规则引擎,其中,所述规则引擎用于基于所述上报信息检测所述待测流量。8.根据权利要求7所述的装置,其中,所述上报信息生成模块,用于在所述第一检测结果指示所述待测流量的时序信息是正常的情况下,对所述待测流量对应的多种特征中的标识的属性特征进行过滤,得到所述待测流量的一个或多个待上报特征,将所述一个或多个待上报特征添加至上报信息中,发送所述上报信息至所述规则引擎。9.根据权利要求7所述的装置,所述装置还包括:目标标识维度确定模块,用于对候选历史流量的时序信息进行检测,得到所述候选历史流量的时序检测结果,其中,所述候选历史流量的检测结果为异常;在基于所述候选历史流量的时序检测结果,确定所述候选历史流量的检测结果发生误判的情况下,将所述候选历史流量作为目标历史流量,基于所述目标历史流量对应的标识所属的标识维度,得到所述目标标识维度。10.根据权利要求7所述的装置,其中,所述第一时序检测模块,用于计算所述待测流量的时序信息与多个第一参考数据的多个第一相似度,其中,所述多个第一参考数据包括多个第一正常时序参考数据和一个或多个第一异常时序参考数据,所述多个第一正常时序参考数据的数量大于所述一个或多个第一异常时序参考数据的数量,所述多个第一相似度中不同的第一相似度对应不同的第一参考数据;从所述多个第一相似度中选取最大的第一数量个第一目标相似度,确定所述第一数量个第一目标相似度分别对应的第一目标参考数据,其中,所述第一数量小于所述多个第一相似度的数量;在所述第一数量个第一目标相似度分别对应的第一目标参考数据中,第一正常时序目标参考数据的数量大于第一异常时序目标参考数据的数量的情况下,得到第一检测结果,所述第一检测结果用于指示所述待测流量的时序信息为正常。11.根据权利要求7所述的装置,所述装置还包括:
检测结果获取模块,用于从所述规则引擎获取所述待测流量的第二检测结果,其中,所述第二检测结果为基于所述上报信息对所述待测流量检测得到的;第二时序检测模块,用于在基于所述第二检测结果确定所述待测流量正常的情况下,对所述待测流量的时序信息进行检测,得到第三检测结果;在所述第三检测结果指示所述待测流量的时序信息是异常的情况下,确定所述待测流量是异常流量。12.根据权利要求11所述的装置,其中,所述第二时序检测模块,用于计算所述待测流量的时序信息与多个第二参考数据的多个第二相似度,其中,所述多个第二参考数据包括一个或多个第二正常时序参考数据和多个第二异常时序参考数据,所述一个或多个第二正常时序参考数据的数量小于所述多个第二异常时序参考数据的数量,所述多个第二相似度中不同的第二相似度对应不同的第二参考数据;从所述多个第二相似度中选取最大的第二数量个第二目标相似度,确定所述第二数量个第二目标相似度分别对应的第二目标参考数据,其中,所述第二数量小于所述多个第二相似度的数量;在所述第二数量个第二目标相似度分别对应的第二目标参考数据中,第二正常时序目标参考数据的数量小于第二异常时序目标参考数据的数量的情况下,得到第三检测结果,所述第三检测结果用于指示所述待测流量是异常流量。13.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
技术总结
本公开提供了流量数据的处理方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及互联网、大数据等技术领域。具体实现方案为:在待测流量对应的标识属于目标标识维度的情况下,提取待测流量,其中,目标标识维度为基于检测结果发生误判的目标历史流量得到的;对待测流量的时序信息进行检测,得到第一检测结果;基于第一检测结果生成待测流量的上报信息,将上报信息发送至规则引擎,其中,所述规则引擎用于基于上报信息检测待测流量。本公开提供的技术方案,能够提高对待测流量检测的准确性。性。性。
技术研发人员:李任鹏
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2023.07.10
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/