异常检测方法以及相关装置

未命名 08-29 阅读:219 评论:0


1.本技术涉及网络安全领域,具体而言,涉及一种异常检测方法以及相关装置。


背景技术:

2.用户的登录日志记录了用户登录时间,登录设备,登录ip等相关信息,这些数据往往也记录了攻击者的攻击行为,可以以此检测异常行为。
3.用户登录行为异常检测主要集中在异地登录检测,但是误报率较高。此外,由于在实际的网络环境中,异常登录行为并不经常发生,如果想要训练检测模型则需要依赖大量的样本数据。
4.针对相关技术中异常检测误报率高、不易于构造样本的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本技术的主要目的在于提供一种异常检测方法以及相关装置,以解决异常检测误报率高、不易于构造样本的问题。
6.为了实现上述目的,根据本技术的一个方面,提供了一种异常检测方法。
7.根据本技术的异常检测方法包括:根据用户登录日志,提取得到用户行为特征数据,其中所述用户行为特征数据基于预设时间窗口作为当前用户登录行为是否异常的检测标准;基于所述用户行为特征数据,建立预设异常检测模型,其中所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据;通过所述预设异常检测模型,检测出用户异常行为登录行为。
8.进一步地,根据用户登录日志,提取得到用户行为特征数据,其中所述用户行为特征数据基于预设时间窗口作为当前用户登录行为是否异常的检测标准,包括:基于预设时间窗口为1天作为当前用户登录行为是否异常的检测标准,提取得到用户行为特征数据,检测并分析该日内用户登录行为是否异常。
9.进一步地,所述根据用户登录日志,提取得到用户行为特征数据,还包括:基于每个用户建立对应的用户画像信息表,以并每个用户为单位统计用户登录时间段,登录方式,用户登录地;对所述用户登录时间段、所述登录方式以及所述用户登录地,其中,所述登录方式包括一个三元组《登录系统,登录浏览器,使用何种应用登录》;计算每个预设用户特征数值的出现频率;根据所述用户画像信息表以及所述出线频率,标记出该条日志是否为常用登录时间、常用登录方式异常、常用登录地以及ip是否异常。
10.进一步地,所述提取得到用户行为特征数据中的预设用户特征数值至少包括如下之一:提取该用户当日内登录总次数,当日内该账号登录来源ip数,当日内该账号登录城市数,当日内该账号登录所用设备数,当日内该账号登录使用浏览器数,当日内该账户登录入口数,当日内登录被标记为常用的登录时间的比例,当日内登录被标记为常用的登录方式
异常的比例,当日内登录被标记为常用的登录地的比例,当日内登录被标记为ip异常的比例。
11.进一步地,所述基于所述用户行为特征数据,建立预设异常检测模型,其中所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据,包括:所述无监督机器学习采用sparse autoencoder的稀疏模式下的自动编码器,其中所述自动编码器包括:编码器和解码器;通过输入矩阵输入至所述自动编码器,得到输出矩阵的大于预设阈值时判断为异常数据。
12.进一步地,所述自动编码器还包括:通过调整所述编码器以及所述解码器的参数,以使输出的重构数据与原始数据之间的误差最小化;通过所述自编码器通过训练进行原始数据的重构。
13.进一步地,所述通过所述自编码器通过训练进行原始数据的重构,还包括:在构建模型时加入dropout层,用以防止过拟合,和/或,对所述自动编码器的损失函数增加稀疏惩罚项。
14.为了实现上述目的,根据本技术的另一方面,提供了一种异常检测装置。
15.根据本技术的异常检测装置包括:提取模块,用于根据用户登录日志,提取得到用户行为特征数据,其中所述用户行为特征数据基于预设时间窗口作为当前用户登录行为是否异常的检测标准;无监督模型建立模块,用于基于所述用户行为特征数据,建立预设异常检测模型,其中所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据;异常检测模块,用于通过所述预设异常检测模型,检测出用户异常行为登录行为。
16.为了实现上述目的,根据本技术的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述方法。
17.为了实现上述目的,根据本技术的再一方面,提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述的方法。
18.在本技术实施例中异常检测方法以及相关装置,采用根据用户登录日志,提取得到用户行为特征数据的方式,通过基于所述用户行为特征数据,建立预设异常检测模型,达到了通过所述预设异常检测模型,检测出用户异常行为登录行为的目的,从而实现了用户异常登录行为的准确监测且通过小样本即可训练得到检测模型的技术效果,进而解决了异常检测误报率高、不易于构造样本的技术问题。
附图说明
19.构成本技术的一部分的附图用来提供对本技术的进一步理解,使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
20.图1是根据本技术实施例的异常检测方法的硬件结构示意图;
21.图2是根据本技术实施例的异常检测方法的流程示意图;
22.图3是根据本技术实施例的异常检测装置的结构示意图;
23.图4是根据本技术优选实施例的异常检测方法的流程示意图。
具体实施方式
24.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
25.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.在本技术中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本技术及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
27.并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本技术中的具体含义。
28.此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本技术中的具体含义。
29.发明人研究时发现,较为最常用的用户登录行为异常检测方法是异地登录检测,即记住用户经常登录的城市,当登录地点发生变化时触发验证码或短信验证等保护措施。由于登录地点一般根据ip地址判断,当用户使用的宽带运营商具有全国多地nat出口,或用户使用vpn、代理时,该方法极易产生误报。
30.为了提高异常行为检测的准确率,在本技术的实施例中结合用户画像从多个维度提取用户行为特征用于后续的异常检测。
31.此外,在实际的网络环境中,异常登录行为并不经常发生,这样会导致正常样本和异常样本的分布极不平衡,构造异常检测模型时缺乏异常数据。本专利针对这个问题使用的是无监督学习算法,无监督学习算法具有不依赖大量的异常样本作为训练数据以及能够发现未知异常行为等优点。
32.所以为了解决单纯异地登录检测的缺陷,本专利分析用户登录行为习惯,通过构建用户画像,综合用户非常用登录地,非常用登陆时间,非常用登录行为,以时间窗口一天来生成用户登录行为特征用于后续的异常检测模型搭建,实现多维度异常检测,提高准确
率。
33.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
34.如图1所示,本技术异常检测方法的实施例中包括:用户100、服务器200。在所述服务器200中的登录日志记录了用户登录时间,登录设备,登录ip等相关信息,这些数据往往也记录了攻击者的攻击行为,通过分析日志已可以作为恶意登陆检测的有效手段。
35.如图2所示,该方法包括如下的步骤s201至步骤s203:
36.步骤s201,根据用户登录日志,提取得到用户行为特征数据,其中所述用户行为特征数据基于预设时间窗口作为当前用户登录行为是否异常的检测标准;
37.步骤s202,基于所述用户行为特征数据,建立预设异常检测模型,其中所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据;
38.步骤s203,通过所述预设异常检测模型,检测出用户异常行为登录行为。
39.从以上的描述中,可以看出,本技术实现了如下技术效果:
40.采用根据用户登录日志,提取得到用户行为特征数据的方式,通过基于所述用户行为特征数据,建立预设异常检测模型,达到了通过所述预设异常检测模型,检测出用户异常行为登录行为的目的,从而实现了用户异常登录行为的准确监测且通过小样本即可训练得到检测模型的技术效果,进而解决了异常检测误报率高、不易于构造样本的技术问题。
41.上述步骤s201中在服务器的日志文件中根据用户登录日志,提取得到用户行为特征数据。
42.作为一种可选的实施方式,所述用户行为特征数据基于预设时间窗口作为当前用户登录行为是否异常的检测标准。
43.作为一种优选的实施方式,用户行为特征数据包括但不限于:提取该用户当日内登录总次数,当日内该账号登录来源ip数,当日内该账号登录城市数,当日内该账号登录所用设备数,当日内该账号登录使用浏览器数,当日内该账户登录入口数,当日内登录被标记为“常用的登录时间”的比例,当日内登录被标记为“常用的登录方式异常”的比例,当日内登录被标记为“常用的登录地”的比例,当日内登录被标记为“ip异常”的比例。
44.上述步骤s202中基于所述用户行为特征数据,建立预设异常检测模型。
45.作为一种可选的实施方式,所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的。无监督学习算法不依赖大量的异常样本作为训练数据同时能够发现未知异常行为。
46.作为一种可选的实施方式,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据。由于攻击并不经常发生,标签数据的稀少性决定了本文中使用的是无监督学习算法。采用的无监督异常检测算法不依赖先前的攻击知识反而允许系统发现少见的和过往未曾发现的威胁。
47.上述步骤s203中通过所述预设异常检测模型,检测出用户异常行为登录行为。当预设异常检测模型的自编码器构建好后,对于待测试的日志,构建好特征矩阵后输入到自编码器,经过自编码器后得到,计算重构误差,当大于一定阈值算异常数据。
48.作为一种可选的实施方式,以时间窗口一天来生成用户登录行为特征用于后续的
异常检测模型搭建,实现多维度异常检测,提高准确率。
49.作为一种可选的实施方式,以时间窗口一天来生成用户登录行为特征用于后续的无监督异常检测模型搭建,实现多维度异常检测,提高准确率。
50.作为本实施例中的优选,根据用户登录日志,提取得到用户行为特征数据,其中所述用户行为特征数据基于预设时间窗口作为当前用户登录行为是否异常的检测标准,包括:基于预设时间窗口为1天作为当前用户登录行为是否异常的检测标准,提取得到用户行为特征数据,检测并分析该日内用户登录行为是否异常。
51.具体实施时,以时间窗口为1天来分析该日内用户登录行为是否异常。所述提取得到用户行为特征数据中的预设用户特征数值至少包括如下之一:提取该用户当日内登录总次数,当日内该账号登录来源ip数,当日内该账号登录城市数,当日内该账号登录所用设备数,当日内该账号登录使用浏览器数,当日内该账户登录入口数,当日内登录被标记为“常用的登录时间”的比例,当日内登录被标记为“常用的登录方式异常”的比例,当日内登录被标记为“常用的登录地”的比例,当日内登录被标记为“ip异常”的比例。
52.作为本实施例中的优选,所述根据用户登录日志,提取得到用户行为特征数据,还包括:基于每个用户建立对应的用户画像信息表,以并每个用户为单位统计用户登录时间段,登录方式,用户登录地;对所述用户登录时间段、所述登录方式以及所述用户登录地,其中,所述登录方式包括一个三元组《登录系统,登录浏览器,使用何种应用登录》;计算每个预设用户特征数值的出现频率;根据所述用户画像信息表以及所述出线频率,标记出该条日志是否为常用登录时间、常用登录方式异常、常用登录地以及ip是否异常。
53.具体实施时,给每个用户建立用户画像,以每个用户为单位统计用户登录时间段,登录方式比如可以用三元组《登录系统,登录浏览器,使用何种应用登录》表示,用户登录地。针对以上特征的值计算每个值出现的频率。
54.可以理解,上特征的值包括:提取该用户当日内登录总次数,当日内该账号登录来源ip数,当日内该账号登录城市数,当日内该账号登录所用设备数,当日内该账号登录使用浏览器数,当日内该账户登录入口数,当日内登录被标记为常用的登录时间的比例,当日内登录被标记为常用的登录方式异常的比例,当日内登录被标记为常用的登录地的比例,当日内登录被标记为ip异常的比例。
55.根据以上用户画像信息表,可以标记出该条日志是否为常用登录时间,常用登录方式异常,常用登录地。
56.需要注意的是,所述常用的登录时间,对于待测试的日志,首先将当前日志发生的时间点转化为某个时间段,然后去查看“用户画像表”,如果该时间段的阈值高于0.1,则可以判定该条日志为常用时间登录。
57.所述常用的登录方式,对于待测试的日志,判断登录方式(《登录系统,登录浏览器,使用何种应用登录》)是否是用户常用的登录方式,如果该登录方式阈值高于0.1,可以判断该条日志为常用登录方式。
58.所述常用的登录地,对于待测试的日志,判断登录地是否是用户常用的登录地,如果该登录地阈值高于0.1,可以判断该条日志常用登录地。
59.所述ip异常,ip异常判断存在两种情况。当一个ip地址登录大量账号且访问模式(《设备,系统,浏览器》)固定,登录失败频率较高,可以将ip标为异常。如果一个ip地址从来
没出现过该用户的历史记录里同时访问模式也未出现在用户记录,可以让用户二次确认,用户确认为异常则标记为异常。
60.作为本实施例中的优选,所述基于所述用户行为特征数据,建立预设异常检测模型,其中所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据,包括:所述无监督机器学习采用sparse autoencoder的稀疏模式下的自动编码器,其中所述自动编码器包括:编码器和解码器;通过输入矩阵输入至所述自动编码器,得到输出矩阵的大于预设阈值时判断为异常数据。
61.具体实施时,由于攻击并不经常发生,标签数据的稀少性决定了本文中使用的是无监督学习算法。而且无监督异常检测算法不依赖先前的攻击知识反而允许系统发现少见的和过往未曾发现的威胁。
62.优选地,可以使用sparse autoencoder,这种稀疏模式下的自动编码器,是对自动编码器的一种改进,为了更好的提取特征,使得一部分神经元处于不活跃状态。通过调整编码器和解码器的参数,可以使输出的重构数据与原始数据之间的误差最小化,自编码器可以通过训练来重构原始数据。
63.作为本实施例中的优选,所述通过所述自编码器通过训练进行原始数据的重构,还包括:在构建模型时加入dropout层,用以防止过拟合,和/或,对所述自动编码器的损失函数增加稀疏惩罚项。
64.作为一种可选的实施方式,在构建模型时可以加入dropout层用来防止过拟合。
65.作为一种可选的实施方式,为了更好的提取特征,可以针对损失函数加一项稀疏惩罚项,可以使一些神经元处于不活跃状态。
66.作为本实施例中的优选,所述自动编码器还包括:过调整所述编码器以及所述解码器的参数,以使输出的重构数据与原始数据之间的误差最小化;通过所述自编码器通过训练进行原始数据的重构。
67.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
68.根据本技术实施例,还提供了一种用于实施上述方法的异常检测装置,如图3所示,该装置包括:
69.提取模块301,用于根据用户登录日志,提取得到用户行为特征数据,其中所述用户行为特征数据基于预设时间窗口作为当前用户登录行为是否异常的检测标准;
70.无监督模型建立模块302,用于基于所述用户行为特征数据,建立预设异常检测模型,其中所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据;
71.异常检测模块303,用于通过所述预设异常检测模型,检测出用户异常行为登录行为。
72.本技术的所述提取模块301中在服务器的日志文件中根据用户登录日志,提取得到用户行为特征数据。
73.作为一种可选的实施方式,所述用户行为特征数据基于预设时间窗口作为当前用
户登录行为是否异常的检测标准。
74.作为一种优选的实施方式,用户行为特征数据包括但不限于:提取该用户当日内登录总次数,当日内该账号登录来源ip数,当日内该账号登录城市数,当日内该账号登录所用设备数,当日内该账号登录使用浏览器数,当日内该账户登录入口数,当日内登录被标记为“常用的登录时间”的比例,当日内登录被标记为“常用的登录方式异常”的比例,当日内登录被标记为“常用的登录地”的比例,当日内登录被标记为“ip异常”的比例。
75.本技术的所述无监督模型建立模块302中基于所述用户行为特征数据,建立预设异常检测模型。
76.作为一种可选的实施方式,所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的。无监督学习算法不依赖大量的异常样本作为训练数据同时能够发现未知异常行为。
77.作为一种可选的实施方式,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据。由于攻击并不经常发生,标签数据的稀少性决定了本文中使用的是无监督学习算法。采用的无监督异常检测算法不依赖先前的攻击知识反而允许系统发现少见的和过往未曾发现的威胁。
78.本技术的所述异常检测模块303中通过所述预设异常检测模型,检测出用户异常行为登录行为。当预设异常检测模型的自编码器构建好后,对于待测试的日志,构建好特征矩阵后输入到自编码器,经过自编码器后得到,计算重构误差,当大于一定阈值算异常数据。
79.作为一种可选的实施方式,以时间窗口一天来生成用户登录行为特征用于后续的异常检测模型搭建,实现多维度异常检测,提高准确率。
80.作为一种可选的实施方式,以时间窗口一天来生成用户登录行为特征用于后续的无监督异常检测模型搭建,实现多维度异常检测,提高准确率。
81.显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
82.为了更好的理解上述流程,以下结合优选实施例对上述技术方案进行解释说明,但不用于限定本发明实施例的技术方案。
83.本技术实施例中通过对用户登录行为特征进行提取,并根据提取得到的小样本数据,利用稀疏自编码器进行用户登录行为异常检测。
84.用户登录行为特征可以包括:提取用户登录行为特征,以一天为时间窗口,提取当日内该账号登录来源ip数,当日内该账号登录城市数,当日内该账号登录所用设备数,当日内该账号登录使用浏览器数,当日内该账户登录入口数,当日内登录被标记为“常用的登录时间”的比例,当日内登录被标记为“常用的登录方式异常”的比例,当日内登录被标记为“常用的登录地”的比例,当日内登录被标记为“ip异常”的比例。
85.如图4所示,是本技术实施例中智能对话交互方法的流程示意图,实现的具体过程
包括如下步骤:
86.步骤s401,用户登录行为特征。
87.步骤s402,以时间窗口为1天来分析该日内用户登录行为是否异常。
88.以时间窗口为1天来分析该日内用户登录行为是否异常。提取该用户当日内登录总次数,当日内该账号登录来源ip数,当日内该账号登录城市数,当日内该账号登录所用设备数,当日内该账号登录使用浏览器数,当日内该账户登录入口数,当日内登录被标记为“常用的登录时间”的比例,当日内登录被标记为“常用的登录方式异常”的比例,当日内登录被标记为“常用的登录地”的比例,当日内登录被标记为“ip异常”的比例。
89.给每个用户建立用户画像,以每个用户为单位统计用户登录时间段,登录方式(用三元组《登录系统,登录浏览器,使用何种应用登录》表示),用户登录地。针对以上特征的值计算每个值出现的频率。
90.根据以上用户画像信息表,可以标记出该条日志是否为常用登录时间,常用登录方式异常,常用登录地。
91.步骤s403,无监督异常检测。
92.由于攻击并不经常发生,标签数据的稀少性决定了本文中使用的是无监督学习算法。而且无监督异常检测算法不依赖先前的攻击知识反而允许系统发现少见的和过往未曾发现的威胁。
93.本系统使用的是sparse autoencoder,一种稀疏模式下的自动编码器,是对自动编码器的一种改进,为了更好的提取特征,使得一部分神经元处于不活跃状态。异常检测算法如下:
94.稀疏编码器由编码器和解码器两部分构成,编码器从输入层到隐藏层的处理过程如公式(1),公式中w
ij
是权重矩阵,j1是偏移量,s是激活函数
95.h=g
q1
(x)=s(w
ij
x+j1)
ꢀꢀ
(1)
96.解码器从隐藏层到重构层的处理过程如公式(2),公式中w
jk
是权重矩阵,j 2是偏移量,s是激活函数
97.y=g
q2
(h)=s(w
jk
h+j2)
ꢀꢀ
(2)
98.通过调整编码器和解码器的参数,可以使输出的重构数据与原始数据之间的误差最小化(公式(3)),自编码器可以通过训练来重构原始数据。在构建模型时可以加入dropout层用来防止过拟合,公式中yr真实标签构成的矩阵,xr是模型的输出值,n是数据集中元素的长度。
[0099][0100]
为了更好的提取特征,可以针对损失函数加一项稀疏惩罚项,可以使一些神经元处于不活跃状态,如公式(4),公式中是隐藏神经元j的平均活跃度,r是稀疏性参数,m用来控制稀疏性的权重。
[0101][0102]
[0103]
自编码器构建好后,对于待测试的日志,构建好特征矩阵后x
(r)
输入到自编码器,经过自编码器后得到y
(r)
,用公式(3)计算重构误差,大于一定阈值算异常数据。
[0104]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种异常检测方法,其特征在于,包括:根据用户登录日志,提取得到用户行为特征数据,其中所述用户行为特征数据基于预设时间窗口作为当前用户登录行为是否异常的检测标准;基于所述用户行为特征数据,建立预设异常检测模型,其中所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据;通过所述预设异常检测模型,检测出用户异常行为登录行为。2.根据权利要求1所述的方法,其特征在于,根据用户登录日志,提取得到用户行为特征数据,其中所述用户行为特征数据基于预设时间窗口作为当前用户登录行为是否异常的检测标准,包括:基于预设时间窗口为1天作为当前用户登录行为是否异常的检测标准,提取得到用户行为特征数据,检测并分析该日内用户登录行为是否异常。3.根据权利要求2所述的方法,其特征在于,所述根据用户登录日志,提取得到用户行为特征数据,还包括:基于每个用户建立对应的用户画像信息表,以并每个用户为单位统计用户登录时间段,登录方式,用户登录地;对所述用户登录时间段、所述登录方式以及所述用户登录地,其中,所述登录方式包括一个三元组<登录系统,登录浏览器,使用何种应用登录>;计算每个预设用户特征数值的出现频率;根据所述用户画像信息表以及所述出线频率,标记出该条日志是否为常用登录时间、常用登录方式异常、常用登录地以及ip是否异常。4.根据权利要求3所述的方法,其特征在于,所述提取得到用户行为特征数据中的预设用户特征数值至少包括如下之一:提取该用户当日内登录总次数,当日内该账号登录来源ip数,当日内该账号登录城市数,当日内该账号登录所用设备数,当日内该账号登录使用浏览器数,当日内该账户登录入口数,当日内登录被标记为常用的登录时间的比例,当日内登录被标记为常用的登录方式异常的比例,当日内登录被标记为常用的登录地的比例,当日内登录被标记为ip异常的比例。5.根据权利要求1所述的方法,其特征在于,所述基于所述用户行为特征数据,建立预设异常检测模型,其中所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据,包括:所述无监督机器学习采用sparse autoencoder的稀疏模式下的自动编码器,其中所述自动编码器包括:编码器和解码器;通过输入矩阵输入至所述自动编码器,得到输出矩阵的大于预设阈值时判断为异常数据。6.根据权利要求5所述的方法,其特征在于,所述自动编码器还包括:通过调整所述编码器以及所述解码器的参数,以使输出的重构数据与原始数据之间的误差最小化;
通过所述自编码器通过训练进行原始数据的重构。7.根据权利要求1所述的方法,其特征在于,所述通过所述自编码器通过训练进行原始数据的重构,还包括:在构建模型时加入dropout层,用以防止过拟合,和/或,对所述自动编码器的损失函数增加稀疏惩罚项。8.一种异常检测装置,其特征在于,包括:提取模块,用于根据用户登录日志,提取得到用户行为特征数据,其中所述用户行为特征数据基于预设时间窗口作为当前用户登录行为是否异常的检测标准;无监督模型建立模块,用于基于所述用户行为特征数据,建立预设异常检测模型,其中所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据;异常检测模块,用于通过所述预设异常检测模型,检测出用户异常行为登录行为。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项所述的方法。10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项所述的方法。

技术总结
本申请公开了一种异常检测方法以及相关装置。该方法包括根据用户登录日志,提取得到用户行为特征数据,其中所述用户行为特征数据基于预设时间窗口作为当前用户登录行为是否异常的检测标准;基于所述用户行为特征数据,建立预设异常检测模型,其中所述预设异常检测模型为使用多组数据通过无监督机器学习训练得出的,多组数据中的每组数据均包括:小样本数据,所述小样本数据包括用户异常登录行为的数据;通过所述预设异常检测模型,检测出用户异常行为登录行为。本申请解决了异常检测误报率高、不易于构造样本的技术问题。通过本申请实现了用户异常行为准确地监测,并且提供的小样本数据能够基于无监督训练方式进行模型的训练。训练。训练。


技术研发人员:万巍 王可 赵静 魏金侠 龙春 杨帆
受保护的技术使用者:中国科学院计算机网络信息中心
技术研发日:2022.02.15
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐