网络业务类型识别模型训练方法、网络业务类型识别方法与流程
未命名
09-29
阅读:74
评论:0
1.本技术涉及通信网络技术领域,尤其涉及一种网络业务类型识别模型训练方法、网络业务类型识别方法。
背景技术:
2.随着移动通信网络的广泛应用,5g/6g技术的飞速发展使得各类网络业务趋于复杂化和多样化,但大规模网络业务的涌现也带来了网络带宽资源利用率低,网络性能不稳定等严重影响用户体验的问题,利用先进技术实现复杂网络业务的动态管理、分配和调度,具有重要意义。对于不同网络下的大规模业务流量,基于软件定义网络(software defined network,sdn)架构对不同业务类型进行精准识别,有利于网络带宽资源的合理分配,实时感知和评估网络性能,满足用户对服务质量(quality of service,qos)的切实需求。
3.然而,目前在sdn架构下存在识别网络业务数据的业务类型的准确率较低的问题。
技术实现要素:
4.本技术提供一种网络业务类型识别模型训练方法、网络业务类型识别方法,用以解决现有技术中sdn架构下存在识别网络业务数据的业务类型的准确率较低的问题。
5.第一方面,本技术提供一种网络业务类型识别模型训练方法,包括:获取网络业务数据样本,所述网络业务数据样本包括所述网络业务数据的类型;从所述网络业务数据样本中提取所述网络业务数据样本的初始业务特征集合;确定所述初始业务特征集合是否需要进行特征降维处理,所述特征降维处理用于去除所述初始业务特征集合中的冗余特征;若需要进行所述特征降维处理,则获取所述初始业务特征集合特征降维处理后的目标业务特征集合;将所述目标业务特征集合输入基于误差关联算子改进的adaboost算法中进行训练,得到训练后的网络业务类型识别模型。
6.可选地,所述确定所述初始业务特征集合是否需要进行特征降维处理,包括:根据斯皮尔曼等级相关性分析算法,确定所述初始业务特征集合中的第一业务特征与业务类型的相关性;若与所述第一业务特征存在相关性的所述业务类型的数量小于或等于预设阈值,则需要对所述初始业务特征集合中进行特征降维处理;若与所述第一业务特征存在相关性的所述业务类型的数量大于所述预设阈值,则不需要对所述初始业务特征集合中进行特征降维处理。
7.可选地,所述获取所述初始业务特征集合特征降维处理后的目标业务特征集合,包括:从所述初始业务特征集合获取第一业务特征集合,所述第一特征集合中的业务特征数量小于或等于所述初始业务特征集合中的特征数量;
获取所述第一业务特征集合的第一评价函数,以及,第二业务特征集合的第二评价函数,所述第二业务特征集合中为所述第一业务特征集合的子集,且所述第二业务特征集合中的业务特征数量比所述第一业务特征集合中的业务特征数量少1;确定与所述第一评价函数的函数值差异最小的第二评价函数对应的目标第二业务特征集合;将所述目标第二业务特征集合作为新的第一业务特征集合,并迭代上述步骤至所述第一业务特征集合中的业务特征数量小于或等于预设数量,生成所述目标业务特征集合。
8.可选地,在所述将所述目标业务特征集合输入基于误差关联算子改进的adaboost算法中进行训练,得到训练后的网络业务类型识别模型之前,还包括:根据误差关联算子,确定所述adaboost算法中的冗余弱分类器;去除所述adaboost算法中的冗余弱分类器,获取所述基于误差关联算子改进的adaboost算法。
9.可选地,所述从所述网络业务数据样本中提取所述网络业务数据样本的初始业务特征集合,包括:获取所述网络业务数据样本的采集时间;根据所述采集时间,将所述网络业务数据样本切割为至少两个时间连续的数据包集合;从所述数据包集合包括的数据包中提取每个数据包的初始业务特征;根据所述初始业务特征,生成所述网络业务数据样本的初始业务特征集合。
10.可选地,在根据所述采集时间,将所述网络业务数据样本切割为至少两个时间连续的数据包集合之前,还包括:对所述网络业务数据样本进行数据清洗操作。
11.第二方面,本技术提供一种网络业务类型识别方法,应用于sdn控制平面,包括:获取网络业务数据;将所述网络业务数据输入至网络业务类型识别模型中,获得所述网络业务数据的业务类型;所述网络业务类型识别模型为权利要求1-6中任一项所述的网络业务类型识别模型;根据所述业务类型,对网络资源进行管理。
12.第三方面,本技术提供一种网络业务类型识别模型装置,包括:获取模块,用于获取网络业务数据样本,所述网络业务数据样本包括所述网络业务数据的类型;处理模块,用于从所述网络业务数据样本中提取所述网络业务数据样本的初始业务特征集合;确定所述初始业务特征集合是否需要进行特征降维处理,所述特征降维处理用于去除所述初始业务特征集合中的冗余特征;若需要进行所述特征降维处理,则获取所述初始业务特征集合特征降维处理后的目标业务特征集合;训练模块,用于将所述目标业务特征集合输入基于误差关联算子改进的adaboost算法中进行训练,得到训练后的网络业务类型识别模型。
13.第四方面,本技术提供一种电子设备,包括:处理器、通信接口,以及存储器;所述
处理器分别与所述通信接口和所述存储器通信连接;所述存储器存储计算机执行指令;所述通信接口与外部设备进行通信交互;所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面或第二方面中任一项所述的方法。
14.第五方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面或第二方面中任一项所述的方法。
15.第六方面,本技术提供一种计算机程序产品,所述计算机程序产品被处理器执行时用于实现如第一方面或第二方面中任一项所述的方法。
16.本技术提供的网络业务类型识别模型训练方法、网络业务类型识别方法,通过网络业务数据样本的业务特征进行冗余特征识别,通过特征降维处理去除网络业务数据样本中的冗余特征,并通过基于误差关联算子改进的adaboost算法训练,获得网络业务类型识别模型。该方法通过去除冗余特征,以及,基于误差关联算子改进的adaboost算法,降低了网络业务数据样本中冗余特征对网络业务类型识别模型训练过程的影响,从而提高了网络业务类型识别模型的识别准确率。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
18.图1为本技术实施例提供的一种网络业务类型识别模型的训练方法的流程示意图;图2为本技术实施例提供的另一种网络业务类型识别模型的训练方法的流程示意图;图3为本技术实施例提供的又一种网络业务类型识别模型的训练方法的流程示意图;图4为本技术实施例提供的再一种网络业务类型识别模型的训练方法的流程示意图;图5为本技术实施例提供的再一种网络业务类型识别模型的训练方法的流程示意图;图6为本技术实施例提供的一种sdn架构的业务类型识别过程的结构示意图;图7为本技术实施例提供的一种网络业务类型识别方法的流程示意图;图8为本技术实施例提供的一种网络业务类型识别模型的训练装置的结构示意图;图9为本技术实施例提供的一种电子设备的结构示意图。
19.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
20.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
21.为了便于理解,首先对本技术涉及的专业术语进行解释。
22.adaboost算法:指一种集成学习算法,其原理是通过迭代训练多个弱分类器并将它们组合成强分类器以提高分类精度,具体来说,在每轮迭代中提高那些被上一轮迭代训练的弱分类器错误分类样本的权重,而降低那些被正确分类的样本权重,使没有被正确分类的样本在新一轮迭代训练中受到更大的关注,最终各个弱分类器以投票的方式决定分类结果,其中误差率小的弱分类器在投票中有较大的话语权,反之,误差率大的弱分类器在投票中只有较小的话语权。
23.传统的网络业务类型的识别方法包括基于端口的网络业务识别、基于深度包检测技术(deep packet inspection,dpi)的网络业务识别、基于openflow协议的网络业务识别和基于行为模式的网络业务识别等。上述方法普遍存在识别过程繁琐、耗时长,识别准确度低,可扩展性差等问题。
24.为了克服上述问题,目前,常使用机器学习的方法,构建网络业务分类器,通过训练好的网络业务分类器对获取的网络业务进行网络业务类型识别,能够不间断快速识别网络业务的类型,以缩短识别耗时、增强识别准确性。然而,目前构建网络业务分类器的机器学习方法,在应用于大规模的复杂网络业务的网络业务类型识别时,容易受到相关性较差的业务特征的干扰,从而导致存在识别准确率较低的问题。
25.有鉴于此,本技术提供了一种网络业务类型识别模型的训练方法,通过对网络业务数据样本的业务特征进行冗余特征识别,通过特征降维处理去除网络业务数据样本中的冗余特征,并通过基于误差关联算子改进的adaboost算法训练,获得网络业务类型识别模型。该方法通过去除冗余特征,以及,基于误差关联算子改进的adaboost算法,降低了网络业务数据样本中冗余特征对网络业务类型识别模型训练过程的影响,从而提高了网络业务类型识别模型的识别准确率。
26.本技术提供的网络业务类型识别模型的训练方法的执行主体可以是具备数据处理功能的终端设备,或者是该终端设备的处理芯片,还可以是实现该网络业务类型识别模型的训练方法的软件或程序代码。当执行主体为具备数据处理功能的终端设备时,该终端设备例如可以是具备计算功能的电脑、手机等计算设备,该计算设备上可以部署有运行该网络业务类型识别模型的训练方法的软件或程序代码,通过该软件或程序代码对网络业务类型识别模型进行训练。该方法的执行主体还可以是具备数据处理功能云平台,当执行主体为云平台时,可以在云端执行该方法中对网络业务类型识别模型的训练,该云平台可以根据实际需求在逻辑上分成多个部分,每个部分具有不同的功能。数据处理平台中的各部分可以分别部署在电子设备(位于用户侧)、边缘环境和云环境中的任意两个或三个中。边缘环境为包括距离电子设备较近的边缘电子设备集合的环境,边缘电子设备包括:边缘服务器、拥有计算力的边缘小站等。部署在不同环境或设备的数据处理平台的各个部分协同实现数据处理平台的功能。应理解,本技术不对数据处理平台的哪些部分部署具体部署在
什么环境进行限制性的划分,实际应用时可根据电子设备的计算能力、边缘环境和云环境的资源占有情况或具体应用需求进行适应性的部署。
27.下面以执行主体为实现该方法的终端设备为例,通过具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
28.图1为本技术实施例提供的一种网络业务类型识别模型的训练方法的流程示意图。如图1所示,该方法可以包括:s101、获取网络业务数据样本。
29.其中,该网络业务数据样本包括该网络业务数据的类型。该网络业务数据的类型例如可以包括网页浏览、电子邮件、文字聊天、音频传输、视频传输、文件传输、语音聊天、点对点(peer-to-peer,p2p)等类型。该网络业务数据的类型可以是从该网络业务数据样本中包含的业务类型标记获取的。
30.该网络业务数据样本可以是该终端设备从网络中的网络业务数据传输过程中采集的,也可以是从预设的网络业务数据数据库中获取的,本技术对于该网络业务数据样本的采集方式不作限制,可以是现有的任一种网络业务数据样本采集方式。
31.s102、从网络业务数据样本中提取该网络业务数据样本的初始业务特征集合。
32.该初始业务特征集合中包括的业务特征可以包括该网络业务数据样本的数据包中的特征,还可以包括根据该数据包中的特征解析获得的隐含特征。
33.该数据包中的特征例如可以包括该网络业务数据样本的采集时间、该数据包的长度、该网络数据样本使用的传输协议、该网络数据样本的源端口号和/或目的端口号、该网络数据样本的源网际互连协议(internet protocol,ip)地址和/或目的ip地址等。该隐含特征例如可以包括流数据包转发速率、流比特速率、数据包到达时间间隔、数据包最大到达时间间隔、数据包最小到达时间间隔等。
34.其中,该网络业务数据样本的数据包中的特征可以直接从该数据包中包括的信息中提取。该隐含特征可以基于该数据包中的特征进行计算获取。或者,该初始业务特征集合中的业务特征(包括数据包中的特征和隐含特征)可以通过特征提取算法处理该网络业务数据样本获取,该特征提取算法例如可以是用于特征提取的神经网络模型等。
35.s103、确定初始业务特征集合是否需要进行特征降维处理。
36.其中,该特征降维处理用于去除该初始业务特征集合中的冗余特征。该冗余特征可以为与该网络业务数据样本的业务类别相关性低于预设阈值的业务特征,也可以为与其他业务特征相关性低于预设阈值的业务特征。
37.当该冗余特征为与该网络业务数据样本的业务类别相关性低于预设阈值的业务特征时,该冗余特征的判定取决于该网络业务数据样本的业务类别,不同的业务类别对应的冗余特征可以是相同的,也可以是不同的,需要根据实际需求进行判断。
38.当该冗余特征为与其他业务特征相关性低于预设阈值的业务特征时,可以通过判断每个业务特征与其他业务特征之间的相关性确定。通过相关性分析的算法,获取每个业务特征与其他业务特征之间的相关性。一种可能的实现方式,若存在业务特征与其他任意一个业务特征之间的相关性低于预设相关性阈值时,可以将该业务特征作为冗余特征;另
一种可能的实现方式,若存在业务特征与其他业务特征之间的相关性低于预设相关性阈值的数量大于或等于预设阈值时,可以将该业务特征作为冗余特征。
39.s104、若需要进行特征降维处理,则获取初始业务特征集合特征降维处理后的目标业务特征集合。
40.一种可能的实现方式,通过基于样本的学习算法(instance-based learning。ibl)或者基于聚类的学习算法进行降维处理,从而去除该初始业务特征集合中的冗余特征。该基于样本的学习算法例如可以包括稠密最近邻算法(condensed nearest neighbor,cnn)等;该基于聚类的学习算法例如可以包括k-means聚类算法,模糊c-means聚类算法等。
41.另一种可能的实现方式,通过特征选择的算法,选择并剔除该初始业务特征集合中的冗余特征,以获得提高业务类型识别精准度的目标业务特征集合。该特征选择的算法例如可以是定向搜索(beam search)、序列向前选择(sequential forward selection,sfs)、序列向后选择(sequential backward selection,sbs)等。
42.s105、将目标业务特征集合输入基于误差关联算子改进的adaboost算法中进行训练,得到训练后的网络业务类型识别模型。
43.将目标业务特征集合划分为训练集和测试集,并将该训练集输入至基于误差关联算子改进的adaboost算法中进行训练,通过该测试集对该训练后的基于误差关联算子改进的adaboost算法进行测试,已验证该基于误差关联算子改进的adaboost算法的业务类型识别效果。当测试结果通过时,将该基于误差关联算子改进的adaboost算法作为训练后的网络业务类型识别模型。
44.本技术提供的网络业务类型识别模型的训练方法,通过对网络业务数据样本的业务特征进行冗余特征识别,通过特征降维处理去除网络业务数据样本中的冗余特征,并通过基于误差关联算子改进的adaboost算法训练,获得网络业务类型识别模型。该方法通过去除冗余特征,以及,基于误差关联算子改进的adaboost算法,降低了网络业务数据样本中冗余特征对网络业务类型识别模型训练过程的影响,从而提高了网络业务类型识别模型的识别准确率。
45.下面,对于前述步骤s103中如何确定所述初始业务特征集合是否需要进行特征降维处理进行详细介绍。
46.图2为本技术实施例提供的另一种网络业务类型识别模型的训练方法的流程示意图。如图2所示,前述步骤s103可以包括:s201、根据斯皮尔曼等级相关性分析算法,确定初始业务特征集合中的第一业务特征与第二业务特征的相关性。
47.其中,该第一业务特征为该初始业务特征集合中的任意一个特征,该第二业务特征为该初始业务特征集合中与该第一业务特征不同的任意一个特征。
48.由于斯皮尔曼等级相关性分析算法只可以处理数字变量,而部分业务特征为文本形式,故首先对于初始业务特征集合中的业务特征进行one-hot编码,将这些业务特征转化为斯皮尔曼等级相关性分析算法能够处理的数字变量形式。
49.将该第一业务特征作为第一变量、该第二业务特征作为第二变量,并对该第一业务特征和该第二业务特征进行秩变换,获得该第一业务特征和该第二业务特征的秩次。通过该第一业务特征的秩次和该第二业务特征的秩次,获得斯皮尔曼等级相关系数。根据该
斯皮尔曼等级相关系数,利用假设检验的方式计算该假设检验的统计量和自由度。根据该统计量和自由度,以及,统计量界值表,确定该假设检验的概率值。根据该概率值和预设的假设检验水准,确定该第一业务特征与第二业务特征的相关性。
50.s202、若与第一业务特征存在相关性的第二业务特征的数量小于或等于预设阈值,则需要对该初始业务特征集合中进行特征降维处理。
51.其中,该预设阈值可以是根据实际需求设定的,例如可以小于该业务特征数量减一的任意数量。若与第一业务特征存在相关性的第二业务特征的数量小于或等于预设阈值,表征该第一业务特征与其他业务特征的相关性较低,属于业务类型识别时的冗余特征,会影响到业务特征识别的准确性和效率,需要对该初始业务特征集合中进行前述步骤s104中的特征降维处理。
52.若与第一业务特征存在相关性的所述第二业务特征的数量大于预设阈值,则不需要对该初始业务特征集合中进行特征降维处理。若与第一业务特征存在相关性的第二业务特征的数量大于预设阈值,表征该第一业务特征与其他业务特征的相关性较高,不属于业务类型识别时的冗余特征,是实现高准确性的业务特征识别所需的必要业务特征。
53.对于前述步骤s103中如何确定所述初始业务特征集合是否需要进行特征降维处理,一种可能的实现方式,还可以通过设置用于判断该第一业务特征是否为强相关性特征的第一预设阈值,该第一预设阈值大于图2涉及的方法中所说的预设阈值。
54.若与第一业务特征存在相关性的第二业务特征的数量大于该第一预设阈值时,表征与该第一业务特征相关度较高的第二业务特征的数量较大,则该第一业务特征为强相关性业务特征,必须保留该特征用于后续的业务类型识别的训练。
55.若与第一业务特征存在相关性的第二业务特征的数量大于该预设阈值且小于该第一预设阈值时,表征与该第一业务特征相关度较高的第二业务特征的数量不多也不少,则该第一业务特征为相关性一般的业务特征,可以根据实际需求选择是否保留该特征用于后续的业务类型识别的训练。
56.可选的,在另一种可能的实现方式中,还可以根据斯皮尔曼等级相关性分析算法,确定初始业务特征集合中的第一业务特征与业务类型的相关性,根据该相关性确定该初始业务特征集合是否需要进行特征降维处理。
57.其中,该第一业务特征为该初始业务特征集合中的任意一个特征,该业务类型为该初始业务特征集合中包括的所有业务类型,例如可以是前述所说的网页浏览、电子邮件、文字聊天、音频传输、视频传输、文件传输、语音聊天、p2p等类型。
58.对于初始业务特征集合中的由文本表征的业务类型进行one-hot编码,将这些业务类型转化为斯皮尔曼等级相关性分析算法能够处理的数字变量形式。将该第一业务特征作为第一变量、每个业务类型作为第二变量,并分别对第一变量和多个第二变量按照顺序进行排序后执行秩变换,该排序顺序例如可以是按照从小到大的顺序进行排序。
59.根据秩变换的执行结果,获得该第一变量和每个第二变量的秩次。通过该第一业务特征的秩次和该业务类型的秩次,获得斯皮尔曼等级相关系数。根据该斯皮尔曼等级相关系数,利用假设检验的方式计算该假设检验的统计量和自由度。根据该统计量和自由度,以及,统计量界值表,确定该假设检验的概率值。根据该概率值和预设的假设检验水准,确定该第一业务特征与业务类型的相关性。
s303,从而逐渐减少第一业务特征集合中的业务特征数量,直至第一业务特征集合中的业务特征数量小于或等于预设数量时,将此时的第一业务特征集合作为目标业务特征集合。从而获取初始业务特征集合特征降维处理后的目标业务特征集合,减少了该初始业务特征集合中的冗余特征。
74.此外,由于在进行网络业务类型识别的过程中,由于迭代过程具有一定的随机性,adaboost算法在迭代训练过程中所产生的多个弱分类器并不都会在最终产生的强分类器中起作用,因此迭代过程中可能会产生两个甚至多个性能相同的冗余弱分类器。这种冗余弱分类器不仅不会提升最终的强分类器的准确率,反而会产生更多的计算开销,导致分类效率低下。当存在过多冗余弱分类器的adaboost模型用于大规模复杂网络业务类型识别时,无法给予sdn控制器快速的识别结果反馈,导致sdn控制器无法根据不同网络业务类型快速实时分配网络节点资源,难以保障用户的服务质量需求。
75.因此,在将目标业务特征集合输入基于误差关联算子改进的adaboost算法中进行训练,得到训练后的网络业务类型识别模型之前,还可以包括基于误差关联算子改进的adaboost算法的方法。图4为本技术实施例提供的再一种网络业务类型识别模型的训练方法的流程示意图。如图4所示,该方法还可以包括:s401、根据误差关联算子,确定adaboost算法中的冗余弱分类器。
76.在基于adaboost分类器的业务类型识别训练过程中,adaboost算法会产生多个弱分类器,对于模型的每一次迭代,这些弱分类器会对输入的业务流数据进行训练并输出业务类型识别结果。
77.其中,假设总迭代次数为,弱分类器的个数为,则表示弱分类器对第个网络业务数据样本的业务类型识别结果,若业务类型识别结果正确,则该弱分类器的业务类型识别效果矩阵中最后一行最后一列的值为1,若业务类型识别结果错误,则该值为0。
78.定义误差关联算子为,则其中,误差关联算子表示两个弱分类器对相同数据样本错误识别的关联度,即值越接近于1,表明这两个弱分类器对相同数据样本错误识别的概率越高。当时,认为两个弱分类器在最终组合而成的强分类器中的作用权重也是相同的,因此可将其中一个弱分类器判定为冗余弱分类器。
79.s402、去除adaboost算法中的冗余弱分类器,获取基于误差关联算子改进的adaboost算法。
80.本技术实施例提供的方法,通过定义误差关联算子,确定adaboost算法中的冗余弱分类器,去除adaboost算法中的冗余弱分类器,获取基于误差关联算子改进的adaboost算法,从而使adaboost模型用于大规模复杂网络业务类型识别时,能够给予sdn控制器快速的识别结果反馈,使sdn控制器可以根据不同网络业务类型快速实时分配网络节点资源,保障用户的服务质量需求。
81.下面,对于前述步骤s102中如何从所述网络业务数据样本中提取所述网络业务数
据样本的初始业务特征集合进行详细说明。
82.图5为本技术实施例提供的再一种网络业务类型识别模型的训练方法的流程示意图。如图5所示,该步骤s102可以包括:s501、获取网络业务数据样本的采集时间。
83.其中,该网络业务数据样本的采集时间可以是从该网络业务数据样本的数据包中获取的。
84.s502、根据采集时间,将网络业务数据样本切割为至少两个时间连续的数据包集合。
85.可以利用流量切割工具splitcap将网络业务数据样本切割成多个时间连续的数据包集合。其中,在某一时间段内采集到的网络业务数据样本包括多个样本。每个样本均带有记录采集时间的时间戳,每个样本又由多个数据包组成,默认同一个样本中的不同数据包的时间戳是连续的时间段,因此可以对网络业务数据样本进行切割,获得时间连续的切片,这些切片组成该数据包集合。
86.可选的,在根据采集时间,将网络业务数据样本切割为至少两个时间连续的数据包集合之前,还可以对网络业务数据样本进行数据清洗操作。该数据清洗操作例如可以包括处理网络业务数据样本中的缺失值,删除0值、重复值等无效数据,进行一致性检查等至少一种数据清洗操作。
87.s503、从数据包集合包括的数据包中提取每个数据包的初始业务特征。
88.其中,该初始业务特征包括该数据包中的特征,例如前述所说的该网络业务数据样本的采集时间、该数据包的长度、该网络数据样本使用的传输协议、该网络数据样本的源端口号和/或目的端口号、该网络数据样本的源ip地址和/或目的ip地址等,该初始业务特征可以定义为包括上述特征的元组数据包。
89.该从数据包集合包括的数据包中提取每个数据包的初始业务特征的方式可以是直接从该数据包中包括的信息中提取,或者通过特征提取算法处理该网络业务数据样本获取。
90.s504、根据初始业务特征,生成网络业务数据样本的初始业务特征集合。
91.一种可能的实现方式,将该初始业务特征作为该网络业务数据样本的初始业务特征集合。
92.另一种可能的实现方式,根据该数据包中的特征解析获得的隐含特征,根据该数据包中的特征和该隐含特征生成网络业务数据样本的初始业务特征集合,该网络业务数据样本的初始业务特征集合中包括该数据包中的特征和该隐含特征。
93.下面,对于上述图1至图5描述的网络业务类型识别模型的训练方法获得的训练好的网络业务类型识别模型的使用方法进行介绍。
94.其中,该网络业务类型识别模型应用于sdn控制平面。图6为本技术实施例提供的一种sdn架构的业务类型识别过程的结构示意图。如图6所示,该sdn架构中包括:应用平面、sdn控制平面、数据平面,该应用平面与该sdn控制平面通过该sdn控制平面的北向接口连接,该数据平面与该sdn控制平面通过该sdn控制平面的南向接口连接。在该sdn控制平面中包括sdn控制器,以及,该网络业务类型识别模型,该sdn控制器与该网络业务类型识别模型相连。
95.图7为本技术实施例提供的一种网络业务类型识别方法的流程示意图。参照图6可知,该方法的执行主体为图6中所示的sdn控制器。如图7所示,该方法可以包括:s701、获取网络业务数据。
96.其中,该网络业务数据为该sdn控制器根据该sdn控制平面的南向接口,从数据平面中获取的,例如是通过南向接口,根据openflow协议从该数据平面中的数据转发模块中获取的,该数据转发模块例如可以是交换机。该交换机可以采集复杂网络中包含多种网络业务类型的大规模真实网络业务数据。
97.s702、将网络业务数据输入至网络业务类型识别模型中,获得该网络业务数据的业务类型。
98.其中,该网络业务类型识别模型为前述图1至图5中任一项提供的方法获得的训练好的网络业务类型识别模型。将该将网络业务数据输入至网络业务类型识别模型中,通过该网络业务类型识别模型识别该网络业务数据的类型,从而获得该网络业务数据的业务类型。
99.s703、根据业务类型,对网络资源进行管理。
100.sdn控制器根据业务类型识别结果对捕获的网络业务数据进行分析,并做出合理的决策和资源调度,通过北向接口与应用平面完成交互。
101.本技术实施例提供的方法,通过获取网络业务数据,将网络业务数据输入至前述图1至图5的方法实施例训练好的网络业务类型识别模型中,获得该网络业务数据的业务类型,并根据业务类型,对网络资源进行管理,从而提高了sdn控制器对网络资源调度的效率和准确性。
102.图8为本技术实施例提供的一种网络业务类型识别模型的训练装置的结构示意图。如图8所示,该网络业务类型识别模型的训练装置可以包括:获取模块11,处理模块12,训练模块13。
103.获取模块11,用于获取网络业务数据样本,该网络业务数据样本包括该网络业务数据的类型。
104.处理模块12,用于从该网络业务数据样本中提取该网络业务数据样本的初始业务特征集合。确定该初始业务特征集合是否需要进行特征降维处理,该特征降维处理用于去除该初始业务特征集合中的冗余特征。若需要进行该特征降维处理,则获取该初始业务特征集合特征降维处理后的目标业务特征集合。
105.训练模块13,用于将该目标业务特征集合输入基于误差关联算子改进的adaboost算法中进行训练,得到训练后的网络业务类型识别模型。
106.可选的,处理模块12,具体用于根据斯皮尔曼等级相关性分析算法,确定该初始业务特征集合中的第一业务特征与业务类型的相关性。若与该第一业务特征存在相关性的业务类型的数量小于或等于预设阈值,则需要对该初始业务特征集合中进行特征降维处理。若与该第一业务特征存在相关性的业务类型的数量大于该预设阈值,则不需要对该初始业务特征集合中进行特征降维处理。
107.可选的,处理模块12,具体用于从该初始业务特征集合获取第一业务特征集合。获取该第一业务特征集合的第一评价函数,以及,第二业务特征集合的第二评价函数。确定与该第一评价函数的函数值差异最小的第二评价函数对应的目标第二业务特征集合。将该目
标第二业务特征集合作为新的第一业务特征集合,并迭代上述步骤至该第一业务特征集合中的业务特征数量小于或等于预设数量,并生成该目标业务特征集合。其中,该第一特征集合中的业务特征数量小于或等于该初始业务特征集合中的特征数量,该第二业务特征集合中为该第一业务特征集合的子集,且该第二业务特征集合中的业务特征数量比该第一业务特征集合中的业务特征数量少1。
108.在上述任意一种实现方式下,处理模块12,在训练模块13将该目标业务特征集合输入基于误差关联算子改进的adaboost算法中进行训练,得到训练后的网络业务类型识别模型之前,还用于根据误差关联算子,确定该adaboost算法中的冗余弱分类器。去除该adaboost算法中的冗余弱分类器,获取该基于误差关联算子改进的adaboost算法。
109.在上述任意一种实现方式下,处理模块12,具体用于获取该网络业务数据样本的采集时间。根据该采集时间,将该网络业务数据样本切割为至少两个时间连续的数据包集合。从该数据包集合包括的数据包中提取每个数据包的初始业务特征。根据该初始业务特征,生成该网络业务数据样本的初始业务特征集合。
110.其中,可选的,处理模块12,在根据该采集时间,将该网络业务数据样本切割为至少两个时间连续的数据包集合之前,还用于对该网络业务数据样本进行数据清洗操作。
111.本技术实施例提供的网络业务类型识别模型的训练装置,可以执行上述方法实施例中的网络业务类型识别模型的训练方法,其实现原理和技术效果类似,在此不再赘述。
112.图9为本技术实施例提供的一种电子设备的结构示意图。其中,该电子设备用于执行前述所说的网络业务类型识别模型的训练方法,或者,网络业务类型识别方法,例如可以是前述所说的具备数据处理功能的终端设备,或者,sdn控制平面中的设备等。如图9所示,该电子设备900可以包括:至少一个处理器901、存储器902、通信接口903。
113.存储器902,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
114.存储器902可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
115.处理器901用于执行存储器902存储的计算机执行指令,以实现前述方法实施例所描述的方法。其中,处理器901可能是一个cpu,或者是特定集成电路(application specific integrated circuit,简称为asic),或者是被配置成实施本技术实施例的一个或多个集成电路。
116.处理器901通过通信接口903可以与外部设备进行通信交互,外部设备例如可以是前述所说的网络设备,或者,交换机等。在具体实现上,如果通信接口903、存储器902以及处理器901独立实现,则通信接口903、存储器902以及处理器901可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
117.可选的,在具体实现上,如果通信接口903、存储器902和处理器901集成在一块芯片上实现,则通信接口903、存储器902和处理器901可以通过内部接口完成通信。
118.本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:u
盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述实施例中的方法。
119.本技术还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。计算设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得计算设备实施上述方法。
120.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
技术特征:
1.一种网络业务类型识别模型的训练方法,其特征在于,包括:获取网络业务数据样本,所述网络业务数据样本包括所述网络业务数据的类型;从所述网络业务数据样本中提取所述网络业务数据样本的初始业务特征集合;确定所述初始业务特征集合是否需要进行特征降维处理,所述特征降维处理用于去除所述初始业务特征集合中的冗余特征;若需要进行所述特征降维处理,则获取所述初始业务特征集合特征降维处理后的目标业务特征集合;将所述目标业务特征集合输入基于误差关联算子改进的adaboost算法中进行训练,得到训练后的网络业务类型识别模型。2.根据权利要求1所述的方法,其特征在于,所述确定所述初始业务特征集合是否需要进行特征降维处理,包括:根据斯皮尔曼等级相关性分析算法,确定所述初始业务特征集合中的第一业务特征与业务类别的相关性;若与所述第一业务特征存在相关性的所述业务类别的数量小于或等于预设阈值,则需要对所述初始业务特征集合中进行特征降维处理;若与所述第一业务特征存在相关性的所述业务类别的数量大于所述预设阈值,则不需要对所述初始业务特征集合中进行特征降维处理。3.根据权利要求2所述的方法,其特征在于,所述获取所述初始业务特征集合特征降维处理后的目标业务特征集合,包括:从所述初始业务特征集合获取第一业务特征集合,所述第一特征集合中的业务特征数量小于或等于所述初始业务特征集合中的特征数量;获取所述第一业务特征集合的第一评价函数,以及,第二业务特征集合的第二评价函数,所述第二业务特征集合中为所述第一业务特征集合的子集,且所述第二业务特征集合中的业务特征数量比所述第一业务特征集合中的业务特征数量少1;确定与所述第一评价函数的函数值差异最小的第二评价函数对应的目标第二业务特征集合;将所述目标第二业务特征集合作为新的第一业务特征集合,并迭代上述步骤至所述第一业务特征集合中的业务特征数量小于或等于预设数量,生成所述目标业务特征集合。4.根据权利要求1-3任一项所述的方法,其特征在于,在所述将所述目标业务特征集合输入基于误差关联算子改进的adaboost算法中进行训练,得到训练后的网络业务类型识别模型之前,还包括:根据误差关联算子,确定所述adaboost算法中的冗余弱分类器;去除所述adaboost算法中的冗余弱分类器,获取所述基于误差关联算子改进的adaboost算法。5.根据权利要求1-3任一项所述的方法,其特征在于,所述从所述网络业务数据样本中提取所述网络业务数据样本的初始业务特征集合,包括:获取所述网络业务数据样本的采集时间;根据所述采集时间,将所述网络业务数据样本切割为至少两个时间连续的数据包集合;
从所述数据包集合包括的数据包中提取每个数据包的初始业务特征;根据所述初始业务特征,生成所述网络业务数据样本的初始业务特征集合。6.根据权利要求5所述的方法,其特征在于,在根据所述采集时间,将所述网络业务数据样本切割为至少两个时间连续的数据包集合之前,还包括:对所述网络业务数据样本进行数据清洗操作。7.一种网络业务类型识别方法,其特征在于,应用于sdn控制平面,包括:获取网络业务数据;将所述网络业务数据输入至网络业务类型识别模型中,获得所述网络业务数据的业务类型;所述网络业务类型识别模型为权利要求1-6中任一项所述的网络业务类型识别模型;根据所述业务类型,对网络资源进行管理。8.一种网络业务类型识别模型的训练装置,其特征在于,包括:获取模块,用于获取网络业务数据样本,所述网络业务数据样本包括所述网络业务数据的类型;处理模块,用于从所述网络业务数据样本中提取所述网络业务数据样本的初始业务特征集合;确定所述初始业务特征集合是否需要进行特征降维处理,所述特征降维处理用于去除所述初始业务特征集合中的冗余特征;若需要进行所述特征降维处理,则获取所述初始业务特征集合特征降维处理后的目标业务特征集合;训练模块,用于将所述目标业务特征集合输入基于误差关联算子改进的adaboost算法中进行训练,得到训练后的网络业务类型识别模型。9.一种电子设备,其特征在于,包括:处理器,通信接口以及存储器,所述处理器分别与所述通信接口和所述存储器通信连接;所述存储器存储计算机执行指令;所述通信接口与外部设备进行通信交互;所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的方法。
技术总结
本申请公开了一种网络业务类型识别模型训练方法、网络业务类型识别方法。该方法包括:获取网络业务数据样本,所述网络业务数据样本包括所述网络业务数据的类型;从所述网络业务数据样本中提取所述网络业务数据样本的初始业务特征集合;确定所述初始业务特征集合是否需要进行特征降维处理,所述特征降维处理用于去除所述初始业务特征集合中的冗余特征;若需要进行所述特征降维处理,则获取所述初始业务特征集合特征降维处理后的目标业务特征集合;将所述目标业务特征集合输入基于误差关联算子改进的Adaboost算法中进行训练,得到训练后的网络业务类型识别模型。本申请的方法,提高了网络业务类型识别模型的识别准确率。了网络业务类型识别模型的识别准确率。了网络业务类型识别模型的识别准确率。
技术研发人员:杨贻宏
受保护的技术使用者:上海飞旗网络技术股份有限公司
技术研发日:2023.08.21
技术公布日:2023/9/26
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/