异常号码的识别方法、装置、存储介质以及电子设备与流程

未命名 09-29 阅读:57 评论:0


1.本技术涉及人工智能领域,具体而言,涉及一种异常号码的识别方法、装置、存储介质以及电子设备。


背景技术:

2.随着电信诈骗的形式多样化,例如伪装客服打电话、发短信进行诈骗,并且诈骗人员往往会在多家运营商办理固定电话或者手机卡业务,以此来增加外呼手段,导致很难获取准确的电信诈骗行为的数据特征,并且由于用户的通话行为是受法律保护的,因此各家运营商只能看到各自的数据,无法将多个运营商之间的数据进行混合使用,导致运营商之间存在数据孤岛,诈骗行为的特征量和数据量都很稀少。
3.当前,对诈骗行为进行识别的手段主要有两种,第一种是通过用户举报,事后人为研判,建立黑名单机制;第二种是通过专家经验针对某些通信行为设置阈值来判断是否是诈骗电话。但是,第一种周期较长从被举报到人工研判的时间可能足够诈骗分子实施一次诈骗,无法及时的对诈骗分子进行识别,第二种由于阈值相对比较死板,很容易被诈骗分子避开识别,也容易误伤一些正常用户导致投诉。最重要的一点是,诈骗分子往往在多家运营商拥有不止一张号卡,而由于数据隐私问题,很难统筹挖掘这些诈骗电话的通信行为特征,进而导致对诈骗分子的识别效率和准确率大大降低。
4.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本技术实施例提供了一种异常号码的识别方法、装置、存储介质以及电子设备,以至少解决相关技术中使用单一运营商数据进行诈骗号码识别的识别准确率低,并且用户数据隐私存在泄漏风险的技术问题。
6.根据本技术实施例的一个方面,提供了一种异常号码的识别方法,包括:获取待识别号码的属性数据,其中,属性数据用于表示待识别号码在使用过程中的基础信息;采用训练好的异常号码识别模型对属性数据进行处理,得到输出结果,其中,异常号码识别模型中的参数为通过联邦学习框架中各个参与方对应的局部异常号码识别模型使用的参数聚合得到的;依据输出结果,确定待识别号码为异常号码的概率。
7.可选地,获取待识别号码的属性数据,包括:获取待识别号码的原始数据,其中,原始数据的类型包括以下至少之一:通话数据、短信数据、上网数据和户主数据;依据预设特征信息,提取原始数据中的特征数据,其中,预设特征信息为与原始数据的类型对应的特征信息;对特征数据进行数据转换,得到待识别号码的属性数据。
8.可选地,异常号码识别模型通过以下方式训练得到:获取联邦学习框架中的各个参与方对应的历史属性数据;依据各个参与方对应的历史属性数据,确定与各个参与方对应的局部异常号码识别模型;依据局部异常号码识别模型中的损失函数,确定局部异常号码识别模型的置信度;依据置信度和损失函数中的第一权重,确定异常号码识别模型的第
二权重;将第一权重更新为第二权重,得到更新权重;在更新权重满足预设条件的情况下,依据更新权重对应的局部异常号码识别模型中的参数信息,确定异常号码识别模型。
9.可选地,确定与各个参与方对应的局部异常号码识别模型,包括:确定局部异常号码识别模型中的判别器对应的第一损失函数,其中,判别器包括第一判别器和第二判别器,第一判别器用于判别第一判别器的输入数据为真实数据还是局部异常号码识别模型中的生成器生成的噪声数据,第二判别器用于识别第二判别器的输入数据所属的标签类型,标签类型包括第一标签和第二标签,第一标签为正常号码对应的标签,第二标签为异常号码对应的标签,第一损失函数由以下至少之一确定:第一判别器对真实数据的预测概率、第一判别器对生成器生成的噪声数据的预测概率、第二判别器将输入数据匹配到第一标签的概率、第二判别器将生成器生成的噪声数据匹配到第二标签的概率;确定局部异常号码识别模型中的生成器对应的第二损失函数,其中,第二损失函数由以下至少之一确定:第一判别器对生成器生成的噪声数据的预测概率、第二判别器将生成器生成的噪声数据匹配到第一标签的概率;依据第一损失函数和第二损失函数训练各个参与方对应的历史属性数据,得到与各个参与方对应的局部异常号码识别模型。
10.可选地,确定局部异常号码识别模型的置信度,包括:确定局部异常号码识别模型中的损失函数,其中,损失函数由以下至少之一确定:每个参与方所使用的数据集中的所有历史属性数据所属的标签的真实值、局部异常号码识别模型在目标参数下的预测概率,目标参数包括以下至少之一:目标时刻的权重和每个参与方所使用的数据集中的所有历史属性数据;确定局部异常号码识别模型在目标时刻的第一权重,其中,第一权重由以下至少之一确定:目标时刻的上一时刻对应的第三权重、学习率和目标时刻的上一时刻对应的损失函数的梯度;依据损失函数和第一权重,确定局部异常号码识别模型的置信度。
11.可选地,确定局部异常号码识别模型的置信度之前,该方法还包括:在历史属性数据中包括增加的新特征或联邦学习框架中包括新参与方的情况下,将新特征或新参与方对应的历史属性数据输入新参与方对应的局部异常号码识别模型中进行增量训练。
12.可选地,获取待识别号码的属性数据之后,该方法还包括:在属性数据中包括通话量或流量使用量的情况下,获取待识别号码所属的用户对应的最高通话量或最高流量使用量;在通话量大于最高通话量对应的第一阈值,或流量使用量大于最高流量使用量对应的第二阈值的情况下,确定通话量或流量使用量为异常数据;将异常数据从属性数据中删除。
13.可选地,联邦学习框架中各个参与方对应的局部异常号码识别模型的模型结构相同。
14.根据本技术实施例的另一方面,还提供了另一种模型训练的方法,包括:获取使用联邦学习框架中的各个参与方对应的历史属性数据,其中,联邦学习框架包括各个参与方对应的局部异常号码识别模型和终端服务器对应的异常号码识别模型,局部异常号码识别模型和异常号码识别模型均用于确定待识别号码为异常号码的概率,异常号码识别模型中的参数为通过局部异常号码识别模型使用的参数聚合得到的;依据历史属性数据训练神经网络模型,得到与各个参与方对应的局部异常号码识别模型;依据局部异常号码识别模型中的损失函数,确定局部异常号码识别模型的置信度;依据置信度和损失函数中的第一权重,确定异常号码识别模型的第二权重;将第一权重更新为第二权重,得到更新权重;在更新权重满足预设条件的情况下,依据更新权重对应的局部异常号码识别模型中的参数信
息,确定异常号码识别模型,其中,异常号码识别模型用于确定待识别号码为异常号码的概率。
15.根据本技术实施例的另一方面,还提供了一种异常号码的识别装置,包括:第一获取模块,用于获取待识别号码的属性数据,其中,属性数据用于表示待识别号码在使用过程中的基础信息;处理模块,用于采用训练好的异常号码识别模型对属性数据进行处理,得到输出结果,其中,异常号码识别模型中的参数为通过联邦学习框架中各个参与方对应的局部异常号码识别模型使用的参数聚合得到的;第一确定模块,用于依据输出结果,确定待识别号码为异常号码的概率。
16.根据本技术实施例的另一方面,还提供了另一种模型训练的装置,包括:第二获取模块,用于获取使用联邦学习框架中的各个参与方对应的历史属性数据,其中,联邦学习框架包括各个参与方对应的局部异常号码识别模型和终端服务器对应的异常号码识别模型,局部异常号码识别模型和异常号码识别模型均用于确定待识别号码为异常号码的概率,异常号码识别模型中的参数为通过局部异常号码识别模型使用的参数聚合得到的;训练模块,用于依据历史属性数据训练神经网络模型,得到与各个参与方对应的局部异常号码识别模型;第二确定模块,用于依据局部异常号码识别模型中的损失函数,确定局部异常号码识别模型的置信度;第三确定模块,用于依据置信度和损失函数中的第一权重,确定异常号码识别模型的第二权重;更新模块,用于将第一权重更新为第二权重,得到更新权重;第四确定模块,用于在更新权重满足预设条件的情况下,依据更新权重对应的局部异常号码识别模型中的参数信息,确定异常号码识别模型,其中,异常号码识别模型用于确定待识别号码为异常号码的概率。
17.根据本技术实施例的又一方面,还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述异常号码的识别方法或上述模型训练的方法。
18.根据本技术实施例的再一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的计算机程序,其中,该非易失性存储介质所在设备通过运行计算机程序执行上述异常号码的识别方法或上述模型训练的方法。
19.在本技术实施例中,通过获取待识别号码的属性数据,其中,属性数据用于表示待识别号码在使用过程中的基础信息;采用训练好的异常号码识别模型对属性数据进行处理,得到输出结果,其中,异常号码识别模型中的参数为通过联邦学习框架中各个参与方对应的局部异常号码识别模型使用的参数聚合得到的;依据输出结果,确定待识别号码为异常号码的概率,达到了在识别异常号码的过程中保护用户数据隐私的目的,从而实现了提高异常号码的识别准确率的技术效果,进而解决了相关技术中使用单一运营商数据进行诈骗号码识别的识别准确率低,并且用户数据隐私存在泄漏风险的技术问题。
附图说明
20.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
21.图1是根据本技术实施例的一种用于实现异常号码的识别方法或模型训练的方法的计算机终端的硬件结构框图;
22.图2是根据本技术实施例的一种可选的异常号码的识别方法的流程图;
23.图3a是根据本技术实施例的一种全局模型的生成框架示意图;
24.图3b是根据本技术实施例的一种dcgan-ac所使用的生成器模型的结构图;
25.图3c是根据本技术实施例的一种dcgan-ac所使用的判别器模型的结构图;
26.图3d是根据本技术实施例的dcgan-ac的具体框架结构图;
27.图3e是根据本技术实施例的一种基于联邦卡尔曼滤波的联邦学习算法框架结构图;
28.图3f是根据本技术实施例的基于联邦学习识别通信诈骗电话的流程图;
29.图4是根据本技术实施例的一种模型训练的方法的流程图;
30.图5是根据本技术实施例的异常号码的识别装置的示意图;
31.图6是根据本技术实施例的模型训练的装置的示意图。
具体实施方式
32.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
33.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
34.本技术实施例所提供的异常号码的识别方法或模型训练的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现异常号码的识别方法或模型训练的方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中采用102a、102b,
……
,102n来示出)处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
35.应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本技术实施例中所涉及到的,该数据处理电路作
为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
36.存储器104可用于存储应用软件的软件程序以及模块,如本技术实施例中的异常号码的识别方法或模型训练的方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的异常号码的识别方法或模型训练的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
37.传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块106包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块106可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
38.显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。
39.此处需要说明的是,在一些可选实施例中,上述图1所示的计算机终端可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机终端中的部件的类型。
40.在上述运行环境下,本技术实施例提供了一种异常号码的识别方法和模型训练的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
41.图2是根据本技术实施例的一种可选的异常号码的识别方法的流程图,如图2所示,该方法包括如下步骤:
42.步骤s202,获取待识别号码的属性数据,其中,属性数据用于表示待识别号码在使用过程中的基础信息。
43.在上述步骤s202中,待识别号码在使用过程中产生的基础信息例如可以包括:通话数据、短信数据、上网数据和户主数据等。
44.步骤s204,采用训练好的异常号码识别模型对属性数据进行处理,得到输出结果,其中,异常号码识别模型中的参数为通过联邦学习框架中各个参与方对应的局部异常号码识别模型使用的参数聚合得到的。
45.在上述步骤s204中,通过聚合各个参与方对应的诈骗电话识别模型(即上述局部异常号码识别模型,可简称为局部模型)的训练参数生成一个全局异常号码识别模型(即上述异常号码识别模型,可简称为全局模型),以此来识别待识别的电话号码是否为诈骗电话或异常号码。图3a是根据本技术实施例的一种全局模型的生成框架示意图,如图3a所示,联邦学习框架包括多个局部模型和一个全局模型,每个局部模型对应一个联邦学习的参与方,每个参与方有各自独立的数据集,数据集进行数据清洗和确定定制特征后,用于训练各
自的局部模型。多个参与方在本地用各自的数据集迭代训练各自的局部模型,其中局部模型利用了预训练技术配合神经网络深度挖掘各方特征,降低非独立同分布数据对模型效果的损伤,进而提高识别准确率,各参与方的局部模型在本地迭代一定次数之后,上传各自的训练参数至终端可信服务器(例如上级部门的终端设备),终端服务器通过聚合方法生成全局模型的参数,然后全局模型再将通过聚合方法生成的参数下发至各参与方,以此来更新局部模型的参数,如此往复,直到生成一个较为准确的全局模型,最终利用全局模型识别新的电话数据。
46.步骤s206,依据输出结果,确定待识别号码为异常号码的概率。
47.可选地,在本技术实施例提供的异常号码的识别方法中,获取待识别号码的属性数据,包括:获取待识别号码的原始数据,其中,原始数据的类型包括以下至少之一:通话数据、短信数据、上网数据和户主数据;依据预设特征信息,提取原始数据中的特征数据,其中,预设特征信息为与原始数据的类型对应的特征信息;对特征数据进行数据转换,得到待识别号码的属性数据。
48.在本技术的一些实施例中,以运营商数据为例,其对应的原始数据的类型可以包括以下几类:
49.(1)通话数据:包括主叫号码、主叫号码归属地、被叫号码、被叫号码归属地、通话时间、通话时长、漫游地、通话基站数等;
50.(2)短信数据:包括短信数量、短信用户数等;
51.(3)上网数据:包括手机上网流量等;
52.(4)户主数据:身份证信息、开卡渠道、装机地址、办理业务,客户标识(为每一个客户生成的唯一的标识)、终端型号、是否4g终端、是否5g终端、入网时间等。
53.在获取了原始数据的类型后,需要对得到的原始数据进行进一步细化处理,具体地,根据定义好的原始数据的类型对应的预设特征信息,提取原始数据中的特征数据。针对通话数据的预设特征信息例如可以包括:通话量、主叫次数、被叫次数、被叫用户数、主叫离散度等;针对短信数据的预设特征信息例如可以包括:发送短信数量、接收短信数量、发送短信用户数量等;针对上网数据的预设特征信息例如可以包括:流量使用(总)量、省内流量、省外流量等;针对户主数据的预设特征信息例如可以包括:同一用户名下同类型产品数量、针对固定电话用户同一装机地址下同类型产品数量等。
54.在提取原始数据中的特征数据之后,为了增强数据的可用性,减少噪声数据的干扰,需要对特征数据进行清洗或数据格式转换。例如,文本类型特征例如漫游地转化为数字类型,即通过区号来替换实际地名,如南通0513;时间类型特征如start_date、转化为时间戳格式;其余数字型特征不做转换。但是针对缺失的数据,通过0式填充法来补齐数据,针对数据采集时由于系统异常产生的异常或错误数据直接剔除。
55.可选地,在本技术实施例提供的异常号码的识别方法中,异常号码识别模型通过以下方式训练得到:获取联邦学习框架中的各个参与方对应的历史属性数据;依据各个参与方对应的历史属性数据,确定与各个参与方对应的局部异常号码识别模型;依据局部异常号码识别模型中的损失函数,确定局部异常号码识别模型的置信度;依据置信度和损失函数中的第一权重,确定异常号码识别模型的第二权重;将第一权重更新为第二权重,得到更新权重;在更新权重满足预设条件的情况下,依据更新权重对应的局部异常号码识别模
classifier)对数据集进行预训练。判别器d的总体损失定义如公式(1)所示,生成器g的总体损失定义如公式(2)所示。
[0061][0062][0063]
其中,d1用于判别其输入数据为真实数据还是局部模型中的生成器生成的噪声数据,也即上述第一判别器,d2为高级辅助分类器,用于识别其输入数据所属的标签类型,例如可以包括一个fake分类器和n个类别分类器,类别分类器用于识别上述第一类标签,fake分类器用于识别上述第二类标签,在xi中的下标i表示了样本x的真实样本标签是ci,表示高级辅助分类器d2将样本xi正确匹配到ci上的概率,则表示辅助分类器d2将生成器根据输入噪声生成的样本分配到c
fake
类别的概率。
[0064]
在上述公式(1)中,ld表示第一损失函数,d1(x)表示第一判别器对真实数据的预测概率,d1(g(z))表示第一判别器对生成器生成的噪声数据的预测概率,表示第二判别器将输入的真实数据匹配到第一标签的概率,表示第二判别器将生成器生成的噪声数据匹配到第二标签的概率,e表示所有输入数据的loss的平均值,当输入数据为真实数据时,e表示所有真实数据的loss平均值;当输入数据为噪声数据时,e表示所有噪声数据的loss平均值。
[0065]
在上述公式(2)中,lg表示第二损失函数,表示第二判别器将生成器生成的噪声数据匹配到第一标签的概率。
[0066]
为了在数据集中充分提取本技术实施例所需的特征,例如非独立同分布采样的mnist数据,dcgan-ac所使用的生成器模型使用了五个转置卷积层,如图3b所示,与常规的生成器不同的是:100维的噪声z经过卷积层1(conv1)处理后变为512维,而不是直接重投影变成1024维,本技术实施例中的生成器最终由64维的数据变为1维的28
×
28数据,不同于常规做法直接将128维特征作为除输出层外的最后一层的卷积维度,这样的改变使得网络结构相对平滑,能更加精细地生成数据。dcgan-ac所使用的判别器模型如图3c所示。dcgan-ac的具体框架结构如下图3d所示,在原有判别器分类输入样本是否是真实样本的基础上,增加了n个类别分类器和一个额外的fake分类器,类别分类器用于识别上述第一类标签,fake分类器用于识别上述第二类标签,提高了模型的特征提取能力,减少模型参数之间的差异。
[0067]
dcgan-ac同样每个卷积层都包含了一个批归一化层(batch normalization layer)和一个激活函数,与常规dcgan生成器不同的是第五个卷积层的激活函数由relu改为tanh激活函数,tanh的特点是将输出限制在(-1,1)之间,tanh适合做概率值的处理,而relu不适合,因为relu无最大值限制,可能会出现很大值。
[0068]
dcgan-ac的生成器和判别器不论是在物体的组成部分还是场景方面都学习到了丰富的层次表达,由于联邦学习各个客户端(或参与方)拥有的数据在各方面都无法保证一致,标注的水平也无法一致,可能会缺失很多重要的特征,需要一个优秀的特征提取器,dcgan-ac作为一个特征提取器,充分提取特征并投入联邦学习中进行训练,有利于增加客
户端之间的相关性,使得非独立同分布数据向独立同分布数据靠拢,减小数据非独立同分布的程度,同时充分的特征学习加强了各个客户端在联邦学习中的贡献,在本地训练更好的局部模型参数,在能够获得一个更加泛化的全局模型的同时减少了联邦学习系统的通信次数。
[0069]
本技术实施例搭建基于联邦卡尔曼滤波置信度的联邦学习的框架。框架中局部模型首先经过dcgan-ac预训练模块之后,将各局部模型参数通过本技术实施例提出的聚合方法生成性能较好的全局模型。本技术实施例中改进了fedavg的平均聚合方法,提出了一种基于联邦卡尔曼滤波的联邦学习,为每个局部模型参数制定适合的置信度,以此来聚合生成全局模型。下面展开详细描述。
[0070]
联邦学习类似多传感器融合但是不完全等于,无法如联邦卡尔曼滤波(federal kalman filter,fkf)一般根据方差获得联邦卡尔曼增益,为此本技术实施例选择交叉熵损失来代替方差,从而进行联邦卡尔曼滤波,交叉熵损失函数已经被证明在机器学习和深度学习算法上是表现优秀的,因为方差在一定意义上能够表示数据之间的偏差,而交叉熵损失函数同样是用来表示偏差,只是交叉熵特指神经网络中预测的标签和真实标签之间的偏差。传统的联邦卡尔曼滤波是将系统噪声的合方差pf通过分配因子分配到主滤波器和子滤波器,从而再根据分配到子滤波器的方差进行信息融合,并经过长久的实践证明此思想是正确且有效的,类似地,联邦学习中的各客户端可看作传感器,每个客户端都会各自训练一个局部模型(相当于fkf的子滤波器),各局部模型聚合生成的全局模型可以看作为主滤波器,局部模型权重和全局模型权重作为状态变量,由此将联邦学习抽象化成两级数据处理结构的简易联邦卡尔曼滤波,从而执行相关任务,简易是由本技术实施例中联邦学习的特点所决定,参与联邦学习的数据噪声,无法进行精确量化,为了方便计算比较,假设没有人为添加噪声的数据为无噪声数据,即各客户端的系统噪声为0(实验部分添加高斯噪声)。
[0071]
本技术实施例使用损失函数来代替方差来计算进行联邦卡尔曼滤波,一方面损失函数是机器学习领域中用来衡量模型预测的好坏,能够很好的表示预测值和真值之间的偏差,而fkf中的方差的作用同样也是衡量估计精度,另一方面损失函数对估计精度的衡量更加全面,有较高的容错性,一个好的损失函数有利于后续优化工具(梯度下降等)的高效运行,所以损失函数的值相比方差更加适用于联邦学习。为了进行本技术实施例提出的联邦卡尔曼滤波式联邦学习,分为三步分别是时间更新、信息融合、信息分配,由于联邦学习中不存在对应的量测信息,所以省略量测更新步骤,首先进行时间更新,即联邦学习客户端进行本地更新,即公式3所示。
[0072][0073]
其中,α为学习率,由损失函数计算得到的梯度,表示由t-1时刻参数计算得出的t时刻(即上述目标时刻)的权重,表示目标时刻的上一时刻对应的第三权重,表示目标时刻的上一时刻对应的损失函数的梯度,bk表示损失函数中的偏差,本技术实施例使用深度学习中应用最广泛的损失函数之一的交叉熵损失函数,最小化交叉熵损失函数可以使得训练后模型得到的估计概率分布更加接近实际的概率分布。交叉熵损失函数lk(也即上述损失函数)具体公式如下所示:
[0074][0075]
其中为局部模型k在目标参数下的预测概率,ω
t
表示t时刻的权重,或上述目标时刻的第一权重,也即上述表示参与方所使用的数据集(第k个数据集dk)中的所有历史属性数据,表示第k个数据集dk中第i个样本,x表示特征,y表示标签真实值,表示参与方所使用的数据集(第k个数据集dk)中的所有历史属性数据所属的标签的真实值,nk表示第k个数据集的样本数目。由公式(4)可以得出第k个参与方的损失函数,从而进行公式(3)中的时间更新,更新各局部模型的模型参数w,为下一步的信息融合做准备。
[0076]
信息融合是联邦卡尔曼滤波的核心算法,一般是将主滤波器和子滤波器的输出即局部最优解累加融合,获得全局最优解,在联邦学习中参数聚合同样也是核心步骤,而fedavg算法在进行参数聚合时采用平均法,来融合局部模型参数,为每个局部模型参数通过点乘的方式加上相同的权重,无法考虑到每个客户端训练得到的局部模型参数的可靠程度,所以本技术实施例根据公式(4)得到的损失函数,提出一个新的信息融合方法,为每个联邦学习参与方的权重赋予一个自适应的置信度权重,由于损失函数越小代表模型效果越好,所以本算法期望对于每个损失函数计算出一个对应的置信度γk,为了保证加入置信度之后联邦学习框架训练的稳定性,对其进行归一化处理,具体公式如下所示:
[0077][0078]
由公式(4),(5)得出各本地客户端损失函数和对应的置信度之后,以此来进行信息融合,同时更新全局模型权值。具体公式如下所示:
[0079][0080]
其中,即上述第二权重。
[0081]
至此完成了信息融合的步骤,最后进行信息分配,联邦滤波器在设计时,信息分配因子的取值非常重要,它的取值关系到联邦滤波器的结构和性能,主要分为四种结构,包括零化式(βm=1,βk=0),变比例(βm=βk=1/(n+1)),融合反馈(βm=0,βk=1/n,有重置结构),无反馈(βm=0,βk=1/n,无重置结构)。其中βm表示联邦卡尔曼滤波中的联邦滤波器的信息分配因子,βk表示为第k个子系统信息分配因子。m表示联邦滤波器,k表示联邦卡尔曼滤波中的子系统序号。
[0082]
结合联邦学习的实际情况,本技术实施例采用无反馈的信息分配方式,主滤波器不参与信息分配,各子滤波器独立进行滤波,这一模式较为切合联邦学习,由于各参与方的权重参数在参数服务器中融合过后得到的全局参数具有一定的泛化性,且同样不参与信息分配,本技术实施例中直接将公式(6)中获取的最优的全局权值分发给各参与方,如下式所示:
[0083]
[0084]
在上述公式(7)中,表示更新权重,当更新权重满足预设条件时,例如使用更新权重得到的局部模型对数据进行预测的准确率达到98%时,就可根据更新权重确定各个参与方的局部模型的参数信息,进而确定全局模型。
[0085]
通过图3e说明上述过程,图3e是根据本技术实施例的一种基于联邦卡尔曼滤波的联邦学习算法框架结构图,在图3e中,各个参与方对应的局部模型中的权重,如至局部模型的损失函数,如至通过子卡尔曼滤波器计算子卡尔曼增益置信度,得到置信度1至置信度n,融合基于联邦卡卡尔曼滤波置信度参数,生成全局模型中的权重,全局模型中的权重包括和将全局模型中的权重下发至各局部模型用于更新权重,并在更新权重满足预设条件时,输出全局模型。
[0086]
可选地,在本技术实施例提供的异常号码的识别方法中,确定局部异常号码识别模型的置信度之前,该方法还包括:在历史属性数据中包括增加的新特征或联邦学习框架中包括新参与方的情况下,将新特征或新参与方对应的历史属性数据输入新参与方对应的局部异常号码识别模型中进行增量训练。
[0087]
在本技术的一些实施例中,考虑到属性数据直到被识别出来之前一直会有数据产生,或者在有新的参与方加入时,可能也会有新的特征产生,本技术实施例采用增量学习的方式不断对本地模型(或局部模型)进行训练,提高模型性能,在不覆盖之前训练结果的基础上进行增量训练,既能减少运算负担也能包括历史属性数据的训练结果。
[0088]
可选地,在本技术实施例提供的异常号码的识别方法中,获取待识别号码的属性数据之后,该方法还包括:在属性数据中包括通话量或流量使用量的情况下,获取待识别号码所属的用户对应的最高通话量或最高流量使用量;在通话量大于最高通话量对应的第一阈值,或流量使用量大于最高流量使用量对应的第二阈值的情况下,确定通话量或流量使用量为异常数据;将异常数据从属性数据中删除。
[0089]
在本技术的一些实施例中,在确定待识别号码是否为异常号码的过程中,还可以重点根据通话量v_count和流量使用量l_count作异常判断,判断规则为根据待识别号码所属的用户对应的最高通话量和最高流量使用量的x%为上限,该百分比可根据实际情况调整,例如取10%,此处不做限定。具体地,在待识别号码的属性信息包括通话量和流量使用量的情况下,当满足下述公式时,确定属性数据中的通话量和流量使用量为正常数据,公式如下:
[0090]
v_count≤max_v_count*(1+x%)&&l_count≤max_l_count*(1+x%)
[0091]
在上述公式中,max_v_count*(1+x%)即上述第一阈值,max_l_count(1+x%)上述第二阈值,max_v_count表示v_count的最大值,max_l_count表示l_count的最大值,&&表示逻辑与。当v_count>max_v_count*(1+x%),确定通话量存在异常,l_count>max_l_count*(1+x%),确定流量使用量存在异常数据,将异常通话量数据和异常流量使用量数据从属性数据中删除。
[0092]
需要说明的是,在待识别号码的属性信息包括通话量和流量使用量的其中一类属性信息的情况下,仅需判断通话量或流量使用量与对应阈值的关系即可,例如,在待识别号码的属性信息包括通话量的情况下,需要判断通话量和第一阈值的关系,通话量大于第一阈值,表示通话量异常,通话量小于或等于第一阈值,表示通话量正常;在待识别号码的属
性信息包括流量使用量的情况下,需要判断流量使用量和第二阈值的关系,流量使用量大于第二阈值,表示流量使用量异常,流量使用量小于或等于第二阈值,表示流量使用量正常。
[0093]
可选地,在本技术实施例提供的异常号码的识别方法中,联邦学习框架中各个参与方对应的局部异常号码识别模型的模型结构相同。
[0094]
结合图3f对本技术实施例中基于联邦学习识别通信诈骗电话的流程进行介绍,在图3f中,对各个参与方进行数据采集及清洗,将异常数据剔除并提取特征数据后,通过预训练模块同步训练各个参与方对应的局部模型,在局部模型迭代结束后,确定数据集中是否出现新特征或有新参与方,若数据集中出现新特征或有新参与方,则进行增量学习,在旧知识的基础上继续训练,具体地,再次执行数据采集及清洗、预训练的过程;若数据集中没有出现新特征或新参与方,则计算各局部模型的卡尔曼增益置信度,在终端服务器聚合参数生成全局模型,将全局模型参数下发至各局部模型用于更新局部模型的参数,并确定局部模型中更新后的参数对数据进行预测的准确率是否达到预期目标,若否,则对各局部模型进行训练,若是,则输出可用于识别诈骗电话的全局模型,并将待识别号码的电话数据输入到全局模型中,即可输出该待识别号码为诈骗电话的概率。
[0095]
通过上述步骤,采取一个基于联邦学习框架,其可以在保护用户数据隐私的基础上融合多家运营商数据,结合传统人工定义特征和深度学习方法提高确定异常号码的精准度。
[0096]
根据本技术实施例,提供了一种模型训练的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0097]
图4是根据本技术实施例的一种模型训练的方法的流程图,如图4所示,该方法包括:
[0098]
步骤s402,获取使用联邦学习框架中的各个参与方对应的历史属性数据,其中,联邦学习框架包括各个参与方对应的局部异常号码识别模型和终端服务器对应的异常号码识别模型,局部异常号码识别模型和异常号码识别模型均用于确定待识别号码为异常号码的概率,异常号码识别模型中的参数为通过局部异常号码识别模型使用的参数聚合得到的;
[0099]
步骤s404,依据历史属性数据训练神经网络模型,得到与各个参与方对应的局部异常号码识别模型;
[0100]
步骤s406,依据局部异常号码识别模型中的损失函数,确定局部异常号码识别模型的置信度;
[0101]
步骤s408,依据置信度和损失函数中的第一权重,确定异常号码识别模型的第二权重;
[0102]
步骤s410,将第一权重更新为第二权重,得到更新权重;
[0103]
步骤s412,在更新权重满足预设条件的情况下,依据更新权重对应的局部异常号码识别模型中的参数信息,确定异常号码识别模型,其中,异常号码识别模型用于确定待识别号码为异常号码的概率。
[0104]
需要说明的是,图4所示的模型训练的方法与图2中的异常号码的识别方法中训练异常号码识别模型所使用的方法相同,因此图2中的异常号码的识别方法中的相关解释说明也适用于该模型训练的方法,此处不再赘述。
[0105]
根据本技术实施例,还提供了一种异常号码的识别装置,需要说明的是,本技术实施例的异常号码的识别装置可以用于执行本技术实施例所提供的用于异常号码的识别方法。以下对本技术实施例提供的异常号码的识别装置进行介绍。
[0106]
图5是根据本技术实施例的异常号码的识别装置的示意图。如图5所示,该装置包括:
[0107]
第一获取模块502,用于获取待识别号码的属性数据,其中,属性数据用于表示待识别号码在使用过程中的基础信息;
[0108]
处理模块504,用于采用训练好的异常号码识别模型对属性数据进行处理,得到输出结果,其中,异常号码识别模型中的参数为通过联邦学习框架中各个参与方对应的局部异常号码识别模型使用的参数聚合得到的;
[0109]
第一确定模块506,用于依据输出结果,确定待识别号码为异常号码的概率。
[0110]
可选地,在本技术实施例提供的异常号码的识别装置中,第一获取模块用于获取待识别号码的原始数据,其中,原始数据的类型包括以下至少之一:通话数据、短信数据、上网数据和户主数据;依据预设特征信息,提取原始数据中的特征数据,其中,预设特征信息为与原始数据的类型对应的特征信息;对特征数据进行数据转换,得到待识别号码的属性数据。
[0111]
可选地,在本技术实施例提供的异常号码的识别装置中,该处理模块还用于训练异常号码识别模型,具体包括如下过程:获取联邦学习框架中的各个参与方对应的历史属性数据;依据各个参与方对应的历史属性数据,确定与各个参与方对应的局部异常号码识别模型;依据局部异常号码识别模型中的损失函数,确定局部异常号码识别模型的置信度;依据置信度和损失函数中的第一权重,确定异常号码识别模型的第二权重;将第一权重更新为第二权重,得到更新权重;在更新权重满足预设条件的情况下,依据更新权重对应的局部异常号码识别模型中的参数信息,确定异常号码识别模型。
[0112]
可选地,在本技术实施例提供的异常号码的识别装置中,该处理模块还用于确定局部异常号码识别模型中的判别器对应的第一损失函数,其中,判别器包括第一判别器和第二判别器,第一判别器用于判别第一判别器的输入数据为真实数据还是局部异常号码识别模型中的生成器生成的噪声数据,第二判别器用于识别第二判别器的输入数据所属的标签类型,标签类型包括第一标签和第二标签,第一标签为正常号码对应的标签,第二标签为异常号码对应的标签,第一损失函数由以下至少之一确定:第一判别器对真实数据的预测概率、第一判别器对生成器生成的噪声数据的预测概率、第二判别器将输入数据匹配到第一标签的概率、第二判别器将生成器生成的噪声数据匹配到第二标签的概率;确定局部异常号码识别模型中的生成器对应的第二损失函数,其中,第二损失函数由以下至少之一确定:第一判别器对生成器生成的噪声数据的预测概率、第二判别器将生成器生成的噪声数据匹配到第一标签的概率;依据第一损失函数和第二损失函数训练各个参与方对应的历史属性数据,得到与各个参与方对应的局部异常号码识别模型。
[0113]
可选地,在本技术实施例提供的异常号码的识别装置中,该处理模块还用于确定
局部异常号码识别模型中的损失函数,其中,损失函数由以下至少之一确定:每个参与方所使用的数据集中的所有历史属性数据所属的标签的真实值、局部异常号码识别模型在目标参数下的预测概率,目标参数包括以下至少之一:目标时刻的权重和每个参与方所使用的数据集中的所有历史属性数据;确定局部异常号码识别模型在目标时刻的第一权重,其中,第一权重由以下至少之一确定:目标时刻的上一时刻对应的第三权重、学习率和目标时刻的上一时刻对应的损失函数的梯度;依据损失函数和第一权重,确定局部异常号码识别模型的置信度。
[0114]
可选地,在本技术实施例提供的异常号码的识别装置中,该处理模块还用于在历史属性数据中包括增加的新特征或联邦学习框架中包括新参与方的情况下,将新特征或新参与方对应的历史属性数据输入新参与方对应的局部异常号码识别模型中进行增量训练。
[0115]
可选地,在本技术实施例提供的异常号码的识别装置中,第一获取模块还用于在属性数据中包括通话量或流量使用量的情况下,获取待识别号码所属的用户对应的最高通话量或最高流量使用量;在通话量大于最高通话量对应的第一阈值,或流量使用量大于最高流量使用量对应的第二阈值的情况下,确定通话量或流量使用量为异常数据;将异常数据从属性数据中删除。
[0116]
可选地,在本技术实施例提供的异常号码的识别装置中,联邦学习框架中各个参与方对应的局部异常号码识别模型的模型结构相同。
[0117]
根据本技术实施例,还提供了一种模型训练的装置,需要说明的是,本技术实施例的模型训练的装置可以用于执行本技术实施例所提供的模型训练的方法。以下对本技术实施例提供的模型训练的装置进行介绍。
[0118]
图6是根据本技术实施例的模型训练的装置的示意图。如图6所示,该装置包括:
[0119]
第二获取模块602,用于获取使用联邦学习框架中的各个参与方对应的历史属性数据,其中,联邦学习框架包括各个参与方对应的局部异常号码识别模型和终端服务器对应的异常号码识别模型,局部异常号码识别模型和异常号码识别模型均用于确定待识别号码为异常号码的概率,异常号码识别模型中的参数为通过局部异常号码识别模型使用的参数聚合得到的;
[0120]
训练模块604,用于依据历史属性数据训练神经网络模型,得到与各个参与方对应的局部异常号码识别模型;
[0121]
第二确定模块606,用于依据局部异常号码识别模型中的损失函数,确定局部异常号码识别模型的置信度;
[0122]
第三确定模块608,用于依据置信度和损失函数中的第一权重,确定异常号码识别模型的第二权重;
[0123]
更新模块610,用于将第一权重更新为第二权重,得到更新权重;
[0124]
第四确定模块612,用于在更新权重满足预设条件的情况下,依据更新权重对应的局部异常号码识别模型中的参数信息,确定异常号码识别模型,其中,异常号码识别模型用于确定待识别号码为异常号码的概率。
[0125]
本技术实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述异常号码的识别方法或上述模型训练的方法。
[0126]
本技术实施例还提供了一种非易失性存储介质,该非易失性存储介质包括存储的计算机程序,其中,该非易失性存储介质所在设备通过运行计算机程序执行上述异常号码的识别方法或模型训练的方法,此处不再赘述。
[0127]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0128]
在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0129]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0130]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0131]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0132]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0133]
以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。

技术特征:
1.一种异常号码的识别方法,其特征在于,包括:获取待识别号码的属性数据,其中,所述属性数据用于表示所述待识别号码在使用过程中的基础信息;采用训练好的异常号码识别模型对所述属性数据进行处理,得到输出结果,其中,所述异常号码识别模型中的参数为通过联邦学习框架中各个参与方对应的局部异常号码识别模型使用的参数聚合得到的;依据所述输出结果,确定所述待识别号码为异常号码的概率。2.根据权利要求1所述的方法,其特征在于,获取待识别号码的属性数据,包括:获取所述待识别号码的原始数据,其中,所述原始数据的类型包括以下至少之一:通话数据、短信数据、上网数据和户主数据;依据预设特征信息,提取所述原始数据中的特征数据,其中,所述预设特征信息为与所述原始数据的类型对应的特征信息;对所述特征数据进行数据转换,得到所述待识别号码的属性数据。3.根据权利要求1所述的方法,其特征在于,所述异常号码识别模型通过以下方式训练得到:获取所述联邦学习框架中的各个参与方对应的历史属性数据;依据所述各个参与方对应的历史属性数据,确定与所述各个参与方对应的局部异常号码识别模型;依据所述局部异常号码识别模型中的损失函数,确定所述局部异常号码识别模型的置信度;依据所述置信度和所述损失函数中的第一权重,确定所述异常号码识别模型的第二权重;将所述第一权重更新为所述第二权重,得到更新权重;在所述更新权重满足预设条件的情况下,依据所述更新权重对应的局部异常号码识别模型中的参数信息,确定所述异常号码识别模型。4.根据权利要求3所述的方法,其特征在于,确定与所述各个参与方对应的局部异常号码识别模型,包括:确定所述局部异常号码识别模型中的判别器对应的第一损失函数,其中,所述判别器包括第一判别器和第二判别器,所述第一判别器用于判别所述第一判别器的输入数据为真实数据还是所述局部异常号码识别模型中的生成器生成的噪声数据,所述第二判别器用于识别所述第二判别器的输入数据所属的标签类型,所述标签类型包括第一标签和第二标签,所述第一标签为正常号码对应的标签,所述第二标签为异常号码对应的标签,所述第一损失函数由以下至少之一确定:所述第一判别器对真实数据的预测概率、所述第一判别器对所述生成器生成的噪声数据的预测概率、所述第二判别器将输入数据匹配到所述第一标签的概率、所述第二判别器将所述生成器生成的噪声数据匹配到所述第二标签的概率;确定所述局部异常号码识别模型中的生成器对应的第二损失函数,其中,所述第二损失函数由以下至少之一确定:所述第一判别器对所述生成器生成的噪声数据的预测概率、所述第二判别器将所述生成器生成的噪声数据匹配到所述第一标签的概率;依据所述第一损失函数和所述第二损失函数训练所述各个参与方对应的历史属性数
据,得到与所述各个参与方对应的局部异常号码识别模型。5.根据权利要求3所述的方法,其特征在于,确定所述局部异常号码识别模型的置信度,包括:确定所述局部异常号码识别模型中的损失函数,其中,所述损失函数由以下至少之一确定:每个参与方所使用的数据集中的所有历史属性数据所属的标签的真实值、所述局部异常号码识别模型在目标参数下的预测概率,所述目标参数包括以下至少之一:目标时刻的权重和所述每个参与方所使用的数据集中的所有历史属性数据;确定所述局部异常号码识别模型在目标时刻的第一权重,其中,所述第一权重由以下至少之一确定:所述目标时刻的上一时刻对应的第三权重、学习率和所述目标时刻的上一时刻对应的损失函数的梯度;依据所述损失函数和所述第一权重,确定所述局部异常号码识别模型的置信度。6.根据权利要求3所述的方法,其特征在于,确定所述局部异常号码识别模型的置信度之前,所述方法还包括:在所述历史属性数据中包括增加的新特征或所述联邦学习框架中包括新参与方的情况下,将所述新特征或所述新参与方对应的历史属性数据输入所述新参与方对应的局部异常号码识别模型中进行增量训练。7.根据权利要求1所述的方法,其特征在于,获取待识别号码的属性数据之后,所述方法还包括:在所述属性数据中包括通话量或流量使用量的情况下,获取所述待识别号码所属的用户对应的最高通话量或最高流量使用量;在所述通话量大于所述最高通话量对应的第一阈值,或所述流量使用量大于所述最高流量使用量对应的第二阈值的情况下,确定所述通话量或所述流量使用量为异常数据;将所述异常数据从所述属性数据中删除。8.根据权利要求1所述的方法,其特征在于,所述联邦学习框架中各个参与方对应的局部异常号码识别模型的模型结构相同。9.一种模型训练的方法,其特征在于,包括:获取使用联邦学习框架中的各个参与方对应的历史属性数据,其中,所述联邦学习框架包括所述各个参与方对应的局部异常号码识别模型和终端服务器对应的异常号码识别模型,所述局部异常号码识别模型和所述异常号码识别模型均用于确定待识别号码为异常号码的概率,所述异常号码识别模型中的参数为通过所述局部异常号码识别模型使用的参数聚合得到的;依据所述历史属性数据训练神经网络模型,得到与所述各个参与方对应的局部异常号码识别模型;依据所述局部异常号码识别模型中的损失函数,确定所述局部异常号码识别模型的置信度;依据所述置信度和所述损失函数中的第一权重,确定所述异常号码识别模型的第二权重;将所述第一权重更新为所述第二权重,得到更新权重;在所述更新权重满足预设条件的情况下,依据所述更新权重对应的局部异常号码识别
模型中的参数信息,确定所述异常号码识别模型,其中,所述异常号码识别模型用于确定待识别号码为异常号码的概率。10.一种异常号码的识别装置,其特征在于,包括:第一获取模块,用于获取待识别号码的属性数据,其中,所述属性数据用于表示所述待识别号码在使用过程中的基础信息;处理模块,用于采用训练好的异常号码识别模型对所述属性数据进行处理,得到输出结果,其中,所述异常号码识别模型中的参数为通过联邦学习框架中各个参与方对应的局部异常号码识别模型使用的参数聚合得到的;第一确定模块,用于依据所述输出结果,确定所述待识别号码为异常号码的概率。11.一种模型训练的装置,其特征在于,包括:第二获取模块,用于获取使用联邦学习框架中的各个参与方对应的历史属性数据,其中,所述联邦学习框架包括所述各个参与方对应的局部异常号码识别模型和终端服务器对应的异常号码识别模型,所述局部异常号码识别模型和所述异常号码识别模型均用于确定待识别号码为异常号码的概率,所述异常号码识别模型中的参数为通过所述局部异常号码识别模型使用的参数聚合得到的;训练模块,用于依据所述历史属性数据训练神经网络模型,得到与所述各个参与方对应的局部异常号码识别模型;第二确定模块,用于依据所述局部异常号码识别模型中的损失函数,确定所述局部异常号码识别模型的置信度;第三确定模块,用于依据所述置信度和所述损失函数中的第一权重,确定所述异常号码识别模型的第二权重;更新模块,用于将所述第一权重更新为所述第二权重,得到更新权重;第四确定模块,用于在所述更新权重满足预设条件的情况下,依据所述更新权重对应的局部异常号码识别模型中的参数信息,确定所述异常号码识别模型,其中,所述异常号码识别模型用于确定待识别号码为异常号码的概率。12.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至8任一项中所述的异常号码的识别方法,或者实现权利要求9中所述的模型训练的方法。13.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的计算机程序,其中,所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至8中任意一项所述的异常号码的识别方法,或执行权利要求9所述的模型训练的方法。

技术总结
本申请公开了一种异常号码的识别方法、装置、存储介质以及电子设备。其中,该方法包括:获取待识别号码的属性数据,其中,属性数据用于表示待识别号码在使用过程中的基础信息;采用训练好的异常号码识别模型对属性数据进行处理,得到输出结果,其中,异常号码识别模型中的参数为通过联邦学习框架中各个参与方对应的局部异常号码识别模型使用的参数聚合得到的;依据输出结果,确定待识别号码为异常号码的概率。本申请解决了相关技术中使用单一运营商数据进行诈骗号码识别的识别准确率低,并且用户数据隐私存在泄漏风险的技术问题。用户数据隐私存在泄漏风险的技术问题。用户数据隐私存在泄漏风险的技术问题。


技术研发人员:吴佳胜 于沐涵 陈颖
受保护的技术使用者:中国电信股份有限公司
技术研发日:2023.06.06
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐