基于密度峰值聚类标签传播的社区发现方法及装置与流程
未命名
08-02
阅读:107
评论:0

1.本发明涉及互联网技术领域,尤其是基于密度峰值聚类标签传播的社区发现方法及装置。
背景技术:
2.近年来,随着互联网技术的高速发展,在线社交网络平台得到了全面普及,因此,基于社交平台形成了复杂社交网络,分析复杂社交网络的结构成为了一个重要的研究命题。复杂网络中的图聚类称为社区发现,社区发现是近年来研究的热点问题之一。网络中的社区是一组内部连接相对紧密、外部连接相对稀疏的节点。社区结构是由社区形成的连接关系。社区成员在同一社区中更相似,但不同社区成员之间存在显著差异。社区结构清楚地显示了网络中成员之间的差异和联系,挖掘网络中的社区结构对于网络科学非常重要。社区发现可以帮助人们正确识别网络中的社区,洞察网络的结构组织,并掌握网络中节点之间的关系。此外,它还可以促进许多智能服务的发展,如挖掘社交网络信息进行趋势预测。
3.随着复杂网络规模的增长,社区发现算法的速度变得更高。因此,有效的社区发现方法应具有相对较低的时间复杂度。社区发现的标签传播算法不仅在线性时间内运行,而且具有良好的性能。然而,标签传播算法存在随机的标签初始化和标签传播过程的问题,这表明标签传播算法的稳定性较差。
技术实现要素:
4.有鉴于此,本发明实施例提供一种稳定性高且准确性高的,基于密度峰值聚类标签传播的社区发现方法及装置。
5.本发明实施例的一方面提供了基于密度峰值聚类标签传播的社区发现方法,包括:
6.获取社区中各个节点的拓扑特征和节点属性,并分别量化各个节点的拓扑特征和节点属性,构造得到节点权重;
7.获取社区中心,并且构建多个节点的初始标签;
8.根据所述节点权重衡量所述初始标签的标签传播强度后进行标签传播,得到划分好的社区;
9.根据社区划分的结果,衡量社区结构显著性,并获取社区划分结果与真实社区划分之间的相似程度,对社区划分过程进行调整。
10.可选地,所述获取社区中各个节点的拓扑特征和节点属性,并分别量化各个节点的拓扑特征和节点属性,构造得到节点权重,包括:
11.从数据集中加载节点的特征和边,并根据pagerank算法量化各个节点的拓扑特征;
12.根据tf-idf算法对各个节点的特征进行提取,得到节点属性;
13.根据所述拓扑特征和所述节点属性,构造得到节点权重。
14.可选地,所述拓扑特征的量化过程的计算公式为:
[0015][0016]
其中,pagerank表示节点的拓扑特征;n表示网络中的节点数;outdegree表示节点的出度,j表示指向i的节点;α表示阻尼因子;
[0017]
所述节点属性的特征提取过程包括词频计算过程和逆文本频率计算过程,其中,所述词频的计算公式为:
[0018][0019]
其中,tfw表示特征w的词频;s为所有节点的全部特征个数,num(w)表示特征w在所有特征中出现的次数,∑num(s)则表示全部的s个特征出现的次数的总数;
[0020]
所述逆文本频率的计算公式为:
[0021][0022]
其中,idfw代表特征w的逆文本频率;|n|是节点总数,|{j:tw∈dj}|表示包含特征w的节点总数。
[0023]
可选地,所述获取社区中心,并且构建多个节点的初始标签,包括:
[0024]
采用局部密度定义距离目标节点预设距离内的节点的数量,其中,复杂网络中节点之间的距离根据节点间的边进行定义;
[0025]
通过计算复杂网络中两个节点之间的杰卡德指数,确定两个节点的相似性;
[0026]
采用最小距离定义从节点到局部密度大于局部密度标准的节点的第一最短距离;
[0027]
根据密度峰值聚类算法中最小距离的定义,计算节点第二最短距离;
[0028]
根据所述第一最短距离和所述第二最短距离,确定社区中心的局部密度和最小距离,进而确定社区中心;
[0029]
确定社区中心后,将所述社区中心的标签信息传播到其他节点。
[0030]
可选地,所述根据所述节点权重衡量所述初始标签的标签传播强度后进行标签传播,得到划分好的社区,包括:
[0031]
构建节点与标签之间的标签相似度的候选计算公式;
[0032]
根据节点相似度和节点权重对标签的影响因子,从所述候选计算公式中确定标签计算公式;
[0033]
根据所述标签计算公式确定各个节点的标签,完成对各个节点的社区划分。
[0034]
可选地,所述根据社区划分的结果,衡量社区结构显著性,并获取社区划分结果与真实社区划分之间的相似程度,对社区划分过程进行调整,包括:
[0035]
通过模块度对社交网络分区中的社区结构显著性进行第一评估;
[0036]
通过兰德系数对社区划分的结果与真实社区划分的结果之间的差距进行第二评估;
[0037]
根据所述第一评估和所述第二评估的结果,对社区划分过程进行调整。
[0038]
可选地,所述社区中心的局部密度的计算公式为:
[0039][0040]
所述社区中心的最小距离的计算公式为:
[0041][0042]
其中,ρ代表社区中心的局部密度;δ代表社区中心的最小距离;d(i)表示节点i的度,nw(i)是节点i的权重;dist(vi,vj)代表节点vi和节点vj之间的距离;ζi用于表征与节点i对局部密度的贡献之间的比例情况;代表局部密度的最大值。
[0043]
本发明实施例的另一方面还提供了一种基于密度峰值聚类标签传播的社区发现装置,包括:
[0044]
第一模块,用于获取社区中各个节点的拓扑特征和节点属性,并分别量化各个节点的拓扑特征和节点属性,构造得到节点权重;
[0045]
第二模块,用于获取社区中心,并且构建多个节点的初始标签;
[0046]
第三模块,用于根据所述节点权重衡量所述初始标签的标签传播强度后进行标签传播,得到划分好的社区;
[0047]
第四模块,用于根据社区划分的结果,衡量社区结构显著性,并获取社区划分结果与真实社区划分之间的相似程度,对社区划分过程进行调整。
[0048]
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
[0049]
所述存储器用于存储程序;
[0050]
所述处理器执行所述程序实现如前面所述的方法。
[0051]
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0052]
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
[0053]
本发明的实施例获取社区中各个节点的拓扑特征和节点属性,并分别量化各个节点的拓扑特征和节点属性,构造得到节点权重;获取社区中心,并且构建多个节点的初始标签;根据所述节点权重衡量所述初始标签的标签传播强度后进行标签传播,得到划分好的社区;根据社区划分的结果,衡量社区结构显著性,并获取社区划分结果与真实社区划分之间的相似程度,对社区划分过程进行调整。本发明提高了标签传播算法解决社区发现问题的准确性和稳定性。
附图说明
[0054]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图。
[0055]
图1为本发明实施例提供的整体步骤流程图。
具体实施方式
[0056]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0057]
针对现有技术存在的问题,本发明实施例的一方面提供了基于密度峰值聚类标签传播的社区发现方法,包括:
[0058]
获取社区中各个节点的拓扑特征和节点属性,并分别量化各个节点的拓扑特征和节点属性,构造得到节点权重;
[0059]
获取社区中心,并且构建多个节点的初始标签;
[0060]
根据所述节点权重衡量所述初始标签的标签传播强度后进行标签传播,得到划分好的社区;
[0061]
根据社区划分的结果,衡量社区结构显著性,并获取社区划分结果与真实社区划分之间的相似程度,对社区划分过程进行调整。
[0062]
可选地,所述获取社区中各个节点的拓扑特征和节点属性,并分别量化各个节点的拓扑特征和节点属性,构造得到节点权重,包括:
[0063]
从数据集中加载节点的特征和边,并根据pagerank算法量化各个节点的拓扑特征;
[0064]
根据tf-idf算法对各个节点的特征进行提取,得到节点属性;
[0065]
根据所述拓扑特征和所述节点属性,构造得到节点权重。
[0066]
可选地,所述拓扑特征的量化过程的计算公式为:
[0067][0068]
其中,pagerank表示节点的拓扑特征;n表示网络中的节点数;outdegree表示节点的出度,j表示指向i的节点;α表示阻尼因子,0《α《1;
[0069]
所述节点属性的特征提取过程包括词频计算过程和逆文本频率计算过程,其中,所述词频的计算公式为:
[0070][0071]
其中,tfww表示特征w的词频;s为所有节点的全部特征个数,num(w)表示特征w在所有特征中出现的次数,∑num(s)则表示全部的s个特征出现的次数的总数;
[0072]
所述逆文本频率的计算公式为:
[0073][0074]
其中,idfw代表特征w的逆文本频率;|n|是节点总数,|{j:tw∈dj}|表示包含特征w的节点总数。
[0075]
可选地,所述获取社区中心,并且构建多个节点的初始标签,包括:
[0076]
采用局部密度定义距离目标节点预设距离内的节点的数量,其中,复杂网络中节点之间的距离根据节点间的边进行定义;
[0077]
通过计算复杂网络中两个节点之间的杰卡德指数,确定两个节点的相似性;
[0078]
采用最小距离定义从节点到局部密度大于局部密度标准的节点的第一最短距离;
[0079]
根据密度峰值聚类算法中最小距离的定义,计算节点第二最短距离;
[0080]
根据所述第一最短距离和所述第二最短距离,确定社区中心的局部密度和最小距离,进而确定社区中心;
[0081]
确定社区中心后,将所述社区中心的标签信息传播到其他节点。
[0082]
可选地,所述根据所述节点权重衡量所述初始标签的标签传播强度后进行标签传播,得到划分好的社区,包括:
[0083]
构建节点与标签之间的标签相似度的候选计算公式;
[0084]
根据节点相似度和节点权重对标签的影响因子,从所述候选计算公式中确定标签计算公式;
[0085]
根据所述标签计算公式确定各个节点的标签,完成对各个节点的社区划分。
[0086]
可选地,所述根据社区划分的结果,衡量社区结构显著性,并获取社区划分结果与真实社区划分之间的相似程度,对社区划分过程进行调整,包括:
[0087]
通过模块度对社交网络分区中的社区结构显著性进行第一评估;
[0088]
通过兰德系数对社区划分的结果与真实社区划分的结果之间的差距进行第二评估;
[0089]
根据所述第一评估和所述第二评估的结果,对社区划分过程进行调整。
[0090]
可选地,所述社区中心的局部密度的计算公式为:
[0091][0092]
所述社区中心的最小距离的计算公式为:
[0093][0094]
其中,ρ代表社区中心的局部密度;δ代表社区中心的最小距离;d(i)表示节点i的度,nw(i)是节点i的权重;dist(vi,vj)代表节点vi和节点vj之间的距离;与目标节点i对局部密度的贡献成比例;代表局部密度的最大值。
[0095]
本发明实施例的另一方面还提供了一种基于密度峰值聚类标签传播的社区发现装置,包括:
[0096]
第一模块,用于获取社区中各个节点的拓扑特征和节点属性,并分别量化各个节点的拓扑特征和节点属性,构造得到节点权重;
[0097]
第二模块,用于获取社区中心,并且构建多个节点的初始标签;
[0098]
第三模块,用于根据所述节点权重衡量所述初始标签的标签传播强度后进行标签
传播,得到划分好的社区;
[0099]
第四模块,用于根据社区划分的结果,衡量社区结构显著性,并获取社区划分结果与真实社区划分之间的相似程度,对社区划分过程进行调整。
[0100]
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
[0101]
所述存储器用于存储程序;
[0102]
所述处理器执行所述程序实现如前面所述的方法。
[0103]
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0104]
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
[0105]
下面结合说明书附图,对本发明的具体实现过程进行详细描述:
[0106]
如图1所示,本实施例包括如下步骤:
[0107]
s1、从数据集中读取边和节点属性信息,应用pagerank和tf-idf(term frequency
–
inverse document frequency,词频-逆文本频率指数)分别量化节点的拓扑特征和节点属性,构造节点权重;
[0108]
s11、从数据集中加载节点特征和边,pagerank算法是一种基于随机游走模型来探索网络中节点的影响力的算法,其思想认为,指向网络中节点的边越多,该节点就越重要,因此通过pagerank算法量化节点的拓扑特征,计算公式:
[0109][0110]
其中,n表示网络中的节点数,j表示指向i的节点;
[0111]
s12、tf-idf是一种常见的特征提取方法。tf(term frequency,词频)表示在所有参与对比的文章中,词语出现的频率,某节点的某一特征w的tf计算公式:
[0112][0113]
其中,s为所有节点的全部特征个数,num(w)表示特征w在所有特征中出现的次数,∑num(s)则表示全部的s个特征出现的次数的总数;词语的idf(inverse document frequency,逆文本频率)越大,它在所有的文章中出现的频率越低,表明这个词语越重要,特征w的idf计算公式:其中,|n|是节点总数,|{j:tw∈dj}|表示包含特征w的节点总数,如果特征w在其他节点中不存在,则会导致分母为0,因此使用|{j:tw∈dj}|+1。
[0114]
s2、根据改进的密度峰值聚类算法得到社区中心,构造部分节点的初始标签;
[0115]
s21、采用局部密度定义距离目标节点一定距离内的节点的数量,复杂网络中节点之间的距离根据节点间的边进行定义,因此引入相邻节点密度衰减系数和节点权重,局部密度ρ计算公式:ρ=s(i)*nw(i)+ζi∑
j∈n(i)
d(j)*nw(j),其中,d(i)表示节点i的度,nw(i)是节点i的权重,ζi与目标节点对局部密度的贡献成比例;
[0116]
s22、复杂网络中,普遍认为两个节点越相似,它们就越接近。杰卡德指数通常用于描述这种相似性,节点vi和节点vj之间的杰卡德指数s
ij
计算公式:其中,τ(i)=n(i)∪vi表示节点vi与其邻居节点的并集;
[0117]
s23、采用最小距离定义从节点到局部密度大于局部密度标准的节点的最短距离,节点之间的距离应随着节点之间相似性的增大而减小,因此节点vi和节点vj之间的距离dist(vi,vj)计算公式:dist(vi,vj)=1-δ
ij
;
[0118]
s24、根据密度峰值聚类算法中最小距离的定义,节点最小距离δi计算公式:
[0119][0120]
s25、根据局部密度和最小距离的计算方法,社区中心节点和其他节点的这两个指标的值存在显著差距,即社区中心通常具有非常大的局部密度ρi和最小距离δi。因此构建ρi和δi的乘积γi来选择社区中心γi的计算公式:
[0121][0122]
其中,和分别表示最小最大归一化后ρi和δi的值,计算公式:
[0123][0124][0125]
s26、识别社区中心后,需要将社区中心的标签信息传播到其他节点。通常情况下,社区中心的数量很少,然而,网络中标签信息太少会降低标签传输的效率。因此,社区中心的标签被分配给其相邻节点。如果一个节点同时连接到多个社区中心或没有连接到社区中心,则无法获取任何标签。
[0126]
s3、根据节点权重衡量标签传播强度,进行标签传播,最终得到划分好的社区;
[0127]
s31、从节点相似度和节点权重两个角度考虑标签的影响,节点vi和标签l之间的标签相似度ls(i,l)计算公式:
[0128]
ls(i,l)=∑
j∈n(i)
κ(lj,l)*s
ij
[0129]
其中,
[0130]
s32、基于节点相似度,引入节点权重,最终选定的标签计算公式:
[0131][0132]
s4.衡量社区结构显著性并对比算法社区划分结果与真实社区划分结果来评价所提算法的性能;
[0133]
本发明利用所提方法对复杂网络中的节点进行社区划分,并采用以下两个指标对所提算法的性能进行评价:
[0134]
a.模块度:用于考察复杂社交网络分区是否具有显著的社区结构,该评价指标越
大越好;
[0135]
b.调整兰德系数:用于考察算法社区划分的结果与真实社区划分的结果之间的差距,该评价指标越大越好。
[0136]
将所提算法与dcn、wcf-lpa和clpe算法的社区划分结果进行比较,如表1所示。从表1可以看出,所提算法能在大部分评价指标上得到最优的结果。
[0137]
表1
[0138][0139][0140]
综上所述,本发明能够融合节点拓扑特征和节点属性,通过改进密度峰值算法找到社区中心完成标签初始化和改进标签传播过程,从而获得更加准确可靠的社区划分结果。本发明能提供较为精确的社区划分结果,提高标签传播算法解决社区发现问题的准确性和稳定性,为推荐等下游任务提供依据。
[0141]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被
改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0142]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0143]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0144]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0145]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(ram)、只读存储器(rom)、可擦除可编辑只读存储器(eprom或闪速存储器)、光纤装置以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0146]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0147]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不
一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0148]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0149]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
技术特征:
1.基于密度峰值聚类标签传播的社区发现方法,其特征在于,包括:获取社区中各个节点的拓扑特征和节点属性,并分别量化各个节点的拓扑特征和节点属性,构造得到节点权重;获取社区中心,并且构建多个节点的初始标签;根据所述节点权重衡量所述初始标签的标签传播强度后进行标签传播,得到划分好的社区;根据社区划分的结果,衡量社区结构显著性,并获取社区划分结果与真实社区划分之间的相似程度,对社区划分过程进行调整。2.根据权利要求1所述的基于密度峰值聚类标签传播的社区发现方法,其特征在于,所述获取社区中各个节点的拓扑特征和节点属性,并分别量化各个节点的拓扑特征和节点属性,构造得到节点权重,包括:从数据集中加载节点的特征和边,并根据pagerank算法量化各个节点的拓扑特征;根据tf-idf算法对各个节点的特征进行提取,得到节点属性;根据所述拓扑特征和所述节点属性,构造得到节点权重。3.根据权利要求2所述的基于密度峰值聚类标签传播的社区发现方法,其特征在于,所述拓扑特征的量化过程的计算公式为:其中,pagerank表示节点的拓扑特征;n表示网络中的节点数;outdegree表示节点的出度,j表示指向i的节点;α表示阻尼因子;所述节点属性的特征提取过程包括词频计算过程和逆文本频率计算过程,其中,所述词频的计算公式为:其中,tf
w
表示特征w的词频;s为所有节点的全部特征个数,num(w)表示特征w在所有特征中出现的次数,∑num(s)则表示全部的s个特征出现的次数的总数;所述逆文本频率的计算公式为:其中,idf
w
代表特征w的逆文本频率;|n|是节点总数,|{j:t
w
∈d
j
}|表示包含特征w的节点总数。4.根据权利要求1所述的基于密度峰值聚类标签传播的社区发现方法,其特征在于,所述获取社区中心,并且构建多个节点的初始标签,包括:采用局部密度定义距离目标节点预设距离内的节点的数量,其中,复杂网络中节点之间的距离根据节点间的边进行定义;通过计算复杂网络中两个节点之间的杰卡德指数,确定两个节点的相似性;采用最小距离定义从节点到局部密度大于局部密度标准的节点的第一最短距离;根据密度峰值聚类算法中最小距离的定义,计算节点第二最短距离;
根据所述第一最短距离和所述第二最短距离,确定社区中心的局部密度和最小距离,进而确定社区中心;确定社区中心后,将所述社区中心的标签信息传播到其他节点。5.根据权利要求1所述的基于密度峰值聚类标签传播的社区发现方法,其特征在于,所述根据所述节点权重衡量所述初始标签的标签传播强度后进行标签传播,得到划分好的社区,包括:构建节点与标签之间的标签相似度的候选计算公式;根据节点相似度和节点权重对标签的影响因子,从所述候选计算公式中确定标签计算公式;根据所述标签计算公式确定各个节点的标签,完成对各个节点的社区划分。6.根据权利要求1所述的基于密度峰值聚类标签传播的社区发现方法,其特征在于,所述根据社区划分的结果,衡量社区结构显著性,并获取社区划分结果与真实社区划分之间的相似程度,对社区划分过程进行调整,包括:通过模块度对社交网络分区中的社区结构显著性进行第一评估;通过兰德系数对社区划分的结果与真实社区划分的结果之间的差距进行第二评估;根据所述第一评估和所述第二评估的结果,对社区划分过程进行调整。7.根据权利要求4所述的基于密度峰值聚类标签传播的社区发现方法,其特征在于,所述社区中心的局部密度的计算公式为:所述社区中心的最小距离的计算公式为:其中,ρ代表社区中心的局部密度;δ代表社区中心的最小距离;d(i)表示节点i的度,nw(i)是节点i的权重;dist(v
i
,v
j
)代表节点v
i
和节点v
j
之间的距离;ζ
i
用于表征与节点i对局部密度的贡献之间的比例情况;代表局部密度的最大值。8.基于密度峰值聚类标签传播的社区发现装置,其特征在于,包括:第一模块,用于获取社区中各个节点的拓扑特征和节点属性,并分别量化各个节点的拓扑特征和节点属性,构造得到节点权重;第二模块,用于获取社区中心,并且构建多个节点的初始标签;第三模块,用于根据所述节点权重衡量所述初始标签的标签传播强度后进行标签传播,得到划分好的社区;第四模块,用于根据社区划分的结果,衡量社区结构显著性,并获取社区划分结果与真实社区划分之间的相似程度,对社区划分过程进行调整。9.一种电子设备,其特征在于,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处
理器执行实现如权利要求1至7中任一项所述的方法。
技术总结
本发明公开了基于密度峰值聚类标签传播的社区发现方法及装置,方法包括:获取社区中各个节点的拓扑特征和节点属性,并分别量化各个节点的拓扑特征和节点属性,构造得到节点权重;获取社区中心,并且构建多个节点的初始标签;根据所述节点权重衡量所述初始标签的标签传播强度后进行标签传播,得到划分好的社区;根据社区划分的结果,衡量社区结构显著性,并获取社区划分结果与真实社区划分之间的相似程度,对社区划分过程进行调整。本发明提高了标签传播算法解决社区发现问题的准确性和稳定性,可广泛应用于互联网技术领域。可广泛应用于互联网技术领域。可广泛应用于互联网技术领域。
技术研发人员:毛承洁 张晓晗 汤非易 于露 林荣华 常超 汤庸
受保护的技术使用者:人工智能与数字经济广东省实验室(广州)
技术研发日:2023.02.15
技术公布日:2023/7/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/