基于注意力机制的跨社交网络虚拟身份关联方法及装置

未命名 09-22 阅读:88 评论:0


1.本发明属于虚拟身份关联的技术领域,具体涉及一种基于注意力机制的跨社交网络虚拟身份关联方法及装置。


背景技术:

2.虚拟身份是指在互联网上所使用的与现实身份无关的虚拟个人信息。随着社交网络的兴起,越来越多的人开始在社交网络上创建虚拟身份并与其他人进行交互。虚拟身份不仅是人们进行社交互动的重要方式,也是网络支付、网络购物等各种网络应用的必要条件之一。虚拟身份关联可以帮助社交网络和其他互联网应用准确地识别不同虚拟身份背后的现实身份,从而更好地管理虚拟身份和用户信息。例如:简化用户管理、防止虚假账号和欺诈行为、改善广告投放效果、改善社交网络运营效率等。
3.然而,在虚拟身份的使用中,也存在着一些问题。如何准确地关联不同社交网络中的虚拟身份,成为了亟待解决的问题。目前,现有的一些虚拟身份关联方法主要是根据用户自身属性或者用户发表内容来获取特征,通过相似性计算来确定两个用户是否属于同一个自然人。然而用户在不同的社交平台上生成的社交媒体数据通常是不尽相同的,因此单单从用户自身属性或者用户发表内容来提取特征获得的表征能力较弱。而且仅考虑用户自身而忽略社交关系的潜在影响也使得关联的准确性不高。近年来,由于深度学习在特征提取方面的优异表现,基于深度学习的方法被广泛应用在社交网络领域,但是如何应用深度学习的方法来解决跨社交网络虚拟身份关联问题又是一大关键问题。


技术实现要素:

4.本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于注意力机制的跨社交网络虚拟身份关联方法及装置,具有融合用户社交关系和用户发表内容两个维度特征并且可以发现跨社交网络的用户潜在关联等优点,解决了传统方法依赖人工提取特征、只考虑单个维度特征表达能力弱的问题。
5.为了达到上述目的,本发明采用以下技术方案:
6.第一方面,本发明提供了一种基于注意力机制的跨社交网络虚拟身份关联方法,包括下述步骤:
7.提取用户特征,所述用户特征包括节点特征和文本特征;所述节点特征是将用户在结构图中的结构信息转化为向量表示,从而实现对节点特征的提取;所述文本特征是利用词向量模型将用户发表的内容表示为向量,实现对文本的向量化,从而实现对文本特征的提取;
8.分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入,将所述关系嵌入和文本嵌入相加得到用户的最终嵌入;所述关系嵌入是在给定的社交网络,将用户看成图的节点,将用户之间的社交关系看作图的边,将用户的节点特征放入到图注意力网络中聚合用户的邻居节点特征,得到用户的社交关系嵌入;所述文本嵌入是对于用户自身发表
的内容,将文本特征放入一个带有注意力机制的双向循环神经网络得到用户的文本嵌入;
9.将来自不同社交网络平台用户各自的最终嵌入进行拼接后输入到多层感知机中输出分类结果,得到来自不同社交网络平台的两个用户在现实世界中是否是同属于一个自然人的判断。
10.作为优选的技术方案,所述节点特征,是对每个用户采用node2vec进行嵌入得到;
11.所述文本特征,是每个用户采用word2vec进行单词级别的嵌入得到。
12.作为优选的技术方案,在提取用户特征的步骤中,将社交网络表示为无向图g=(u,e),其中用户表示节点u,边e表示用户之间的社交关系,接着根据无向图g,生成随机游走序列,node2vec使用随机游走来生成节点序列;生成节点序列的步骤产生了许多由节点组成的序列,随后训练嵌入模型,对生成的随机游走序列进行嵌入模型训练;该嵌入模型通过学习将节点的上下文信息映射到嵌入空间中,使用梯度下降算法对嵌入向量进行训练;最后输出节点嵌入作为该节点的表示,即关系嵌入模型的输入x
in

13.作为优选的技术方案,在分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入的步骤中,具体为:
14.将得到的节点特征放入到图注意力网络进行嵌入得到用户的关系嵌入;
15.将得到的文本特征放入到带有注意力机制的双向循环神经网络进行嵌入得到用户的文本嵌入t;
16.将得到的用户的关系嵌入和的文本嵌入进行拼接得到用户的最终嵌入表示。
17.作为优选的技术方案,对于给定的社交网络n,将用户看成图的节点u,将用户之间的社交关系看作图的边e,图注意力网络由几个堆叠的图注意层组成,对于第i个图注意层,对每个用户节点j,逐个计算用户节点j和其邻居节点k之间的相似系数
[0018][0019]
其中,wi是应用于每个节点的共享权重矩阵,用于对顶点的特征进行增维,a(
·
)表示非线性激活函数,将向量映射到一个实数上,[
·
||
·
]表示将两个向量进行拼接,和是第i个图注意层的用户节点和其邻居节点的特征向量输入,当i=1时,和为和然后通过[
·
||
·
]将节点j,k变换后的特征进行拼接,通过a(
·
)将拼接后的高维特征映射到一个实数上;
[0020]
计算完用户所有邻居节点的相似系数后,用softmax进行注意力系数的归一化:
[0021]
根据计算好的注意力系数,特征加权求和得到第i层的用户节点嵌入
[0022]
作为优选的技术方案,对于给定的用户,将通过得到的文本嵌入输入进一个双向循环神经网络birnn中学习每个单词的隐藏状态h
cl

[0023][0024][0025]
[0026]
其中gru(
·
)是双向循环社交网络的神经元,控制学习上下文的表示,w
cl
是通过学习得到的单词向量,cl表示用户的第c个发表内容的第l个单词;
[0027]
得到单词的隐藏表示后,引入一个注意层来从birnn层获得隐藏状态的加权和,通过初始化一个上下文向量uw来计算第c个发表内容中第l个单词的注意力系数β
cl

[0028]ucl
=tanh(ww·hcl
+bw)
[0029][0030]ww
和bw是将每个单词向量映射到一个隐藏空间中的权重矩阵和偏差,通过上述得到的单词隐藏状态h
cl
和注意力系数β
cl
可以得到第c个发表内容的文本向量sc:
[0031][0032]
同样地,在发表内容层级上,使用与单词层级相同的模型来推导学习用户发表内容的隐藏表示hc:
[0033][0034][0035][0036]
在得到发表内容的隐藏表示后,引入一个注意层来从birnn层获得隐藏状态的加权和,通过初始化一个上下文向量us来计算用户每个发表内容的注意力系数βc:
[0037]
uc=tanh(wu·
hc+bu)
[0038][0039]
wu和bu是将每个发表内容向量映射到一个隐藏空间中的权重矩阵和偏差,通过上述得到的发表内容隐藏状态hc和注意力系数βc可以得到用户的文本嵌入t:
[0040]
t=∑cβchc。
[0041]
作为优选的技术方案,多层感知机的第l层输出为:
[0042]yl
=relu(w
lyl-1
+b
l
)
[0043]
最后输入分类结果:
[0044]yαβ
=σ(wy
l
+b)
[0045]
其中,y
αβ
是分类结果,当y
αβ
=1时则,表示来自不同社交网络平台的用户α和用户β同属于一个自然人,当y
αβ
=0时,则表示来自不同社交网络平台的用户α和用户β不同属于一个自然人。
[0046]
第二方面,本发明提供了一种基于注意力机制的跨社交网络虚拟身份关联系统,应用于所述的基于注意力机制的跨社交网络虚拟身份关联方法,包括特征提取模块、嵌入模块以及身份关联模块;
[0047]
所述特征提取模块,用于提取用户特征,所述用户特征包括节点特征和文本特征;所述节点特征是将用户在结构图中的结构信息转化为向量表示,从而实现对节点特征的提
取;所述文本特征是利用词向量模型将用户发表的内容表示为向量,实现对文本的向量化,从而实现对文本特征的提取;
[0048]
所述嵌入模块,用于分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入,将所述关系嵌入和文本嵌入相加得到用户的最终嵌入;所述关系嵌入是在给定的社交网络,将用户看成图的节点,将用户之间的社交关系看作图的边,将用户的节点特征放入到图注意力网络中聚合用户的邻居节点特征,得到用户的社交关系嵌入;所述文本嵌入是对于用户自身发表的内容,将文本特征放入一个带有注意力机制的双向循环神经网络得到用户的文本嵌入;
[0049]
所述身份关联模块,将来自不同社交网络平台用户各自的最终嵌入进行拼接后输入到多层感知机中输出分类结果,得到来自不同社交网络平台的两个用户在现实世界中是否是同属于一个自然人的判断。
[0050]
第三方面,本发明提供了一种电子设备,所述电子设备包括:
[0051]
至少一个处理器;以及,
[0052]
与所述至少一个处理器通信连接的存储器;其中,
[0053]
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于注意力机制的跨社交网络虚拟身份关联方法。
[0054]
第四方面,本发明提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于注意力机制的跨社交网络虚拟身份关联方法。
[0055]
本发明与现有技术相比,具有如下优点和有益效果:
[0056]
1.本发明基于注意力机制的跨社交网络虚拟身份关联方法,通过两个不同的注意力网络来自动确定社交关系和发表内容的重要性,能够有效地获取和挖掘用户的深层信息,并且有效地融合用户社交关系和用户发表内容这两个维度特征,解决了传统方法依赖人工提取特征、只考虑单个维度特征表达能力弱的问题。
[0057]
2.本发明基于注意力机制的跨社交网络虚拟身份关联方法,首先利用用户的社交关系和发表内容进行特征提取,分别将社交关系和发表内容放入图注意力网络和双向循环神经网络进行嵌入,学习到表达包含用户社交关系和发表内容的深层次表示,最后将两个嵌入进行融合后解决跨社交网络虚拟身份关联问题,该方法有效地结合了用户社交关系和发表内容这两个社交网络中常见且重要的两个维度,有效地挖掘不同社交网络之间的潜在关系。
附图说明
[0058]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0059]
图1为本发明实施例基于注意力机制的跨社交网络虚拟身份关联方法的流程图;
[0060]
图2为本发明实施例基于注意力机制的跨社交网络虚拟身份关联系统的方框图。
[0061]
图3为本发明实施例电子设备的结构图。
具体实施方式
[0062]
为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0063]
在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本技术所描述的实施例可以与其它实施例相结合。
[0064]
请参阅图1,本实施例基于注意力机制的跨社交网络虚拟身份关联方法,首先对用户进行特征提取,然后使用图注意力网络来聚合邻居节点特征作为用户的图向量;然后使用一个分层的语言注意网络来编码每个用户的文本特征,即文本向量;最后将用户的图向量和文本向量相加得到用户的最终表示,通过将来自不同社交网络的两个用户向量拼接输入到mlp中来输出分类结果,判断两个用户是否为同一个人的账户。具体包括如下技术方案:
[0065]
s1、用户特征提取;
[0066]
用户的特征信息包括两个方面:用户的社交关系和用户发表的文本内容。对于用户的社交关系本发明采用node2vec的方法进行嵌入。node2vec是一种基于深度学习的图嵌入方法,它可以将节点(即用户)在图中的结构信息转化为向量表示,从而实现对节点的特征提取。用户发表的文本内容是指用户在社交网络中发表的帖子、评论等文本信息。为了提取这些文本内容的特征信息,本发明采用word2vec的方法进行处理,它可以将每个单词表示为向量,从而实现对文本的向量化表示。因此,用户特征提取主要是采用node2vec和word2vec的方法,分别对用户的社交关系和发表的文本内容进行嵌入,得到用户的节点特征和文本特征。
[0067]
进一步的,步骤s1中,还包括下述步骤:
[0068]
s1.1针对用户的节点特征,对每个用户采用node2vec进行嵌入得到x
in

[0069]
s1.2针对用户的文本特征,对每个用户采用word2vec进行单词级别的嵌入得到t
in

[0070]
更进一步的,在所述步骤s1.1中,将社交网络表示为无向图g=(u,e),其中用户表示节点u,边e表示用户之间的社交关系。接着根据图g,生成随机游走序列,node2vec使用随机游走来生成节点序列。随机游走是一种随机遍历图的方式,它从某个起始节点开始,然后随机选择下一个节点进行遍历,直到到达指定的步数n。这个步骤产生了许多由节点组成的序列,随后训练嵌入模型,对生成的随机游走序列进行嵌入模型训练。该模型通过学习将节点的上下文信息映射到嵌入空间中,使用梯度下降算法对嵌入向量进行训练。最后输出节点嵌入作为该节点的表示,即关系嵌入模型的输入x
in

[0071]
s2、关系嵌入和文本嵌入;
[0072]
为了获取用户更加深层的特征和信息,分别对已经得到的节点特征和文本特征进行嵌入。对于给定的社交网络n,将用户看成图的节点,将用户之间的社交关系看作图的边,将用户的节点特征放入到图注意力网络中聚合用户的邻居节点特征,得到用户的社交关系
嵌入x;对于用户自身发表的内容,将文本特征放入一个带有注意力机制的双向循环神经网络得到用户的文本嵌入t。将用户的关系嵌入x和文本嵌入t相加得到用户的最终嵌入y。
[0073]
具体的,s2包括下述步骤:
[0074]
s2.1将s1.1得到的用户节点特征放入到图注意力网络进行嵌入得到用户的关系嵌入x。
[0075]
s2.2将s1.2得到的用户文本特征放入到带有注意力机制的双向循环神经网络进行嵌入得到用户的文本嵌入t。
[0076]
s2.3将s2.1得到的用户的关系嵌入x和s2.2得到用户的文本嵌入t进行拼接得到用户的最终嵌入表示z。
[0077]
更进一步的,步骤s2.1中,对于给定的社交网络n,将用户看成图的节点u,将用户之间的社交关系看作图的边e。图注意力网络由几个堆叠的图注意层组成。对于第i层,对每个用户节点j,逐个计算它的邻居们和它自己之间的相似系数s:
[0078][0079]
其中,wi是应用于每个节点的共享权重矩阵,用于对顶点的特征进行增维,a(
·
)表示非线性激活函数,可以将向量映射到一个实数上,[
·
||
·
]表示将两个向量进行拼接,和是第i个图注意层的用户节点和其邻居节点的特征向量输入,当i=1时,和为和然后通过[
·
||
·
]将节点j,k变换后的特征进行拼接,通过a(
·
)将拼接后的高维特征映射到一个实数上;
[0080]
计算完用户所有邻居节点的相似系数后,用softmax进行注意力系数的归一化:
[0081][0082]
根据计算好的注意力系数,特征加权求和得到第i层的用户节点嵌入
[0083][0084]
在本实施例中,根据社交网络和深度学习的特性和经验,i的取值一般为2效果最好。
[0085]
在步骤s2.2中,
[0086]
对于给定的用户,我们将通过s1.2得到的文本嵌入输入进一个双向循环神经网络(birnn)中学习每个单词的隐藏状态h
cl

[0087][0088][0089]
[0090]
其中gru(
·
)是双向循环社交网络的神经元,可以控制学习上下文的表示。w
cl
是通过步骤s1.2学习到单词向量,cl表示用户的第c个发表内容的第l个单词。
[0091]
得到单词的隐藏表示后,本发明引入一个注意层来从birnn层获得隐藏状态的加权和。本发明通过初始化一个上下文向量uw来计算第c个发表内容中第l个单词的注意力系数β
cl

[0092]ucl
=tanh(ww·hcl
+bw)
[0093][0094]ww
和bw是将每个单词向量映射到一个隐藏空间中的权重矩阵和偏差。通过上述得到的单词隐藏状态h
cl
和注意力系数β
cl
可以得到第c个发表内容的文本向量sc:
[0095][0096]
同样地,在发表内容层级上,本发明使用与单词层级相同的模型来推导学习用户发表内容的隐藏表示hc:
[0097][0098][0099][0100]
在得到发表内容的隐藏表示后,本发明引入一个注意层来从birnn层获得隐藏状态的加权和。本发明通过初始化一个上下文向量us来计算用户每个发表内容的注意力系数βc:
[0101]
uc=tanh(wu·
hc+bu)
[0102][0103]
wu和bu是将每个发表内容向量映射到一个隐藏空间中的权重矩阵和偏差。通过上述得到的发表内容隐藏状态hc和注意力系数βc可以得到用户的文本嵌入t:
[0104]
t=∑cβchc。
[0105]
可以理解的是,将s2.1得到的用户的关系嵌入x和s2.2得到用户的文本嵌入t进行拼接得到用户的最终嵌入表示y,即y=[x||t]。
[0106]
s3、身份关联;
[0107]
根据已经得到的嵌入表示,将来自不同社交网络平台n1,n2的用户y1,y2进行拼接输入到多层感知机中输出分类结果,就可以得到来自不同社交网络平台的两个用户在现实世界中是否是同属于一个自然人的判断。
[0108]
进一步的,在步骤s3中,对于来自不同社交网络平台n1,n2的用户嵌入y1,y2进行拼接[y1||y2],输入到多层感知机中输出分类结果,就可以得到来自不同社交网络平台的两个用户在现实世界中是否是同属于一个自然人的判断。多层感知机的第l层输出为:
[0109]yl
=relu(w
lyl-1
+b
l
)
[0110]
最后输入分类结果:
[0111]yαβ
=σ(wy
l
+b)
[0112]
其中,y
αβ
是分类结果,当y
αβ
=1时则,表示来自不同社交网络平台的用户α和用户β同属于一个自然人,当y
αβ
=0时,则表示来自不同社交网络平台的用户α和用户β不同属于一个自然人。
[0113]
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
[0114]
基于与上述实施例中的基于注意力机制的跨社交网络虚拟身份关联方法相同的思想,本发明还提供了基于注意力机制的跨社交网络虚拟身份关联系统,该系统可用于执行上述基于注意力机制的跨社交网络虚拟身份关联方法。为了便于说明,基于注意力机制的跨社交网络虚拟身份关联系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0115]
请参阅图2,在本技术的另一个实施例中,提供了一种基于注意力机制的跨社交网络虚拟身份关联系统100,该系统包括特征提取模块101、嵌入模块102以及身份关联模块103;
[0116]
所述特征提取模块101,用于提取用户特征,所述用户特征包括节点特征和文本特征;所述节点特征是将用户在结构图中的结构信息转化为向量表示,从而实现对节点特征的提取;所述文本特征是利用词向量模型将用户发表的内容表示为向量,实现对文本的向量化,从而实现对文本特征的提取;
[0117]
所述嵌入模块102,用于分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入,将所述关系嵌入和文本嵌入相加得到用户的最终嵌入;所述关系嵌入是在给定的社交网络,将用户看成图的节点,将用户之间的社交关系看作图的边,将用户的节点特征放入到图注意力网络中聚合用户的邻居节点特征,得到用户的社交关系嵌入;所述文本嵌入是对于用户自身发表的内容,将文本特征放入一个带有注意力机制的双向循环神经网络得到用户的文本嵌入;
[0118]
所述身份关联模块103,用于基于得到的用户最终嵌入,将来自不同社交网络平台n1,n2的用户y1,y2进行拼接输入到多层感知机中输出分类结果,得到来自不同社交网络平台的两个用户在现实世界中是否是同属于一个自然人的判断。
[0119]
需要说明的是,本发明的基于注意力机制的跨社交网络虚拟身份关联系统与本发明的基于注意力机制的跨社交网络虚拟身份关联方法一一对应,在上述基于注意力机制的跨社交网络虚拟身份关联方法的实施例阐述的技术特征及其有益效果均适用于基于注意力机制的跨社交网络虚拟身份关联的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
[0120]
此外,上述实施例的基于注意力机制的跨社交网络虚拟身份关联系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于注意力机制的跨社交网络虚拟身份关联系统的内部结构划分成不同的程序模块,以完
成以上描述的全部或者部分功能。
[0121]
请参阅图3,在一个实施例中,提供了一种实现基于注意力机制的跨社交网络虚拟身份关联方法的电子设备,所述电子设备200可以包括第一处理器201、第一存储器202和总线,还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序,如基于注意力机制的跨社交网络虚拟身份关联程序203。
[0122]
其中,所述第一存储器202至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元,例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备,例如电子设备200上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(securedigital,sd)卡、闪存卡(flash card)等。进一步地,所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据,例如基于注意力机制的跨社交网络虚拟身份关联程序203的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0123]
所述第一处理器201在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器202内的程序或者模块,以及调用存储在所述第一存储器202内的数据,以执行电子设备200的各种功能和处理数据。
[0124]
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备200的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0125]
所述电子设备200中的所述第一存储器202存储的基于注意力机制的跨社交网络虚拟身份关联程序203是多个指令的组合,在所述第一处理器201中运行时,可以实现:
[0126]
提取用户特征,所述用户特征包括节点特征和文本特征;所述节点特征是将用户在结构图中的结构信息转化为向量表示,从而实现对节点特征的提取;所述文本特征是利用词向量模型将用户发表的内容表示为向量,实现对文本的向量化,从而实现对文本特征的提取;
[0127]
分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入,将所述关系嵌入和文本嵌入相加得到用户的最终嵌入;所述关系嵌入是在给定的社交网络,将用户看成图的节点,将用户之间的社交关系看作图的边,将用户的节点特征放入到图注意力网络中聚合用户的邻居节点特征,得到用户的社交关系嵌入;所述文本嵌入是对于用户自身发表的内容,将文本特征放入一个带有注意力机制的双向循环神经网络得到用户的文本嵌入;
[0128]
基于得到的用户最终嵌入,将来自不同社交网络平台n1,n2的用户y1,y2进行拼接输入到多层感知机中输出分类结果,得到来自不同社交网络平台的两个用户在现实世界中是否是同属于一个自然人的判断。
[0129]
进一步地,所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0130]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0131]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0132]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术特征:
1.基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,包括下述步骤:提取用户特征,所述用户特征包括节点特征和文本特征;所述节点特征是将用户在结构图中的结构信息转化为向量表示,从而实现对节点特征的提取;所述文本特征是利用词向量模型将用户发表的内容表示为向量,实现对文本的向量化,从而实现对文本特征的提取;分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入,将所述关系嵌入和文本嵌入相加得到用户的最终嵌入;所述关系嵌入是在给定的社交网络,将用户看成图的节点,将用户之间的社交关系看作图的边,将用户的节点特征放入到图注意力网络中聚合用户的邻居节点特征,得到用户的社交关系嵌入;所述文本嵌入是对于用户自身发表的内容,将文本特征放入一个带有注意力机制的双向循环神经网络得到用户的文本嵌入;将来自不同社交网络平台用户各自的最终嵌入进行拼接后输入到多层感知机中输出分类结果,得到来自不同社交网络平台的两个用户在现实世界中是否是同属于一个自然人的判断。2.根据权利要求1所述基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,所述节点特征,是对每个用户采用node2vec进行嵌入得到;所述文本特征,是每个用户采用word2vec进行单词级别的嵌入得到。3.根据权利要求1所述基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,在提取用户特征的步骤中,将社交网络表示为无向图g(u,e),其中用户表示节点u,边e表示用户之间的社交关系,接着根据无向图g,生成随机游走序列,node2vec使用随机游走来生成节点序列;生成节点序列的步骤产生了许多由节点组成的序列,随后训练嵌入模型,对生成的随机游走序列进行嵌入模型训练;该嵌入模型通过学习将节点的上下文信息映射到嵌入空间中,使用梯度下降算法对嵌入向量进行训练;最后输出节点嵌入作为该节点的表示,即关系嵌入模型的输入x
in
。4.根据权利要求1所述基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,在分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入的步骤中,具体为:将得到的节点特征放入到图注意力网络进行嵌入得到用户的关系嵌入;将得到的文本特征放入到带有注意力机制的双向循环神经网络进行嵌入得到用户的文本嵌入t;将得到的用户的关系嵌入和的文本嵌入进行拼接得到用户的最终嵌入表示。5.根据权利要求4所述基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,对于给定的社交网络n,将用户看成图的节点u,将用户之间的社交关系看作图的边e,图注意力网络由几个堆叠的图注意层组成,对于第i个图注意层,对每个用户节点j,逐个计算用户节点j和其邻居节点k之间的相似系数户节点j和其邻居节点k之间的相似系数其中,w
i
是应用于每个节点的共享权重矩阵,用于对顶点的特征进行增维,a(
·
)表示非线性激活函数,将向量映射到一个实数上,[
·
||
·
]表示将两个向量进行拼接,和是第i个图注意层的用户节点和其邻居节点的特征向量输入,当i=1时,和为
和然后通过[
·
||
·
]将节点j,k变换后的特征进行拼接,通过a(
·
)将拼接后的高维特征映射到一个实数上;计算完用户所有邻居节点的相似系数后,用softmax进行注意力系数的归一化:根据计算好的注意力系数,特征加权求和得到第i层的用户节点嵌入6.根据权利要求4所述基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,对于给定的用户,将通过得到的文本嵌入输入进一个双向循环神经网络birnn中学习每个单词的隐藏状态h
cl
:::其中gru(
·
)是双向循环社交网络的神经元,控制学习上下文的表示,w
cl
是通过学习得到的单词向量,cl表示用户的第c个发表内容的第l个单词;得到单词的隐藏表示后,引入一个注意层来从birnn层获得隐藏状态的加权和,通过初始化一个上下文向量u
w
来计算第c个发表内容中第l个单词的注意力系数β
cl
:u
cl
=tanh(w
w
·
h
cl
+b
w
)w
w
和b
w
是将每个单词向量映射到一个隐藏空间中的权重矩阵和偏差,通过上述得到的单词隐藏状态h
cl
和注意力系数β
cl
可以得到第c个发表内容的文本向量s
c
:同样地,在发表内容层级上,使用与单词层级相同的模型来推导学习用户发表内容的隐藏表示h
c
:::在得到发表内容的隐藏表示后,引入一个注意层来从birnn层获得隐藏状态的加权和,通过初始化一个上下文向量u
s
来计算用户每个发表内容的注意力系数β
c
:u
c
=tanh(w
u
·
h
c
+b
u
)w
u
和b
u
是将每个发表内容向量映射到一个隐藏空间中的权重矩阵和偏差,通过上述得到的发表内容隐藏状态h
c
和注意力系数β
c
可以得到用户的文本嵌入t:
t=∑
c
β
c
h
c
。7.根据权利要求1所述基于注意力机制的跨社交网络虚拟身份关联方法,其特征在于,多层感知机的第l层输出为:y
l
=relu(w
l
y
l-1
+b
l
)最后输入分类结果:y

=σ(wy
l
+b)其中,y

是分类结果,当y
αβ
=1时则,表示来自不同社交网络平台的用户α和用户β同属于一个自然人,当y
αβ
=0时,则表示来自不同社交网络平台的用户α和用户β不同属于一个自然人。8.基于注意力机制的跨社交网络虚拟身份关联系统,其特征在于,应用于权利要求1-7中任一项所述的基于注意力机制的跨社交网络虚拟身份关联方法,包括特征提取模块、嵌入模块以及身份关联模块;所述特征提取模块,用于提取用户特征,所述用户特征包括节点特征和文本特征;所述节点特征是将用户在结构图中的结构信息转化为向量表示,从而实现对节点特征的提取;所述文本特征是利用词向量模型将用户发表的内容表示为向量,实现对文本的向量化,从而实现对文本特征的提取;所述嵌入模块,用于分别对已经得到的节点特征和文本特征进行关系嵌入和文本嵌入,将所述关系嵌入和文本嵌入相加得到用户的最终嵌入;所述关系嵌入是在给定的社交网络,将用户看成图的节点,将用户之间的社交关系看作图的边,将用户的节点特征放入到图注意力网络中聚合用户的邻居节点特征,得到用户的社交关系嵌入;所述文本嵌入是对于用户自身发表的内容,将文本特征放入一个带有注意力机制的双向循环神经网络得到用户的文本嵌入;所述身份关联模块,将来自不同社交网络平台用户各自的最终嵌入进行拼接后输入到多层感知机中输出分类结果,得到来自不同社交网络平台的两个用户在现实世界中是否是同属于一个自然人的判断。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于注意力机制的跨社交网络虚拟身份关联方法。10.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的基于注意力机制的跨社交网络虚拟身份关联方法。

技术总结
本发明公开了一种基于注意力机制的跨社交网络虚拟身份关联方法及装置,方法包括:首先对用户进行特征提取,然后使用图注意力网络来聚合邻居节点特征作为用户的图向量;然后使用一个分层的语言注意网络来编码每个用户的文本特征,即文本向量;最后将用户的图向量和文本向量相加得到用户的最终表示,通过将来自不同社交网络的两个用户向量拼接输入到MLP中来输出分类结果,判断两个用户是否为同一个人的账户。本发明通过对用户的社交关系和发表内容进行特征提取,利用注意力机制对用户的社交关系和发表内容进行融合,得到更加全面的用户表征,能够解决依赖人工标注、单模态表征能力弱等问题。弱等问题。弱等问题。


技术研发人员:李树栋 陈嘉伟 吴晓波 刘子辰 卢丹娜 黄倩岚 刘文斌
受保护的技术使用者:广州大学
技术研发日:2023.05.17
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐