一种基于推特内容的用户属性预测方法
未命名
10-20
阅读:69
评论:0
1.本发明涉及人工智能推荐系统技术领域,更具体地说,本发明涉及一种基于推特内容的用户属性预测方法。
背景技术:
2.随着互联网发展,以推特(twitter)为代表的社交网络平台凭借其庞大的用户量和可观的流量逐渐成为传播的新内核,人们越来越愿意在社交网络上表达个人对某些事物的看法、态度和情绪,这些数据为用户画像构建奠定了基础。目前,个性化推荐系统在市场营销和电商领域的重要性日益增加,据研究显示,个性化推荐技术可以显著提高电商平台的销售额。例如,在推荐系统中,当电商平台确定用户为女性时,推荐的商品为女性感兴趣的产品,例如化妆品和衣服;当电商平台知道用户的年龄在20岁以下时,推荐的商品是青少年感兴趣的潮流品牌。如果用户喜欢篮球,则向该用户推荐篮球鞋和运动装备等相关商品。用户画像构建是个性化推荐系统成功应用的关键。因此,研究在线社交网络用户画像构建具有重要的应用价值。
3.用户画像包括用户兴趣和基本属性。用户兴趣画像用于描述用户的兴趣特征,而用户基本属性则描述用户的人口统计特征。用户画像建立过程中,用户的基本属性是不可或缺的,例如用户的性别、年龄和职业属性。然而,在社交网络中,用户注册账号时通常不需要提供这些基本属性,因此大多数用户会选择不提供或提供虚假的信息来保护自己的隐私。如果仅使用用户提交的基本属性进行相关计算和研究,会引起严重的偏差,因此准确预测用户的基本属性对于个性化推荐系统和市场营销领域非常重要。
4.随着大数据时代的到来,如何通过用户历史上生成的内容预测用户的性别、年龄和职业等基本属性,进一步挖掘用户的兴趣,建立用户画像,对于实现精准营销和个性化推荐至关重要,成为各大公司的关注焦点。为了应对社交网络中用户基本属性无法确定的问题,本发明提出了基于推特内容的用户属性预测方法。
技术实现要素:
5.为了克服现有技术的上述缺陷,本发明的实施例提供一种基于推特内容的用户属性预测方法,利用在线社交网络中的用户生成内容,预测用户的人口统计学特征,包括用户的性别、年龄、职业信息,利用向量空间模型预测社交网络中用户的基本属性,有助于解决社交网络中虚假账号识别、个性化推荐以及推荐系统冷启动的问题,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:
7.一种基于推特内容的用户属性预测方法,包括如下步骤:
8.步骤s1,构建数据集:将用户所有推特数据拼接形成文本文档,然后将文本文档划分为训练集、验证集和测试集,其中训练集、验证集均包含全部的属性标签;
9.步骤s2,数据处理:对文本进行预处理及数据清洗,过滤掉其中的噪声;
10.步骤s3,文本表示:将用户发布的所有推文融合在一起作为文本文档,结合时序信息进行顺序排列,采用向量空间模型进行文本表示,并将文本表示作为文本分类器的输入;
11.步骤s4,构建文本分类器:使用训练集中的类别标签训练机器学习中的支持向量机分类算法,获取最优分类器,使用验证集中的类别标签验证模型的性能,对分类器模型进行评估和优化,使用测试集预测已经训练好的分类器模型;
12.步骤s5,使用分类器进行属性补全。
13.作为本发明进一步的方案,在步骤s1中,用户所有推特数据为用户的推特属性,用户的推特属性包括文本数据、基本属性信息和社会网络属性。
14.作为本发明进一步的方案,基本属性信息包括姓名、别名、性别、国籍、民族、年龄、出生日期、出生地、所在州,学历、毕业院校、所学专业、职业、工作地以及职位这些结构化的用户特征。
15.作为本发明进一步的方案,社会网络属性包括账户id、账户名、主页链接、ip归属地、账号创建时间、关注用户量、粉丝量、发布帖文数、转发数、发帖频率、发帖设备、自我简介、兴趣爱好、性格估测、活跃领域、所属网络群体、参与热点议题、关注话题、交互账号、所处社交网络圈层结构、粉丝群体、关注群体、关注的kol(key opinion leader,关键意见领袖)、关注的媒体。
16.作为本发明进一步的方案,在步骤s2中,原始文本特征中包含的噪声来自推特内容中的添加“@”其他用户、表情符和url地址,使用正则表达式的方式去除文本中的此类噪音。
17.作为本发明进一步的方案,在步骤s3中,向量空间模型将文档表示为文档向量,文档向量中每一个分量表示该文档中特征次的权重,对于每个类别均采用chi进行特征提取,选择能够代表该类别的特征词,再采用频率
–
逆文档频率术(term frequency
–
inverse document frequency)计算特征词的权重,对每个预测任务进行特征提取和特征值计算,并构建特征词典,使用特征词典对每个预测任务进行用户建模,从而构建推特用户的向量空间模型,用户的表示公式为:
18.u=k1,w1;k2,w2,
…
,kn,wn19.其中,u为用户的表示,k为特征词,w为该特征词的权重,n为特征词的数量。
20.作为本发明进一步的方案,在步骤s3中,针对每个预测任务进行特征提取和特征值计算,构建特征词典,使用特征词典对每个预测任务进行用户建模,构建推特用户的向量空间模型,预测用户的性别、年龄和职业标签。
21.作为本发明进一步的方案,在步骤s3中,将文本信息按照时间顺序排列,以生成发文流,在推特的实际场景中,存在绝对发文时间和相对发文时间两种时间模式,绝对发文时间为具体的时、分、秒,相对发文时间为指定时长前的时间戳,利用当前时间戳减去指定相对时间戳,将相对发文时间转换为绝对发文时间。
22.本发明一种基于推特内容的用户属性预测方法的技术效果和优点:
23.本发明利用在线社交网络中的用户生成内容,预测用户的人口统计学特征,包括用户的性别、年龄、职业信息,缓解传统基本属性预测方法的特征稀疏问题,预测社交网络中用户的基本属性,有助于解决社交网络中虚假账号识别、个性化推荐以及推荐系统冷启动方面的问题,旨在满足基于社交网络的用户画像构建与应用等核心算法的需求,结合了
推特文本内容和时间信息进行用户属性预测,解决了用户基本属性难以确定的问题,能够根据需要加入更多的特征和算法进行优化和扩展,从而提高预测的准确性和实用性。
附图说明
24.图1为本发明一种基于推特内容的用户属性预测方法流程图;
25.图2为本发明一种基于推特内容的用户属性预测方法所涉及结构示意图。
具体实施方式
26.下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的内容仅仅是本发明一部分,而不是全部。基于本发明中的内容,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他方案,都属于本发明保护的范围。
27.如图1所示,本发明提出的一种基于推特内容的用户属性预测方法具体包括如下步骤:
28.步骤s1,构建数据集:将用户所有推特数据拼接形成文本文档,然后将文本文档划分为训练集、验证集和测试集,其中训练集、验证集均包含全部的属性标签;
29.步骤s2,数据处理:对文本进行预处理及数据清洗,过滤掉其中的噪声;
30.步骤s3,文本表示:将用户发布的所有推文融合在一起作为文本文档,结合时序信息进行顺序排列,采用向量空间模型进行文本表示,并将文本表示作为文本分类器的输入;
31.步骤s4,构建文本分类器:使用训练集中的类别标签训练机器学习中的支持向量机分类算法,获取最优分类器,使用验证集中的类别标签验证模型的性能,对分类器模型进行评估和优化,使用测试集预测已经训练好的分类器模型;
32.步骤s5,使用分类器进行属性补全。
33.本发明利用在线社交网络中的用户生成内容,预测用户的人口统计学特征,包括用户的性别、年龄、职业信息,缓解传统基本属性预测方法的特征稀疏问题,预测社交网络中用户的基本属性,有助于解决社交网络中虚假账号识别、个性化推荐以及推荐系统冷启动方面的问题;
34.本发明旨在满足基于社交网络的用户画像构建与应用等核心算法的需求,结合了社会科学理论,解决了用户基本属性难以确定的问题。
35.作为本发明进一步的方案,在步骤s1中,用户所有推特数据为用户的推特属性,用户的推特属性包括文本数据、基本属性信息和社会网络属性。
36.需要说明的是,本发明以推特用户为研究对象,通过推特用户生成的内容,包括文本数据、结构化的用户特征和社交网络属性,能够预测用户的人口统计学特征,如性别、年龄和职业属性。用户在推特上产生的数据大部分为文本数据,因此能够将问题转换为机器学习中的文本分类问题。
37.作为本发明进一步的方案,基本属性信息包括姓名、别名、性别、国籍、民族、年龄、出生日期、出生地、所在州,学历、毕业院校、所学专业、职业、工作地以及职位这些结构化的用户特征。
38.作为本发明进一步的方案,社会网络属性包括账户id、账户名、主页链接、ip归属
地、账号创建时间、关注用户量、粉丝量、发布帖文数、转发数、发帖频率、发帖设备、自我简介、兴趣爱好、性格估测、活跃领域、所属网络群体、参与热点议题、关注话题、交互账号、所处社交网络圈层结构、粉丝群体、关注群体、关注的kol(key opinion leader,关键意见领袖)、关注的媒体。
39.需要说明的是,将文本文档划分为训练集、验证集和测试集,其中训练集、验证集都有含有全部的属性标签的。然后,通过对文本文档进行文本表示后,分类算法拟合训练集数据得到分类器。最终,利用已经训练好的分类器来预测测试集中文档的标签,即用户的基本属性,并对预测结果的准确度进行评估。
40.为了预测在线社交网络用户的基本属性,本发明采用机器学习中的文本分类方法。关键技术包括文本预处理、特征提取、文本表示以及分类技术。推特具有开放性特征,用户能够按照自己的喜好发布推文,并且在推特内容里能够添加“@”其他用户、表情符和url地址。直接对原始文本特征提取会带来大量噪声,对实验结果产生较大影响。因此,需要对推特文本进行预处理,过滤掉其中的噪声。
41.作为本发明进一步的方案,在步骤s2中,原始文本特征中包含的噪声来自推特内容中的添加“@”其他用户、表情符和url地址,使用正则表达式的方式去除文本中的此类噪音。
42.具体地,用户在社交网络中转发别人的推文,这样在推特文本中就会出现@xxx类型的标识,与此同时,用户若在推文中提醒其他用户也会出现@xxx标识,本发明通过正则表达式的方式去除文本中的此类噪音;在推特文本中经常会出现url,这里的url不会包含任何有用的信息,其是作为推特内容的一个补充,链接到其他网站的一个入口,因此,需要将其过滤,在推文中,url地址以http开头,因此使用正则表达式的方式过滤此类噪音;推特文本通常包含表情符,这些符号能够反映用户发布推特时的心情和态度,但是,表情符也会引入很多噪音,例如,用户有时会使用相反意义的表情符表示情感,这对计算机的理解是具有挑战性的,因此,为了减少噪声的影响,本文选择使用正则表达式来过滤推特中的表情符。
43.作为本发明进一步的方案,在对该文本文档进行中文简单处理后,在步骤s3中,向量空间模型将文档表示为文档向量,文档向量中每一个分量表示该文档中特征次的权重,对于每个类别均采用chi进行特征提取,选择能够代表该类别的特征词,再采用频率
–
逆文档频率术(term frequency
–
inverse document frequency)计算特征词的权重,对每个预测任务进行特征提取和特征值计算,并构建特征词典,使用特征词典对每个预测任务进行用户建模,从而构建推特用户的向量空间模型,用户的表示公式为:
44.u=k1,w1;k2,w2,
…
,kn,wn45.其中,u为用户的表示,k为特征词,w为该特征词的权重,n为特征词的数量。
46.进一步地,在步骤s3中,将文本信息按照时间顺序排列,以生成发文流,在推特的实际场景中,存在绝对发文时间和相对发文时间两种时间模式,绝对发文时间为具体的时、分、秒,相对发文时间为指定时长前的时间戳,利用当前时间戳减去指定相对时间戳,将相对发文时间转换为绝对发文时间。
47.需要说明的是,收集到的原始用户信息缺乏时序信息,然而,本发明的目标是将这些文本信息按照发文时间顺序进行排列,以生成一个发文流,这样前面的推特内容发文时间是早于后面的推特发文的,然而,在推特的实际场景中,存在两种常见的时间模式:绝对
发文时间和相对发文时间。绝对发文时间是指具体的时、分、秒,而相对发文时间则表示几分钟之前的时间戳。为了将相对发文时间转换为绝对发文时间,用当前时间戳减去相对时间戳,得到最终的绝对时间戳,当推特的相对发文时间戳为5分钟前,当前时间是12:00pm,通过将当前时间搓减去5分钟的时间间隔来计算该推特的绝对发文时间搓,即11:55am。
48.具体地,在vsm模型中,使用one-hot模型表示文本是常见的方法。通过提取特征词形成特征词典,文本向量表示为只有0和1组成的向量,其中1表示文本中出现该特征词,0表示文本中未出现该特征词。这种模型具有简单高效的特点,但也存在模型表达能力弱、向量稀疏以及忽略高频词等缺点。本发明旨在预测用户的性别、年龄和职业标签,因此需要针对每个预测任务进行特征提取和特征值计算,并构建特征词典。使用特征词典对每个预测任务进行用户建模,从而构建推特用户的向量空间模型。
49.进一步地,对于时序特征表示,获得vsm向量化的文本特征具有两个明显特点,首先,每个用户的发文数量不统一,这导致向量化的文本特征长度不固定,其次,每个用户的发文特征在时间上前后具有很强的依赖关系,为了更好地捕捉前后文本内容之间的关系,本发明采用了循环神经网络(rnn)来建模这个序列文本,然而,考虑到推特文本前后具有很强的相关性,仅使用单向的rnn无法充分捕捉后发文的内容对前发文内容的影响,因此,本文提出了双向rnn的概念,以同时建模这种双向信息流。
50.双向rnn由两个独立的rnn组成,一个按照时间顺序正向处理输入序列,而另一个按照时间逆序进行处理,正向rnn对当前时刻的输入状态进行建模,而逆向rnn则对当前时刻之后的输入状态进行建模,通过将两个rnn的输出进行连接,本发明获得一个综合的特征表示,其中既包含了过去的上下文信息,又包含了未来的上下文信息,这可以更好地捕捉到文本序列中的长期依赖关系和语境信息,使得模型能够更全面地理解和编码用户发文的内容,通过学习前后文本之间的关联性,能够更准确地预测用户的发文趋势和行为模式。
51.最后,双向学习得到正向rnn网络和反向rnn网络最后一个时间步的输出向量h
l
和hr,然后将这两个向量进行拼接,得到用户发文的特征向量h。
52.需要说明的是,本发明基于在线社交网络中的用户生成内容预测用户某些基本属性,本质上是机器学习中的文本分类任务,关键技术包括文本预处理、文本特征提取、文本表示以及文本分类技术,本文将一个用户发布的所有推文融合在一起视为一个文本文档,因此,用户建模问题就转化为推特文本文档表示的问题,本发明采用基于时序信息的向量空间模型的文本表示方法,然后将这种方法获取的预测结果作为文本分类器输入。
53.作为本发明进一步的方案,在步骤s3中,在步骤s3中,将文本信息按照时间顺序排列,以生成发文流,在推特的实际场景中,存在绝对发文时间和相对发文时间两种时间模式,绝对发文时间为具体的时、分、秒,相对发文时间为指定时长前的时间戳,利用当前时间戳减去指定相对时间戳,将相对发文时间转换为绝对发文时间。
54.具体地,向量空间模型是由salton等在20世纪70年代提出的一种文档表示模型,该模型将文档表示为一个向量,向量中每一个分量表示该文档中特征词的权重,实现向量空间模型的关键是文档特征词的提取和特征词权重的计算。
55.在vsm模型中,使用one-hot模型表示文本是常见的方法,通过提取特征词形成特征词典,文本向量表示为只有0和1组成的向量,其中1表示文本中出现该特征词,0表示文本中未出现该特征词,这种模型具有简单高效的特点,但也存在模型表达能力弱、向量稀疏以
及忽略高频词的缺点。
56.在进行文本分类器构建时,使用文本表示将每个用户表示为文本文档,并使用训练集中的类别标签来训练机器学习中的分类算法,以得到最优分类器。这样,能够预测测试集中的用户类别标签,从而获得用户的基本属性。本发明使用的文本分类算法是支持向量机(svm)。svm是一种分类算法,通过最小化结构化风险来提高学习器的泛化能力,实现经验风险和置信范围的最小化。即使训练样本数量较少,svm算法也能够很好地反映真实数据分布并得到泛化能力较好的分类器。svm本质上是一种二类分类模型,其基本模型定义为在特征空间上间隔最大的线性分类器。支持向量机的学习策略是最大化间隔,最终转化为一个凸一次规划问题来求解。
57.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
58.最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于推特内容的用户属性预测方法,其特征在于,包括如下步骤:步骤s1,构建数据集:将用户所有推特数据拼接形成文本文档,然后将文本文档划分为训练集、验证集和测试集,其中训练集、验证集均包含全部的属性标签;步骤s2,数据处理:对文本进行预处理及数据清洗,过滤掉其中的噪音;步骤s3,文本表示:将用户发布的所有推文融合在一起作为文本文档,结合时序信息进行顺序排列,采用向量空间模型行文本表示,并将文本表示作为文本分类器的输入;步骤s4,构建文本分类器:使用训练集中的类别标签训练机器学习中的支持向量机分类算法,获取最优分类器,使用验证集中的类别标签验证模型的性能,对分类器模型进行评估和优化,使用测试集预测已经训练好的分类器模型;步骤s5,使用分类器进行属性补全。2.根据权利要求1所述的一种基于推特内容的用户属性预测方法,其特征在于,在步骤s1中,用户所有推特数据为用户的推特属性,用户的推特属性包括文本数据、基本属性信息和社会网络属性。3.根据权利要求2所述的一种基于推特内容的用户属性预测方法,其特征在于,基本属性信息包括姓名、别名、性别、国籍、民族、年龄、出生日期、出生地、所在州,学历、毕业院校、所学专业、职业、工作地以及职位这些结构化的用户特征。4.根据权利要求1所述的一种基于推特内容的用户属性预测方法,其特征在于,社会网络属性包括账户id、账户名、主页链接、ip归属地、账号创建时间、关注用户量、粉丝量、发布帖文数、转发数、发帖频率、发帖设备、自我简介、兴趣爱好、性格估测、活跃领域、所属网络群体、参与热点议题、关注话题、交互账号、所处社交网络圈层结构、粉丝群体、关注群体、关注的kol(key opinion leader,关键意见领袖)、关注的媒体。5.根据权利要求1所述的一种基于推特内容的用户属性预测方法,其特征在于,在步骤s2中,原始文本特征中包含的噪声来自推特内容中的添加“@”其他用户、表情符和url地址,使用正则表达式的方式去除文本中的此类噪音。6.根据权利要求1所述的一种基于推特内容的用户属性预测方法,其特征在于,在步骤s3中,向量空间模型将用户发布的所有推文组合在一起并按照时序信息排列,将文档表示为文档向量,文档向量中每一个分量表示该文档中特征次的权重,对于每个类别均采用chi进行特征提取,选择能够代表该类别的特征词,再采用频率
–
逆文档频率术(term frequency
–
inverse document frequency)计算特征词的权重,对每个预测任务进行特征提取和特征值计算,并构建特征词典,使用特征词典对每个预测任务进行用户建模,从而构建推特用户的向量空间模型,用户的表示公式为:u=k1,w1;k2,w2,
…
,k
n
,w
n
其中,u为用户的表示,k为特征词,w为该特征词的权重,n为特征词的数量。7.根据权利要求1所述的一种基于推特内容的用户属性预测方法,其特征在于,在步骤s3中,针对每个预测任务进行特征提取和特征值计算,构建特征词典,使用特征词典对每个预测任务进行用户建模,构建推特用户的向量空间模型,预测用户的性别、年龄和职业标签。8.根据权利要求1所述的一种基于推特内容的用户属性预测方法,其特征在于,在步骤s3中,将文本信息按照时间顺序排列,以生成发文流,在推特的实际场景中,存在绝对发文
时间和相对发文时间两种时间模式,绝对发文时间为具体的时、分、秒,相对发文时间为指定时长前的时间戳,利用当前时间戳减去指定相对时间戳,将相对发文时间转换为绝对发文时间。
技术总结
本发明涉及人工智能推荐系统技术领域,具体公开了一种基于推特内容的用户属性预测方法,包括构建数据集、进行数据预处理和数据清洗、利用基于时序信息的向量空间模型进行用户建模、训练分类器、测试集测试训练好的分类器性能并利用验证集优化模型性能、进行用户属性补全;本发明利用在线社交网络中的用户生成内容,预测用户的人口统计学特征,包括用户的性别、年龄、职业信息,缓解传统基本属性预测方法的特征稀疏问题,预测社交网络中用户的基本属性,有助于解决社交网络中虚假账号识别、个性化推荐以及推荐系统冷启动等方面的问题。化推荐以及推荐系统冷启动等方面的问题。化推荐以及推荐系统冷启动等方面的问题。
技术研发人员:樊静 郭玮 陈伟 方楚喻 李亦非 庄福振
受保护的技术使用者:北京航空航天大学
技术研发日:2023.07.18
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种冷冻消融装置的制作方法 下一篇:一种塑封防过热压边封口机的制作方法