基于睡眠质量的大五人格检测方法及装置
未命名
10-26
阅读:96
评论:0
1.本技术涉及自然语言处理技术领域,特别是涉及一种基于睡眠质量的大五人格检测方法及装置。
背景技术:
2.随着互联网的发展,社交网络已经成为人与人之间进行快速交流的桥梁,在社交平台上,用户不仅能够方便地与其他用户进行交流,浏览感兴趣的最新资讯,同时也可以随时随地发布原创内容。在大数据时代,针对社交平台中的用户数据进行分析,对提升用户体验有着极大帮助。例如,根据社交平台中的用户数据建立用户画像,从而基于用户画像进行精准推荐。
3.用户画像的建立需要用户各个维度的数据,其中通常需要获取用户的性格偏好信息。用户的性格偏好信息可以从用户的大五人格中获取。大五人格模型(the five factors model , ffm)是当前刻画人格特征的重要模型之一,它将人格描述为由五种特质构成:神经质、外倾性、开放性、宜人性、尽责性。传统的方式获取大五人格是通过自我报告问卷的形式,通过针对性的问卷能够获取准确的大五人格结果,但这种方式成本较高,难以大规模进行,不适用于互联网中庞大的用户群。目前利用社交网络进行的人格研究,主要是对社交文本内容进行分析,但是这种方式相比于自我报告问卷来说,由于用户发布的文本内容涉及范围广泛且缺乏针对性,从中获取的有效信息比较分散,可能出现有效信息不足导致大五人格检测结果不够准确。
技术实现要素:
4.有鉴于此,本技术旨在提出一种基于睡眠质量的大五人格检测方法及装置,以提高大五人格检测结果的准确性。
5.为达到上述目的,本技术的技术方案如下:本技术实施例第一方面提供基于睡眠质量的大五人格检测方法,所述方法包括:从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。
6.可选地,基于所述第一数据集训练睡眠子模型,包括:通过关键词、用户名及关联话题,对获取到的第一数据集进行数据清洗,去掉所述
文本数据中的噪音数据;从所述第一数据集中抽取部分文本数据并进行交叉标注,所述标注的内容包括:所述文本数据是否与睡眠相关,及所述文本数据是否存在睡眠问题;将交叉标注结果一致的文本数据的集合作为第一训练样本集;使用所述第一训练样本集训练所述睡眠子模型。
7.可选地,在使用所述第一训练样本集训练所述睡眠子模型之前,还包括:对所述第一训练样本集进行数据增强。
8.可选地,使用所述第一训练样本集训练所述睡眠子模型,包括:构建睡眠子模型,包括:bert词嵌入层及输出层;所述bert词嵌入层用于将文本数据转换为词嵌入向量;所述分类输出层为全连接神经网络,用于输出分类结果;所述分类结果包括:所述文本数据是否与睡眠相关及所述文本数据是否存在睡眠问题;对所述第一训练样本集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;使用拆分后的第一训练数据集训练睡眠子模型,通过计算准确率、精确率、召回率及f1值对所述睡眠子模型进行评估。
9.可选地,通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集,包括:通过问卷调查筛选出合格的被试人员,生成所述第一用户集,获取所述第一用户集中所有人的问卷调查结果;所述问卷调查结果包括社交账户信息及大五人格的测试得分;对所述第一用户集中所有人的大五人格的测试得分进行归一化处理;根据所述第一用户集中每个人的社交账户信息,从所述社交平台获取所述对应的文本数据,并对所述文本数据进行数据清洗;根据所有数据清洗后的文本数据及与归一化处理的大五人格的测试得分,生成所述第二数据集。
10.可选地,基于所述第二数据集训练人格检测子模型,包括:构建基于线性回归的人格检测子模型,所述人格检测子模型包括bert词嵌入层、lstm层、注意力层及输出层;对所述第二数据集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;将拆分后的文本数据作为所述人格检测子模型的输入,将所述文本数据对应的用户的问卷调查结果中的大五人格的测试得分作为所述人格检测子模型的目标输出,训练所述人格检测子模型。
11.可选地,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果,包括:将训练完成的睡眠子模型及训练完成的人格检测子模型接入全连接层,生成大五人格检测模型;将所述睡眠子模型输出的结果及所述人格检测子模型输出的结果输入所述全连接层,获得所述用户的大五人格的最终结果。
12.根据本技术实施例的第二方面,提供一种睡眠类产品的推荐方法,所述方法包括:获取预设时间段内,社交平台中用户的文本数据集合;将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为根据本技术实施例第一方面所述的方法构建的;判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则对所述用户推荐所述睡眠类产品。
13.根据本技术实施例的第三方面,提供一种基于睡眠质量的大五人格检测装置,用于实现本技术实施例的第一方面所提供的基于睡眠质量的大五人格检测方法,所述装置包括:第一训练子模块,用于从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;第二样本生成子模块,用于通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;第二训练子模块,用于基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;综合评估模块,用于基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。
14.根据本技术实施例的第四方面,提供睡眠类产品的推荐装置,用于实现本技术实施例的第二方面所提供的睡眠类产品的推荐方法,所述装置包括:用户数据获取模块,用于获取预设时间段内,社交平台中用户的文本数据集合;大五人格检测模块,用于将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为为根据本技术实施例第一方面所述的方法构建的;判断模块,用于判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则对所述用户推荐所述睡眠类产品。
15.本技术所提供的基于睡眠质量的大五人格检测方法,从社交平台中获取用户的公开文本数据并训练睡眠子模型,通过问卷调查获取第二数据集,并通过第二数据集训练人格检测子模型,获取用户的大五人格的初始结果。根据两个训练好的子模型构建大五人格检测模型,通过大五人格检测模型获取用户的大五人格的最终结果。采用本技术提供的基于睡眠质量的大五人格检测方法,将对用户的睡眠质量作为确定用户的大五人格的最终结果的影响因素,提升获取的大五人格的检测结果的准确性,在此基础上构建用户画像,能够使用户画像更准确。
附图说明
16.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图
获得其他的附图。
17.图1是本技术一实施例提出的基于睡眠质量的大五人格检测方法的流程图;图2是本技术一实施例提出的睡眠类产品的推荐方法的流程图;图3是本技术一实施例提出的大五人格检测模型的示意图;图4是本技术一实施例提出的大五人格检测模型中注意力层的功能流程图。
具体实施方式
18.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
19.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
20.在本技术的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
21.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
22.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
23.大五人格模型将人格描述为五种特质构成:(1)神经质(neuroticism, n)反映个体情绪的稳定性以及是否经常体验消极情绪,高神经质的个体具有敌对、压抑、脆弱、易焦虑等特点;(2)外倾性(extraversion, e)反映个体社交及体验到积极情绪的倾向,高外倾性的个体具有好客、乐群、独断、活跃、寻求刺激等特点;(3)开放性(openness, o)反映个体的创造性及好奇心,高开放性的个体具有求异、创新、思辨、果断、冒险、追求挑战等特点;(4)宜人性(agreeableness, a)反映个体的合作与利他,高宜人性的个体具有谦逊、柔和、仁厚、坦诚、顺从等特点;(5)尽责性(conscientiousness, c)反映个体的自律和规范,高尽责性的个体具有负责、公平、条理、谨慎等特点。
24.已有研究表明,大五人格是个体间睡眠质量差异的一个重要影响因素,其中神经质是负向预测睡眠质量最稳定的特质,高神经质的个体更倾向于拥有睡眠困难的元认知信念、产生更多的消极情绪以及更少的积极情绪并更容易处于过度觉醒的状态,从而使睡眠质量变差;高尽责性和高外倾性的个体拥有更好的心理和生理健康和压力情境下更少的消
极情绪,这些特质倾向于拥有好的睡眠质量;宜人性与开放性与更少的消极情绪相关。鉴于以上研究结果,本技术中将对用户的睡眠质量检测纳入大五人格检测中,作为确定大五人格的最终结果的重要因素,从而提升大五人格检测结果的准确性。
25.下面将参考附图并结合实施例来详细说明本技术。
26.图1是本技术一实施例提出的基于睡眠质量的大五人格检测方法的流程图。如图1所示,该方法包括:s11:从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;s12:通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;s13:基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;s14:基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。
27.本实施例中,通过训练睡眠子模型,检测用户在社交平台发布的公开文本,从而判断该文本对应的用户是否存在睡眠问题,具体地,睡眠子模型对文本数据进行判断是否与睡眠相关,若与睡眠相关则进一步确定睡眠质量的高低,判断是否存在睡眠问题。基于问卷调查的结果筛选出第一用户集,根据第一用户集确定对应的社交平台的文本数据集,即第二数据集,通过第二数据集训练人格检子模型,检测用户的大五人格的初始结果。基于训练好的睡眠子模型和人格检测子模型构建大五人格检测模型。在检测用户的大五人格时,将用户的社交平台文本数据输入该大五人格检测模型中,获得该用户的精确的大五人格的最终结果。
28.本实施例通过将睡眠检测子模型与人格检测子模型进行结合,增加大五人格检测过程中的重要影响因素(即睡眠问题),从而提高大五人格检测结果的准确性。
29.可选地,基于所述第一数据集训练睡眠子模型,包括:通过关键词、用户名及关联话题,对获取到的第一数据集进行数据清洗,去掉所述文本数据中的噪音数据;从所述第一数据集中抽取部分文本数据并进行交叉标注,所述标注的内容包括:所述文本数据是否与睡眠相关,及所述文本数据是否存在睡眠问题;将交叉标注结果一致的文本数据的集合作为第一训练样本集;使用所述第一训练样本集训练所述睡眠子模型。
30.本实施例中,以微博平台为例进行说明。通过睡眠相关关键词,从微博平台抓取与一段时间内与睡眠相关的微博,作为第一数据集。本实施例中,抓取文本数据的时间段可根据实际需要的文本数量进行设置,本实施例中对此不作限制。本实施例中,睡眠相关关键词是预先确定的,包括“睡眠”、“失眠”、“熬夜”、“多梦”等15个睡眠关键词,具体见表1。由于通过关键词抓取到的第一数据集中存在大量噪音数据,如广告、营销号和明星打榜等,因此需要对第一数据集进行数据清洗,去除其中的无效数据,清洗后的第一数据集见表1。
31.表1
32.从清洗后的第一数据集中随机抽取部分文本数据,通过多个专业人员对该部分文本数据进行交叉标注,标注内容包括:“是否与睡眠相关”、“是否存在睡眠问题”、“睡眠问题的原因”、“睡眠问题的表现”等。采用交叉标注结果一致的文本数据的集合作为第一训练样本集。后续将使用第一训练样本集训练睡眠子模型。
33.可选地,在使用所述第一训练样本集训练所述睡眠子模型之前,还包括:对所述第一训练样本集进行数据增强。
34.在一种实施例中,为了使训练的睡眠子模型能够对未出现与睡眠相关关键词的文本数据进行准确判断,在使用第一训练样本集训练睡眠子模型之前,对第一训练样本集进行数据增强处理。
35.例如,在训练睡眠子模型识别“文本数据是否与睡眠相关”时,为了使样本量均衡,向第一训练样本集中添加了一定数量的“不包括睡眠相关关键词且与睡眠无关的”普通微博,以提高睡眠子模型对“与睡眠无关”的微博的识别能力。在训练睡眠子模型识别“文本数据是否存在睡眠问题”时,由于原筛选得到的第一训练样本集中没有睡眠问题的微博数量较少,因此采用了回译的方式,将文本翻译为外文,通过多次外文翻译转换再翻译回中文,添加到第一训练样本集中,对“与睡眠相关但不存在睡眠问题”的训练数据进行了数据增强。
36.本实施例中,通过对第一训练样本集进行数据增强处理,使第一训练样本集中各类型数据更加均衡,在此基础上训练睡眠子模型,以提高睡眠子模型的识别性能。
37.可选地,使用所述第一训练样本集训练所述睡眠子模型,包括:构建睡眠子模型,包括:bert词嵌入层及输出层;所述bert词嵌入层用于将文本数据转换为词嵌入向量;所述分类输出层为全连接神经网络,用于输出分类结果;所述分类结果包括:所述文本数据是否与睡眠相关及所述文本数据是否存在睡眠问题;对所述第一训练样本集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;使用拆分后的第一训练样本集训练睡眠子模型,通过计算准确率、精确率、召回率及f1值对所述睡眠子模型进行评估。
38.本实施例中,睡眠子模型包括bert词嵌入层、lstm层、注意力层和输出层,其中输出层为全连接神经网络构建的分类器。
39.图3是本技术一实施例提出的大五人格检测模型的示意图。图3中左上部分为大五人格检测模型的睡眠评估模块,图3中右上部分为大五人格检测模型的人格语义评估模块,图3下部为大五人格检测模型的综合评估模块。本实施例中,睡眠评估模块即睡眠子模型,人格语义评估模块即人格检测子模型,综合评估模块由全连接层构成。其中,睡眠子模型对文本数据进行检测的流程如下:(1)文本数据输入bert词嵌入层,结合上下文建立起词与词之间的语义关系,bert词嵌入层将文本数据中的每个词转换为词嵌入向量。
40.出于对计算效率的考虑,将微博文本按照句子进行拆分,将文本数据通过句子的形式输入到预训练的bert中文模型。受限于bert词嵌入层的输入最大字符长度为512字符,因此对于字符长度超过512的句子,将其超过512字符的部分进行截断,分开输入bert词嵌入层中,通过“先分割后融合”得到该条文本的词嵌入表示。本实施例中采用512字符作为第一阈值,在实际应用中,也可对第一阈值进行自定义设置。
41.本实施例中,为了在模型训练过程中将单个用户的微博合并在一起进行训练,同时抵消部分由于每个用户微博数量不平等带来的影响,选取每个用户的前100条微博的词嵌入用于后续训练,对于微博条数不到100的用户,缺失的部分用0向量进行填充,最终将得到的bert词嵌入转化为336*100*768的三维矩阵数据。
42.(2)将词嵌入向量输入lstm(long short-term memory,长短期记忆)层,并将lstm层处理后得到的特征值输出到注意力层。
43.(3)在注意力层引入注意力机制,对当前微博文本体现出的与睡眠质量相关语义信息重点关注,对句向量的不同成份进行注意力分配和学习,从而提升分类准确度。
44.(4)注意力层处理后特征输入全连接神经网络中,得到对当前微博的睡眠质量进行评估,评估结果包括:是否与睡眠相关以及是否存在睡眠问题。例如,评估结果为:睡眠质量好、睡眠质量差或与睡眠无关。
45.本实施例中,将第一训练样本集按照8:1:1进行划分,使用80%的数据训练模型,10%数据用来验证模型,10%数据用来测试模型,并采用准确率(accuracy)、精确率(precision,p)、召回率(recall,r)和f1值作为睡眠子模型检测效果的指标,指标具体计算方式见表2,其中指标数值越大模型效果越好。
46.表2
47.表2中tp为实际与预测都为正(例如,与睡眠相关)的数量,tn为实际与预测都为负(例如,与睡眠无关)的数量,fn为实际是正而被预测为负的数量,fp为实际是负而被预测为正的数量。
48.可选地,通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集,包括:通过问卷调查筛选出合格的被试人员,生成所述第一用户集,获取所述第一用户集中所有人的问卷调查结果;所述问卷调查结果包括社交账户信息及大五人格的测试得分;对所述第一用户集中所有人的大五人格的测试得分进行归一化处理;根据所述第一用户集中每个人的社交账户信息,从所述社交平台获取所述对应的文本数据,并对所述文本数据进行数据清洗;根据所有数据清洗后的文本数据及与归一化处理的大五人格的测试得分,生成所述第二数据集。
49.本实施例中,通过问卷调查的方式获取第一用户集。由于问卷调查可能会回收到无效问卷,因此需要对回收的问卷中不合格的部分进行筛除,具体地,需要筛除的不合格被试人员包括:(1)未通过测谎题的被试人员;(2)非活跃的微博用户(原创微博小于5条);(3)微博id不存在或者为营销号的被试人员。
50.基于筛选后的所有剩余被试人员生成第一用户集,获取第一用户集中所有人的问卷信息。本实施例中,问卷的调查内容包括微博用户基本信息及中文大五人格量表。其中,微博用户基本信息包括年龄、性别、户籍、职业、微博使用情况、微博昵称、微博用户id等,大五人格量表为基于原版大五人格量表进行2简化后的中文自陈式量表,包括5个维度(开放性、尽责性、外倾性、宜人性和神经质),每个维度包括3各项目。本实施例中,取每个维度的总分为被试人员的大五人格的测试得分。
51.对被试人员的大五人格的测试得分进行归一化处理,具体地,将每个维度的测试得分按照“(测试得分-该维度最小分值)/全距”的方式转化为0-1之间的数值。本实施例中,对大五人格的测试得分进行归一化可以提高大五人格检测模型训练的训练速度和收敛性,并帮助模型处理数据的稀疏性和异常值,使训练完成的大五人格检测模型更加稳定。本实
施例中,根据测试得分的具体数值,判断每个维度的得分为高或低。在实际应用中,得分高低的判定界限可按需进行设置,本技术中对此不做限制。
52.通过被试人员在问卷中提供的微博id,获取第一用户集中所有被试人员的原创微博文。由于用户的原创微博可能存在内容重复、表达内容相似等问题,因此还需要进行数据清洗。将清洗后的第一用户集中所有被试人员的原创微博文本数据和从问卷中得到的大五人格的测试得分作为第二数据集,用于训练人格检测子模型。
53.可选地,基于所述第二数据集训练人格检测子模型,包括:构建基于线性回归的人格检测子模型,所述人格检测子模型包括bert词嵌入层、lstm层、注意力层及输出层;对所述第二数据集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;将拆分后的文本数据作为所述人格检测子模型的输入,将所述文本数据对应的用户的问卷调查结果中的大五人格的测试得分作为所述人格检测子模型的目标输出,训练所述人格检测子模型。
54.图3中右上部分为本实施例提供的人格检测子模型,该人格检测子模型包括bert词嵌入层、lstm层、注意力层及输出层。本实施例中,对于当前用户,将人格作为特质变量进行测量,并假定其在观测区间内不变,对其所有微博进行合并后再进行检测。
55.人格检测子模型对文本数据的处理流程如下:(1)将用户(被试人员)的所有微博文本进行合并,并按句进行拆分,输入bert词嵌入层中,获取词嵌入向量。在本实施例中,受限于bert词嵌入层的输入最大字符长度为512字符,因此对于字符长度超过512的句子,将其超过512字符的部分进行截断,分开输入bert词嵌入层中,通过“先分割后融合”得到该条文本的词嵌入表示。此步骤中,bert词嵌入层对文本数据的抽取方式与睡眠子模型中bert词嵌入层对文本数据进行抽取的方式相同。为了在模型训练过程中将单个用户的微博合并在一起进行训练,同时抵消部分由于每个用户微博数量不平等带来的影响,因此同一选取每个用户的前100条微博的词嵌入用于后续训练,对于微博条数不到100的用户,缺失的部分用0向量进行填充,最终将得到的bert词嵌入转化为336*100*768的三维矩阵数据。
56.(2)按照单个用户为单位,将每个用户的100条*768句文本的词嵌入向量作为输入的局部文本特征,输入lstm层中。lstm层可以有效避免梯度爆炸或消失的问题,并对微博文本的上下文特征进行综合考虑。
57.(3)在注意力层引入注意力机制,对当前的文本数据体现出的与人格相关的语义信息进行重点关注,对句向量的不同成份进行注意力分配和学习,从而提升分类准确度。
58.(4)将注意力层的输出结果输入分类输出层,通过线性回归对注意力层输出的计算值进行转换,输出人格五个维度的语义得分向量。
59.本实施例中,以问卷分数作为目标输出,模型预测分数作为预测值,通过计算两个值之间的皮尔逊相关系数(pearson’s correlation coefficient, pcc)作为评估人格检测子模型的效度,pcc越大模型效果越好。
60.在一种实施例中,也可以将均方根误差作为评估该人格检测子模型的指标,均方根误差越小,模型效果越好。
61.可选地,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果,包括:将训练完成的睡眠子模型及训练完成的人格检测子模型接入全连接层,生成大五人格检测模型;将所述睡眠子模型输出的结果及所述人格检测子模型输出的结果输入所述全连接层,获得所述用户的大五人格的最终结果。
62.本实施例中,基于训练完成的睡眠子模型和人格检测子模型生成大五人格检测模型,具体如图3所示,将睡眠子模型输出的睡眠质量的检测结果和人格检测子模型输出的大五人格的初始结果进行结合,并接入全连接层进行分类。全连接层为全连接神经网络构建的分类器。
63.本实施例中,大五人格检测模型通过注意力层感知用户睡眠质量的高低,以此提高对大五人格的评估准确度,下面通过具体案例进行说明。图4是本技术一实施例提出的大五人格检测模型中注意力层的功能流程图。图4左侧和右侧的虚线框分别表示睡眠子模型和人格检测子模型中的注意力层,图中的图例颜色由浅到深分别对应注意力权重由低到高。
64.图4中用户问卷调查结果的大五人格测试得分中神经质维度的得分为高。该用户部分微博文本如下:“连续两周没有睡过一个好觉了....做了一晚上梦,醒来好累。今天奶茶糖放多了,冰放少了。夜深人静,我还没睡,星星睡了吗,太阳呢,你呢?明天放假回家,听说有新电影上映了。我啥时候能高考呢,考完就解放了。睁眼到天亮,安眠药已经不管用了,脑袋好乱”。
65.从图4中右侧的人格检测子模型的注意力层工作流程中可见,由于该文本数据中并未表露人格相关语义,因此对于每句文本的注意力权重分布较为均匀,仅依靠人格检测子模型未能捕捉到高神经质相关的语义表达。因此,在不考虑用户睡眠质量的情况下,人格检测子模型预测得到该用户的神经质维度得分为低,与该用户问卷结果的测试得分中神经质维度得分不符,结果错误。可见仅通过人格检测子模型获取得到的大五人格的初始结果不够准确。
66.将图4左侧的睡眠子模型中睡眠质量相关表达纳入大五人格检测的影响因素,睡眠子模型注意力层成功捕捉到睡眠质量差的语义信息(例如,图中颜色对应注意力权重为0.5的语句)。通过睡眠子模型中注意力层为睡眠质量差的语义信息分配的注意力权重,对大五人格检测中高神经质维度的判断结果产生影响,将人格检测子模型的输出结果与睡眠子模型的输出结果进行结合,输入全连接层进行分类,最终得到该用户“在神经质维度的得分为高”的最终检测结果,与该用户问卷调查的测试结果相符,结果正确。
67.基于同一发明构思,本技术一实施例提供一种睡眠类产品的推荐方法。参考图2,图2是本技术一实施例提出的睡眠类产品的推荐方法的流程图。如图2所示,该方法包括:s21:获取预设时间段内,社交平台中用户的文本数据集合;s22:将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为上述实施例中提供的基于睡眠质量的大五人格检测方法构建的;s23:判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则
对所述用户推荐所述睡眠类产品。
68.在一种实施例中,可通过训练完成的大五人格检测模型,对用户的文本数据进行检测,基于检测的大五人格的最终结果,对用户进行睡眠类产品的推荐。
69.本实施例中,可设置基于大五人格检测结果的推荐阈值,当用户的大五人格的最终结果达到推荐阈值时,将该用户确定为推送睡眠类产品的推荐对象。例如,将“神经质维度得分为高,并且在预设时间段(例如,一个月内)内出现睡眠问题”的用户确定为推送睡眠类产品广告的对象。在实际应用中,可根据实际情况对推荐阈值和预设时间段进行设置。
70.基于同一发明构思,本技术一实施例提供一种基于睡眠质量的大五人格检测装置。该装置包括:第一训练子模块,用于从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;第二样本生成子模块,用于通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;第二训练子模块,用于基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;综合评估模块,用于基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。
71.可选地,所述第一训练子模块,用于执行以下步骤:通过关键词、用户名及关联话题,对获取到的第一数据集进行数据清洗,去掉所述文本数据中的噪音数据;从所述第一数据集中抽取部分文本数据并进行交叉标注,所述标注的内容包括:所述文本数据是否与睡眠相关,及所述文本数据是否存在睡眠问题;将交叉标注结果一致的文本数据的集合作为第一训练样本集;使用所述第一训练样本集训练所述睡眠子模型。
72.可选地,所述第一训练子模块,还用于执行以下步骤:对所述第一训练样本集进行数据增强。
73.可选地,所述第一训练子模块,还用于执行以下步骤:构建睡眠子模型,包括:bert词嵌入层及输出层;所述bert词嵌入层用于将文本数据转换为词嵌入向量;所述分类输出层为全连接神经网络,用于输出分类结果;所述分类结果包括:所述文本数据是否与睡眠相关及所述文本数据是否存在睡眠问题;对所述第一训练样本集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;使用拆分后的第一训练数据集训练睡眠子模型,通过计算准确率、精确率、召回率及f1值对所述睡眠子模型进行评估。
74.可选地,所述第二样本生成子模块,用于执行以下步骤:通过问卷调查筛选出合格的被试人员,生成所述第一用户集,获取所述第一用户集中所有人的问卷调查结果;所述问卷调查结果包括社交账户信息及大五人格的测试得分;对所述第一用户集中所有人的大五人格的测试得分进行归一化处理;
根据所述第一用户集中每个人的社交账户信息,从所述社交平台获取所述对应的文本数据,并对所述文本数据进行数据清洗;根据所有数据清洗后的文本数据及与归一化处理的大五人格的测试得分,生成所述第二数据集。
75.可选地,所述第二训练子模块,用于执行以下步骤:构建基于线性回归的人格检测子模型,所述人格检测子模型包括bert词嵌入层、lstm层、注意力层及输出层;对所述第二数据集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;将拆分后的文本数据作为所述人格检测子模型的输入,将所述文本数据对应的用户的问卷调查结果中的大五人格的测试得分作为所述人格检测子模型的目标输出,训练所述人格检测子模型。
76.可选地,所述综合评估模块,包括:综合模型构建模块,用于将训练完成的睡眠子模型及训练完成的人格检测子模型接入全连接层,生成大五人格检测模型;评估模块,用于将所述睡眠子模型输出的结果及所述人格检测子模型输出的结果输入所述全连接层,获得所述用户的大五人格的最终结果。
77.基于统一发明构思,本技术一实施例提供一种睡眠类产品的推荐装置。该装置包括:用户数据获取模块,用于获取预设时间段内,社交平台中用户的文本数据集合;大五人格检测模块,用于将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为根据上述实施例中所述的方法构建的;判断模块,用于判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则对所述用户推荐所述睡眠类产品。
78.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
79.以上所述仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
80.对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和部件并不一定是本技术所必须的。
81.本领域内的技术人员应明白,本技术实施例可提供为方法、装置、或计算机程序产品。因此,本技术实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
82.本技术实施例是参照根据本技术实施例的方法、终端设备(系统)、和计算机程序
产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
83.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
84.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
85.尽管已描述了本技术实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
86.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
87.以上对本技术所提供的基于睡眠质量的大五人格检测方法及装置进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种基于睡眠质量的大五人格检测方法,其特征在于,包括:从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。2.根据权利要求1所述的基于睡眠质量的大五人格检测方法,其特征在于,基于所述第一数据集训练睡眠子模型,包括:通过关键词、用户名及关联话题,对获取到的第一数据集进行数据清洗,去掉所述文本数据中的噪音数据;从所述第一数据集中抽取部分文本数据并进行交叉标注,所述标注的内容包括:所述文本数据是否与睡眠相关,及所述文本数据是否存在睡眠问题;将交叉标注结果一致的文本数据的集合作为第一训练样本集;使用所述第一训练样本集训练所述睡眠子模型。3.根据权利要求2所述的基于睡眠质量的大五人格检测方法,其特征在于,在使用所述第一训练样本集训练所述睡眠子模型之前,还包括:对所述第一训练样本集进行数据增强。4.根据权利要求2所述的基于睡眠质量的大五人格检测方法,其特征在于,使用所述第一训练样本集训练所述睡眠子模型,包括:构建睡眠子模型,包括:bert词嵌入层及输出层;所述bert词嵌入层用于将文本数据转换为词嵌入向量;所述输出层为全连接神经网络,用于输出分类结果;所述分类结果包括:所述文本数据是否与睡眠相关及所述文本数据是否存在睡眠问题;对所述第一训练样本集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;使用拆分后的第一训练数据集训练睡眠子模型,通过计算准确率、精确率、召回率及f1值对所述睡眠子模型进行评估。5.根据权利要求1所述的基于睡眠质量的大五人格检测方法,其特征在于,通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集,包括:通过问卷调查筛选出合格的被试人员,生成所述第一用户集,获取所述第一用户集中所有人的问卷调查结果;所述问卷调查结果包括社交账户信息及大五人格的测试得分;对所述第一用户集中所有人的大五人格的测试得分进行归一化处理;根据所述第一用户集中每个人的社交账户信息,从所述社交平台获取所述对应的文本数据,并对所述文本数据进行数据清洗;根据所有数据清洗后的文本数据及与归一化处理的大五人格的测试得分,生成所述第
二数据集。6.根据权利要求1所述的基于睡眠质量的大五人格检测方法,其特征在于,基于所述第二数据集训练人格检测子模型,包括:构建基于线性回归的人格检测子模型,所述人格检测子模型包括bert词嵌入层、lstm层、注意力层及输出层;对所述第二数据集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;将拆分后的文本数据作为所述人格检测子模型的输入,将所述文本数据对应的用户的问卷调查结果中的大五人格的测试得分作为所述人格检测子模型的目标输出,训练所述人格检测子模型。7.根据权利要求1所述的基于睡眠质量的大五人格检测方法,其特征在于,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果,包括:将训练完成的睡眠子模型及训练完成的人格检测子模型接入全连接层,生成大五人格检测模型;将所述睡眠子模型输出的结果及所述人格检测子模型输出的结果输入所述全连接层,获得所述用户的大五人格的最终结果。8.一种睡眠类产品的推荐方法,其特征在于,包括:获取预设时间段内,社交平台中用户的文本数据集合;将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为根据权利要求1-7任一所述的方法构建的;判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则对所述用户推荐所述睡眠类产品。9.一种基于睡眠质量的大五人格检测装置,用于实现权利要求1-7任一所述的方法,其特征在于,包括:第一训练子模块,用于从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;第二样本生成子模块,用于通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;第二训练子模块,用于基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;综合评估模块,用于基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。10.一种睡眠类产品的推荐装置,其特征在于,用于实现权利要求8所述的方法,包括:用户数据获取模块,用于获取预设时间段内,社交平台中用户的文本数据集合;大五人格检测模块,用于将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为根据权利要求1-7任一所述的方法构建的;
判断模块,用于判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则对所述用户推荐所述睡眠类产品。
技术总结
本申请涉及自然语言处理技术领域,公开了一种基于睡眠质量的大五人格检测方法及装置。其中方法包括:从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于第一数据集训练睡眠子模型,用于判断文本数据是否与睡眠相关及是否存在睡眠问题;确定第一用户集,并从社交平台获取第一用户集对应的文本数据,生成第二数据集;基于第二数据集训练人格检测子模型,用于根据文本数据确定大五人格的初始结果;基于睡眠子模型及人格检测子模型,构建大五人格检测模型,通过大五人格检测模型确定社交平台中用户的大五人格的最终结果。采用本方法能够提升对社交平台中用户的大五人格检测的准确性,便于根据检测结果生成精准的用户画像。像。像。
技术研发人员:李琦 吴佳珂 曹檑 王梦瑶 刘振华 谷沛嫱
受保护的技术使用者:北京师范大学
技术研发日:2023.09.14
技术公布日:2023/10/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/