一种基于自然语言处理的评论分析报告生成方法与流程
未命名
10-26
阅读:264
评论:0
1.本发明涉及一种基于自然语言处理的评论分析报告生成方法,属于文本数据挖掘、评论分析、自然语言处理领域。
背景技术:
2.如今,电子商务已经渗透各行各业,消费者也养成了从购物平台上获取商品信息、购买商品、评价商品、与其他消费者互动交流的习惯。商品评论是商品详情页中必备的板块,影响着消费者在网上购物的全流程。首先,消费者在购物平台上挑选商品时会浏览商品的具体评论,进而判断商品是否货真价实或者符合自己需求;接着,消费者在购物平台上选中的心仪的商品后,可以浏览各个款式/型号/颜色的评论描述,帮助挑选合适的商品款式/型号/颜色;然后,消费者在签收商品的快递包裹后,可以在购物平台的评论区发表拆箱感受、初次使用感受、对物流包装的满意度等内容;最后,消费者可以在商品评论的详情页中对商品细节进一步展开讨论,促成新用户的消费。购物平台上大量的商品评论不仅影响着消费者购物的全流程,而且可以帮助商家更好地完成选品优化、产品性能改进等方面的工作。
3.许多企业已经认识到用户评论在产品研发迭代中的重要性,并投入资源开展用户评论的分析工作。随着网络订单量的激增,用户评论的数量也有了明显增长,传统人工统计的评论分析方法已经不适用于动辄几万条,甚至几十万条的用户评论,用户评论的分析工作需要依托更加灵活、高效、智能的文本挖掘方法,近年来兴起的自然语言处理技术可以服务于此项工作的开展。自然语言处理中的主题模型、情感分析、信息抽取、文本分类等分支可以运用在海量评论的自动化挖掘中,帮助生成评论分析报告,为企业改进产品研发提供依据。
4.已有相关技术实践涉及运用自然语言处理技术辅助生成评论分析报告,如专利cn202010643350.5采用文本情感分析模型与lda主题模型从用户评论中提炼关键需求主题,并生成评价分析报告。该专利存在的不足之处有:
①
采用主题模型从用户评论集中抽取需求主题分布,由于主题分布包含的是一系列主题词,需要人工基于若干主题词进一步概括需求主题;
②
将情感分析模型与主题模型相结合可以挖掘用户在产品宏观层面的满意度,但无法获知用户在细粒度产品属性层面的满意度;
③
生成的分析报告中缺少对现有产品技术特征的分析,对于如何根据用户需求改进现有产品的技术方案,没有提供数据支撑。
技术实现要素:
5.本发明要解决的技术问题是:
①
从宏观层面的关键评论话题与微观层面的细分需求项这两个方向入手自动化提炼海量评论中的有效信息,整理成信息清单;
②
将卡诺模型、质量屋等质量管理模型融入文本挖掘的过程中,使得生成的评论分析报告能更好地指导产品的优化与迭代。
6.为了实现上述目的,本发明的技术方案是:一种基于自然语言处理的评论分析报
告生成方法,包括以下步骤:s1、爬取一领域的用户评论文本数据,获得评论集;s2、从评论集中挖掘领域新词,添加至自定义词表;s3、基于自定义词表与停用词表,对评论集中的文本进行分词后输入主题模型,将评论文本归为多类评论话题;s4、基于每类评论话题下的关键文本,运用摘要模型和情感分类模型输出该话题的摘要和情感值,并生成评论集的话题清单;s5、基于所有评论话题的排列在预设位置前的多个关键词绘制话题图谱;s6、结合实际业务从话题图谱中筛选出用户需求项,并挖掘需求项的同义词;s7、对每个需求项,筛选包含该关键词或其同义词的所有评论文本,基于依存句法规则从评论文本提取包括评价对象和评价词的二元组,抽取每个二元组对应的最短子句,计算所有最短子句的情感均值作为该需求项的满意度,并对二元组拼接形成的短语进行文本聚类以获得关于该需求项的多个评价主题;s8、对每个需求项,从评论集中提取与该需求项有关的建议句;s9、计算每个需求项的关注度,基于if
−
kano卡诺模型对需求项进行分类,并生成评论集的需求分析清单;s10、根据实际业务确定技术项/服务项,基于需求分析清单的数据以及专家打分数据,构建技术项/服务项的质量屋。
7.在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤s2包括以下子步骤:s21、将评论文本切分为短句;s22、对于每个短句,提取多种长度的词段;s23、计算每一个词段的平均互信息与左右邻接熵的综合值;s24、根据平均互信息与左右邻接熵的综合值,计算词段的综合得分,根据综合得分人工筛选出评论集的相关新词,并添加至自定义词表。
8.在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤s3包括以下子步骤:s31、基于自定义词表与停用词表,对评论集中的所有评论文本进行分词,获得分词后的记录;s32、将分词后的记录输入主题模型,获得关于评论集的多个话题,以及每个话题排列在前的多个关键词;s33、基于训练的主题模型,寻找评论文本的最佳匹配话题。
9.在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤s5包括以下子步骤:s51、将步骤s31中分词后的记录输入词向量模型进行训练,生成各个关键词的词向量;s52、对关键词进行去重,保存至关键词列表;s53、计算关键词之间的语义相似度;s54、基于关键词列表,使用绘制话题图谱网络,生成话题图谱网络。
10.在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤s6包括以下子步骤:s61、结合实际业务从步骤s54的话题图谱网络中筛选出用户需求项词汇;s62、基于s51训练的词向量模型,配合人工筛选,挖掘需求项的同义词,生成同义词词集。
11.在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤s7包括以下子步骤:s71、从评论集中筛选出与用户需求项相关的文本集;s72、基于依存句法分析从评论文本中抽取二元组,然后筛选出与需求项相关的二元组;s73、对于二元组,从文本集中切分出包含评价对象和平价词的最短子句,将所有子句保存至子句集合;s74、使用文本情感分析模型输出子句集合中每一条子句的正向情感概率值,对子句集合中所有子句的正向情感概率值取平均,进而获得需求项的满意度;s75、将二元组的评价对象与评价词拼接为短语,通过文本聚类的方法将所有的短语划分为不同的类别,每个类别对应需求项的一个评价主题,选择其中一个类别下的任一短语作为该评价主题的标签;s76、计算s75中各个评价主题的满意度:计算评价主题下所有短语对应子句的正向情感概率值的均值,作为该评价主题的满意度。
12.在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤s8包括以下子步骤:s81、采用正例和无标注样本学习训练二分类模型;s82、抽取与需求项有关的建议句:使用步骤s81中训练的二分类模型将评论集中的句子分为“建议句“和”非建议句“,如果建议句包含同义词词集中的任一词汇,则该建议句与该需求项有关。
13.在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤s9包括以下子步骤:s91、计算需求项的用户关注度:统计同义词词集在文本集中的每句平均出现次数,以及同义词词集在评论集中的逆文档频率,根据出现次数和逆文档频率计算用户关注度;s92、基于步骤s74中的满意度与步骤s91中的关注度,计算复合变量和,根据与的取值情况,判断用户需求项所属的卡诺模型需求类型:
①
当(为预设的阈值)时,为无关需求;
②
当且(、为预设的阈值)时,为魅力型需求;
③
当且时,为基本型需求;
④
当且时,属性为期望型需求;s93、汇总所有需求项的各项数据,生成需求分析清单,所述需求分析清单包括用
户关注度、用户满意度、卡诺模型需求类型、评价主题标签及评价主题满意度。
14.在本发明提供的基于自然语言处理的评论分析报告生成方法中,所述步骤s10包括以下子步骤:s101、根据实际业务确定质量屋的技术项或者服务项;s102、填写用户需求与技术特征的相关关系矩阵,相关关系矩阵表示用户需求项与技术项/服务项之间的相关程度;s103、构建技术项/服务项的质量屋:基于步骤s92中的复合变量和计算用户需求在质量屋中的权重系数,将用户需求的卡诺模型需求类型转换为卡诺模型得分,结合、与计算技术项/服务项的绝对权重,对绝对权重进行归一化获得技术项/服务项相对权重,按照的大小对技术项/服务项进行降序排序,的序号记为,最后绘制质量屋。
15.本发明的有益效果是:生成的评论分析报告既能从宏观上概括用户关注的热门话题,把握产品的整体印象,又能从微观上捕捉用户对细分需求项的具体看法,为产品后续优化与迭代提供数据指导;生成的评论分析报告中融入了卡诺模型、质量屋等质量管理模型,使需求洞察与业务洞察结合起来,提升了报告的实用性和落地性;本发明运用了主题模型、情感分析、文本摘要、信息抽取、文本聚类、文本分类等多种自然语言处理技术,极大地减少了人工干预处理的工作量,使得从海量评论文本数据中自动生成分析报告成为可能。
附图说明
16.下面结合附图和实施例对本发明作进一步描述:图1为本发明的基于自然语言处理的评论分析报告生成方法流程示意图。
17.图2为本发明提供的话题清单示意图。
18.图3为本发明提供的依存句法规则模板示意图。
19.图4为本发明提供的需求分析清单示意图。
20.图5为本发明提供的质量屋示意图。
具体实施方式
21.为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
22.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
23.以下结合说明书附图对本发明做出进一步的说明,如图1所示:本发明的基于自然语言处理的评论分析报告生成方法,包括如下步骤:在步骤s1中,通过程序爬取某一领域的用户评论文本数据,获得评论集;
在步骤s2中,从评论集中挖掘领域新词,添加至自定义词表;在步骤s3中,基于自定义词表与停用词表,对评论集中的文本进行分词后输入主题模型,将评论文本归为若干类评论话题;在步骤s4中,基于每类评论话题下的关键文本,运用摘要模型和情感分类模型输出该话题的摘要和情感值,并生成评论集的话题清单;在步骤s5中,基于所有评论话题的关键词绘制话题图谱;在步骤s6中,结合实际业务从话题图谱中筛选出用户需求项,并挖掘需求项的同义词;在步骤s7中,对每个需求项,筛选包含该词或其同义词的所有评论文本,基于依存句法规则从评论文本提取《评价对象,评价词》二元组,抽取每个二元组对应的最短子句,计算所有最短子句的情感均值作为该需求项的满意度,并对二元组拼接形成的短语进行文本聚类以获得关于该需求项的若干评价主题;在步骤s8中,对每个需求项,从评论集中提取与该需求项有关的建议句;在步骤s9中,计算每个需求项的关注度,基于if
−
kano卡诺模型对需求项进行分类,并生成评论集的需求分析清单;在步骤s10中,根据实际业务确定技术项/服务项,基于需求分析清单的数据以及专家打分数据,构建技术项/服务项的质量屋。
24.进一步地,所述步骤s2中包含如下子步骤:s21、将评论文本切分为短句:对于步骤s1获得的评论集,以标点符号为界限将中的每一条评论文本(,评论集共计条文本)切分为短句。
25.s22、提取各种长度的词段:从步骤s21获得的短句中,提取每条短句的所有词段(,,
……
,,一般取值,表示按长度切分短句得到的词段),然后将提取到的所有词段添加至词段集合,最后导入停用词表,从词段集合中删除停用词。
26.s23、计算词段的相关指标:对于词段集合中的每一个词段,使用平均互信息作为词段的内部凝聚程度的度量,使用左右邻接熵的综合值作为词的左右邻字丰富程度的度量,其中,的计算方式如下:(为词段的字数,表示词段的首字,以此类推);其中,的计算参照的方法:(其中表示词段的左信息熵,表示词段
的右信息熵)。
27.s24、从词段中筛选出领域新词:计算词段的综合得分以评估词段成为新词的可能性,根据综合得分人工筛选出评论文本集的相关新词,并添加至自定义词表。
28.进一步地,所述步骤s3中包含如下子步骤:s31、对评论文本进行分词:基于自定义词表与停用词表,对评论集中的所有评论文本进行分词,获得分词后的记录。
29.s32、训练主题模型:采用主题建模技术进行话题挖掘,主题模型运用的包、降维算法和算法创建聚类簇,从而获得语料的主题分布。将步骤s31中的输入主题模型,获得关于评论集的若干个话题(,共计个话题),以及每个话题的关键词(,表示话题的排名第的关键词)和关键词的值()(反映在话题中的重要性)。
30.s33、寻找评论文本的最佳匹配话题:使用步骤s32中训练好的主题模型计算评论集中每一条评论文本从属于各个话题的概率,将概率最大值,将概率最大值对应的话题作为评论文本最终归属的话题。将归属于同一话题下的所有评论文本归入集合,用表示集合包含的评论文本数量。
31.进一步地,所述步骤s4中包含如下子步骤:s41、提取话题的关键句:对于集合,将其包含的所有评论文本拼接为一个文档,使用的包提取文档中的关键句,提取关键句的数量为。
32.s42、生成话题的文本摘要:选择在中文生成式摘要任务上表现优秀的模型完成话题摘要提取,是基于模型采用文本摘要式任务进行预训练的大型模型。将步骤s41抽取到的条关键句条关键句进行随机拼接后输入到模型,输出关于此话题的摘要。
33.s43、计算话题的情感值:将每一条关键句输入文本情感分析预训练情感分析预训练模型进行句子级情感分类,并输出“正向”情感的概率作为该关键句的情感值,以中所有关键句的情感值均值作为该话题的最终情感值。
34.s44、生成评论集的话题清单:汇总所有话题的各项数据(话题摘要、关键词、话题包含文本数和话题情感值)组成话题清单,见图2。
35.进一步地,所述步骤s5中包含如下子步骤:s51、生成各个关键词的词向量:将步骤s31中分词后的记录输入词向量模型进行训练,使用训练好的词向量模型对每个主题下的关键词进行词向量编码,获得关键词的词向量。
36.s52、对关键词进行去重:将各个主题的关键词保存至关键词列表,并对列表进行元素去重(即对于相同元素,只保留索引最小的一个)。
37.s53、计算关键词之间的语义相似度:基于步骤s51已获得的词向量,计算列表中每两个关键词元素之间的语义相似度,其中表示余弦相似度,可以衡量词语与词语之间的语义关系,的值越大,表示两个词语的语义联系越紧密。
38.s54、生成话题图谱网络:基于关键词列表,使用绘制话题图谱网络,网络中的节点代表关键词,边的粗细表示所连的两个节点关键词的语义相似度,以颜色区分从属于不同话题的关键词,此网络能清晰地展示各个话题之间的联系。
39.进一步地,所述步骤s6中包含如下子步骤:s61、确定用户需求项:结合业务现状,从步骤s54的话题图谱网络中人工筛选出用户需求项词汇(,共计个词汇)。
40.s62、挖掘需求项的同义词:对于每一个用户需求项词汇,使用s51训练的词向量模型查询的语义相似词(词语之间语义相似的度量采用余弦相似度),人工判断这30个相似词是否属于的同义词,如果属于的同义词,则将该相似词添加至的同义词集合中。为了进一步挖掘用户需求项词汇的同义词,采用掺入少许先验知识的主题模型()挖掘与词汇相关的主题,该主题模型也称为主题模型:首先将词汇与同义词集合中的所有同义词作为主题模型预设的锚定词汇集;基于步骤s31中分词后的记录,训练主题模型,在所有生成的主题中寻找与最相关的主题,人工判断的主题词是否属于的同义词,如果属于的同义词,则将该主题词添加至的同义词集合中,最后将词汇添加至。
41.进一步地,所述步骤s7中包含如下子步骤:s71、筛选出需求项的相关评论文本:从评论集中筛选出与用户需求项相关的文本集的文本集:对于中的评论文本,如果中至少有一个词语存在于中,则该文本与需求项相关。记文本集包含的文本数量为。
42.s72、抽取与需求项相关的《评价对象,评价词》二元组:根据图3,基于依存句法分析从评论文本中抽取《评价对象,评价词》二元组,记为,然后筛选出与相关的二元组;s73、抽取与需求项相关的评价子句:对于二元组,从中切分出包含与的最短子句(因为一条文本中可能包含多个与相关的二元组,所以在一条文本中可能切分出多个子句),将所有子句保存至集合;s74、计算需求项的用户满意度:使用文本情感分析模型输出集合
中每一条子句的正向情感概率值,将正向情感概率值作为子句的情感值,对中所有子句的情感值取平均,进而获得的满意度;s75、挖掘需求项的评价主题:将二元组中的与拼接为短语,通过文本聚类的方法将所有的划分为不同的类别,,......,每一个类别(共类)可以对应需求的一个评价主题,文本聚类的实现细节如下:使用的包计算拼接短语的表示向量;用降维算法压缩向量的维数,用聚类算法将降维后的句向量进行聚类。选择类别下的任一短语作为该评价主题的标签。
43.s76、计算s75中各个评价主题的满意度:如果子句指向二元组,而短语是由二元组的两个元素拼接而成,则称短语对应的子句为。计算评价主题下所有短语对应子句的正向情感概率值的均值,作为评价主题的满意度,记为。
44.进一步地,所述步骤s8中包含如下子步骤:s81、训练建议句识别模型:由于评论文本集中的建议句数量较少,而非建议句占比很大,直接进行建议句二分类模型训练则会面临正负样本极度不平衡的问题,因此采用学习(正例和无标注样本学习)训练建议句分类模型。学习是一种半监督二分类模型,表示标记过的正样本,表示大量未标记的样本。首先,基于正则表达式匹配,对评论文本集中的文本进行句子分割,将分割后的所有句子添加至集合。采用目标词命中方法从集合中筛选出包含“希望”、“建议”或者“期待”等目标词(={“希望”,“建议”,“期待”})的句子,将其标注为正样本(标签为“建议句”)并添加至正样本集合,集合中剩下的句子则归入未标记样本集合。基于正样本集合与未标记样本集合的学习实现细节如下:基于预训练模型chinese-roberta-wwm-ext-large,
使用的包为集合中的每一条语句创建对应的句向量,为集合中的每一条语句创建对应的句向量,从而获得正样本集合的特征向量集合与未标记样本集合的特征向量集合;采用特征向量集合训练一个自编码器以实现数据重建;计算中的每一个样本的重建误差:令,将输入至上述训练的模型,并将输出的结果记为;计算与的交叉熵,其中指的是与的维数,令;按照重建误差的大小对集合中的样本进行降序排序,将前30%的样本对应的句子标注为负样本(标签为“非建议句”),并归类为可信负样本集合;以带标注的正样本集合与可信负样本集合为训练语料,以chinese-roberta-wwm-ext-large为预训练模型,训练文本二分类模型。
45.s82、抽取与需求项有关的建议句:使用步骤s81中训练的文本二分类模型对未标记样本集合中的语句进行分类,将输出的分类标签为“建议句”的句子添加至集合,集合即为最终的输出建议句集合。从集合中筛选出与用户需求项相关的建议句集:对于句子集合中的建议句,如果中至少有一个词语存在于中,则称与相关。
46.进一步地,所述步骤s9中包含如下子步骤:s91、计算需求项的用户关注度:在与需求项相关的文本集中,统计每条文本中包含的来自中词汇的数量,计算需求项在文本集中的每句平均出现次数。计算词集在评论集中的逆文档频率,定义需求项在评论集中的重要性为。结合每句平均出现次数与重要性,计算的用户关注度。
计算所有需求项的用户关注度后,对进行归一化获得:。s92、基于卡诺模型,对需求项进行分类:基于步骤s74中的满意度与步骤s91中的关注度,计算复合变量和,根据与的取值情况,判断用户需求项所属的卡诺模型需求类型:
①
当(为预设的阈值)时,为无关需求;
②
当且(、为预设的阈值)时,为魅力型需求;
③
当且时,为基本型需求;
④
当且时,属性为期望型需求。
47.s93、生成评论集的需求分析清单:汇总所有需求项的各项数据(用户关注度、用户满意度、卡诺模型需求类型、评价主题标签及评价主题满意度)组成需求分析清单,见图4。
48.进一步地,所述步骤s10中包含如下子步骤:s101、确定技术项/服务项:根据实际业务确定质量屋的技术项或者服务项(,共计个项目)。
49.s102、邀请业务专家对关系矩阵打分:邀请业务专家填写用户需求与技术特征的相关关系矩阵,表示用户需求项与技术项/服务项之间的相关程度。
50.s103、构建技术项/服务项的质量屋:基于步骤s92中的复合变量和计算需求项在质量屋中的权重系数,,并计算需求项的卡诺模型得分:魅力型需求赋值4分,即=4;期望型需求赋值2分,即=2;基本型需求赋值1分,即=1;无关需求赋值0分,即=0。结合、与计算技术项/服务项的绝对权重,对绝对权重进行归一化获得技术项/服务项相对权重,按照的大小对技术项/服务项进行降序排序,的序号记为,最后绘制质量屋,见图5。
51.本发明实施例还提供了一种基于自然语言处理的评论分析报告生成设备,可以包括:存储器,用于存储计算机程序;处理器,用于执行上述存储器存储的计算机程序时可实现如上所述的基于自然语
言处理的评论分析报告生成方法。
52.本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时可实现如上所述的基于自然语言处理的评论分析报告生成方法。
53.该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
54.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
55.类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
56.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
57.此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
58.本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
59.应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及
借助于适当编程的计算机来实现。这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
技术特征:
1.一种基于自然语言处理的评论分析报告生成方法,其特征在于,包括以下步骤:步骤s1、爬取一领域的用户评论文本数据,获得评论集;步骤s2、从评论集中挖掘领域新词,添加至自定义词表;步骤s3、基于自定义词表与停用词表,对评论集中的文本进行分词后输入主题模型,将评论文本归为多类评论话题;步骤s4、基于每类评论话题下的关键文本,运用摘要模型和情感分类模型输出该话题的摘要和情感值,并生成评论集的话题清单;步骤s5、基于所有评论话题的排列在预设位置前的多个关键词绘制话题图谱;步骤s6、结合实际业务从话题图谱中筛选出用户需求项,并挖掘需求项的同义词;步骤s7、对每个需求项,筛选包含该关键词或其同义词的所有评论文本,基于依存句法规则从评论文本提取包括评价对象和评价词的二元组,抽取每个二元组对应的最短子句,计算所有最短子句的情感均值作为该需求项的满意度,并对二元组拼接形成的短语进行文本聚类以获得关于该需求项的多个评价主题;步骤s8、对每个需求项,从评论集中提取与该需求项有关的建议句;步骤s9、计算每个需求项的关注度,基于if
−
kano卡诺模型对需求项进行分类,并生成评论集的需求分析清单;步骤s10、根据实际业务确定技术项/服务项,基于需求分析清单的数据以及专家打分数据,构建技术项/服务项的质量屋。2.根据权利要求1所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤s2包括以下子步骤:s21、将评论文本切分为短句;s22、对于每个短句,提取多种长度的词段;s23、计算每一个词段的平均互信息与左右邻接熵的综合值;s24、根据平均互信息与左右邻接熵的综合值,计算词段的综合得分,根据综合得分人工筛选出评论集的相关新词,并添加至自定义词表。3.根据权利要求2所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤s3包括以下子步骤:s31、基于自定义词表与停用词表,对评论集中的所有评论文本进行分词,获得分词后的记录;s32、将分词后的记录输入主题模型,获得关于评论集的多个话题,以及每个话题排列在前的多个关键词;s33、基于训练的主题模型,寻找评论文本的最佳匹配话题。4.根据权利要求3所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤s4包括以下子步骤:s41、提取话题的关键句;s42、生成话题的文本摘要;s43、将抽取到的关键句输入到文本情感分析模型,计算话题情感值;s44、生成评论集的话题清单,所述话题清单包括文本摘要、多个关键词、话题包含文本数和话题情感值。
5.根据权利要求4所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤s5包括以下子步骤:s51、将步骤s31中分词后的记录输入词向量模型进行训练,生成各个关键词的词向量;s52、对关键词进行去重,保存至关键词列表;s53、计算关键词之间的语义相似度;s54、基于关键词列表,使用绘制话题图谱网络,生成话题图谱网络。6.根据权利要求5所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤s6包括以下子步骤:s61、结合实际业务从步骤s54的话题图谱网络中筛选出用户需求项词汇;s62、基于s51训练的词向量模型,配合人工筛选,挖掘需求项的同义词,生成同义词词集。7.根据权利要求6所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤s7包括以下子步骤:s71、从评论集中筛选出与用户需求项相关的文本集;s72、基于依存句法分析从评论文本中抽取二元组,然后筛选出与需求项相关的二元组;s73、对于二元组,从文本集中切分出包含评价对象和评价词的最短子句,将所有子句保存至子句集合;s74、使用文本情感分析模型输出子句集合中每一条子句的正向情感概率值,对子句集合中所有子句的正向情感概率值取平均,进而获得需求项的满意度;s75、将二元组的评价对象与评价词拼接为短语,通过文本聚类的方法将所有的短语划分为不同的类别,每个类别对应需求项的一个评价主题,选择其中一个类别下的任一短语作为该评价主题的标签;s76、计算s75中各个评价主题的满意度:计算评价主题下所有短语对应子句的正向情感概率值的均值,作为该评价主题的满意度。8.根据权利要求7所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤s8包括以下子步骤:s81、采用正例和无标注样本学习训练二分类模型;s82、抽取与需求项有关的建议句:使用步骤s81中训练的二分类模型将评论集中的句子分为“建议句”和“非建议句”,如果建议句包含同义词词集中的任一词汇,则该建议句与该需求项有关。9.根据权利要求8所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤s9包括以下子步骤:s91、计算需求项的用户关注度:统计同义词词集在文本集中的每句平均出现次数,以及同义词词集在评论集中的逆文档频率,根据出现次数和逆文档频率计算用户关注度;s92、基于步骤s74中的满意度与步骤s91中的关注度,计算复合变量和,根据与的取
值情况,判断用户需求项所属的卡诺模型需求类型:
①
当(为预设的阈值)时,为无关需求;
②
当且(、为预设的阈值)时,为魅力型需求;
③
当且时,为基本型需求;
④
当且时,属性为期望型需求;s93、汇总所有需求项的各项数据,生成需求分析清单,所述需求分析清单包括用户关注度、用户满意度、卡诺模型需求类型、评价主题标签及评价主题满意度。10.根据权利要求9所述的基于自然语言处理的评论分析报告生成方法,其特征在于,所述步骤s10包括以下子步骤:s101、根据实际业务确定质量屋的技术项或者服务项;s102、填写用户需求与技术特征的相关关系矩阵,相关关系矩阵表示用户需求项与技术项/服务项之间的相关程度;s103、构建技术项/服务项的质量屋:基于步骤s92中的复合变量和计算用户需求在质量屋中的权重系数,将用户需求的卡诺模型需求类型转换为卡诺模型得分,结合、与计算技术项/服务项的绝对权重,对绝对权重进行归一化获得技术项/服务项相对权重,按照的大小对技术项/服务项进行降序排序,的序号记为,最后绘制质量屋。
技术总结
本发明公开了一种基于自然语言处理的评论分析报告生成方法,从宏观层面入手,挖掘关键评论话题,汇总关键话题、话题热度和话题情感值等数据形成关于评论集的话题清单;从微观层面,挖掘细分需求项,汇总需求关注度、需求满意度、需求分类、需求相关建议等数据形成关于评论集的需求分析清单;将模型、质量屋与文本挖掘有机结合起来,首先基于文本挖掘计算各个需求项在模型两个维度(用户关注度与用户满意度)上的数值,进而完成需求项的分类;然后基于需求项的分类、需求项的关注度、需求项的满意度,综合计算需求项在质量屋中的权重,并结合专家打分完成质量屋的构建;合并话题清单、需求分析清单与质量功能展开图生成评论分析报告。告。告。
技术研发人员:张健
受保护的技术使用者:深圳联友科技有限公司
技术研发日:2023.09.12
技术公布日:2023/10/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/