语音情绪分析方法、装置、设备及计算机程序产品与流程
未命名
10-25
阅读:80
评论:0
1.本技术涉及语音识别领域,具体涉及一种语音情绪分析方法、装置、设备及计算机程序产品。
背景技术:
2.语音情绪识别分析技术目前在呼叫中心、银行和医疗等服务类行业均具有广泛的应用场景。在以往传统的用户语音情绪分析研究场景中,主要是进行整体的通话内容研究,还没有采用相关的情绪识别模型技术,来对通话内容进行深层次和精细化的语言分析和情绪分析。且在研究用户的情绪状态和情绪评分等级时,只能模糊定义用户的情绪类别,即生气、高兴和平静等情绪,不能准确表现出用户情绪的具体分数和对应的情绪等级。
技术实现要素:
3.本技术实施例提供一种语音情绪分析方法、装置、设备及计算机程序产品,用以解决现有情绪识别方案不能准确表现出用户的情绪的技术问题。
4.第一方面,本技术实施例提供一种语音情绪分析方法,包括:
5.对目标音频样本进行特征提取,得到语音情感特征和文本情感特征,所述目标音频样本是对原始音频样本进行预处理得到的;
6.对所述语音情感特征和所述文本情感特征进行分帧对齐和样本标注,得到初始音频样本;
7.基于所述初始音频样本中的各分帧节点,确定所述初始音频样本的聚类特征值,将各所述初始音频样本的聚类特征值分布区域和预设情感分布图结合得到特征聚类结果值分布图;
8.根据待分析音频的聚类特征值与所述特征聚类结果值分布图,确定所述待分析音频的情绪分析结果。
9.在一个实施例中,所述对所述目标音频样本进行特征提取,得到语音情感特征包括:
10.确定所述目标音频样本的音源波长、音源振幅以及浊音振动频率;
11.基于所述音源波长确定所述目标音频样本的波长特征值;
12.基于所述音源振幅确定所述目标音频样本的短时能量特征值;
13.基于所述浊音振动频率确定所述目标音频样本的基因频率值;
14.根据所述波长特征值、所述短时能量特征值以及所述基因频率值,确定语音情感特征。
15.在一个实施例中,所述对目标音频样本进行特征提取,得到文本情感特征包括:
16.确定目标音频样本对应的候选特征词、关系指示词、关键特征词以及标志性字词;
17.基于所述候选特征词和所述关系指示词,确定所述目标音频样本的词性特征值;
18.基于所述关键特征词确定所述目标音频样本的词频特征值;
19.基于所述标志性字词确定所述目标音频样本的句式特征值;
20.根据所述词性特征值、所述词频特征值以及所述句式特征值,确定文本情感特征。
21.在一个实施例中,所述基于所述关键特征词确定所述目标音频样本的词频特征值包括:
22.确定所述关键特征词对应的词频、文件频率和逆向文件频率;
23.根据所述词频、所述文件频率和所述逆向文件频率,确定所述目标音频样本的词频特征值。
24.在一个实施例中,所述对所述语音情感特征和所述文本情感特征进行分帧对齐和样本标注,得到初始音频样本包括:
25.对所述语音情感特征和所述文本情感特征进行分帧对齐,得到第二音频样本,所述第二音频样本包含多个分帧节点;
26.对所述第二音频样本进行样本标注,得到初始音频样本。
27.在一个实施例中,所述基于所述初始音频样本中的各分帧节点,确定所述初始音频样本的聚类特征值包括:
28.根据所述初始音频样本中各分帧节点与其他分帧节点之间的簇距离,计算平均簇质心值;
29.基于所述平均簇质心值确定所述初始音频样本的聚类特征值。
30.在一个实施例中,所述对原始音频样本进行预处理,包括:
31.对所述原始音频样本进行预加重处理,得到第一音频样本,所述第一音频样本的高频能量大于所述原始音频样本的高频能量;
32.对所述第一音频样本进行分帧、清洗和过滤,得到所述目标音频样本。
33.第二方面,本技术实施例提供一种语音情绪分析装置,包括:
34.特征提取模块,用于对目标音频样本进行特征提取,得到语音情感特征和文本情感特征,所述目标音频样本是对原始音频样本进行预处理得到的;
35.分帧对齐和样本标注模块,用于对所述语音情感特征和所述文本情感特征进行分帧对齐和样本标注,得到初始音频样本;
36.特征聚类结果值分布图确定模块,用于基于所述初始音频样本中的各分帧节点,确定所述初始音频样本的聚类特征值,将各所述初始音频样本的聚类特征值分布区域和预设情感分布图结合得到特征聚类结果值分布图;
37.情绪分析结果确定模块,用于根据待分析音频的聚类特征值与所述特征聚类结果值分布图,确定所述待分析音频的情绪分析结果。
38.第三方面,本技术实施例提供一种设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序时实现第一方面所述的语音情绪分析方法的步骤。
39.第四方面,本技术实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的语音情绪分析方法的步骤。
40.本技术实施例提供的语音情绪分析方法、装置、设备及计算机程序产品,通过对原始音频样本进行预处理得到目标音频样本,然后对目标音频样本进行特征提取得到语音情感特征和文本情感特征,紧接着对语音情感特征和文本情感特征进行分帧对齐和样本标注,得到初始音频样本,基于初始音频样本中的各分帧节点,确定初始音频样本的聚类特征
值,将各初始音频样本的聚类特征值分布区域和预设情感分布图结合得到特征聚类结果值分布图,最后根据待分析音频的聚类特征值与特征聚类结果值分布图,确定待分析音频的情绪分析结果。本技术通过多维度情绪特征值提取融合聚类算法分析用户情绪,提高了用户情绪识别的准确性。
附图说明
41.为了更清楚地说明本技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1是本技术实施例提供的语音情绪分析方法的流程示意图之一;
43.图2是本技术实施例提供的语音情绪分析方法中提供的特征聚类结果值分布图;
44.图3是本技术实施例提供的语音情绪分析方法的流程示意图之二;
45.图4是本技术实施例提供的语音情绪分析装置的结构示意图;
46.图5是本技术实施例提供的电子设备的结构示意图。
具体实施方式
47.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
48.参照图1,图1是本技术实施例中语音情绪分析方法的流程示意图之一。本技术实施例提供的语音情绪分析方法,可以包括:
49.步骤100,对目标音频样本进行特征提取,得到语音情感特征和文本情感特征,所述目标音频样本是对原始音频样本进行预处理得到的;
50.具体地,因为语音信号是时变信号,其特征参数是随时间而变化的,无法用处理平稳的数字处理技术对其进行处理,所以需要对原始语音信号进行预加重、分帧、清洗过滤等操作(即本实施例中的预处理)便于后续特征值提取。
51.音频本身是模拟信号,需要转换成数字信号才能让计算机读取处理。首先对输入的原始音频数据样本进行信号处理,通过预加重消除口唇辐射的影响,让音频信号变得平坦,然后通过分帧将语音信号截取成小段,每段信号称为一帧,使得到音频分解后的无数个等长小片段,再通过清洗过滤去除噪音信号和默音信号的干扰等处理方式处理音频信号,得到目标音频样本。
52.情感特征指标具有多样性,音量振幅大小、声音长度以及音律不同得到的情感特征也会存在不同,以下示例三种:1、情绪不同时表达相同话语所用时间不同,即音源波长(也称基音周期)是情感特征之一;2、情绪高昂时发音量较大,即音源振幅高低(也称短时能量)是情感特征之二;3、浊音的声带振动(也称基因频率),和情绪波动相关,即音源基因是情感特征之三。提取语音情感特征后再结合文字识别技术提取文本情感特征。
53.步骤200,对所述语音情感特征和所述文本情感特征进行分帧对齐和样本标注,得
到初始音频样本;
54.具体地,对语音情感特征和文本情感特征进行统一编码。将不同音频特征值与文本特征值进行分帧对齐;样本标注可以采用人工标注的方式进行,通过人工收集及标注的方法,不断丰富底层样本库,提升参照对比的精准。例如,组织100人对1000条音频样本进行标注,分别标注10000个情绪相关热词,将标注热词按照正向、中性、抱怨以及愤怒等情绪特征进行分类,将热词收集到底层词库,作为训练样本,通过模型的不断优化训练,使模型样本更加贴近于实际应用场景。通过提升样本的准确度,使程序匹配判断更加的精准,最终得到标注了热词的初始音频样本。
55.步骤300,基于所述初始音频样本中的各分帧节点,确定所述初始音频样本的聚类特征值,将各所述初始音频样本的聚类特征值分布区域和预设情感分布图结合得到特征聚类结果值分布图;
56.具体地,得到初始音频样本后,可通过k-means(k-均值)特征聚类算法计算综合特征值,来进行情绪量化评估。k-means特征聚类算法基本原理:确定n个初始样本后,分别再将样本中的每个分帧节点作为簇质心,然后将数据样本中的每一个点与每个簇质心计算距离,依据此距离对样本进行分配;最后将每次簇的质心更改为该簇内所有点的平均值,最终得到本次样本的聚类特征值;根据样本结果的距离或者说是相似性(亲疏性),进行业务的自定义判断,具体过程详情将在下文详述。
57.步骤400,根据待分析音频的聚类特征值与所述特征聚类结果值分布图,确定所述待分析音频的情绪分析结果。
58.具体地,上述得到的特征聚类结果值分布图如图2所示,纵坐标和横坐标分别表示各音频样本的语音情感特征值和文本情感特征值,根据上述方法计算待分析音频的聚类特征值,将待分析音频的聚类特征值与特征聚类结果值分布图进行比较,便可得出待分析音频的情绪具体分数和情绪等级。
59.本实施例通过对原始音频样本进行预处理得到目标音频样本,然后对目标音频样本进行特征提取得到语音情感特征和文本情感特征,紧接着对语音情感特征和文本情感特征进行分帧对齐和样本标注,得到初始音频样本,基于初始音频样本中的各分帧节点,确定初始音频样本的聚类特征值,将各初始音频样本的聚类特征值分布区域和预设情感分布图结合得到特征聚类结果值分布图,最后根据待分析音频的聚类特征值与特征聚类结果值分布图,确定待分析音频的情绪分析结果。本技术通过多维度情绪特征值提取融合聚类算法分析用户情绪,提高了用户情绪识别的准确性。
60.在一个实施例中,本技术实施例提供的语音情绪分析方法,还可以包括:
61.步骤10,对所述原始音频样本进行预加重处理,得到第一音频样本,所述第一音频样本的高频能量大于所述原始音频样本的高频能量;
62.步骤20,对所述第一音频样本进行分帧、清洗和过滤,得到所述目标音频样本。
63.具体地,在语音信号中,提升高频分量的主要目的是因为高频分量(即辅音)包含更多的信息,而低频分量(即元音)的频率普遍较低。功率谱随频率的增加而减小,其大部分能量都集中在低频范围内,这就造成语音信号高频端的信噪比可能降到非常低。预加重处理能够这种情况,预加重能够保持语音信号的低频部分不变,提升语音信号的高频部分,预加重的目的是提升语音信号中高频部分的能量,以补偿信道对高频部分衰减过大。
64.语音信号是一个非平稳信号,信号对应的特征及其参数每时每刻都在变化,但是根据发声机理来说,肌肉的运动过程相对于信号的变化是非常缓慢的,因此,从很短的时间段来看,又可以认为语音信号是准平稳信号,即短时平稳信号。语音信号处理要达到的一个目标就要弄清楚语音中各个频率成分的分布情况,做这件事情的数学工具是傅里叶变换。傅里叶变换要求输入信号是平稳的。而语音信号在宏观上来看是不平稳的,但是从微观上来看,在比较短的时间内,语音信号可以看成是平稳的,就可以截取出来做傅里叶变换了。这就是为什么语音信号要分帧处理,截取出来的一小段信号就是一帧。
65.一帧从宏观上来说必须足够短来保证帧内信号是平稳的,因此,一帧的长度应当小于一个音素的长度。正常语速下,音素的持续时间大约是50~200毫秒,所以帧长一般取值小于50毫秒;从微观上来说,一帧又必须包括足够多的振动周期,因为傅里叶变换是要分析频率的,只有重复足够多次才能分析频率。就语音的基频而言,男声在100赫兹左右,女声在200赫兹左右,换算成周期就是10毫秒和5毫秒。因为一帧要包含多个周期,所以一帧一般取值不小于20毫秒。最后再通过清洗过滤去除噪音信号和默音信号的干扰等处理方式处理音频信号,得到目标音频样本。
66.本实施例通过预加重、分帧、清洗过滤等操作对原始语音信号进行处理,便于后续音频特征值提取。
67.在一个实施例中,本技术实施例提供的语音情绪分析方法,还可以包括:
68.步骤110a,确定所述目标音频样本的音源波长、音源振幅以及浊音振动频率;
69.步骤120a,基于所述音源波长确定所述目标音频样本的波长特征值;
70.步骤130a,基于所述音源振幅确定所述目标音频样本的短时能量特征值;
71.步骤140a,基于所述浊音振动频率确定所述目标音频样本的基因频率值;
72.步骤150a,根据所述波长特征值、所述短时能量特征值以及所述基因频率值,确定语音情感特征。
73.具体地,音源波长是情感特征之一,计算两相邻最大值(波峰)间的距离,可推算出波长特征值;x1,x2为端点检测返回的起始帧数,fs为采样帧率(fs=16000),波长特征值t的单位为ms,t=1000&(100
×
(x2-x1)+300)/fs;音源振幅高低是情感特征之二,人类情感信息与信号的振幅特征往往具有较强相关性,比如对于生气、愤怒等情感,信号振幅较大表现出较强能量;选取短时平均幅度能量的均值、最大值以及曲线局部极点个数作为三大参数,mn代表短时平均能量,其中,xn(m)代表每一帧长,l表示总帧数。短时能量特征值为e,n表示帧数,将一个音频样本中所有帧的短时能量求和后取平均值得到该音频样本的短时能量特征值e;音源基因是情感特征之三,提取目标音频样本中浊音与浊音段后,对浊音段逐帧进行自相关特征计算;k是最大延迟点数(例如,0《k《5000ms),n是帧数,xn(m)代表每一帧长,rn(k)代表最终基因频率值,
74.本实施例通过目标音频样本的音源波长、音源振幅以及浊音振动频率,确定能够反映语音情感特征的波长特征值,短时能量特征值以及基因频率值。
75.在一个实施例中,本技术实施例提供的语音情绪分析方法,还可以包括:
76.步骤110b,确定目标音频样本对应的候选特征词、关系指示词、关键特征词以及标志性字词;
77.步骤120b,基于所述候选特征词和所述关系指示词,确定所述目标音频样本的词性特征值;
78.步骤130b,基于所述关键特征词确定所述目标音频样本的词频特征值;
79.步骤140b,基于所述标志性字词确定所述目标音频样本的句式特征值;
80.步骤150b,根据所述词性特征值、所述词频特征值以及所述句式特征值,确定文本情感特征。
81.具体地,在得到目标音频样本的语音情感特征后,提取目标音频样本的文本情感特征,利用nlp(natural language processing,自然语言处理)分词及词性标注技术对用户表达内容进行解析,从中提取名词或名词短语来作为候选特征词,即为词性特征;
82.pmi代表词性特征值,其中,f代表候选特征词,d代表关系指示词,hits代表命中各式各样,pmi越高,候选特征词与关系指示词关系程度越高;文本内容中的中频词往往具有代表性,高频词区分能力较小,而低频词或者是出现词也常常可以做为关键特征词,即为词频特征;
83.通过词频权重算法提取词频特征值,其中,tf=某词在文本中出现的次数/文本包含的总词数,df=包含某词的文档数/语料库的文档总数,idf=log((语料库的文档总数)/(包含某词的文档数+1)),词频特征值tf-idf=tf
×
idf;
84.句式与句子的重要性之间存在着某种联系,比如,摘要中的句子大多是陈述句,而疑问句和感叹句等句式则不具备内容代表性,即为句式特征:标志性字词在词类句式辨认中具有重要作用,一般以具有该标志性的介词作为句式名称的依据,例如,用介词“把”和“是”作为陈述语句的依据,即相关特征值。
85.本实施例通过目标音频样本对应的候选特征词、关系指示词、关键特征词以及标志性字词,确定能够反映文本情感特征的词性特征值,词频特征值以及句式特征值。
86.在一个实施例中,本技术实施例提供的语音情绪分析方法,还可以包括:
87.步骤131b,确定所述关键特征词对应的词频、文件频率和逆向文件频率;
88.步骤132b,根据所述词频、所述文件频率和所述逆向文件频率,确定所述目标音频样本的词频特征值。
89.具体地,通过词频权重算法提取词频特征值,其中,词频tf=某词在文本中出现的次数/文本包含的总词数,文件频率df=包含某词的文档数/语料库的文档总数,逆向文件频率idf=log((语料库的文档总数)/(包含某词的文档数+1)),根据词频、文件频率和逆向文件频率,确定目标音频样本的词频特征值tf-idf=tf
×
idf。
90.本实施例通过关键特征词对应的词频、文件频率和逆向文件频率,确定能够反映文本情感特征的词频特征值。
91.参照图3,图3是本技术实施例中语音情绪分析方法的流程示意图之二,在一个实施例中,本技术实施例提供的语音情绪分析方法,还可以包括:
92.步骤210,对所述语音情感特征和所述文本情感特征进行分帧对齐,得到第二音频样本,所述第二音频样本包含多个分帧节点;
93.步骤220,对所述第二音频样本进行样本标注,得到初始音频样本。
94.具体地,对语音情感特征和文本情感特征进行统一编码。将不同音频特征值与文本特征值进行分帧对齐,即单句话语有n个样本{x
(1)
,....,x
(n)
},一个样本中包含多个分帧节点u1,u2,...,uk∈rn;特征解码向下输入样本和节点。注意力模型采用的是多标签分类方案,对于多标签分类而言,一个样本的标签不仅仅局限于一个类别,可以具有多个类别,不同类之间是有关联的。因此,在考虑到通话实际场景,用户语料是各种各样的,不同的语料表达抽取的特征也会有相应的关联关系,故在模型训练中采用多标签分类方案。
95.样本标注可以采用人工标注的方式进行,通过人工收集及标注的方法,不断丰富底层样本库,提升参照对比的精准。例如,组织100人对1000条音频样本进行标注,分别标注10000个情绪相关热词,将标注热词按照正向、中性、抱怨以及愤怒等情绪特征进行分类,将热词收集到底层词库,作为训练样本,通过模型的不断优化训练,使模型样本更加贴近于实际应用场景。通过提升样本的准确度,使程序匹配判断更加的精准,最终得到标注了热词的初始音频样本。
96.本实施例通过对语音情感特征和文本情感特征进行分帧对齐以及样本标注,得到初始音频样本。
97.在一个实施例中,本技术实施例提供的语音情绪分析方法,还可以包括:
98.步骤310,根据所述初始音频样本中各分帧节点与其他分帧节点之间的簇距离,计算平均簇质心值;
99.步骤3120,基于所述平均簇质心值确定所述初始音频样本的聚类特征值。
100.具体地,k-means特征聚类算法的过程详解如下:输入上一步的样本xn,每一个样本都是n维向量,并分别将该样本中的分帧节点作为聚类质心点uj;对于每一个样本计算平均簇质心值ci,ci:=arg minj||x
(i)-uj||2,对于每一个类uj,重新计算该样本最终质心聚类结果值uj:通过训练数据的聚类特征值分布区域和对应的情感分布图相结合,判断该样本(也就是单条话语)的情绪量化等级评估结果,与训练好的样本结果值对照表确认单句样本情绪走向,初步量化单句样本情绪等级,并将全量结果集记为qn。
101.基于生成的qn集合结果,作为用户等级判定的重要指标:计算正向情绪比例、负向情绪比例与中性情绪占比比例,情绪模型以一个特定中性阈值作为情绪等级属性判定的基准值,例如,中性阈值为95%,则≥95%为中性情绪特征,<95%为其他情绪特征;对于中性以外的情绪判断,若正向比例大于负向比例,则定义为正向情绪,若负向比例大于正向比例,则定义为负向情绪。
102.本实施例通过初始音频样本中各分帧节点与其他分帧节点之间的簇距离,确定初始音频样本的聚类特征值。
103.参考图4,图4是本技术实施例中语音情绪分析装置的结构示意图,下面对本技术实施例提供的语音情绪分析装置进行描述,下文描述的语音情绪分析装置与上文描述的语音情绪分析方法可相互对应参照。
104.特征提取模块401,用于对目标音频样本进行特征提取,得到语音情感特征和文本情感特征,所述目标音频样本是对原始音频样本进行预处理得到的;
105.分帧对齐和样本标注模块402,用于对所述语音情感特征和所述文本情感特征进行分帧对齐和样本标注,得到初始音频样本;
106.特征聚类结果值分布图确定模块403,用于基于所述初始音频样本中的各分帧节点,确定所述初始音频样本的聚类特征值,将各所述初始音频样本的聚类特征值分布区域和预设情感分布图结合得到特征聚类结果值分布图;
107.情绪分析结果确定模块404,用于根据待分析音频的聚类特征值与所述特征聚类结果值分布图,确定所述待分析音频的情绪分析结果。
108.可选地,所述特征提取模块还包括:
109.第一确定单元,用于确定所述目标音频样本的音源波长、音源振幅以及浊音振动频率;
110.波长特征值确定单元,用于基于所述音源波长确定所述目标音频样本的波长特征值;
111.短时能量特征值确定单元,用于基于所述音源振幅确定所述目标音频样本的短时能量特征值;
112.基因频率值确定单元,用于基于所述浊音振动频率确定所述目标音频样本的基因频率值;
113.语音情感特征确定单元,用于根据所述波长特征值、所述短时能量特征值以及所述基因频率值,确定语音情感特征。
114.可选地,所述特征提取模块还包括:
115.第二确定单元,用于确定目标音频样本对应的候选特征词、关系指示词、关键特征词以及标志性字词;
116.词性特征值确定单元,用于基于所述候选特征词和所述关系指示词,确定所述目标音频样本的词性特征值;
117.词频特征值确定单元,用于基于所述关键特征词确定所述目标音频样本的词频特征值;
118.句式特征值确定单元,用于基于所述标志性字词确定所述目标音频样本的句式特征值;
119.文本情感特征确定单元,用于根据所述词性特征值、所述词频特征值以及所述句式特征值,确定文本情感特征。
120.可选地,所述词性特征值确定单元包括:
121.第三确定单元,用于确定所述关键特征词对应的词频、文件频率和逆向文件频率;
122.第四确定单元,用于根据所述词频、所述文件频率和所述逆向文件频率,确定所述目标音频样本的词频特征值。
123.可选地,所述特征提取模块还包括:
124.第二音频样本确定单元,用于对所述语音情感特征和所述文本情感特征进行分帧对齐,得到第二音频样本,所述第二音频样本包含多个分帧节点;
125.初始音频样本确定单元,用于对所述第二音频样本进行样本标注,得到初始音频样本。
126.可选地,所述特征聚类结果值分布图确定模块包括:
127.平均簇质心值计算单元,用于根据所述初始音频样本中各分帧节点与其他分帧节点之间的簇距离,计算平均簇质心值;
128.聚类特征值确定单元,用于基于所述平均簇质心值确定所述初始音频样本的聚类特征值。
129.可选地,所述特征提取模块包括:
130.预加重处理单元,用于对原始音频样本进行预加重处理,得到第一音频样本,所述第一音频样本的高频能量大于所述原始音频样本的高频能量;
131.目标音频样本确定单元,用于对所述第一音频样本进行分帧、清洗和过滤,得到所述目标音频样本。
132.图5示例了一种设备的实体结构示意图,如图5所示,该设备可以包括:处理器(processor)510、通信接口(communication interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的计算机程序,以执行语音情绪分析方法的步骤。
133.此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
134.另一方面,本技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的语音情绪分析方法的步骤。
135.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
136.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的语音情绪分析方法。
137.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
技术特征:
1.一种语音情绪分析方法,其特征在于,包括:对目标音频样本进行特征提取,得到语音情感特征和文本情感特征,所述目标音频样本是对原始音频样本进行预处理得到的;对所述语音情感特征和所述文本情感特征进行分帧对齐和样本标注,得到初始音频样本;基于所述初始音频样本中的各分帧节点,确定所述初始音频样本的聚类特征值,将各所述初始音频样本的聚类特征值分布区域和预设情感分布图结合得到特征聚类结果值分布图;根据待分析音频的聚类特征值与所述特征聚类结果值分布图,确定所述待分析音频的情绪分析结果。2.根据权利要求1所述的语音情绪分析方法,其特征在于,所述对所述目标音频样本进行特征提取,得到语音情感特征包括:确定所述目标音频样本的音源波长、音源振幅以及浊音振动频率;基于所述音源波长确定所述目标音频样本的波长特征值;基于所述音源振幅确定所述目标音频样本的短时能量特征值;基于所述浊音振动频率确定所述目标音频样本的基因频率值;根据所述波长特征值、所述短时能量特征值以及所述基因频率值,确定语音情感特征。3.根据权利要求1所述的语音情绪分析方法,其特征在于,所述对目标音频样本进行特征提取,得到文本情感特征包括:确定目标音频样本对应的候选特征词、关系指示词、关键特征词以及标志性字词;基于所述候选特征词和所述关系指示词,确定所述目标音频样本的词性特征值;基于所述关键特征词确定所述目标音频样本的词频特征值;基于所述标志性字词确定所述目标音频样本的句式特征值;根据所述词性特征值、所述词频特征值以及所述句式特征值,确定文本情感特征。4.根据权利要求3所述的语音情绪分析方法,其特征在于,所述基于所述关键特征词确定所述目标音频样本的词频特征值包括:确定所述关键特征词对应的词频、文件频率和逆向文件频率;根据所述词频、所述文件频率和所述逆向文件频率,确定所述目标音频样本的词频特征值。5.根据权利要求1所述的语音情绪分析方法,其特征在于,所述对所述语音情感特征和所述文本情感特征进行分帧对齐和样本标注,得到初始音频样本包括:对所述语音情感特征和所述文本情感特征进行分帧对齐,得到第二音频样本,所述第二音频样本包含多个分帧节点;对所述第二音频样本进行样本标注,得到初始音频样本。6.根据权利要求1所述的语音情绪分析方法,其特征在于,所述基于所述初始音频样本中的各分帧节点,确定所述初始音频样本的聚类特征值包括:根据所述初始音频样本中各分帧节点与其他分帧节点之间的簇距离,计算平均簇质心值;基于所述平均簇质心值确定所述初始音频样本的聚类特征值。
7.根据权利要求1所述的语音情绪分析方法,其特征在于,所述对原始音频样本进行预处理,包括:对所述原始音频样本进行预加重处理,得到第一音频样本,所述第一音频样本的高频能量大于所述原始音频样本的高频能量;对所述第一音频样本进行分帧、清洗和过滤,得到所述目标音频样本。8.一种语音情绪分析装置,其特征在于,包括:特征提取模块,用于对目标音频样本进行特征提取,得到语音情感特征和文本情感特征,所述目标音频样本是对原始音频样本进行预处理得到的;分帧对齐和样本标注模块,用于对所述语音情感特征和所述文本情感特征进行分帧对齐和样本标注,得到初始音频样本;特征聚类结果值分布图确定模块,用于基于所述初始音频样本中的各分帧节点,确定所述初始音频样本的聚类特征值,将各所述初始音频样本的聚类特征值分布区域和预设情感分布图结合得到特征聚类结果值分布图;情绪分析结果确定模块,用于根据待分析音频的聚类特征值与所述特征聚类结果值分布图,确定所述待分析音频的情绪分析结果。9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的语音情绪分析方法的步骤。10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的语音情绪分析方法的步骤。
技术总结
本申请涉及语音识别领域,提供一种语音情绪分析方法、装置、设备及计算机程序产品,所述语音情绪分析方法包括:对目标音频样本进行特征提取,得到语音情感特征和文本情感特征,目标音频样本是对原始音频样本进行预处理得到的;对语音情感特征和文本情感特征进行分帧对齐和样本标注,得到初始音频样本;基于初始音频样本中的各分帧节点,确定初始音频样本的聚类特征值,将各初始音频样本的聚类特征值分布区域和预设情感分布图结合得到特征聚类结果值分布图;根据待分析音频的聚类特征值与特征聚类结果值分布图,确定待分析音频的情绪分析结果。本申请通过多维度情绪特征值提取融合聚类算法分析用户情绪,提高了用户情绪识别的准确性。确性。确性。
技术研发人员:王博 李欣然 孙伟 侯普 吕程程
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2023.07.18
技术公布日:2023/10/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/