一种家庭智能伴读系统
未命名
09-29
阅读:113
评论:0
1.本发明涉及在线教育技术领域,特别是涉及一种家庭智能伴读系统。
背景技术:
[0002][0003][0004]
随着智能语音识别系统的成熟,智能机器人、陪伴类机器人以及学习类机器人发展迅速,目前市面上存在的主流智能机器人类产品包括小度机器人、小爱同学、天猫精灵等,上述产品均是通过智能搜索实现即时交互问答的产品,它们忽略了数据分析和分析结果对家长的反馈。目前市面上存在的主流学习机类产品包括优学派、步步高和读书郎等,上述产品主要针对初、高中生,比拼学习资料的完备度,主要满足孩子的学业指导需求。这些学习机类产品的主要功能包括学习资源、在线辅导、作业答疑等,为孩子提供更加全面的学习服务,虽然上述产品也注重家长与孩子的互动,却无法对孩子当前的情绪进行准确识别,以及时提供相应的情感支持。目前市面上存在的主流陪伴类产品包括eilik机器人、阿尔法蛋和米熊小超等。上述陪伴类产品虽然具有一些交互功能,但问题类型单一,回答方式机械化;这些产品缺乏智能语言模型,无法根据用户的问题进行智能分析和回答,导致用户的体验较差。
技术实现要素:
[0005]
为了解决上述技术问题,本发明实施例提供了一种家庭智能伴读系统,技术方案如下:
[0006]
一种家庭智能伴读系统,包括:语音信息采集单元、声纹识别单元、情感分析单元、存储单元、问题处理单元、语音互动交流单元、控制单元;
[0007]
语音信息采集单元,用于采集语音信息,识别其中的语音指令,并发送语音指令至控制单元或问题处理单元;
[0008]
声纹识别单元,用于对语音信息采集单元采集到语音中的声纹信息进行识别,并根据识别到的声纹信息建立对应的用户身份档案或调取对应的用户身份档案;
[0009]
情感分析单元,用于对语音信息中的情感信息进行分析,根据分析结果得到用户当下的情绪;
[0010]
存储单元,用于存储完备的学习资源、各个科目的试题资源、各个用户的身份档案等;
[0011]
问题处理单元,用于根据语音信息中的语音指令,提取出用户所提出的问题,将所述问题进行分析、反馈并分类存储于存储单元;
[0012]
控制单元,用于根据语音指令,调取存储单元中的学习资源、解题步骤,并输出至语音互动交流单元;
[0013]
语音互动交流单元,用于从控制单元获取反馈信息,并通过语音或屏幕进行显示;
[0014]
作为优选,所述语音信息采集单元包括语音获取模块,语音指令识别模块,发送模块;语音获取模块用于获取用户的语音信息,语音指令识别模块用于对获取到的用户的语音信息进行识别;发送模块,用于发送语音指令至控制单元或问题处理单元;进一步的,语音获取模块为麦克风。
[0015]
作为优选,声纹识别单元包括声纹识别模块和声纹数据库,采用声纹识别算法进行声纹识别,将说话人声纹信息与库中的已知用户声纹进行1:1比对验证和1:n的检索,当声纹匹配时即为验证、检索成功,若检测到新声纹,则将该新声纹存储在声纹数据库中。
[0016]
作为优选,情感分析单元,包括语音情感识别模块和发送模块,采用自主研发的基于谱区域情感信息自适应语音情感识别算法,以识别用户情绪,并将识别结果发送至问题处理单元;所构建的基于谱区域情感信息自适应语音情感识别算法包含:坐标注意力动态区域感知网络和多流子分支特征融合网络2个部分,坐标注意力动态区域感知网络用于提取语谱图中的全局动态情感信息,多流子分支特征融合网络结构用于提取不同情感语义层次及情感分辨率的情感特征,最大限度的保留了完整的情感信息,多流多流子分支特征融合网络输出接一个分类器,从而实现语音情感识别。
[0017]
作为优选,问题处理单元,包括数据分类模块、数据分析模块、数据推送模块;其中,数据分类模块,用于对语音信息采集单元识别出来的问题信息进行分类,主要包括知识类、试题类、情感需求类,并基于智能问答功能给出相关问题答案;数据分析模块,用于对上述问题信息进行分析,得出对应的学情分、情感分、兴趣分,周期性地生成孩子最近的问题类型表单和性格分析,并通过数据推送模块将上述信息发送至家长手机端。
[0018]
作为优选,语音互动交流单元包括控制单元数据获取模块、显示模块、播放模块。
[0019]
作为优选,所述的坐标注意力动态区域感知网络,其特征在于,具体操作如下:
[0020]
s1、首先,基于输入的x使用k
×
k的标准卷积生成输出通道数为m的引导特征f∈ru×v×m;
[0021]
其次,通过argmax()获取引导掩膜m∈ru×v,以划分特征图不同空间区域,对于空间区域的每一个位置(u,v),有:
[0022][0023]
其中,argmax()输出最大值的索引,确定最终需要划分的子区域个数m后,认为该位置(u,v)下的f特征值最大值即为该像素点的区域类别,并认为经过这个操作后获得相同索引号的特征点是情感信息相近的;
[0024]
s2、基于时频注意力机制对输入x进行时间维度和频率维度的加权,得到大小为k
×k×
c的加权特征图xw;
[0025]
xw(i,j)=x(i,j)
×gh(i)×gw
(j)
[0026]
其中,x表示输入特征图,gh、gw分布表示时间维度和频率的注意力加权系数;
[0027]
通过对xw使用1
×
1卷积与sigmoid激活函数得到大小为k
×k×
m2的卷积核生成矩阵xc;
[0028]
将卷积核生成矩阵xc均分为m组,每组进行1
×
1的卷积,得到最后的对应m个区域的卷积核w=[w0,
…
,w
m-1
]
[0029]
s3、在上述条件下,区域定制卷积核按区域设为w=[w0,w1…
,w
m-1
],其中w
t
∈rc与子区域s
t
相关,对应区域的输出如下式所示:
[0030]yu,v
=x
u,v
*w
t
(u,v)∈s
t
[0031]
x
u,v
,y
u,v
表示空间区域的位置(u,v)的点,x表示输入特征图,y表示输入卷积输出;
[0032]
s4、将此卷积核生成方法用于替换alexnet网络架构卷积核生成方法,构建坐标注意力动态区域感知网络;
[0033]
作为优选,所述的多流子分支特征融合网络,其特征在于,多流子分支卷积网络在每个池化层后添加分支结构,每个分支由一个1*1卷积及全局平均池化单元组成,1*1卷积相当于一个跨通道参数池化层,以用来实现跨通道情感信息交互学习,提取不同通道情感的相关特征,全局平均池化单元实现链接不同的情感特征映射以减少参数,对于各分支网络输出bi(i=0,1,
…
,n),通过下述公式实现不同情感分辨率特征的融合,其最终输出f1为:
[0034]
f1=b0+b1+
…
+bn附图说明
[0035]
图1本发明系统流程图。
[0036]
图2基于谱区域情感信息自适应语音情感识别算法流程图。
[0037]
图3问题处理单元流程图。
具体实施方式
[0038]
下面将参考附图结合实施例说明本发明。
[0039]
如图1所示,本发明公开了一种家庭智能伴读系统,包括:语音信息采集单元、声纹识别单元、情感分析单元、存储单元、问题处理单元、存储单元、语音互动交流单元、控制单元。
[0040]
语音信息采集单元,用于采集语音信息,并识别其中的语音指令,并发送语音指令至控制单元或问题处理单元;
[0041]
语音信息采集单元包括语音获取模块,语音指令识别模块,发送模块。语音获取模块用于获取用户的语音信息,语音指令识别模块用于对获取到的用户的语音信息进行识别,发送模块,用于发送语音指令至控制单元或问题处理单元,进一步的,语音采集模块为麦克风。其中,语音指令识别模块可以使用百度开放平台提供的实时语音识别技术和长文本在线合成技术api,通过使用百度开放平台提供的实时语音识别技术,能够实时识别用户说出的语音,从而实现语音控制、语音搜索、语音翻译等功能。
[0042]
声纹识别单元,用于对语音信息采集单元采集到语音中的声纹信息进行识别,并根据识别到的声纹信息建立对应的用户身份档案或调取对应的用户身份档案。声纹识别功能可以使用“科大讯飞”开放的声纹识别技术。“科大声纹识别技术”可以将说话人声纹信息与库中的已知用户声纹进行1:1比对验证和1:n的检索,当声纹匹配时即为验证、检索成功。声纹识别的底层技术实现原理主要包括数据采集、特征提取、特征向量化、模型训练和识别匹配等步骤。在数据采集阶段,需要采集到不同人的语音样本,以建立各个人的声纹模型。
[0043]
作为优选,情感分析单元,包括语音情感识别模块和发送模块,采用自主研发的基于谱区域情感信息自适应语音情感识别算法,以识别用户情绪,并将识别结果发送至问题处理单元,算法流程如图2所示;所构建的基于谱区域情感信息自适应语音情感识别算法包
含:坐标注意力动态区域感知网络和多流子分支特征融合网络2个部分,坐标注意力动态区域感知网络用于提取语谱图中的全局动态情感信息,多流子分支特征融合网络结构用于提取不同情感语义层次及情感分辨率的情感特征,最大限度的保留了完整的情感信息,多流多流子分支特征融合网络输出接一个分类器,从而实现语音情感识别。
[0044]
坐标注意力动态区域感知网络,其特征在于,具体操作如下:
[0045]
s1、首先,基于输入的x使用k
×
k的标准卷积生成输出通道数为m的引导特征f∈ru×v×m;
[0046]
其次,通过argmax()获取引导掩膜m∈ru×v,以划分特征图不同空间区域,对于空间区域的每一个位置(u,v),有:
[0047][0048]
其中,argmax()输出最大值的索引,确定最终需要划分的子区域个数m后,认为该位置(u,v)下的f特征值最大值即为该像素点的区域类别,并认为经过这个操作后获得相同索引号的特征点是情感信息相近的;
[0049]
s2、基于时频注意力机制对输入x进行时间维度和频率维度的加权,得到大小为k
×k×
c的加权特征图xw;
[0050]
xw(i,j)=x(i,j)
×gh(i)×gw
(j)
[0051]
其中,x表示输入特征图,gh、gw分布表示时间维度和频率的注意力加权系数;
[0052]
通过对xw使用1
×
1卷积与sigmoid激活函数得到大小为k
×k×
m2的卷积核生成矩阵xc;
[0053]
将卷积核生成矩阵xc均分为m组,每组进行1
×
1的卷积,得到最后的对应m个区域的卷积核w=[w0,
…
,w
m-1
]
[0054]
s3、在上述条件下,区域定制卷积核按区域设为w=[w0,w1…
,w
m-1
],其中w
t
∈rc与子区域s
t
相关,对应区域的输出如下式所示:
[0055]yu,v
=x
u,v
*w
t
(u,v)∈s
t
[0056]
x
u,v
,y
u,v
表示空间区域的位置(u,v)的点,x表示输入特征图,y表示输入卷积输出;
[0057]
s4、将此卷积核生成方法用于替换alexnet、vgg网络架构卷积核生成方法,构建坐标注意力动态区域感知网络;
[0058]
所述的多流子分支特征融合网络,其特征在于,多流子分支卷积网络在每个池化层后添加分支结构,每个分支由一个1*1卷积及全局平均池化单元组成,1*1卷积相当于一个跨通道参数池化层,以用来实现跨通道情感信息交互学习,提取不同通道情感的相关特征,全局平均池化单元实现链接不同的情感特征映射以减少参数,对于各分支网络输出bi(i=0,1,
…
,n),通过下述公式实现不同情感分辨率特征的融合,其最终输出f1为:
[0059]
f1=b0+b1+
…
+bn[0060]
存储单元,用于存储完备的学习资源、各个科目的试题资源、各个用户的身份档案等。
[0061]
控制单元,用于根据语音指令,调取存储单元中的学习资源、解题步骤,并输出至语音互动交流单元模块和显示单元中。
[0062]
问题处理单元,用于根据语音信息中的语音指令,提取出用户所提出的问题,利用智能问答功能对问题进行分析,并将所述问题分类存储于存储单元。问题处理单元包括数
据分类模块、数据分析模块、数据推送模块,其中,数据分类模块,用于对语音信息采集单元识别出来的问题信息进行分类,主要包括知识类、试题类、情感需求类,并基于智能问答功能给出相关问题答案;数据分析模块,用于对上述问题信息进行分析,得出对应的学情分、情感分、兴趣分,周期性地生成孩子最近的问题类型表单和性格分析,并通过数据推送模块将上述信息发送至家长手机端。智能问答功能使用python对接智能语音模型来实现,智能语音模型是一个大型语言模型,可以用于生成自然语言响应和回答问题,智能语音模型提供了一种强大而灵活的方式,可以让本公司的产品更加智能。与智能语音模型实现产品的集成,可以让用户直接通过提问来获取信息,从而提高用户的体验和满意度。
[0063]
语音互动交流单元,用于从问题处理单元获取反馈信息,并通过语音或屏幕进行显示。
技术特征:
1.一种家庭智能伴读系统,包括:语音信息采集单元、声纹识别单元、情感分析单元、存储单元、问题处理单元、语音互动交流单元、控制单元;语音信息采集单元,用于采集语音信息,识别其中的语音指令,并发送语音指令至控制单元或问题处理单元;声纹识别单元,用于对语音信息采集单元采集到语音中的声纹信息进行识别,并根据识别到的声纹信息建立对应的用户身份档案或调取对应的用户身份档案;情感分析单元,用于对语音信息中的情感信息进行分析,根据分析结果得到用户当下的情绪;存储单元,用于存储完备的学习资源、各个科目的试题资源、各个用户的身份档案等;问题处理单元,用于根据语音信息中的语音指令,提取出用户所提出的问题,将所述问题进行分析、反馈并分类存储于存储单元;控制单元,用于根据语音指令,调取存储单元中的学习资源、解题步骤,并输出至语音互动交流单元;语音互动交流单元,用于从控制单元获取反馈信息,并通过语音或屏幕进行显示。2.根据权利要求1所述的智能伴读系统,其特征在于,所述语音信息采集单元包括语音获取模块,语音指令识别模块,发送模块;语音获取模块用于获取用户的语音信息,语音指令识别模块用于对获取到的用户的语音信息进行识别;发送模块,用于发送语音指令至控制单元或问题处理单元;进一步的,语音获取模块为麦克风。3.根据权利要求1所述的智能伴读系统,其特征在于,声纹识别单元包括声纹识别模块和声纹数据库,采用声纹识别算法进行声纹识别,将说话人声纹信息与库中的已知用户声纹进行1:1比对验证和1:n的检索,当声纹匹配时即为验证、检索成功,若检测到新声纹,则将该新声纹存储在声纹数据库中。4.根据权利要求1所述的智能伴读系统,其特征在于,情感分析单元,包括语音情感识别模块和发送模块,采用自主研发的基于谱区域情感信息自适应语音情感识别算法,以识别用户情绪,并将识别结果发送至问题处理单元;所构建的基于谱区域情感信息自适应语音情感识别算法包含:坐标注意力动态区域感知网络和多流子分支特征融合网络2个部分,将语音的语谱图输入坐标注意力动态区域感知网络中,提取全局动态情感信息,多流子分支特征融合网络用于提取不同情感语义层次及情感分辨率的情感特征,最大限度的保留了完整的情感信息,多流多流子分支特征融合网络输出接一个分类器,从而实现语音情感识别。5.根据权利要求1所述的智能伴读系统,其特征在于,问题处理单元,包括数据分类模块、数据分析模块、数据推送模块;其中,数据分类模块,用于对语音信息采集单元识别出来的问题信息进行分类,主要包括知识类、试题类、情感需求类,并基于智能问答功能给出相关问题答案;数据分析模块,用于对上述问题信息进行分析,得出对应的学情分、情感分、兴趣分,周期性地生成孩子最近的问题类型表单和性格分析,并通过数据推送模块将上述信息发送至家长手机端。6.根据权利要求1所述的智能伴读系统,其特征在于,语音互动交流单元包括控制单元数据获取模块、显示模块、播放模块。7.根据权利要求4所述的坐标注意力动态区域感知网络,其特征在于,具体操作如下:
s1、首先,基于输入的x使用k
×
k的标准卷积生成输出通道数为m的引导特征f∈r
u
×
v
×
m
;其次,通过argmax()获取引导掩膜m∈r
u
×
v
,以划分特征图不同空间区域,对于空间区域的每一个位置(u,v),有:其中,argmax()输出最大值的索引,确定最终需要划分的子区域个数m后,认为该位置(u,v)下的f特征值最大值即为该像素点的区域类别,并认为经过这个操作后获得相同索引号的特征点是情感信息相近的;s2、基于时频注意力机制对输入x进行时间维度和频率维度的加权,得到大小为k
×
k
×
c的加权特征图x
w
;x
w
(i,j)=x(i,j)
×
g
h
(i)
×
g
w
(j)其中,x表示输入特征图,g
h
、g
w
分布表示时间维度和频率的注意力加权系数;通过对x
w
使用1
×
1卷积与sigmoid激活函数得到大小为k
×
k
×
m2的卷积核生成矩阵x
c
;将卷积核生成矩阵x
c
均分为m组,每组进行1
×
1的卷积,得到最后的对应m个区域的卷积核w=[w0,,w
m-1
]s3、在上述条件下,区域定制卷积核按区域设为w=[w0,w1,w
m-1
],其中w
t
∈r
c
与子区域s
t
相关,对应区域的输出如下式所示:y
u,v
=x
u,v
*w
t
(u,v)∈s
t
x
u,v
,y
u,v
表示空间区域的位置(u,v)的点,x表示输入特征图,y表示输入卷积输出;s4、将此卷积核生成方法用于替换alexnet网络架构卷积核生成方法,构建坐标注意力动态区域感知网络。8.根据权利要求4所述的多流子分支特征融合网络,其特征在于,多流子分支卷积网络在每个池化层后添加分支结构,每个分支由一个1*1卷积及全局平均池化单元组成,1*1卷积相当于一个跨通道参数池化层,以用来实现跨通道情感信息交互学习,提取不同通道情感的相关特征,全局平均池化单元实现链接不同的情感特征映射以减少参数,对于各分支网络输出b
i
(i=0,1,,n),通过下述公式实现不同情感分辨率特征的融合,其最终输出f1为:f1=b0+b1++b
n
。
技术总结
本发明公开了一种家庭智能伴读系统,包括:语音信息采集单元、声纹识别单元、情感分析单元、存储单元、问题处理单元、语音互动交流单元、控制单元。通过语音信息采集单元获取并分析语音数据,将相关信息输入情感分析单元,声纹识别单元、问题处理单元或控制单元中,情感分析单元用于分析语音的情感状态,声纹识别单元用于识别声纹并建立用户档案,问题处理单元用于对问题进行分析,存储单元存储完备的学习资源、各个科目的试题资源、各个用户的身份档案;控制单元调取存储模块中的学习资源、解题步骤,并输出至语音互动交流单元,完成信息反馈。本发明在有效处理学生问题的同时,可监控学生状态,从而更好地支持孩子的成长和学习。从而更好地支持孩子的成长和学习。从而更好地支持孩子的成长和学习。
技术研发人员:刘洺远 周海伦 孙嘉鑫 秦瑶 陶华伟
受保护的技术使用者:河南工业大学
技术研发日:2023.06.27
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/