一种基于视听问答的机器人及其控制方法与流程

未命名 09-29 阅读:74 评论:0


1.本发明涉及机器人技术领域,特别涉及一种基于视听问答的机器人及其控制方法。


背景技术:

2.近年来,在机器人环境感知领域的研究中,在声音对象感知、视觉场景解析和内容描述等方面取得了显著进展,尽管这些方法能将视觉对象与声音关联,但它们中的大多数在复杂视听场景下的跨模态推理能力仍然有限。
3.因此,人类可以充分利用多模态场景中的上下文内容和时间信息来解决复杂的场景推理任务,如视听问答任务等。
4.本专利拟在机器人整合视觉和声音的多模态信息,将视听问答(audio-visual question answering,avqa)应用于机器人,通过回答有关不同视觉对象、声音及其在视频中的关联的问题,并将相应信息转化为运动控制信号反馈给机器人控制系统,从而大幅提升机器人对场景的感知和理解能力。


技术实现要素:

5.本发明的目的在于提供一种基于视听问答的机器人及其控制方法,能够大幅提升机器人对场景的感知和理解能力。
6.为了达到上述目的,本发明提供以下技术方案:
7.一种基于视听问答的机器人控制方法,包括以下步骤:
8.步骤s100:对机器人进行训练,建立问答结果与机器人需执行的任务之间的“问答-任务”关系;
9.步骤s201:机器人不断获取周围环境中的视觉信息和音频信息;
10.步骤s202:利用视听问答模块对预先设定好的问题进行回答,并给出相应的结果;
11.步骤s203:根据预先建立好的“问答-任务”关系,将视听问答的结果转化为对应的任务,并转化为信号发送给机器人的运动控制系统,使机器人完成相应的任务。
12.这种控制方法,充分利用环境中的视觉和声音信息,多模态信息提高了机器人对周围环境的理解和感知能力,同时增强了机器人的鲁棒性;视听问答可以回答视觉对象、声音及其在视频中关联关系的问题,从而赋予了机器人更为灵活的交互能力。
13.可选地,步骤s100具体包括:
14.步骤s101:令机器人采集环境视频和音频的数据集,预先设定问题,并建立相应的视听问答对;
15.步骤s102:基于数据集进行视听问答模块的训练,并将视听问答模块部署到机器人;
16.步骤s103:建立问答结果与机器人需执行任务之间互相对应的“问答-任务”关系。
17.可选地,在步骤s101中,采集环境视频和音频的数据集包括:在机器人设置声音传
感器以及视觉传感器,通过声音传感器采集环境的音频数据、通过视觉传感器采集环境的视频数据。
18.可选地,在步骤s101中,预先设定问题包括:此声音是否由a发出;视频中一共有多少人在说话;说话的人在视频中的什么位置。
19.可选地,在步骤s103中,机器人需执行任务包括:将说话人在视频中的位置换算成实际位置,并移动至说话人的位置。
20.可选地,控制方法还包括:步骤s300:获取说话人的语音口令,按语音口令进行后续任务。
21.可选地,步骤s300具体包括:
22.步骤s301,机器人通过音频传感器获取说话人的语音口令;
23.步骤s302,将语音口令传话为信号发送给机器人的运动控制系统;
24.步骤s303,运动控制系统按语音口令指示进行后续任务。
25.可选地,语音口令包括:去自主充电。
26.可选地,语音口令包括:将a货物搬运到x地点。
27.一种基于视听问答的机器人,适用于上述的任一种基于视听问答的机器人控制方法,包括:声音传感器、视觉传感器、视听问答模块、音频传感器以及运动控制系统。
附图说明
28.构成本技术的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。其中:
29.图1为本发明实施例提供的基于视听问答的机器人控制方法的流程图。
具体实施方式
30.下面将参考附图并结合实施例来详细说明本发明。各个示例通过本发明的解释的方式提供而非限制本发明。实际上,本领域的技术人员将清楚,在不脱离本发明的范围或精神的情况下,可在本发明中进行修改和变型。例如,示为或描述为一个实施例的一部分的特征可用于另一个实施例,以产生又一个实施例。因此,所期望的是,本发明包含归入所附权利要求及其等同物的范围内的此类修改和变型。
31.在本发明的描述中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不能理解为对本发明的限制。本发明中使用的术语“相连”、“连接”、“设置”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接;可以是直接相连,也可以通过中间部件间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
32.本发明实施例提供一种基于视听问答的机器人控制方法,包括以下步骤:
33.步骤s100:对机器人进行训练,建立问答结果与机器人需执行的任务之间的“问答-任务”关系;
34.步骤s201:机器人不断获取周围环境中的视觉信息和音频信息;
35.步骤s202:利用视听问答模块对预先设定好的问题进行回答,并给出相应的结果;
36.步骤s203:根据预先建立好的“问答-任务”关系,将视听问答的结果转化为对应的任务,并转化为信号发送给机器人的运动控制系统,使机器人完成相应的任务。
37.本实施例中,这种控制方法充分利用环境中的视觉和声音信息,多模态信息提高了机器人对周围环境的理解和感知能力,同时增强了机器人的鲁棒性;视听问答可以回答视觉对象、声音及其在视频中关联关系的问题,从而赋予了机器人更为灵活的交互能力。
38.作为一种可选的实施例,步骤s100具体包括:
39.步骤s101:令机器人采集环境视频和音频的数据集,预先设定问题,并建立相应的视听问答对;
40.步骤s102:基于数据集进行视听问答模块的训练,并将视听问答模块部署到机器人;
41.步骤s103:建立问答结果与机器人需执行任务之间互相对应的“问答-任务”关系。
42.具体地,在步骤s101中,采集环境视频和音频的数据集包括:在机器人设置声音传感器以及视觉传感器,通过声音传感器采集环境的音频数据、通过视觉传感器采集环境的视频数据。
43.本实施例中,通过声音传感器以及视觉传感器采集环境音频和视频信息,再结合预先设置的问题对机器人进行视听问答模块的训练,训练完毕后,将视听问答模块部署到机器人,然后建立“问答-任务”关系。为后续机器人能够以视听问答结果而完成对应的任务打下了坚实的基础。
44.作为一种可选的实施例,在步骤s101中,预先设定问题包括:此声音是否由a发出;视频中一共有多少人在说话;说话的人在视频中的什么位置。
45.在步骤s103中,机器人需执行任务包括:将说话人在视频中的位置换算成实际位置,并移动至说话人的位置。
46.本实施例中,下面以一个具体工作场景为例来说明机器人的工作过程:
47.在车间中,说话人a开口说话以准备对a下达命令;机器人进入车间后,首先获取车间环境的视频和音频信息,将获取的音频、视频信息输入视听问答模块,而后根据预先设定的问题进行回答,例如视频中一共有多少人,说话人是不是a,a在视频中的具体位置是什么;当机器人判断出说话人的确是a,且获取了a在视频中的位置后,将该位置换算成车间中的具体位置,并移动至a所在位置。
48.这种设置方式,通过音频和视频两种模态信息的采集,结合视听问答模块来准确识别说话人的信息,以降低因工作噪音或嘈杂的人声带来的干扰导致机器人判断不清的问题,从而实现大幅提升机器人对场景的感知和理解能力。
49.作为一种可选的实施例,控制方法还包括:步骤s300:获取说话人的语音口令,按语音口令进行后续任务。
50.作为一种可选的实施例,步骤s300具体包括:
51.步骤s301,机器人通过音频传感器获取说话人的语音口令;
52.步骤s302,将语音口令传话为信号发送给机器人的运动控制系统;
53.步骤s303,运动控制系统按语音口令指示进行后续任务。
54.本实施例中,当机器人通过视听问答的方式准确判断出说话人并移动到说话人位置后,说话人可继续根据语音口令让机器人执行后续任务。
55.具体地,语音口令包括:去自主充电。或者,将a货物搬运到x地点。
56.需要说明的是,本实施例的语音口令仅为举例说明,在实际工作时,可视具体工况来下达所需的命令,具体不做限定。
57.本发明实施例还提供了一种基于视听问答的机器人,适用于上述的任一种基于视听问答的机器人控制方法,包括:声音传感器、视觉传感器、视听问答模块、音频传感器以及运动控制系统。
58.本实施例中,基于视听问答的机器人的有益效果与上述的任一种基于视听问答的机器人控制方法的有益效果相同,不再赘述。
59.以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于视听问答的机器人控制方法,其特征在于,包括以下步骤:步骤s100:对机器人进行训练,建立问答结果与机器人需执行的任务之间的“问答-任务”关系;步骤s201:机器人不断获取周围环境中的视觉信息和音频信息;步骤s202:利用视听问答模块对预先设定好的问题进行回答,并给出相应的结果;步骤s203:根据预先建立好的“问答-任务”关系,将视听问答的结果转化为对应的任务,并转化为信号发送给机器人的运动控制系统,使机器人完成相应的任务。2.根据权利要求1所述的基于视听问答的机器人控制方法,其特征在于,步骤s100具体包括:步骤s101:令机器人采集环境视频和音频的数据集,预先设定问题,并建立相应的视听问答对;步骤s102:基于所述数据集进行视听问答模块的训练,并将所述视听问答模块部署到机器人;步骤s103:建立问答结果与机器人需执行任务之间互相对应的“问答-任务”关系。3.根据权利要求2所述的基于视听问答的机器人控制方法,其特征在于,在步骤s101中,所述采集环境视频和音频的数据集包括:在机器人设置声音传感器以及视觉传感器,通过所述声音传感器采集环境的音频数据、通过所述视觉传感器采集环境的视频数据。4.根据权利要求2所述的基于视听问答的机器人控制方法,其特征在于,在步骤s101中,所述预先设定问题包括:此声音是否由a发出;视频中一共有多少人在说话;说话的人在视频中的什么位置。5.根据权利要求4所述的基于视听问答的机器人控制方法,其特征在于,在步骤s103中,所述机器人需执行任务包括:将说话人在视频中的位置换算成实际位置,并移动至说话人的位置。6.根据权利要求5所述的基于视听问答的机器人控制方法,其特征在于,所述控制方法还包括:步骤s300:获取说话人的语音口令,按所述语音口令进行后续任务。7.根据权利要求6所述的基于视听问答的机器人控制方法,其特征在于,步骤s300具体包括:步骤s301,机器人通过音频传感器获取说话人的语音口令;步骤s302,将语音口令传话为信号发送给机器人的运动控制系统;步骤s303,运动控制系统按语音口令指示进行后续任务。8.根据权利要求7所述的基于视听问答的机器人控制方法,其特征在于,所述语音口令包括:去自主充电。9.根据权利要求7所述的基于视听问答的机器人控制方法,其特征在于,所述语音口令包括:
将a货物搬运到x地点。10.一种基于视听问答的机器人,其特征在于,适用于如权利要求1-9任一项所述的基于视听问答的机器人控制方法,包括:声音传感器、视觉传感器、视听问答模块、音频传感器以及运动控制系统。

技术总结
本发明涉及机器人技术领域,公开了一种基于视听问答的机器人及其控制方法,该方法包括:对机器人进行训练,建立问答结果与机器人需执行的任务之间的“问答-任务”关系;机器人不断获取周围环境中的视觉信息和音频信息;利用视听问答模块对预先设定好的问题进行回答,并给出相应的结果;根据预先建立好的“问答-任务”关系,将视听问答的结果转化为对应的任务,并转化为信号发送给机器人的运动控制系统,使机器人完成相应的任务。该方法充分利用环境中的视觉和声音信息,提高了机器人对周围环境的理解和感知能力,同时增强了机器人的鲁棒性;视听问答可以回答视觉对象、声音及其在视频中关联关系的问题,从而赋予了机器人更为灵活的交互能力。交互能力。交互能力。


技术研发人员:侯晓楠 王春雷 詹明昊
受保护的技术使用者:上海微电机研究所(中国电子科技集团公司第二十一研究所)
技术研发日:2023.04.17
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐