一种机器人多模态近场环境感知方法及系统与流程

未命名 09-29 阅读:69 评论:0


1.本发明属于近场环境感知技术领域,具体涉及一种机器人多模态近场环境感知方法及系统。


背景技术:

2.环境感知是移动机器人自主导航系统中的重要模块之一,移动机器人运动行为是由自主导航系统决定的,自主导航系统主要包含感知、规划、控制与定位四个模块,感知模块是连接机器人与环境的桥梁,其作用是“阅读、提取”环境内容,思路是使用各种环境感知传感器获取机器人周围环境原始数据,通过感知算法提取目标特征,最终目的就是让机器人知道自己在环境中的位置,知道自己周围环境情况是怎么样的,以及环境中的内容是什么含义,这些内容之间是什么联系。
3.上世纪60年代移动机器人就已诞生,人工智能技术开始应用于移动机器人,其配备了电子摄像机、三角测距仪、碰撞传感器以及驱动电机,能简单解决感知、运动规划和控制问题(熊云龙.基于六轮小车的虚拟智能管家系统及相关slam技术研究[d].华中师范大学,2020.),而要实现机器人智能行走,则需要可靠的定位与环境感知技术。在环境感知技术方面相关算法研究成果层出不同穷,环境感知算法针对不同的应用场景有着不同的研究侧重点,比如测绘、ar/vr等领域,就需要将实际环境的几何、色彩等特征细节尽可能详细得展示出来,对实时性要求可以不用太高。目前机器人能够根据自身姿态选择实景点云数据或者执行点云数据来达到对环境的感知(cn111645067b);由于深度学习方法的普及和能力的提高,使用神经网络的机器人导航已经被开发出来,机器人能够直接从神经网络输出中执行有意的动作。机器人能够执行直接从神经网络输出获取的决策动作(cn114879660a)。
[0004]
目前,机器人在近场环境感知上仍然普遍存在一些不足,如部分环境感知方法仅仅依靠视觉进行感知,可以获得直观的感知结果,但是准确性受限,缺乏相匹配的位置信息,其余方法虽然有些取得了较好的结果,但无法满足机器人应用中的应变感知能力。
[0005]
综上所述,目前缺少一种基于机器人实现多模态近场环境感知的方法,本发明致力于解决以上提出的技术问题。
[0006]
发明目的
[0007]
本发明的目的是公开一种机器人多模态近场环境感知方法及系统,基于机器人载荷全景相机以及麦克风阵列设备,通过全景相机画面的拼接以及麦克风对近场声源的识别及定位,实现对机器人周围的建筑、树木、行人、车辆等类别的目标进行高效的识别及分类。通过实时融合无拼缝全景视频拼接方法以及基于多尺度信息均衡及回归学习的高精度多对象检测分类方法,解决全景视频及图像会出现因为视频中运动物体的干扰而导致的重影、错位、模糊以及拼接缝以及由于目标在尺度、视角、外观等方面的多样性以及实际应用场景中复杂的数据特性,实现高精度的目标检测。
[0008]
为达到上述目的,解决上述技术问题,本发明的技术方案如下:
[0009]
一种机器人多模态近场环境感知系统,包括全景视频拼接模块、近场识别标注模
块以及声监听模块;
[0010]
所述全景视频拼接模块用于将机器人载荷的多个全景相机获取连续的图像数据,构建拼接出360
°
全景视频画面,具体实现过程如下:
[0011]
1)图像预处理,包括图像去噪、均衡光照,同时,为了保持图片中的空间约束与视觉的一致性,需要对图像做柱面投影的坐标变换,使得拼接的全景图像能够在水平方向上满足360度环视;
[0012]
2)图像配准,采用基于特征的图像配准方法将待拼接图像输入特征提取模型,计算并保存匹配到的特征点对坐标,估计变换模型,将待拼接图像变换到同一坐标系下;
[0013]
3)图像融合,采用最佳缝合线动态更新和改进渐入渐出法的图像融合算法通过获得的视频中运动物体的前景区域,判断当前视频图像是否需要更新最佳缝合线,接着使用改进渐入渐出法平滑过渡区域,在保留图像原始信息的情况下,消除重叠区域的模糊、鬼影,减弱接缝线;
[0014]
所述的近场识别标注模块用于接收全景视频拼接模块的图像数据并存储,并对拼接后的全景视频画面中的所有对象进行检测、分类与标注;将输入的完整图像输出为带有类别标注信息的矩形检测框,并将含标注的全景画面压缩编码,形成全景标注视频流,并将视频流存储并传输至主控;
[0015]
近场识别标注模块通过端对端的一阶段模型实现对划定区域内出现的所有目标进行多目标检测与分类,将目标检测任务看作目标区域预测和类别预测的联合回归问题,采用单个神经网络直接预测物品边界和类别概率,实现端到端的实时目标检测,具体实现步骤如下:
[0016]
1)采用自适应多尺度信息流的网络连接结构,利用信息融合整合相邻尺度的特征,然后通过从相邻尺度特征交互过渡到全局尺度特征交互的策略,进一步增强特征金字塔中所有层级的特征表示;
[0017]
2)目标分类,基于多路检测头的目标分类增强算法,从目标候选框和定位更加精准的检测窗口中提取目标信息并生成分类置信度;
[0018]
3)目标定位,基于对训练样本的统计分析,采用平衡优化回归学习网络提升定位任务的性能,利用自迭代窗口采样自适应的学习训练样本的多样性,对不同定位精度的目标候选框的窗口回归过程分别进行建模;
[0019]
所述声监听模块用于对机器人搭载的360
°
麦克风阵列获取的音频数据进行分析,提取音频特征,计算声音信息的偏向角,对突发的声音进行定位,并将存在语音信息的音频数据进行存储及流式转发,具体包括如下步骤:
[0020]
1)声频定向,对输入音频信息进行信号处理,调节出具有高指向性的低频可听声音信号;
[0021]
2)声强检测
[0022]
将声音信号转换为电信号后很微弱,无法直接进行a/d转换,因此经过咪头传声器电路后,将信号放大,最后经过a/d转化电路,完成声强检测;
[0023]
3)采用麦克风阵列对突发声音进行定位
[0024]
数字mems麦克风传感器将模拟信号转化为数字信号,经过编码和调制最后上传到pc段,对接收到的数据进一步处理,通过算法计算实现对声源信号的位置估计。
[0025]
进一步的,所述的声频定向的具体过程如下:首先当声源发出需要定向发射传播的可听声,声频信号经过低通滤波、升压后送入ad转换器,然后单片机对ad转化后的声频信号进行信号与处理,经过功率放大后的预处理信号驱动换能器阵列,向空气中辐射带有可听声的超声波信号,自解调出具有高指向性的低频可听声音信号。
[0026]
进一步的,所述麦克风阵列对突发声音进行定位的具体过程如下:突发声音的声源信号到达前端麦克风阵列时,数字mems麦克风传感器将采集到的模拟量信号转换为数字量并且经过编码和调制最终输出1bit的pdm信号,fpga将同步采集到的四路pdm信号编码成128bit的信号缓存到ddrsdram中,当数据长度达到设定的突发长度时fpga控制以太网端口将从ddrsdram中读出的数据封装成以太网帧格式后上传给pc端,pc端将接收到的数据进一步处理然后通过时延估计的算法进行计算实现对声源信号的位置估计。
[0027]
本发明还提供一种机器人多模态近场环境感知方法,采用机器人多模态近场环境感知系统实现,具体包括如下步骤,
[0028]
步骤1、通过机器人搭载的全景相机阵列获取图像数据;
[0029]
步骤2、全景视频拼接模块通过获取的多个相机连续的图像数据,构建拼接出360
°
全景视频画面;
[0030]
步骤3、近场识别标注模块对全景视频画面中的对象进行检测,获取对象的位置、种类信息,将输入的完整图像输出为带有类别标注信息的矩形检测框;
[0031]
步骤4、将步骤3中含标注的全景画面压缩编码,形成全景标注视频,该视频流画面结构为上下两层结构,分别为两个相反方向的180度画面,共形成一个全景视频流;
[0032]
步骤5、同时通过机器人搭载的麦克风阵列获取音频数据;
[0033]
步骤6、声监听模块通过获取的音频数据,提取音频特征,计算声音的偏向角,进行声频定向后进行声强检测;
[0034]
步骤7、采用麦克风阵列对突发声音进行定位;
[0035]
步骤8、将步骤4和步骤7的到的视频和音频两种模态的数据通过音视频设备记录时间戳,使得视频和音频两种模态数据具有时间一致性之后进行存储和转发主控用于近场环境的感知和判断。
[0036]
进一步的,机器人搭载设备分布如下:全景相机阵列分布在四个点,每个点包括有两个相机,进行局部区域数据采集;左右分别有一个声源模块,右边的声源模块结构是一个麦克风在正中间,有六个麦克风分布在周围环形电路板上。
[0037]
本发明的有效收益如下:
[0038]
1、本发明构建了一种以机器人等移动对象为载体的具有音频和视频多模态的近距离场景中环境感知方法。通过全景相机阵列获取的图像数据,实时融合无拼缝全景视频拼接构建出了360度全景视频画面并对全景视频画面中的对象进行检测,获取出了对象的位置、种类等信息;通过获取的360度麦克风阵列中的音频数据,实现对突发声音进行定位,提高了对近场声源的识别及定位的性能;并对这两种模态的数据进行时间同步,存储和转发。
[0039]
2、基于实时高融合无拼缝全景视频的拼接方法以及基于多尺度信息均衡及回归学习的高精度多对象检测分类方法,进行了优化与改进。关注实际应用场景中复杂的数据特性对检测任务的影响,针对类别数目可扩展的目标检测问题以及目标域样本稀缺时的跨
域目标检测问题,采用基于特征金字塔的目标特征增强算法,提高目标在尺度、视角、外观多样性条件下的识别精度;
[0040]
3、本发明提出实时融合无拼缝全景视频拼接,提高特征提取速度和解决由图像累积配准误差导致的重影、间隙等问题。
[0041]
4、本发明针对实际场景中,因环境多样且复杂,非视距现象普遍存在,难以实现高精度定位,声学事件也因语音信号受到回声、噪声和叠加声源的干扰,本方案提出基于声学参量阵的声频定向方法和事件预测增强的声音监听提供高性能声学增强方法,提高对近场声源的识别及定位的性能。
附图说明
[0042]
图1本发明多模态近场环境感知方法流程图;
[0043]
图2是本发明全景视频单帧处理流程示意图;
[0044]
图3是本发明图像融合拼接框架示意图;
[0045]
图4是本发明实施例全景相机及麦克风定位示意图。
具体实施方式
[0046]
下面结合附图对本发明进行详细的解释和说明。
[0047]
本发明提供一种机器人多模态近场环境感知系统,包括全景视频拼接模块、近场识别标注模块以及声监听模块。本发明的系统设计思路如下:全景视频拼接模块用于通过机器人载荷的多个全景相机获取连续的图像数据,构建拼接出360
°
全景视频画面,然后近场识别标注模块再对全景视频画面中的对象进行检测,获取对象的位置、种类等信息;声监听模块通过获取360
°
麦克风阵列中音频数据,对突发声音进行定位;然后对这两种模态的数据进行时间同步,完成存储和转发。
[0048]
1、全景视频拼接模块
[0049]
全景视频拼接模块用于将机器人载荷的多个全景相机获取连续的图像数据,构建拼接出360
°
全景视频画面。首先对待拼接图像进行预处理,然后定位图像中相似的部分,根据相似部分的位置得到待拼接图像之间的变换模型,将多幅待拼接图像变换到同一坐标系下,实现图像配准,最后对拼接区域进行调整,更平滑的融合多幅图像,得到图像拼接结果。
[0050]
全景图像拼接模块实现了全景图像拼接的整个流程,其中包括图像预处理、图像特征提取,图像特征匹配等功能。全景图像拼接模块首先对用户输入的多张待拼接图像进行预处理,处理方法包括去噪、均衡光照、柱面投影等,然后将处理后的图像输入特征提取网络,特征提取网络输出匹配好的特征点对;同时将预处理后的待拼接图像输入图像分割网络,分割图像中包含的运动物体,模型输出掩码(mask)并在待拼接图像上根据掩码分割运动物体;根据特征匹配点对和运动物体区域动态生成避让运动物体的接缝线并对多幅待拼接图像进行拼接;最后,融合全景拼接结果图像。
[0051]
具体实现过程如下,如图2所示:
[0052]
1)图像预处理
[0053]
图像预处理阶段的目的是最大限度地消除图像质量差对拼接质量所造成的后续影响。图像预处理包括图像去噪、均衡光照,同时,为了保持图片中的空间约束与视觉的一
致性,需要对图像做柱面投影的坐标变换,使得拼接的全景图像能够在水平方向上满足360度环视。
[0054]
当待拼接图像的亮度较差、具有强噪声或畸变等情况时,需要对图像进行预处理,预处理阶段的目的是最大限度地消除图像质量差所造成的后续影响,使拼接结果质量更高,观感更好。图像预处理一般包括图像去噪、图像变换等。图像去噪:在图像产生的过程中,受传感器本身性质和周遭环境等影响,可能会产生各种噪声,如电阻引起的热噪声、光子噪声、光响应非均匀性噪声等,此外由于传输介质的不完善,数字图像在其传输记录过程中也会受到噪声的污染。在图像预处理中,常通过滤波的方式减轻噪声的影响。均值滤波使用线性方法来平均图像包含的像素值,受限于其固有性质,该方法可能对图像的局部细节造成破坏,产生模糊现象,从而导致整体图像质量下降。均值滤波适用于高斯噪声,但不适用于椒盐噪声。中值滤波采用非线性方法对图像进行去噪,该方法能够保持图像的边缘特征。中值滤波在平滑椒盐噪声方面表现良好,但难以应对高斯噪声。此外,图像常用的去噪方法还包括高斯滤波、图像金字塔、直方图均衡化等。图像变换:在全景图像拼接过程中,为了保持图片中的空间约束与视觉的一致性,需要对图像做一定的投影变换。柱面投影的坐标变换易于计算,且通过柱面投影拼接的全景图像能够在水平方向上满足360度环视,观感自然。
[0055]
2)图像配准
[0056]
由于相邻全景相机所拍摄的原始画面存在重叠现象,将待拼接图像输入特征提取模型,计算并保存匹配到的特征点对坐标,估计变换模型,将待拼接图像变换到同一坐标系下。
[0057]
图像配准是全景图像拼接过程中最重要的部分,决定了图像拼接结果的质量。图像配准的常见方法包括基于像素的方法和基于特征的方法。基于像素的方法搜索待拼接图像间相似的重叠区域,评估重叠区域的相似度,根据重叠区域所选取的属性相似度进行配准,该类方法一般时间复杂度较高,且对图像灰度的变化敏感,不能够适用于大多数场景。基于特征的图像配准方法在图像中检测特殊的点,如斑点、角点等,对提取出的特征点进行描述和配准,由于图像中的特征点远少于像素点,该方法对比基于像素的图像配准方法显著减少了计算量,提高了匹配速度。此外,由于特征点对光照、噪音等敏感程度低于基于像素的方法,且具有平移旋转不变性。
[0058]
3)图像融合
[0059]
图像配准后得到的结果图像在拼接区域还存在重影、模糊或错位等问题,最佳缝合线动态更新和改进渐入渐出法的图像融合算法通过获得的视频中运动物体的前景区域,判断当前视频图像是否需要更新最佳缝合线,接着使用改进渐入渐出法平滑过渡区域,在保留图像原始信息的情况下,消除重叠区域的模糊、鬼影,减弱接缝线。
[0060]
图像融合是图像拼接的另一个关键部分,由于图像在拍摄时存在光照、视差、色彩等一系列因素的干扰,图像配准之后得到结果图像在拼接区域往往存在观感较差的不均匀现象,如重影、模糊或错位等。为了减弱或者消除这些现象,结合最佳缝合线动态更新和改进渐入渐出法的图像融合算法应运而生。该算法首先通过基于混合高斯模型的背景减除法来获得视频中运动物体的前景区域,然后根据前景区域判断当前视频图像是否需要更新最佳缝合线,接着使用改进渐入渐出法平滑过渡区域,能够在保留图像原始信息的情况下,消
除重叠区域的模糊、鬼影,减弱接缝线带来的明显观感不佳的现象,使拼接区域过渡更加平滑自然。图像融合框架参照图3。
[0061]
基于语义分割和接缝线的图像拼接算法框架,首先输入的两张待拼接的图像,两张图像会分别经过提出的渐进式局部特征匹配网络和图像分割网络,渐进式局部特征匹配网络输出两幅图像之间配对的特征点,图像分割网络采用编码器-解码器架构,输出两幅图像的像素级分割的预测结果,进而转换成运动物体的特征掩码;然后结合特征点匹配结果和特征掩码,通过迭代估算出特征匹配的内点和外点,进而求出两幅图像之间的单应性变换关系;最后依据避让运动物体区域的接缝线算法,结合多频段融合得到最后的拼
[0062]
2、近场识别标注模块
[0063]
所述的近场识别标注模块用于接收全景视频拼接模块的图像数据并存储,并对拼接后的全景视频画面中的所有对象进行检测、分类与标注。将输入的完整图像输出为带有类别标注信息的矩形检测框,并将含标注的全景画面压缩编码,形成全景标注视频流,并将视频流存储并传输至主控。
[0064]
通过端对端的一阶段模型实现对划定区域内出现的所有目标进行多目标检测与分类,将目标检测任务看作目标区域预测和类别预测的联合回归问题,采用单个神经网络直接预测物品边界和类别概率,实现端到端的实时目标检测,具体实现步骤如下:
[0065]
1)采用自适应多尺度信息流的网络连接结构,利用信息融合整合相邻尺度的特征,然后通过从相邻尺度特征交互过渡到全局尺度特征交互的策略,进一步增强特征金字塔中所有层级的特征表示;
[0066]
2)目标分类,基于多路检测头的目标分类增强算法,从目标候选框和定位更加精准的检测窗口中提取目标信息并生成分类置信度;
[0067]
3)目标定位,基于对训练样本的统计分析,采用平衡优化回归学习网络提升定位任务的性能,利用自迭代窗口采样自适应的学习训练样本的多样性,对不同定位精度的目标候选框的窗口回归过程分别进行建模;3、声监听模块
[0068]
声监听模块用于对机器人搭载的360
°
麦克风阵列获取的音频数据进行分析,提取音频特征,计算声音信息的偏向角,对突发的声音进行定位,并将存在语音信息的音频数据进行存储及流式转发,具体包括如下步骤:
[0069]
4)声频定向
[0070]
对输入音频信息进行信号处理,调节出具有高指向性的低频可听声音信号。
[0071]
首先当声源发出需要定向发射传播的可听声,声频信号经过低通滤波、升压后送入ad转换器,然后单片机对ad转化后的声频信号进行信号与处理,经过功率放大后的预处理信号驱动换能器阵列,向空气中辐射带有可听声的超声波信号,自解调出具有高指向性的低频可听声音信号。
[0072]
5)声强检测
[0073]
将声音信号转换为电信号后很微弱,无法直接进行a/d转换,因此经过咪头传声器电路后,将信号放大,最后经过a/d转化电路,完成声强检测。
[0074]
6)采用麦克风阵列右边是阵列环形-定位,左边坚挺对突发声音进行定位
[0075]
数字mems麦克风传感器将模拟信号转化为数字信号,经过编码和调制最后上传到pc段,对接收到的数据进一步处理,通过算法计算实现对声源信号的位置估计。
[0076]
突发声音的声源信号到达前端麦克风阵列时,数字mems麦克风传感器将采集到的模拟量信号转换为数字量并且经过编码和调制最终输出1bit的pdm信号,fpga将同步采集到的四路pdm信号编码成128bit的信号缓存到ddrsdram中,当数据长度达到设定的突发长度时fpga控制以太网端口将从ddrsdram中读出的数据封装成以太网帧格式后上传给pc端,pc端将接收到的数据进一步处理然后通过时延估计的算法进行计算实现对声源信号的位置估计。
[0077]
同时本发明提供一种机器人多模态近场环境感知方法,具体包括如下步骤,如图1所示:
[0078]
步骤1、通过机器人搭载的全景相机阵列获取图像数据;
[0079]
这里所述的全景相机阵列可以依据具体的任务需求自行设置,本发明采用的如图4所示,全景相机阵列分布在四个点,每个点包括有两个相机,进行局部区域数据采集;左右分别有一个声源模块,右边的声源模块结构是一个麦克风在正中间,有六个麦克风分布在周围环形电路板上。
[0080]
本发明实施例采用的全景相机摄像头为70
°
的广角镜头,为瑞芯微的c6130探测器,分辨率1920
×
1080,像元大小2.7μm,为匹配探测器,选用2.1mm的广角镜头;全景相机和麦克风,接口包括rj45*1,电源输入*2,麦克风输出*1;前端视频集控盒尺寸为300mm
×
150mm
×
300mm,接口包括电源输入*1,rj45*9,can*1,麦克风信号*8。
[0081]
步骤2、全景视频拼接模块通过获取的多个相机连续的图像数据,构建拼接出360
°
全景视频画面;
[0082]
具体的,参照图2,通过全景相机阵列获取多个相机连续的图像数据,相邻相机所拍摄的原始画面存在重叠现象,因此在对所述获取的图像数据进行预处理后,定位相邻相机输出图像中相似的部分并提取该部分关键点的坐标对,参照图3,根据匹配的关键点坐标对得到待拼接图像之间的变换模型,完成相邻相机拍摄画面的拼接。
[0083]
步骤3、近场识别标注模块对全景视频画面中的对象进行检测,获取对象的位置、种类信息,将输入的完整图像输出为带有类别标注信息的矩形检测框;
[0084]
步骤4、将步骤3中含标注的全景画面压缩编码,形成全景标注视频,该视频流画面结构为上下两层结构,分别为两个相反方向的180度画面,共形成一个1920x1080 30fps的全景视频流,并将全景视频流存储;
[0085]
步骤5、同时通过机器人搭载的360
°
麦克风阵列获取音频数据;
[0086]
步骤6、声监听模块通过获取的音频数据,提取音频特征,计算声音的偏向角;
[0087]
具体的,声频定向首先当声源发出需要定向发射传播的可听声,声频信号经过低通滤波、升压后送入ad转换器,然后单片机对ad转化后的声频信号进行信号与处理,经过功率放大后的预处理信号驱动换能器阵列,向空气中辐射带有可听声的超声波信号,自解调出具有高指向性的低频可听声音信号。
[0088]
具体的声强检测经过咪头传声器电路后,将信号放大,最后经过a/d转化电路,完成声强检测。
[0089]
步骤7、采用麦克风阵列对突发声音进行定位;
[0090]
具体的,麦克风阵列定位将模拟信号转化为数字信号,经过编码和调制最后上传到pc段,对接收到的数据进一步处理,通过算法计算实现对声源信号的位置估计。
[0091]
步骤8、将步骤4和步骤7的到的视频和音频两种模态的数据通过音视频设备记录时间戳,使得视频和音频两种模态数据具有时间一致性之后进行存储和转发主控用于近场环境感知和判断。

技术特征:
1.一种机器人多模态近场环境感知系统,其特征在于,包括全景视频拼接模块、近场识别标注模块以及声监听模块;所述全景视频拼接模块用于将机器人载荷的多个全景相机获取连续的图像数据,构建拼接出360
°
全景视频画面,具体实现过程如下:1)图像预处理,包括图像去噪、均衡光照,同时,为了保持图片中的空间约束与视觉的一致性,需要对图像做柱面投影的坐标变换,使得拼接的全景图像能够在水平方向上满足360度环视;2)图像配准,采用基于特征的图像配准方法将待拼接图像输入特征提取模型,计算并保存匹配到的特征点对坐标,估计变换模型,将待拼接图像变换到同一坐标系下;3)图像融合,采用最佳缝合线动态更新和改进渐入渐出法的图像融合算法通过获得的视频中运动物体的前景区域,判断当前视频图像是否需要更新最佳缝合线,接着使用改进渐入渐出法平滑过渡区域,在保留图像原始信息的情况下,消除重叠区域的模糊、鬼影,减弱接缝线;所述的近场识别标注模块用于接收全景视频拼接模块的图像数据并存储,并对拼接后的全景视频画面中的所有对象进行检测、分类与标注;将输入的完整图像输出为带有类别标注信息的矩形检测框,并将含标注的全景画面压缩编码,形成全景标注视频流,并将视频流存储并传输至主控;近场识别标注模块通过端对端的一阶段模型实现对划定区域内出现的所有目标进行多目标检测与分类,将目标检测任务看作目标区域预测和类别预测的联合回归问题,采用单个神经网络直接预测物品边界和类别概率,实现端到端的实时目标检测,具体实现步骤如下:1)采用自适应多尺度信息流的网络连接结构,利用信息融合整合相邻尺度的特征,然后通过从相邻尺度特征交互过渡到全局尺度特征交互的策略,进一步增强特征金字塔中所有层级的特征表示;2)目标分类,基于多路检测头的目标分类增强算法,从目标候选框和定位更加精准的检测窗口中提取目标信息并生成分类置信度;3)目标定位,基于对训练样本的统计分析,采用平衡优化回归学习网络提升定位任务的性能,利用自迭代窗口采样自适应的学习训练样本的多样性,对不同定位精度的目标候选框的窗口回归过程分别进行建模;所述声监听模块用于对机器人搭载的360
°
麦克风阵列获取的音频数据进行分析,提取音频特征,计算声音信息的偏向角,对突发的声音进行定位,并将存在语音信息的音频数据进行存储及流式转发,具体包括如下步骤:1)声频定向,对输入音频信息进行信号处理,调节出具有高指向性的低频可听声音信号;2)声强检测将声音信号转换为电信号后很微弱,无法直接进行a/d转换,因此经过咪头传声器电路后,将信号放大,最后经过a/d转化电路,完成声强检测;3)采用麦克风阵列对突发声音进行定位数字mems麦克风传感器将模拟信号转化为数字信号,经过编码和调制最后上传到pc
段,对接收到的数据进一步处理,通过算法计算实现对声源信号的位置估计。2.根据权利要求1所述的一种机器人多模态近场环境感知系统,其特征在于,所述的声频定向的具体过程如下:首先当声源发出需要定向发射传播的可听声,声频信号经过低通滤波、升压后送入ad转换器,然后单片机对ad转化后的声频信号进行信号与处理,经过功率放大后的预处理信号驱动换能器阵列,向空气中辐射带有可听声的超声波信号,自解调出具有高指向性的低频可听声音信号。3.根据权利要求1所述的一种机器人多模态近场环境感知系统,其特征在于,所述麦克风阵列对突发声音进行定位的具体过程如下:突发声音的声源信号到达前端麦克风阵列时,数字mems麦克风传感器将采集到的模拟量信号转换为数字量并且经过编码和调制最终输出1bit的pdm信号,fpga将同步采集到的四路pdm信号编码成128bit的信号缓存到ddrsdram中,当数据长度达到设定的突发长度时fpga控制以太网端口将从ddrsdram中读出的数据封装成以太网帧格式后上传给pc端,pc端将接收到的数据进一步处理然后通过时延估计的算法进行计算实现对声源信号的位置估计。4.一种机器人多模态近场环境感知方法,其特征在于,采用如权利要求1所述的机器人多模态近场环境感知系统实现,具体包括如下步骤,步骤1、通过机器人搭载的全景相机阵列获取图像数据;步骤2、全景视频拼接模块通过获取的多个相机连续的图像数据,构建拼接出360
°
全景视频画面;步骤3、近场识别标注模块对全景视频画面中的对象进行检测,获取对象的位置、种类信息,将输入的完整图像输出为带有类别标注信息的矩形检测框;步骤4、将步骤3中含标注的全景画面压缩编码,形成全景标注视频,该视频流画面结构为上下两层结构,分别为两个相反方向的180度画面,共形成一个全景视频流;步骤5、同时通过机器人搭载的麦克风阵列获取音频数据;步骤6、声监听模块通过获取的音频数据,提取音频特征,计算声音的偏向角,进行声频定向后进行声强检测;步骤7、采用麦克风阵列对突发声音进行定位;步骤8、将步骤4和步骤7的到的视频和音频两种模态的数据通过音视频设备记录时间戳,使得视频和音频两种模态数据具有时间一致性之后进行存储和转发主控用于近场环境的感知和判断。5.如权利要求4所述的一种机器人多模态近场环境感知方法,其特征在于,机器人搭载设备分布如下:全景相机阵列分布在四个点,每个点包括有两个相机,进行局部区域数据采集;左右分别有一个声源模块,右边的声源模块结构是一个麦克风在正中间,有六个麦克风分布在周围环形电路板上。

技术总结
本发明的目的是公开一种机器人多模态近场环境感知方法及系统,属于近场环境感知技术领域。本发明基于机器人载荷全景相机以及麦克风阵列设备,通过全景相机画面的拼接以及麦克风对近场声源的识别及定位,实现对机器人周围的建筑、树木、行人、车辆等类别的目标进行高效的识别及分类。通过实时融合无拼缝全景视频拼接方法以及基于多尺度信息均衡及回归学习的高精度多对象检测分类方法,解决全景视频及图像会出现因为视频中运动物体的干扰而导致的重影、错位、模糊以及拼接缝以及由于目标在尺度、视角、外观等方面的多样性以及实际应用场景中复杂的数据特性,实现高精度的目标检测。实现高精度的目标检测。实现高精度的目标检测。


技术研发人员:朱晓秀 邸荻 吴耀忠 叶亚峰 张龙飞 马宁 马添龙 王俊豪
受保护的技术使用者:中国人民解放军32398部队
技术研发日:2023.06.09
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐