一种具有相对位置感知能力的3D视觉定位方法和系统与流程

未命名 09-24 阅读:51 评论:0

一种具有相对位置感知能力的3d视觉定位方法和系统
技术领域
1.本发明涉及3d视觉定位领域,尤其涉及一种具有相对位置感知能力的3d视觉定位方法和系统。


背景技术:

2.3d视觉定位任务的目标是根据任意格式的语言提示在3d点云中定位目标物体,其在vr/ar以及自动机器人领域有着极为广泛的应用。先前的3d视觉定位方法可以大体归结为两类:双阶段方法以及单阶段方法。前者遵循“detection-and-rank”范式,由于这种体系结构具备相当的灵活性,它们主要用于探索不同对象关系建模方法在区分目标对象任务上的优势;而后者融合视觉文本特征直接预测目标对象的边界框,并通过移除不可靠的候选项生成阶段来增强对象属性表示。
3.对于双阶段方法,其模型性能及其依赖物体候选项的质量。同时,由于3d点云的稀疏性和不规则形,稀疏的候选项可能遗漏目标物体,而稠密的候选项又会导致过多的计算冗余。同时,现有的均未考虑物体之间的相对空间关系;然而,对于人类而言,相对空间关系对于将特定对象与3d场景中同一类别的多个对象区分开来至关重要。


技术实现要素:

4.为了缓解上述问题,本发明提出了一种具有相对位置感知能力的3d视觉定位方法和系统,其结合并进一步增强了双阶段方法的建模方式和单阶段方法的无需候选项的优点,同时避免了这两种方法的缺点。对于关系建模,本发明中加入了一种新颖的3d相对位置感知的多头注意力模块,它可以沿多个方向捕获对象关系,并充分考虑相对位置与对象特征之间的相互作用,而这在以前的双阶段方法中是被忽略的。
5.为实现上述目的,本发明具体采用如下技术方案:
6.第一方面,本发明提出了一种具有相对位置感知能力的3d视觉定位方法,包括以下步骤:
7.1)从3d点云中采样种子点,提取种子点特征;以及,提取语言描述语句的文本特征;
8.2)从种子点中采样与语言描述语句相关的目标物体的关键点;
9.3)利用包含文本-视觉双解码器的3d相对位置感知网络分别解码输出目标物体的预测边界框和参考置信度分数,选择具有最高参考置信度分数的关键点来回归目标边界框,将边界框内的物体作为定位结果。
10.进一步地,所述的文本-视觉双解码器包括文本解码器和视觉解码器,两者基于transformer解码器结构实现,且transformer解码器中至少一个原有的注意力模块由3d相对位置感知的多头注意力模块取代。
11.进一步地,所述的3d相对位置感知的多头注意力模块简称3drp-ma,其计算过程为:
12.3.1)针对输入的查询q、键k和值v,引入对位置编码,计算注意力权重:
[0013][0014]
其中,d
ij
为点i到点j的相对距离,a
i,j
为点i与点j的注意力权重,p(
·
)为相对距离映射函数,为将点i到点j的相对距离映射为离散值后的一对相对位置编码,上角标t为转置,qi为第i个查询,kj为第i个键,d表示kj的维度;
[0015]
3.2)根据注意力权重,计算单头相对位置感知的注意力模块的输出结果
[0016][0017]
其中,m0为关键点的数量,vi第i个值,zi为第i个输出;
[0018]
3.3)从多个方向捕捉点与点间相对空间关系,对x、y、z坐标和欧几里德度量下的离散后的相对距离进行编码,分别表示为d
x
、dy、dz和de;以d
x
、dy、dz和de作为相对距离映射函数p(
·
),建立四个单头相对位置感知的注意力模块,并将其组合,得到3d相对位置感知的多头注意力模块的输出。
[0019]
进一步地,所述的文本解码器包括第一3drp-ma模块、原多头注意力模块、第一前馈网络模块;
[0020]
首先以关键点特征作为输入序列,经投影矩阵变换后生成查询q、键k和值v,输入第一3drp-ma模块,并经过add&norm层进行残差连接和归一化计算,得到z0;根据z0和步骤1)得到的文本特征生成用于输入多头注意力模块的查询q、键k和值v,将多头注意力模块的输出经过add&norm层进行残差连接和归一化计算,得到z

;将z

作为第一前馈网络模块的输入,并经过add&norm层进行残差连接和归一化计算;即完成文本解码器的全部计算。
[0021]
进一步地,所述的视觉解码器包括第二3drp-ma模块、第三3drp-ma模块、第二前馈网络模块;
[0022]
首先以关键点特征作为输入序列,经投影矩阵变换后生成查询q、键k和值v,输入第二3drp-ma模块,并经过add&norm层进行残差连接和归一化计算,得到z0′
;根据z0′
和步骤1)得到的种子点特征生成用于输入第三3drp-ma模块的查询q、键k和值v,将第三3drp-ma模块的输出经过add&norm层进行残差连接和归一化计算,得到z

;将z

作为第二前馈网络模块的输入,并经过add&norm层进行残差连接和归一化计算;即完成视觉解码器的全部计算。
[0023]
进一步地,文本解码器和视觉解码器的输出分别经过多层感知机生成参考置信度分数和预测边界框。
[0024]
进一步地,步骤3.1)中的相对距离映射函数如下:
[0025][0026]
其中,[
·
]是取整函数;sign(
·
)是符号函数,α、β是阈值,p(d)是映射后离散的相
对距离,k是自然数,d是距离。
[0027]
进一步地,采用软标签策略训练3d相对位置感知网络,所述的软标签策略具体为:根据预测边界框的iou值排名情况,对关键点重新排序,将排序前ns位且大于0.25的关键点的目标标签设置为而其他关键点的目标标签被设置为0,其中ns为阈值,计算公式为:
[0028][0029]
其中,是排名第i位的关键点的目标标签,σ是控制结果分布光滑的参数。
[0030]
第二方面,本发明提出了一种具有相对位置感知能力的3d视觉定位系统,包括:
[0031]
种子点提取模块,其用于从3d点云中提取种子点及其特征;
[0032]
文本编码模块,其用于提取语言描述语句的文本特征;
[0033]
采样模块,其用于从种子点中采样与语言描述语句相关的目标物体的关键点;
[0034]
3d相对位置感知网络模块,其用于利用包含文本-视觉双解码器的3d相对位置感知网络分别解码输出目标物体的预测边界框和参考置信度分数;
[0035]
定位模块,其用于选择具有最高参考置信度分数的关键点来回归目标边界框,将边界框内的物体作为定位结果。
[0036]
进一步地,所述的3d相对位置感知网络模块包括:
[0037]
文本解码器,其由transformer解码器中的第一个原有的注意力模块替换为3d相对位置感知的多头注意力模块后得到的,用于根据关键点特征和文本特征生成解码结果;
[0038]
视觉解码器,其由transformer解码器中的两个原有的注意力模块替换为3d相对位置感知的多头注意力模块后得到的,用于根据关键点特征和种子点特征生成解码结果;
[0039]
第一多层感知机,其用于根据文本解码器的解码结果,生成参考置信度分数;
[0040]
第二多层感知机,其用于根据视觉解码器的解码结果,生成预测边界框。
[0041]
有充分的证据表明,本发明总体上优于先前适用于3d视觉定位任务的所有的最先进方法,本发明具备的有益效果包括:
[0042]
1.本发明提出了一种双解码器单阶段3d视觉定位框架,称为3d相对位置感知网络,它全面捕获3d空间中各个物体之间的各种相对空间关系,以实现准确的目标物体定位;
[0043]
2.本发明设计了一种新颖的3d相对位置感知的多头注意力模块,用于同步地有效地建模来自不同方向的相对空间位置关系。此外,本发明设计了一种软标签策略来辅助训练并进一步提高视觉定位性能;
[0044]
3.大范围的实验证明了本发明的高效性和有效性,本发明在三个主流基准数据集scanrefer、nr3d和sr3d上表现出了最先进的性能。
附图说明
[0045]
图1是本发明示出的具有相对位置感知能力的3d视觉定位方法的整体框架;
[0046]
图2是本发明示出的3d相对位置感知的多头注意力模块的结构示意图。
具体实施方式
[0047]
下面结合附图和具体实施方式对本发明作进一步阐述和说明。
[0048]
如图1所示,本发明提出的具有相对位置感知能力的3d视觉定位方法,其主要包括如下步骤:
[0049]
1.使用预训练的模型从输入的3d点云中采样m个种子点,同时提取该种子点的特征;使用采样模块从种子点中选取与语言描述语句相关的物体的关键点;使用预训练的语言编码器编码语言描述语句的文本特征;具体为:
[0050]
1.1 3d视觉定位任务中有两个输入,其一输入为3d点云数学形式为n个点的3d坐标和k维辅助特征;另一输入为任意形式的长度为l的自然语言描述语句。
[0051]
1.2使用预训练的pointnet++网络从p
cloud
中采样m个种子点并编码维度为c的点特征,将种子点记为
[0052]
1.3使用采样模块从m个种子点中选择m0个与语言描述语句相关的点,记为关键点
[0053]
1.4使用预训练的自然语言编码器将长度为l的语言描述语句编码为维度为d的文本特征,记为
[0054]
2.建立3d相对位置感知的多头注意力模块;具体为:
[0055]
2.1将步骤1.3中得到的关键点作为一个单头相对位置感知注意力模块的输入序列,计算查询键值为:
[0056]
qi=piwq,ki=piwk,vi=piwv[0057]
其中,wq,wk,wv为投影矩阵,qi、ki、vi分别为第i个关键点对应的查询、键和值,pi为第i个种子点。
[0058]
2.2根据输入的关键点之间的相对位置以及相对距离映射函数,将相对位置编码引入到注意力模块中,据此将相对位置注意力中的注意力权重a
i,j
的计算方式改写为:
[0059][0060]
其中,d
ij
为点i到点j的相对距离;p(
·
)∈[0,2k)为一个将连续距离映射到离散值的索引函数,k为自然数;为可学习的相对位置编码,为将点i到点j的相对距离映射为离散值后的一对相对位置编码,dz为该单头相对位置感知注意力模块输出序列中元素的维度,上角标t为转置。
[0061]
在本发明的一项具体实施中,由于3d点云中的点在欧式空间中分布不均匀,元素间的相对距离是连续分布的,为了增强相对空间信息并降低计算成本,将连续的3d相对距离映射到属于某有限集的离散整数,该用于实现离散的索引函数p(
·
)如下:
[0062][0063]
其中,[
·
]是取整函数;sign(
·
)是符号函数,α、β是阈值,p(d)是映射后离散的相对距离。
[0064]
2.3结合上述结果,计算该单头相对位置感知注意力模块的输出结果2.3结合上述结果,计算该单头相对位置感知注意力模块的输出结果
[0065][0066]
2.4从多个方向捕捉点与点间相对空间关系,对x、y、z坐标和欧几里德度量下的离散后的相对距离进行编码,分别表示为d
x
、dy、dz和de;
[0067]
2.5分别以d
x
、dy、dz和de作为上述步骤2.2中引入的相对位置编码建立四个单头相对位置感知注意力模块,并将其组合,从而建立如图2所示的3d相对位置感知的多头注意力模块,记为3drp-ma。
[0068]
3.基于步骤2中建立的3d相对位置感知的多头注意力模块,建立文本-视觉双解码器结构来模拟物体之间的相对空间关系;具体为:
[0069]
3.1基于transformer中的解码器构建文本解码器,将步骤1.3中得到的关键点p0输入3drp-ma层,并经过add&norm层进行残差连接和归一化计算,得到输出结果为z0;将z0和步骤1.4中得到的文本特征t作为ma(即muti-attention,多头注意力)层的输入,其中z0用于计算query,t用于计算key和value,并经过add&norm层进行残差连接和归一化计算,得到输出结果为z

;将z

作为ffn(即feed forward network,前馈网络)层的输入,并经过add&norm层进行残差连接和归一化计算;即完成该文本解码器的构建和全部计算。
[0070]
3.2基于transformer中的解码器构建视觉解码器,将步骤1.3中得到的关键点p0输入3drp-ma层,并经过add&norm层进行残差连接和归一化计算,得到输出结果为z0′
;将z0′
和步骤1.2中得到的种子点ps作为3drp-ma层的输入,其中z0′
用于计算query,ps用于计算key和value,并经过add&norm层进行残差连接和归一化计算,得到输出结果为z

;将z

作为ffn层的输入,并经过add&norm层进行残差连接和归一化计算;即完成该视觉解码器的构建和全部计算。
[0071]
3.3组合文本解码器和视觉解码器建立如图1所示的文本-视觉双解码器结构;
[0072]
4.将文本解码器的输出经过mlp(即multilayer perceptron,多层感知机)的计算得到参考置信度分数;将视觉解码器的输出经过mlp的计算得到目标物体的预测边界框。
[0073]
5.搭建如图1所示的3d相对位置感知网络,包括文本编码模块、采样模块、文本-视觉双解码器模块、多层感知机模块等;在训练阶段,其各模块损失和最终的综合训练损失具体为:
[0074]
5.1关键点采样损失l
ks
:本实施例采用标准的focal loss损失函数;
[0075]
5.2检测损失l
det
:在物体检测任务中包含5个预测任务,分别为:
[0076]
1)物体置信度预测,本实施例采用常规的置信度损失,记为l
obj

[0077]
2)边界框分类,本实施例采用标准的交叉熵损失,记为l
cls

[0078]
3)中心点偏移量预测,本实施例采用标准的交叉熵损失,记为l
ccenter-off

[0079]
4)尺寸分类,本实施例采用标准的交叉熵损失,记为l
sz-cls

[0080]
5)尺寸偏移量预测,本实施例采用标准的smooth l1损失,记为l
sz-off

[0081]
最终的检测损失l
det
即为以上五种损失的加权组合:
[0082]
l
det
=β1l
obj
+β2l
cls
+β3l
center-off
+β4l
sz-cls
+β5l
sz-off
[0083]
5.3文本分类损失l
text
:本实施例中,采用标准的交叉熵损失;
[0084]
5.4视觉定位损失l
vg
:使用下述公式生成的ns个软标签来监督m0关键点的预测参考分数,针对预测框的iou值排名情况对关键点重新排序,将排序前ns位且iou值大于0.25的关键点,其目标标签被设置为而其他关键点的目标标签被设置为0,其中ns为阈值。通过目标标签和预测参考分数s,对m0个关键点进行监督;
[0085]
本实施例中,软标签策略具体计算函数为:
[0086][0087]
其中,i∈{0,

,ns}代表iou排名为第i位,代表排名第i位的关键点的目标标签;i>ns时,设置i≤ns且第i个关键点对应的预测边界框iou值≤0.25时,设置同时设定σ=[ns/3]以控制结果分布光滑;
[0088]
综上,视觉定位损失l
vg
的计算表达式为:
[0089][0090]
其中,si是排名第i位的关键点的预测参考分数。
[0091]
5.5综合训练损失:
[0092]
l=α1l
vg
+α2l
ks
+α3l
det
+α4l
text
[0093]
6.在推理阶段,选择具有最高参考置信度分数的关键点来回归目标边界框,并将其作为模型输出结果。
[0094]
将上述方法应用于以下实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述;本发明在scanrefer数据集上进行实验,并与多种先进的先前工作进行横向对比;
[0095]
scanrefer数据集基于scan-net数据集用51,583种语言描述标注了800个场景。每个场景平均有13.81个对象和64.48个描述。按照scanrefer基准,实验中将训练/验证/测试集分别分为36,655、9,508和5,410个样本。数据可以分为“unique”和“multiple”两类,这取决于目标对象是否是场景中同类的唯一对象。为了全面评估本发明,下表展示了本发明在“unique”和“multiple”子集上的准确性和总体准确性。
[0096]
表1本发明在scanrefer数据集上与其他先进方法进行比较
[0097]
[0098]
在本实施例中,与本发明进行对比的先进工作有:1)scanrefer:该模型采用了一种称为语言-视觉联合表示的方法,它将自然语言描述与三维物体的几何形状和语义特征相结合,以实现更准确的物体定位和检索;2)tgnn,其将自然语言描述和视觉场景进行联合建模,实现精确的物体检测和定位;3)3dvg-transformer是一种基于transformer的3d视觉几何网络模型,它能够从3d场景数据中提取特征,并结合自然语言查询,实现3d物体的精确定位;3dvg-transformer模型的核心是一种新的transformer编码器,它可以处理空间上的点云数据,并在点云数据之间建立关系;4)mvt基于transformer和多视图表示学习,可以将多个视角的点云数据和自然语言查询整合起来,实现精确的3d物体定位;5)3djcg模型基于图卷积网络和多层感知机,可以将3d点云数据和自然语言查询进行联合表示学习,实现精确的3d物体检索和定位;6)3d-sps模型基于3d卷积神经网络(cnn)和点云匹配算法,可以将3d形状和姿态信息进行联合表示学习,实现精确的3d物体检索和定位。
[0099]
根据表1可知,本发明在acc@0.25时优于最佳两阶段方法+3.7%,在acc@0.5时优于最佳单阶段方法+1.95%,在acc@0.5时优于最佳单阶段方法+1.95%和
[0100]
+1.44%.即使与使用额外的scan2cap数据集来辅助其训练的3djcg相比,本发明在所有指标上仍然表现出优势。具体来说,对于“multiple”子集,本发明在acc@0.25和acc@0.5方面与先进的单阶段模型相比实现了+2.29%和+1.59%的增益,这验证了所提出的3drp-ma模块是对于在3d空间中对复杂的相对位置关系进行建模非常有用,并且显着有助于将所描述的目标对象与多个干扰对象区分开来。
[0101]
在本实施例中还提供了一种具有相对位置感知能力的3d视觉定位系统,该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能的。
[0102]
本实施例提供的一种具有相对位置感知能力的3d视觉定位系统,包括:
[0103]
种子点提取模块,其用于从3d点云中提取种子点及其特征;
[0104]
文本编码模块,其用于提取语言描述语句的文本特征;
[0105]
采样模块,其用于从种子点中采样与语言描述语句相关的目标物体的关键点;
[0106]
3d相对位置感知网络模块,其用于利用包含文本-视觉双解码器的3d相对位置感知网络分别解码输出目标物体的预测边界框和参考置信度分数;
[0107]
定位模块,其用于选择具有最高参考置信度分数的关键点来回归目标边界框,将边界框内的物体作为定位结果。
[0108]
在本发明的一项具体实施中,所述的3d相对位置感知网络模块包括:
[0109]
文本解码器,其由transformer解码器中的第一个原有的注意力模块替换为3d相对位置感知的多头注意力模块后得到的,用于根据关键点特征和文本特征生成解码结果;
[0110]
视觉解码器,其由transformer解码器中的两个原有的注意力模块替换为3d相对位置感知的多头注意力模块后得到的,用于根据关键点特征和种子点特征生成解码结果;
[0111]
第一多层感知机,其用于根据文本解码器的解码结果,生成参考置信度分数;
[0112]
第二多层感知机,其用于根据视觉解码器的解码结果,生成预测边界框。
[0113]
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可,其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅
是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0114]
本发明的系统的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
[0115]
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。

技术特征:
1.一种具有相对位置感知能力的3d视觉定位方法,其特征在于,包括以下步骤:1)从3d点云中采样种子点,提取种子点特征;以及,提取语言描述语句的文本特征;2)从种子点中采样与语言描述语句相关的目标物体的关键点;3)利用包含文本-视觉双解码器的3d相对位置感知网络分别解码输出目标物体的预测边界框和参考置信度分数,选择具有最高参考置信度分数的关键点来回归目标边界框,将边界框内的物体作为定位结果。2.根据权利要求1所述的一种具有相对位置感知能力的3d视觉定位方法,其特征在于,所述的文本-视觉双解码器包括文本解码器和视觉解码器,两者基于transformer解码器结构实现,且transformer解码器中至少一个原有的注意力模块由3d相对位置感知的多头注意力模块取代。3.根据权利要求1或2所述的一种具有相对位置感知能力的3d视觉定位方法,其特征在于,所述的3d相对位置感知的多头注意力模块简称3drp-ma,其计算过程为:3.1)针对输入的查询q、键k和值v,引入对位置编码,计算注意力权重:其中,d
ij
为点i到点j的相对距离,a
i,j
为点i与点j的注意力权重,p(
·
)为相对距离映射函数,为将点i到点j的相对距离映射为离散值后的一对相对位置编码,上角标t为转置,q
i
为第i个查询,k
j
为第i个键,d表示k
j
的维度;3.2)根据注意力权重,计算单头相对位置感知的注意力模块的输出结果3.2)根据注意力权重,计算单头相对位置感知的注意力模块的输出结果其中,m0为关键点的数量,v
i
第i个值,z
i
为第i个输出;3.3)从多个方向捕捉点与点间相对空间关系,对x、y、z坐标和欧几里德度量下的离散后的相对距离进行编码,分别表示为d
x
、d
y
、d
z
和d
e
;以d
x
、d
y
、d
z
和d
e
作为相对距离映射函数p(
·
),建立四个单头相对位置感知的注意力模块,并将其组合,得到3d相对位置感知的多头注意力模块的输出。4.根据权利要求3所述的一种具有相对位置感知能力的3d视觉定位方法,其特征在于,所述的文本解码器包括第一3drp-ma模块、原多头注意力模块、第一前馈网络模块;首先以关键点特征作为输入序列,经投影矩阵变换后生成查询q、键k和值v,输入第一3drp-ma模块,并经过add&norm层进行残差连接和归一化计算,得到z0;根据z0和步骤1)得到的文本特征生成用于输入多头注意力模块的查询q、键k和值v,将多头注意力模块的输出经过add&norm层进行残差连接和归一化计算,得到z

;将z

作为第一前馈网络模块的输入,并经过add&norm层进行残差连接和归一化计算;即完成文本解码器的全部计算。5.根据权利要求3所述的一种具有相对位置感知能力的3d视觉定位方法,其特征在于,所述的视觉解码器包括第二3drp-ma模块、第三3drp-ma模块、第二前馈网络模块;首先以关键点特征作为输入序列,经投影矩阵变换后生成查询q、键k和值v,输入第二
3drp-ma模块,并经过add&norm层进行残差连接和归一化计算,得到z0′
;根据z0′
和步骤1)得到的种子点特征生成用于输入第三3drp-ma模块的查询q、键k和值v,将第三3drp-ma模块的输出经过add&norm层进行残差连接和归一化计算,得到z

;将z

作为第二前馈网络模块的输入,并经过add&norm层进行残差连接和归一化计算;即完成视觉解码器的全部计算。6.根据权利要求3所述的一种具有相对位置感知能力的3d视觉定位方法,其特征在于,文本解码器和视觉解码器的输出分别经过多层感知机生成参考置信度分数和预测边界框。7.根据权利要求3所述的一种具有相对位置感知能力的3d视觉定位方法,其特征在于,步骤3.1)中的相对距离映射函数如下:其中,[
·
]是取整函数;sign(
·
)是符号函数,α、β是阈值,p(d)是映射后离散的相对距离,k是自然数,d是距离。8.根据权利要求3所述的一种具有相对位置感知能力的3d视觉定位方法,其特征在于,采用软标签策略训练3d相对位置感知网络,所述的软标签策略具体为:根据预测边界框的iou值排名情况,对关键点重新排序,将排序前n
s
位且大于0.25的关键点的目标标签设置为而其他关键点的目标标签被设置为0,其中n
s
为阈值,计算公式为:其中,是排名第i位的关键点的目标标签,σ是控制结果分布光滑的参数。9.一种具有相对位置感知能力的3d视觉定位系统,其特征在于,包括:种子点提取模块,其用于从3d点云中提取种子点及其特征;文本编码模块,其用于提取语言描述语句的文本特征;采样模块,其用于从种子点中采样与语言描述语句相关的目标物体的关键点;3d相对位置感知网络模块,其用于利用包含文本-视觉双解码器的3d相对位置感知网络分别解码输出目标物体的预测边界框和参考置信度分数;定位模块,其用于选择具有最高参考置信度分数的关键点来回归目标边界框,将边界框内的物体作为定位结果。10.根据权利要求9所述的一种具有相对位置感知能力的3d视觉定位系统,其特征在于,所述的3d相对位置感知网络模块包括:文本解码器,其由transformer解码器中的第一个原有的注意力模块替换为3d相对位置感知的多头注意力模块后得到的,用于根据关键点特征和文本特征生成解码结果;视觉解码器,其由transformer解码器中的两个原有的注意力模块替换为3d相对位置感知的多头注意力模块后得到的,用于根据关键点特征和种子点特征生成解码结果;第一多层感知机,其用于根据文本解码器的解码结果,生成参考置信度分数;第二多层感知机,其用于根据视觉解码器的解码结果,生成预测边界框。

技术总结
本发明提出了一种具有相对位置感知能力的3D视觉定位方法和系统,属于3D视觉定位领域,从3D点云中采样种子点,提取种子点特征;以及,提取语言描述语句的文本特征;从种子点中采样与语言描述语句相关的目标物体的关键点;利用包含文本-视觉双解码器的3D相对位置感知网络分别解码输出目标物体的预测边界框和参考置信度分数,选择具有最高参考置信度分数的关键点来回归目标边界框,将边界框内的物体作为定位结果。还设计了一种软标签策略来辅助训练并进一步提高视觉定位性能,大范围的实验证明了本发明的高效性和有效性。明了本发明的高效性和有效性。明了本发明的高效性和有效性。


技术研发人员:赵洲 朱亦陈 王泽寒 黄海烽 赵阳 陈哲乾
受保护的技术使用者:杭州一知智能科技有限公司
技术研发日:2023.02.28
技术公布日:2023/9/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐