一种基于帧间隐式相关性的点云视频编码方法

未命名 09-29 阅读:53 评论:0


1.本发明涉及点云视频压缩技术领域,具体来说,涉及一种基于帧间隐式相关性的点云视频编码方法。


背景技术:

2.主流的点云视频编解码器将点云视频投影到2d视频后进行编码,或直接编码点云。v-pcc(sebastian schwarz et al.2019.emerging mpeg standards for point cloud compression.ieee journal on emerging and selected topics in circuits and systems 9,1(2019),133

148.)编码器将点云视频的几何和属性投影到多个2d视频轨道。vues(yu liu et al.2022.vues:practical mobile volumetric video streaming through multiview transcoding.in proceedings of the 28th annual international conference on mobile computing and networking(sydney,nsw,australia)(mobicom’22).association for computing machinery,new york,ny,usa,514

527.)利用边缘服务器将点云视频转码为2d视频。最近也有工作直接编码点云视频。谷歌推出的draco利用kd树编码点云。groot(kyungjin lee et al.2020.groot:a real-time streaming system of high-fidelity volumetric videos.in proceedings of the 26th annual international conference on mobile computing and networking(london,united kingdom)(mobicom’20).association for computing machinery,new york,ny,usa,article 57,14pages.)提出并行八叉树提高了解码效率。yuzu(anlan zhang et al.2022.yuzu:neural-enhanced volumetric video streaming.in 19th usenix symposium on networked systems design and implementation(nsdi 22).usenix association,renton,wa,137

154.)利用3d超分辨率技术提高点云密度。aitransfer(yakun huang et al.2021.aitransfer:progressive ai-powered transmission for real-time point cloud video streaming.in proceedings of the 29th acm international conference on multimedia(virtual event,china)(mm’21).association for computing machinery,new york,ny,usa,3989

3997.)使用ai模型编码点云。总的来说,这些系统对每帧点云进行独立编码,没有考虑帧间冗余信息。
3.近年来,点云视频帧间编码方向也有一些进展。kammerl(julius kammerl et al.2012.real-time compression of point cloud streams.in 2012 ieee international conference on robotics and automation.778

785.)等人提出将点云帧表示为与上一帧的区别。然而,这个方法只在充满静态内容的点云帧上有效。之后的很多研究使用基于熵编码的压缩方法压缩帧间冗余信息。其中大多数方法依赖帧间的显式相关性,即相邻帧间的相同位置或相邻位置的重复信息。然而,它们不是专为点云视频流传输设计的,且忽略了视频动态性。


技术实现要素:

4.本发明的目的是提供一种基于帧间隐式相关性的点云视频编码方法。
5.本发明为解决技术问题所采用的技术方案如下:
6.本发明的一种基于帧间隐式相关性的点云视频编码方法,包括以下步骤:
7.步骤s1:熵最小化的运动补偿;
8.步骤s1.1:先将点云体素化,即把点云映射到三维网格中;
9.步骤s1.2:采用运动补偿方法来生成参考帧,该参考帧对齐帧间隐式相关性中的拓扑结构同时最小化条件熵;
10.步骤s1.2.1:把帧划分成小立方体;
11.步骤s1.2.2:使用一个指标评价两个立方体间的匹配程度;
12.步骤s1.2.3:为当前帧的每个立方体从上一帧的立方体中搜索出匹配程度最佳的立方体;
13.步骤s1.2.4:拼接每一个最佳匹配立方体,生成参考帧;
14.步骤s1.2.5:选择能够最小化条件熵的参考帧,作为熵最小化的运动补偿输出:
15.步骤s2:帧间熵编码;
16.利用帧间熵编码算法s4d和步骤s1生成的能够最小化条件熵的参考帧作为上下文来编码当前帧。
17.进一步的,步骤s1.1的具体操作流程如下:
18.体素化的点云帧使用一个三维数组表示,其每个成员即体素是空的或被占据的;条件熵h的定义如下:
[0019][0020]
其中,p0表示当前帧中的体素是空的概率;p1表示当前帧中的体素是被占据的概率;和分别表示当上一帧中的体素是空的时,当前帧中的体素是空的和被占据的条件概率;和分别表示当上一帧中的体素是被占据的时,当前帧中的体素是空的和被占据的条件概率。
[0021]
进一步的,步骤s1.2.1的具体操作流程如下:
[0022]
当前帧和上一帧分别用i
t
和i
t-1
表示,将当前帧i
t
划分为互不相交的立方体边长为m个体素,每个立方体位于位置(xj,yj,zj)。
[0023]
进一步的,步骤s1.2.2的具体操作流程如下:
[0024]
为了给每个立方体在上一帧i
t-1
中找到最佳匹配立方体在以为中心、边长为w个体素的搜索窗口中进行穷尽搜索,其中是上一帧i
t-1
中与立方体位置相同的立方体;该搜索空间被表示为候选立方体的集合运动向量被定义为从最佳匹配立方体指向立方体当一个候选立方体与立方体匹配程度很高时,用候选立方体中的体素预测立方体中的对应体素,使用混淆矩阵来表示预测结果见下表;
[0025][0026]
其中,表示在立方体中该体素是被占据的,即值为1,表示在立方体中该体素是空的,即值为0,表示在候选立方体中该体素是被占据的,即值为1,表示在候选立方体中该体素是空的,即值为0,true positive(tp)表示真正例,false positive(fp)表示假正例,false negative(fn)表示假负例,true negative(tn)表示真负例;
[0027]
所述候选立方体与立方体的匹配程度用精度或召回表示,精度指预测为正的体素中真值为正的比例即召回指真值为正的体素中被预测为正的比例即n(tp)表示tp样例的出现次数,n(fp)表示fp样例的出现次数,n(fn)表示fn样例的出现次数;使用f-分数平衡这两个指标,从而评价两个立方体的匹配程度f
β

[0028][0029]
其中,β表示平衡系数,β平衡了精度和召回的重要性;precision表示精度值,recall表示召回值。
[0030]
进一步的,步骤s1.2.3的具体操作流程如下:
[0031]
在候选立方体的集合中,与立方体产生了最高f-分数的最佳匹配立方体被视为最优匹配结果;使用k个候选匹配指标f1,

,fk来为当前帧的每个立方体分别搜索k个最佳匹配立方体。
[0032]
进一步的,步骤s1.2.4的具体操作流程如下:
[0033]
对于某个候选匹配指标fk,在得到全部最佳匹配立方体后,使用最佳匹配立方体替换立方体来生成一个参考帧;由于使用了k个候选匹配指标,因此将生成k个参考帧。
[0034]
进一步的,步骤s1.2.5的具体操作流程如下:
[0035]
使用一系列β值来生成对应的多个参考帧,0<β1<

<βk<+∞,并计算每个参考帧对应的条件熵选择最小化条件熵对应的βk值,此βk值所对应的参考帧即为熵最小化的运动补偿输出。
[0036]
本发明的有益效果是:
[0037]
本发明的一种基于帧间隐式相关性的点云视频编码方法,充分利用动态帧的帧间冗余信息,对点云视频进行无损压缩,有效减少了点云视频流传输带宽消耗;同时本发明利用了帧间隐式相关性压缩点云视频,其关键在于使用一个熵最小化的运动补偿方法生成一个参考帧,有效地减少了参考帧和当前帧之间的条件熵,有效减少了视频数据量。本发明相
比现有技术在点云视频压缩性能上有明显优势。
具体实施方式
[0038]
本发明发现帧间显式相关性在动态性较强的帧上显著减少。为此,本发明找到了一种帧间隐式相关性即拓扑结构在相邻帧间的一致性。本发明发现,即使在动态性较强的帧上,帧间隐式相关性也维持在比较高的水平。因此,帧间隐式相关性具有较高潜力可以帮助压缩点云视频。为了充分利用帧间隐式相关性来压缩点云视频,本发明采用广泛使用的熵编码作为基础编码器模型,它可以使用一个参考帧作为辅助信息,而现有技术中直接使用上一帧作为参考帧,编码效果不佳。同时,越小的帧间条件熵能提供越高的压缩率理论上限,而简单地使用现有运动估计方法对齐相邻帧是无法有效减少帧间条件熵的。
[0039]
为此,本发明提供一种基于帧间隐式相关性的点云视频编码方法,具体包括以下步骤:
[0040]
步骤s1:熵最小化的运动补偿;
[0041]
本步骤的目标是生成能有效提高压缩率的参考帧,压缩的有效性可以用定义在参考帧和当前帧上的条件熵来衡量。具体操作步骤如下:
[0042]
步骤s1.1:点云体素化;
[0043]
先将点云体素化,也就是把点云映射到三维网格中。体素化的点云帧使用一个三维数组表示,其每个成员(体素)是空的(用0表示)或被占据的(用1表示)。条件熵h的定义如下:
[0044][0045]
其中,p0表示当前帧中的体素是空的概率;p1表示当前帧中的体素是被占据的概率;和分别表示当上一帧中的体素是空的时,当前帧中的体素是空的和被占据的条件概率;和分别表示当上一帧中的体素是被占据的时,当前帧中的体素是空的和被占据的条件概率。
[0046]
步骤s1.2:采用运动补偿方法来生成参考帧,该参考帧对齐帧间隐式相关性中的拓扑结构同时最小化条件熵h,具体包括以下5个步骤:
[0047]
步骤s1.2.1:把帧划分成小立方体;
[0048]
当前帧和上一帧分别用i
t
和i
t-1
表示,将当前帧i
t
划分为互不相交的立方体边长为m个体素,每个立方体位于位置(xj,yj,zj);将上一帧按相同方式划分为互不相交的立方体立方体位于位置(xj,yj,zj)。
[0049]
步骤s1.2.2:使用一个指标评价两个立方体间的匹配程度;
[0050]
为了给每个立方体在上一帧i
t-1
中找到最佳匹配立方体在以为中心、边长为w个体素的搜索窗口中进行穷尽搜索,其中是上一帧i
t-1
中与立方体位置相同的立方体;该搜索空间被表示为候选立方体的集合运动向量被定义为从最佳匹配立方体指向立方体
[0051]
当一个候选立方体与立方体匹配程度很高时,可以用候选立方体中的体素预测立方体中的对应体素。将这个过程视为二元预测,由于每个体素可以是1(positive)或0(negative),因此使用一个混淆矩阵来表示预测结果,如表1所示。
[0052]
表1
[0053][0054]
其中,表示在立方体中该体素是被占据的,即值为1,表示在立方体中该体素是空的,即值为0,表示在候选立方体中该体素是被占据的,即值为1,表示在候选立方体中该体素是空的,即值为0,true positive(tp)表示真正例,false positive(fp)表示假正例,false negative(fn)表示假负例,true negative(tn)表示真负例。
[0055]
使用n(
·
)表示混淆矩阵中特定元素的出现次数。两个立方体(候选立方体与立方体)的匹配程度可以用精度或召回表示。具体来说,精度指预测为正的体素中真值为正的比例,即而召回指真值为正的体素中被预测为正的比例,即其中,表示tp样例的出现次数,n(fp)表示fp样例的出现次数,n(fn)表示fn样例的出现次数。由于这两个指标不统一,本发明使用f-分数平衡这两个指标,更好地评价两个立方体的匹配程度f
β

[0056][0057]
其中,β表示平衡系数,β平衡了精度和召回的重要性;precision表示精度值,recall表示召回值。
[0058]
步骤s1.2.3:为当前帧的每个立方体从上一帧的立方体中搜索出匹配程度最佳的立方体;
[0059]
在候选立方体的集合中,与立方体产生了最高f-分数的最佳匹配立方体被视为最优匹配结果。然而,搜索最佳匹配立方体时,难以顾及最小化条件熵,因为条件熵依赖整个参考帧。为此,本发明使用k个候选匹配指标f1,

,fk来为当前帧的每个立方体分别搜索k个最佳匹配立方体。
[0060]
步骤s1.2.4:拼接每一个最佳匹配立方体,生成参考帧;
[0061]
由于步骤s1.2.3使用了k个候选匹配指标,因此将生成k个参考帧。对于某个候选匹配指标fk,在得到全部最佳匹配立方体后,使用最佳匹配立方体替换立方体来生成一个参考帧。
[0062]
步骤s1.2.5:选择能够最小化条件熵的参考帧;
[0063]
条件熵取决于参考帧和它对应的匹配程度f
β
指标。然而在生成参考帧的过程中,
不确定哪个β值对应了最小化条件熵的参考帧。因此,本发明同时使用多个β值来生成对应的多个参考帧,并计算每个参考帧对应的条件熵。用h
β
表示使用匹配程度f
β
指标对应的参考帧的条件熵。使用一系列β值,0<β1<

<βk<+∞,然后计算对应的条件熵对应条件熵最小时的βk值被选择,则对应的参考帧就是熵最小化的运动补偿输出。
[0064]
步骤s2:帧间熵编码;
[0065]
利用帧间熵编码算法(s4d)和步骤s1生成的能够最小化条件熵的参考帧作为上下文来编码当前帧。具体操作步骤如下:
[0066]
s4d使用上下文自适应的二进制算术编码(cabac)对点云三维数组的每个元素进行编码。具体来说,对于当前帧的三维数组中的任一元素值(0或1),s4d使用参考帧的三维数组中相同位置的元素值作为cabac编码的上下文。
[0067]
现有技术直接使用上一帧作为参考帧,只利用了帧间显式相关性(相邻帧间的相同位置或相邻位置的重复信息),在动态帧较高的帧上压缩效率不佳,压缩性能较差。而本发明通过步骤s1专门生成了最小化条件熵对应的参考帧,非常有益于帧间熵编码,同时本发明有效利用了帧间隐式相关性,能够有效提高动态帧上的压缩率。现有技术使用当前帧和参考帧的多个体素作为熵编码中的概率条件,造成了很高的计算复杂度,使解码帧率小于1fps。本发明只使用被编码体素的左邻接体素和参考帧中的相同位置体素作为熵编码中的概率条件,减少了计算复杂度。因此,本发明更适用于移动流传输系统。
[0068]
为了验证本发明的一种基于帧间隐式相关性的点云视频编码方法的效果,使用三个公开数据集ricardo、pizza和longdress对现有技术和本发明进行试验对比。结果显示,本发明相比现有利用帧间显式相关性的帧间编码器,在三个数据集上将带宽消耗分别降低了23.15%、1.06%和43.32%。由此可见,本发明相比现有技术在点云视频压缩性能上有明显优势。
[0069]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种基于帧间隐式相关性的点云视频编码方法,其特征在于,包括以下步骤:步骤s1:熵最小化的运动补偿;步骤s1.1:先将点云体素化,即把点云映射到三维网格中;步骤s1.2:采用运动补偿方法来生成参考帧,该参考帧对齐帧间隐式相关性中的拓扑结构同时最小化条件熵;步骤s1.2.1:把帧划分成小立方体;步骤s1.2.2:使用一个指标评价两个立方体间的匹配程度;步骤s1.2.3:为当前帧的每个立方体从上一帧的立方体中搜索出匹配程度最佳的立方体;步骤s1.2.4:拼接每一个最佳匹配立方体,生成参考帧;步骤s1.2.5:选择能够最小化条件熵的参考帧,作为熵最小化的运动补偿输出;步骤s2:帧间熵编码;利用帧间熵编码算法s4d和步骤s1生成的能够最小化条件熵的参考帧作为上下文来编码当前帧。2.根据权利要求1所述的一种基于帧间隐式相关性的点云视频编码方法,其特征在于,步骤s1.1的具体操作流程如下:体素化的点云帧使用一个三维数组表示,其每个成员即体素是空的或被占据的;条件熵h的定义如下:其中,p0表示当前帧中的体素是空的概率;p1表示当前帧中的体素是被占据的概率;和分别表示当上一帧中的体素是空的时,当前帧中的体素是空的和被占据的条件概率;和分别表示当上一帧中的体素是被占据的时,当前帧中的体素是空的和被占据的条件概率。3.根据权利要求1所述的一种基于帧间隐式相关性的点云视频编码方法,其特征在于,步骤s1.2.1的具体操作流程如下:当前帧和上一帧分别用i
t
和i
t-1
表示,将当前帧i
t
划分为互不相交的立方体边长为m个体素,每个立方体位于位置(x
j
,y
j
,z
j
)。4.根据权利要求3所述的一种基于帧间隐式相关性的点云视频编码方法,其特征在于,步骤s1.2.2的具体操作流程如下:为了给每个立方体在上一帧i
t-1
中找到最佳匹配立方体在以为中心、边长为w个体素的搜索窗口中进行穷尽搜索,其中是上一帧i
t-1
中与立方体位置相同的立方体;该搜索空间被表示为候选立方体的集合运动向量被定义为从最佳匹配立方体指向立方体当一个候选立方体与立方体匹配程度很高时,用候选立方体
中的体素预测立方体中的对应体素,使用混淆矩阵来表示预测结果见下表;其中,positive in表示在立方体中该体素是被占据的,即值为1,negative in表示在立方体中该体素是空的,即值为0,positive in表示在候选立方体中该体素是被占据的,即值为1,negative in表示在候选立方体中该体素是空的,即值为0,true positive(tp)表示真正例,false positive(fp)表示假正例,false negative(fn)表示假负例,true negative(tn)表示真负例;所述候选立方体与立方体的匹配程度用精度或召回表示,精度指预测为正的体素中真值为正的比例即召回指真值为正的体素中被预测为正的比例即n(tp)表示tp样例的出现次数,n(fp)表示fp样例的出现次数,n(fn)表示fn样例的出现次数;使用f-分数平衡这两个指标,从而评价两个立方体的匹配程度f
β
:其中,β表示平衡系数,β平衡了精度和召回的重要性;precision表示精度值,recall表示召回值。5.根据权利要求4所述的一种基于帧间隐式相关性的点云视频编码方法,其特征在于,步骤s1.2.3的具体操作流程如下:在候选立方体的集合中,与立方体产生了最高f-分数的最佳匹配立方体被视为最优匹配结果;使用k个候选匹配指标f1,

,f
k
来为当前帧的每个立方体分别搜索k个最佳匹配立方体。6.根据权利要求5所述的一种基于帧间隐式相关性的点云视频编码方法,其特征在于,步骤s1.2.4的具体操作流程如下:对于某个候选匹配指标f
k
,在得到全部最佳匹配立方体后,使用最佳匹配立方体替换立方体来生成一个参考帧;由于使用了k个候选匹配指标,因此将生成k个参考帧。7.根据权利要求6所述的一种基于帧间隐式相关性的点云视频编码方法,其特征在于,步骤s1.2.5的具体操作流程如下:使用一系列β值来生成对应的多个参考帧,0<β1<

<β
k
<+∞,并计算每个参考帧对应的条件熵选择最小化条件熵对应的β
k
值,此β
k
值所对应的参考帧即为熵最小化的运动补偿输出。

技术总结
一种基于帧间隐式相关性的点云视频编码方法,涉及点云视频压缩领域,包括:一、熵最小化的运动补偿:先将点云体素化;采用运动补偿方法来生成参考帧,该参考帧对齐帧间隐式相关性中的拓扑结构同时最小化条件熵;把帧划分成小立方体;使用一个指标评价两个立方体间的匹配程度;为当前帧的每个立方体从上一帧的立方体中搜索出匹配程度最佳的立方体;拼接每一个最佳匹配立方体,生成参考帧;选择能够最小化条件熵的参考帧,作为熵最小化的运动补偿输出;二、帧间熵编码。本发明充分利用动态帧的帧间冗余信息,对点云视频进行无损压缩,有效减少了点云视频流传输带宽消耗;同时利用了帧间隐式相关性压缩点云视频,有效减少了视频数据量。量。


技术研发人员:赵东 马华东 王义总 高腾 郭子玄 黄成豪
受保护的技术使用者:北京邮电大学
技术研发日:2023.07.14
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐