本公开提供了基于运动结构引导的快速点云帧插值方法及系统,涉及三维视觉点云插值技术领域,包括:给定0时刻和1时刻的点云帧,分别提取第0帧和第1帧的点特征,并按前向和后向顺序连接起来作为模块中的双向输入,通过来自前向和向后点特征的混合信息,以一种结构感知的方式估计0‑1时刻间的运动;在双向输入之间进行交叉注意来联合估计运动和结构,提高全局推理能力;将这个运动结构块分层堆叠,提供多级特征并减少计算负担;提出的用于中间任意时刻点云帧插值,由金字塔运动结构估计网络,运动补偿模块,和插值细化模块实现的快速点云帧插值方法,能够插值出运动连续且结构一致的点云帧,且本公开方法具有快速、准确的特点。
1.基于运动结构引导的快速点云帧插值方法,其特征在于,包括:
获取连续时间段的开始时刻和结束时刻的低时间分辨率点云帧;
将开始时刻和结束时刻的低时间分辨率点云帧输入至金字塔运动结构估计网络中,提取出运动特征和结构特征,以及初步估计具有结构感知能力的场景流;
将所述运动特征、结构特征以及场景流输入至运动补偿网络模块中,对运动特征、结构特征以及场景流进行增强并连接形成运动校正项,将运动校正项添加到输入场景流中,得到细化的场景流,利用细化的场景流预测中间时刻的正向插值帧和反向插值帧;使用插值细化块更新所述正向插值帧,得到更新插值帧,将正向插值帧、反向插值帧以及更新插值帧进行融合,输出任意中间时刻最终的点云插帧预测结果。
2.如权利要求1所述的基于运动结构引导的快速点云帧插值方法,其特征在于,运动结构transformer模块以开始时刻和结束时刻的特征作为输入,然后对两个输入特征进行归一化,并按照正向和后向顺序叠加,得到前向特征和后向特征。
3.如权利要求2所述的基于运动结构引导的快速点云帧插值方法,其特征在于,将前向特征和后向特征运用双向交叉注意力机制,以所述前向特征作为查询,后向特征作为键和值,输出运动特征和结构特征。
4.如权利要求1所述的基于运动结构引导的快速点云帧插值方法,其特征在于,将运动特征、结构特征和初步估计的场景流输入至运动补偿网络,先分别对运动特征和结构特征进行增强,再将增强后的运动特征和结构特征连接到运动偏移头,得到运动校正项,将运动校正项添加到输入场景流中,得到细化的场景流,即映射到坐标空间中的运动。
5.如权利要求4所述的基于运动结构引导的快速点云帧插值方法,其特征在于,基于金字塔运动结构估计网络的层次化结构,获得多层次的场景流,利用翘曲运算,获得每个阶段每个时刻的正向插值帧和反向插值帧。
6.如权利要求1所述的基于运动结构引导的快速点云帧插值方法,其特征在于,在每一个上采样和下采样层之后,使用一个Point transformer层来更新正向插值帧,将正向插值帧、反向插值帧以及更新插值帧进行融合,以产生一个融合的点云。
7.如权利要求1所述的基于运动结构引导的快速点云帧插值方法,其特征在于,以正向插值帧、反向插值帧为质点,利用K近邻集成算法查找另外两个点云中K个相邻点组成邻域,然后将邻域输入一个共享的多层感知器,一个最大池化层和Softmax层,自适应地得到加权后的新的点,所有新的点组成最终融合后的点云。
8.基于运动结构引导的快速点云帧插值系统,其特征在于,包括:
数据获取模块,用于获取连续时间段的开始时刻和结束时刻的低时间分辨率点云帧;
特征提取模块,将开始时刻和结束时刻的低时间分辨率点云帧输入至金字塔运动结构估计网络中,提取出运动特征和结构特征,以及初步估计具有结构感知能力的场景流;
特征增强模块,用于将所述运动特征、结构特征以及场景流输入至运动补偿网络模块中,对运动特征、结构特征以及场景流进行增强并连接形成运动校正项,将运动校正项添加到输入场景流中,得到细化的场景流,利用细化的场景流预测中间时刻的正向插值帧和反向插值帧;使用插值细化块更新所述正向插值帧,得到更新插值帧;
融合预测模块,用于将正向插值帧、反向插值帧以及更新插值帧进行融合,输出任意中间时刻最终的点云插帧预测结果。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-7任一项所述的基于运动结构引导的快速点云帧插值方法。
10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-7任一项所述的基于运动结构引导的快速点云帧插值方法。
技术领域
[0001]本公开涉及三维视觉点云插值技术领域,具体涉及基于运动结构引导的快速点云帧插值方法及系统。
背景技术
[0002]本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
[0003]激光雷达广泛应用于自动驾驶、虚拟/增强现实和机器人技术,然而,由于硬件的限制,激光雷达通常捕获低帧率扫描,这可能导致时间不连续。点云帧插值(Point Cloudframe Interpolation,PCI)通过合成中间帧来解决这个挑战,从而增强了数据的时间分辨率和提高依赖于连续环境表示的应用程序的效率,例如实时跟踪和导航。
[0004]早期的工作依赖立体图像来生成伪激光雷达点云插值,近年来的工作基于深度学习的神经网络,以数据驱动的方式端到端地预测插值点云。PointINet通过使用固定的预训练运动估计器的学习融合和细化网络来预测插值点云。NeuralPCI采用动态神经辐射场,并在PCI中实现了最先进的精度。
[0005]但是,上述现有的方法仍然存在一些缺点:
[0006]PointINet方法仅仅依赖于预先训练好的运动估计,而不关注结构的一致性,NeuralPCI方法需要每个场景的测试时间优化,这其中的成本是非常昂贵的。
发明内容
[0007]本公开为了解决上述问题,提出了基于运动结构引导的快速点云帧插值方法及系统,基于结构一致性和循环一致性,提出由金字塔运动结构估计网络、运动补偿网络和插值细化网络组成的前馈快速点云插值网络模型(Fast Point Cloud frame Interpolation,FastPCI),能够在任意时刻生成与输入帧运动连续且结构一致的点云帧。
[0008]根据一些实施例,本公开采用如下技术方案:
[0009]基于运动结构引导的快速点云帧插值方法,包括:
[0010]获取连续时间段的开始时刻和结束时刻的低时间分辨率点云帧;
[0011]将开始时刻和结束时刻的低时间分辨率点云帧输入至金字塔运动结构估计网络中,提取出运动特征和结构特征,以及初步估计具有结构感知能力的场景流;
[0012]将所述运动特征、结构特征以及场景流输入至运动补偿网络模块中,对运动特征、结构特征以及场景流进行增强并连接形成运动校正项,将运动校正项添加到输入场景流中,得到细化的场景流,利用细化的场景流预测中间时刻的正向插值帧和反向插值帧;使用插值细化块更新所述正向插值帧,得到更新插值帧,将正向插值帧、反向插值帧以及更新插值帧进行融合,输出任意中间时刻最终的点云插帧预测结果。
[0013]根据一些实施例,本公开采用如下技术方案:
[0014]基于运动结构引导的快速点云帧插值系统,包括:
[0015]数据获取模块,用于获取连续时间段的开始时刻和结束时刻的低时间分辨率点云帧;
[0016]特征提取模块,将开始时刻和结束时刻的低时间分辨率点云帧输入至金字塔运动结构估计网络中,提取出运动特征和结构特征,以及初步估计具有结构感知能力的场景流;
[0017]特征增强模块,用于将所述运动特征、结构特征以及场景流输入至运动补偿网络模块中,对运动特征、结构特征以及场景流进行增强并连接形成运动校正项,将运动校正项添加到输入场景流中,得到细化的场景流,利用细化的场景流预测中间时刻的正向插值帧和反向插值帧;使用插值细化块更新所述正向插值帧,得到更新插值帧;
[0018]融合预测模块,用于将正向插值帧、反向插值帧以及更新插值帧进行融合,输出任意中间时刻最终的点云插帧预测结果。
[0019]根据一些实施例,本公开采用如下技术方案:
[0020]一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的基于运动结构引导的快速点云帧插值方法。
[0021]根据一些实施例,本公开采用如下技术方案:
[0022]一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的基于运动结构引导的快速点云帧插值方法。
[0023]与现有技术相比,本公开的有益效果为:
[0024]本公开的基于运动结构引导的快速点云帧插值方法,基于两个事实:结构一致性:精确运动保持物体的结构;循环一致性:第t帧处的点云由来自第t-1帧的估计运动Mt-1,t预测,并且反向运动Mt,t-1应当重建第t-1帧中的点云,考虑到这两个一致性,提出了一个由金字塔运动结构估计网络、运动补偿网络,和插值细化网络组成的用于快速点云帧插值的FastPCI,它采用金字塔卷积transformer架构,专门用于快速精确的点云帧插值。
[0025]本公开的双向运动结构transformer模块,给定第0帧和第1帧中的点特征,将它们按前向和后向顺序连接起来,并将它们作为模块中的双向输入,以鼓励模型了解运动方向,通过来自前向和向后点特征的混合信息,以一种结构感知的方式估计运动。在双向输入之间进行交叉注意来联合估计运动和结构。将这个运动结构块分层堆叠,金字塔结构提供多级特征并减少计算负担。Transformer的使用由于其注意力机制而提高了全局推理能力。
[0026]本公开用重建损失、额外的金字塔损失和双向损失优化FastPCI。对各种自动驾驶数据集的全面评估表明,FastPCI优于现有技术。基于两个事实—结构一致性和循环一致性,能够在任意时刻生成与输入帧运动连续且结构一致的点云帧。
附图说明
[0027]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
[0028]图1为本公开实施例的FastPCI网络结构图;
[0029]图2为本公开实施例的金字塔运动结构预测的原理图;
[0030]图3为本公开实施例的运动结构transformer的原理图;
[0031]图4为本公开实施例的运动补偿网络的原理图;
[0032]图5为本公开实施例的RefineNet的原理图;
[0033]图6为本公开实施例的FastPCI与其他最先进的方法在KITTI odometry、Argoverse 2sensor和Nuscenes数据集上的定性比较结果;
[0034]其中,图6中的(a)为在KITTI odometry数据集上不同方法之间的视觉比较;
[0035]图6中的(b)Argoverse 2sensor数据集上插值帧的定性实验结果;
[0036]图6中的(c)为Nuscenes数据集上给出两种先进PCI方法和提出的FastPCI的帧插值可视化结果;
[0037]图7为本公开实施例的金字塔运动结构估计的不同层次的可视化图。
具体实施方式
[0038]下面结合附图与实施例对本公开作进一步说明。
[0039]应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
[0040]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0041]实施例1
[0042]本公开的一种实施例中提供了一种基于运动结构引导的快速点云帧插值方法,包括以下步骤:
[0043]获取连续时间段的开始时刻和结束时刻的低时间分辨率点云帧;
[0044]将开始时刻和结束时刻的低时间分辨率点云帧输入至金字塔运动结构估计网络中,提取出运动特征和结构特征,以及初步估计具有结构感知能力的场景流;
[0045]将所述运动特征、结构特征以及场景流输入至运动补偿网络模块中,对运动特征、结构特征以及场景流进行增强并连接形成运动校正项,将运动校正项添加到输入场景流中,得到细化的场景流,利用细化的场景流预测中间时刻的正向插值帧和反向插值帧;使用插值细化块更新所述正向插值帧,得到更新插值帧,将正向插值帧、反向插值帧以及更新插值帧进行融合,输出任意中间时刻最终的点云插帧预测结果。
[0046]作为一种实施例,本公开的方法利用前馈快速点云插值网络模型(FastPCI),给定两个连续的分别在时刻t=0和t=1上的低时间分辨率点云,在任意时刻t∈(0,1)生成与输入帧运动连续且结构一致的点云帧,具体实施过程如下:
[0047]步骤一,金字塔运动结构估计网络以0时刻和1时刻的低时间分辨率点云帧作为输入,提取开始时刻至结束时刻的特征;
[0048]一种实施例中,开始时刻为0时刻,结束时刻为1时刻,该时间段为(0,1),则给定两个连续的分别在时刻t=0和t=1上的低时间分辨率点云和首先将PC0和PC1输入所提出的金字塔运动结构估计网络,估计出运动特征结构特征以及场景流
[0049]具体地,金字塔运动结构估计网络以0时刻和1时刻的两帧作为输入,估计从第0帧到第1帧的正向的运动特征、结构特征以及场景流。
[0050]金字塔运动结构估计网络由三个金字塔阶段组成。第一阶段是使用一个三层的MLP,第二阶段和第三阶段使用下采样层,将初始空间分辨率N分别降低4倍和32倍,然后使用运动结构transformer来估计多层运动和结构特征。最后将运动特征和结构特征输入到金字塔运动结构预测模块的场景流预测层上,估计初始的场景流其中金字塔运动结构预测模块包含降采样层、卷积层、上采样层、翘曲层、成本体积层和场景流预测层。
[0051]在每个阶段,运动特征和结构特征通过运动结构transformer模块从点特征中捕获特征,这里,F和l分别表示点特征和第l阶段,运动结构transformer从点特征估计运动特征和结构特征。
[0052]详细地,提取0时刻和1时刻的特征和对特征进行归一化,并按正向和向后顺序叠加,就得到双向特征和双向特征指的为前向特征和后向特征,其中L,C,分别表示点数、通道大小和级联操作。后续的双向交叉注意模块,以前向特征作为查询,后向特征作为键和值,输出正向的运动特征和结构特征。所谓正向就是按照时间顺序从0至1的特征,同理反向即时间上逆序从1至0的特征。在数学上,注意中的查询、键和值由下式给出:
[0053]
[0054]其中,Wq,Wk,为线性投影权重。然后,双向交叉注意图和结构特征计算如下:
[0055]
[0056]S0→1=W(Av1,0)#(3)
[0057]其中,W表示结构特征的线性投影。这些结构特征被传递到一个两层的MLP中,更新下一阶段的点特征
[0058]对于运动特征估计,创建了一个坐标映射其中每个位置的值表示沿每个方向均匀扩展的单位位置,并覆盖整个点云框架。通过在B上应用单一的线性层,在每个交叉注意块中获得B1的高维embedding。将坐标embedding乘以注意图A,估计出运动后该点的对应位置。最后,运动特征M0→1是通过将另一线性投影应用于原始B1和被注意图包裹的B1之间的差值来估计的:
[0059]M0→1=W(AB1-B1)#(4)
[0060]值得注意的是,在局部线性运动的假设下,运动结构变换模块得到的运动特征和结构特征可以乘以t,在任意t时刻合成中间帧,其中t∈[0,1]。注意图A来自于点特征Fl,这是从结构特征中学习到的。因此,块中的运动特征M和结构特征S是密切相关的。由运动结构transformer估计出的运动特征是具有结构感知能力的。
[0061]步骤二,通过一个以M和S为输入和输出场景流SF的补偿块来细化运动估计;
[0062]将运动特征结构特征和初始场景流输入运动补偿网络,首先,利用三层MLP和sigmoid来增强非线性结构特征,同时将运动特征和初始场景流输入到一维卷积和LeakyReLU激活函数中来进行增强。然后,将增强的结构特征和运动特征连接到一个由两层卷积建立的运动偏移头上,得到一个运动校正项,将运动校正项添加到输入场景流中,得到细化的场景流。从运动特征出发,使用场景流预测层将运动特征映射到上。
[0063]步骤三,插值点云和的双向估计通过分别采用0时刻和1时刻的正向和反向运动来获得;
[0064]具体地,金字塔的层次化架构,可以获得多层次的场景流。因此可以应用翘曲运算,来获得每个阶段的每个时刻t∈[0,t]的正向插值帧和反向插值帧,通过:
[0065]
[0066]是从PC0到的正向估计,优化一个RefineNet来更新正向估计得到
[0067]具体地,利用一个三阶段的U-Net来编码和解码输入点在每一个上采样和降采样层之后,都使用一个Point transformer层来更新正向插值帧,最后经过一个一维卷积得到更新后的正向插值帧Point transformer层的结构如下:
[0068]
[0069]其中,是xi点的一个局部领域。这里的ρ为归一化函数,ψ和α为逐点特征变换,δ为位置编码,映射函数γ是一个包含两层线性层和一个Relu层的MLP。
[0070]利用点融合模块对双向估计的点云和进行融合,得到提出的FastPCI网络预测的t时刻点云帧
[0071]具体地,首先将两个双向估计的点云合并成一个点云,作为后续查找k近邻的中心点云双向估计的两个点云对中间点云的贡献并不总是相同的。因此我们根据时间选择,当t>0.5时,选择反向插值帧作为中心点云,否则选择正向插值帧作为中心点云。然后将中心点云应用k近邻聚类算法,生成k个最近邻聚类,进行后续的自适应融合。对于中心点云的每一个点,在它本身和中搜索k个邻近点。遍历所有点,就得到N个聚类,每个聚类由2k个邻近点组成。将每个邻点减去聚类的中心点,得到邻点在聚类的相对位置。计算邻点与中心点之间的欧氏距离,将相对位置与其级联得到k个聚类特征,其中欧氏距离作为聚类的附加通道特征。最后采用注意力机制聚合聚类特征来生成中间点云新的点。将单个聚类特征输入共享多层感知机以生成特征图。随后应用最大池化层和Softmax函数对聚类中的所有邻点一维注意权重。一维注意权重与聚类特征求加权和,即得到最终融合后的中间点云
[0072]步骤四,通过计算PCt和之间的倒角距离和正则化损失来端到端优化FastPCI网络,保存最优的网络权重进行测试,生成最终测试的点云插帧结果。
[0073]通过计算在t时刻的预测点云帧和地面真实点云帧之间的倒角距离(Chamfer Distance,CD)进行端到端训练,如下所示:
[0074]
[0075]除了这种损失,以下两种正则化可以显著提高性能。首先是半循环的一致性,它迫使前向估计和后向估计都接近地面真实点云帧。注意,我们不直接强制循环损失,即使用反向运动从1时刻帧重建0时刻帧,因为这可能会鼓励网络学习一个恒等映射。从数学上讲,半循环损失也会促进循环的一致性。这个半循环的损失是由两个CD损失的总和给出的:
[0076]
[0077]
[0078]第二个正则化是金字塔重建损失。得益于分层体系结构,FastPCI提供不同大小的预测帧。因此,提出遵循金字塔结构的多尺度损失Lms,如下所示:
[0079]
[0080]其中是通过对地面真实点云帧的最远点采样获得的。αl表示金字塔l级的损失权重。在整个实验过程中,使用α0=0.05,α1=0.1,α2=0.2。根据经验发现,只要α被设置在0.025-0.25范围内,最终的性能相似。
[0081]总的来说,FastPCI通过所有损失和正则化的总和进行优化:
[0082]
[0083]根据上述损失,利用Adam算法优化,不断地迭代训练该FastPCI模型直至最优,迭代次数设置为100到200次,保存最优的网络权重进行测试,得到最终测试的点云插帧结果。
[0084]仿真实验
[0085]1.实验设置
[0086]数据集。本公开提出的FastPCI是在三个大型户外激光雷达数据集上进行评估的,即KITTI odometry、Argoverse 2sensor和Nuscenes。KITTI odometry和Argoverse2sensor数据是以10Hz帧率收集的点云帧,而Nuscenes数据是以20Hz收集的。为了对齐数据集,首先将Nuscenes数据降采样到10Hz。遵循NeuralPCI来分割训练集和测试集。具体而言,KITTI odometry数据集共包含11个带注释的激光雷达点云序列,其中前7个序列用于训练,剩余用于测试。Argoverse 2sensor数据集由1000个场景组成,平均每个场景有150次激光雷达扫描,而Nuscenes数据集也包含1000个驾驶场景,每个场景大约有400个激光雷达帧。对于这两个数据集,使用前700个场景进行训练,并使用850-1000个场景进行测试。对于所有的数据集,输入空间分辨率为8192点,时间分辨率为2Hz。为了进行评估,我们估计每两帧有3个中间帧。
[0087]实施细节。本公开使用PyTorch来实现FastPCI。在一张NVIDIA GeForce RTX3090GPU上使用相同的参数在所有三个训练集上训练FastPCI。FastPCI由Adam优化,批大小为4,权重衰减为10-4,初始学习率为10-3,每80个epoch就会减少一半。分别以100、200和200个epoch训练KITTI odometry、Argoverse2sensor和Nuscenes数据集。
[0088]评估指标。本公开采用CD和地球移动器的距离(Earth Mover’s Distance,EMD)作为定量评价指标。EMD测量将数据从一个点云移动到另一个点云所需的最小平均距离。给定两个点云和EMD的计算方法如下,其中是双射集:
[0089]
[0090]表1:与最先进的方法在KITTI odometry、Argoverse 2sensor和Nuscenes数据集上的定量比较。第1帧、第2帧和第3帧是指在两个输入帧之间要插值的三个均匀的中间帧。平均值表示这三帧的平均结果。粗体表示在不同方法之间的最佳性能。
[0091]表1数据集上的定量比较
[0092]
[0093]
[0094]2.点云插值的评估
[0095]为了证明FastPCI的性能,本公开将提出的方法与以前的SOTA(state-of-the-art,SOTA)方法进行了比较,即PointINet和NeuralPCI,以及一些先锋工作。由于不同的预处理和数据分割方法,直接与原始结果进行比较是不公平的。因此,在本发明中,使用了与最近和最先进的工作NeuralPCI相同的数据分割和预处理方法。报告了NeuralPCI的原始结果,并在所有数据集中使用官方实现和NeuralPCI的设置对其他方法进行再训练。
[0096]在KITTI odometry数据集上的结果。表1的第3-7行显示了KITTI odometry数据集上的结果,其中FastPCI在所有帧和所有指标上都获得了最好的结果。特别是,与最先进的NeuralPCI相比,我们的方法在第2帧中EMD误差减少2.89,CD误差减少0.21,最终在总体EMD和CD指标结果中分别减少2.05和0.13。显示了在KITTI odometry数据集上不同方法之间的视觉比较。在虚线框特写中突出显示,我们的FastPCI提供最好的视觉质量,为噪音小的车辆提供最清晰的边缘。
[0097]在Argoverse 2sensor数据集上的结果。定量比较结果显示在表1的第8-12行,其中FastPCI几乎在所有的帧上都获得了最佳性能。显示了Argoverse 2sensor数据集上插值帧的定性实验结果。总的来说,我们方法的结果更接近地面真实点云帧。差异见道路和边界。
[0098]在Nuscenes数据集上的结果。表1中的第13-17行显示Nuscenes的定量结果。FastPCI在整体指数上表现最好。在第1帧的CD指标和第2帧的EMD指标上,我们的方法略差于NeuralPCI方法,但在总体EMD和CD指标上比NeuralPCI方法分别降低5.47和0.04的误差。在定性实验中,我们的Nuscenes数据集上给出两种先进PCI方法和提出的FastPCI的帧插值可视化结果。从实线框的内容中可以不难看出,与其他方法相比,我们的方法可以插入更清晰的人体轮廓线。
[0099]运行时间比较。快速的点云帧插值可以促进其在自动驾驶场景中的下游应用(如目标检测、目标跟踪等)。因此,我们在表2中给出任意时间点云帧插值的平均推理时间。与目前最先进的点云帧插值方法相比,FastPCI显示出最快的推理时间,由于其金字塔卷积transformer架构,比PointINet快10倍,比NeuralPCI快600倍。
[0100]表2:平均推理时间的比较。时间是在一张NVIDIARTX 3090GPU上以每帧8192个点来测量的。
[0101]
[0102]表3:在所有三个数据集上的消融架构设计。我们证明我们的结构感知运动估计、混合卷积transformer架构、双向交叉注意、运动补偿块、和RefineNet可以提高所有数据集的性能。
[0103]
[0104]
[0105]3.消融研究
[0106]在架构设计和损失功能方面的贡献如下:(1)结构感知运动估计;(2)双向估计;(3)混合卷积transformer架构;(4)运动补偿块;(5)RefineNet;(6)循环一致性损失;(7)多尺度损失。我们通过以下消融研究消融每一个贡献。
[0107]4.消融架构设计
[0108]结构感知运动估计的目的是保持前后帧的结构一致,这对帧插值的质量至关重要。为验证复合运动结构学习的有效性,去除所有的结构分支,只在网络中保留运动特征提取。
[0109]如表3所示,在没有结构感知设计的情况下,可以观察到CD和EMD的距离显著增加。该实验表明运动-结构联合学习的重要性。
[0110]双向估计旨在鼓励前帧和后帧之间的信息交互。为显示其有效性,我们将图3中的所有的反向输入特征替换为正向特征换句话说,我们使用对正向特征的标准自注意来代替原来的双向交叉注意。如表3所示,尽管存在循环损失,但没有双向会导致性能明显更差。
[0111]混合卷积transformer利用卷积提取局部特征,利用transformer实现全局推理能力。由于缺乏Transformer,我们不再进行交叉注意力,只使用纯卷积(两层mini-PointNet)来学习运动和结构。如表3所示,在没有transformer的情况下,报告的结果明显较差。这些实验指出了transformer在我们的设计中的重要性。
[0112]运动补偿块从运动和结构特征中细化所估计的运动。在这里,我们在表3中删除这个块,并看到一个稍差的性能。该模块略微提高了性能,然而它并不是FastPCI的关键组件。
[0113]RefineNet用于细化插值点云。与运动补偿块类似,我们删除RefineNet,并将翘曲后的正向和反向估计直接融合并得到最终结果。表3中,没有RefineNet显示出微小的性能下降,这表明使用RefineNet可以提高结果,但关键的部分是运动补偿。
[0114]表4:消融损失函数。所提出的双向重建损失和金字塔损失提高在所有基准测试上的性能。
[0115]
[0116]
[0117]5.消融损失功能
[0118]半循环一致性的目的是确保正向和反向估计运动的准确性。从表4中可以看出,在去除时,数值显著下降,这显示监督帧插值的粗估计的重要性。添加反向翘曲损失进一步提高循环的一致性,因此提高性能。
[0119]多尺度损失为根据金字塔特征估计的插值帧提供了分层监督。我们从经验上发现,多尺度损失对FastPCI的性能有重要的贡献。与金字塔结构一样,网络中的分层设计和损失函数是FastPCI中最重要的设计,并显著提高性能。
[0120]实施例2
[0121]本公开的一种实施例中提供了一种基于运动结构引导的快速点云帧插值系统,包括:
[0122]数据获取模块,用于获取连续时间段的开始时刻和结束时刻的低时间分辨率点云帧;
[0123]特征提取模块,将开始时刻和结束时刻的低时间分辨率点云帧输入至金字塔运动结构估计网络中,提取出运动特征和结构特征,以及初步估计具有结构感知能力的场景流;
[0124]特征增强模块,用于将所述运动特征、结构特征以及场景流输入至运动补偿网络模块中,对运动特征、结构特征以及场景流进行增强并连接形成运动校正项,将运动校正项添加到输入场景流中,得到细化的场景流,利用细化的场景流预测中间时刻的正向插值帧和反向插值帧;使用插值细化块更新所述正向插值帧,得到更新插值帧;
[0125]融合预测模模块,用于将正向插值帧、反向插值帧以及更新插值帧进行融合,输出任意中间时刻最终的点云插帧预测结果。
[0126]实施例3
[0127]一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的基于运动结构引导的快速点云帧插值方法。
[0128]实施例4
[0129]一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的基于运动结构引导的快速点云帧插值方法。
[0130]本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0131]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0132]上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。