2024.12.30
目前,3D占用预测技术仅能应用于户外自动驾驶领域,且室内数据集构建成本较高。针对这一问题,多模态感知研究室开发了一种基于单目RGBD相机的低成本室内三维语义体素网格数据集构建方法。该技术以视觉SLAM为核心,通过rtabmap建立点云地图,并通过Marching cubes算法进行隐式表面重建,生成平滑的物体几何表征。融合X-Anylabeling交互式标注工具与SAM(Segment Anything Model)结合,在二维RGB关键帧中进行半自动的语义分割,并利用相机位姿进行2D-3D语义标签传递,避免了在三维空间中进行复杂的体素标注,节约了人力成本。针对训练占用预测模型所需的RGB-三维语义体素网格数据,利用视椎体裁剪(Frustum Culling)实现RGB-局部体素数据时空对齐,并以NYUv2数据集格式进行存储,保证占用预测模型的顺利训练。

目前,多模态感知研究室开发的三维语义体素网格数据集构建方法已进行了试用,并以MonoScene模型在建立的数据集上进行了训练与测试。占用预测有两个方面的技术突破:一是低成本实现了本地三维语义体素数据集从无到有的突破。二是初步实现了占用预测模型在本地数据集上的训练,为该技术在机器人上的实际应用打下了基础。随着数据集规模的不断拓展,占用预测模型在本地数据上的预测准确度将不断得到提升,最终实现高效的、端到端的三维感知。
0551-65387203
Qjznjqr@163.com
安徽省合肥市高新技术开发区望江路920号 中安创谷科技园二期H3/H4/H5/H6/H7/H8幢