专利 三维场景图的生成方法、装置、设备及可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211311137.X (22)申请日 2022.10.25 (71)申请人杭州华橙软件技术有限公司地址 310051 浙江省杭州市滨江区长河街道滨兴路1399号3号楼15层 (72)发明人汪鹏飞　马子昂　 (74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280 专利代理师严翠霞 (51)Int.Cl. G06T 7/215(2017.01) G06T 7/246(2017.01) G06T 7/33(2017.01) G06T 7/73(2017.01) G06T 17/05(2011.01) (54)发明名称三维场景图的生成方法、装置、设备及可读存储介质 (57)摘要本申请公开了一种三维场景图的生成方法、装置、设备及可读存储介质。三维场景图的生成方法包括：获取目标场景的RGB图像、深度图像和图像采集设备采集RGB图像和深度图像时的位姿信息；基于RGB图像、深度图像和位姿信息，形成目标场景的三维语义地图；三维语义地图由多个语义面片组成，语义面片之间的关联性由顶点和边确定，边包含顶点之间的距离信息，语义面片的顶点数据包含三维坐标信息、法向量信息、 RGB 颜色信息以及语义标签信息；根据三维语义地图生成目标场景中各目标对象对应的场景模型，以形成目标场景的三维场景图。上述方案，能够生成多层次一体化的三维场景图，可以描述三维空间中不同元素之间的关联性，且系统耗时小，对实际应用友好。权利要求书3页说明书12页附图5页 CN 115393386 A 2022.11.25 CN 115393386 A 1.一种三维场景图的生成方法，其特征在于，所述三维场景图的生成方法包括：获取目标场景的RGB图像、深度图像和图像采集设备采集所述RGB图像和所述深度图像时的位姿信息；基于所述RGB图像中的RGB颜色信息，对所述RGB图像进行全景分割，得到所述目标场景的语义信息；对所述RGB图像和所述深度图像进行配准，得到对应的RGBD图像，所述RGBD图像将所述目标场景的语义信息映射到三维空间；基于所述RGBD图像和所述图像采集设备采集所述RGB图像和所述深度图像时的位姿信息，得到所述目标场景的特征点数据；所述特征点数据包括：特征点的三维坐标信息、法向量信息、 RGB颜色信息以及语义信息标签；基于所述目标场景的特征点数据，生成由所述特征点构成的多个语义面片，形成所述目标场景的三维语义地图；所述三维语义地图由多个所述语义面片组成，所述语义面片通过三角网格进行表示，每个顶点连接三个顶点，顶点之间由边进行连接，所述语义面片之间的关联性由所述顶点和所述边确定，所述边包含所述顶点之间的距离信息，所述语义面片的顶点数据包含三维坐标信息、法向量信息、 RGB颜色信息以及语义标签信息；根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，以形成所述目标场景的三维场景图；其中，所述目标对象包括可移动物体；所述RGB图像和所述深度图像包括所述图像采集设备采集的各时刻的多帧图像，所述三维语义地图包括各时刻对应的三维语义地图；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：分别对每个时刻对应的三维语义地图中的各语义面片提取语义标签信息，获取每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片；从每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片中，确定出每个所述可移动物体对应的语义面片集；根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息，并基于所述运动信息生成每个所述可移动物体对应的场景模型，所述可移动物体对应的场景模型包括所述可移动物体的三维轨迹信息、 3D网格模型以及语义标签信息。 2.根据权利要求1所述的三维场景图的生成方法，其特征在于，所述根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息，包括：提取相邻两帧图像中每个所述可移动物体的几何中心信息，构建所述相邻两帧图像的语义面片之间的距离代价矩阵，基于所述距离代价矩阵通过匈牙利匹配算法计算所述相邻两帧图像中属于最佳匹配的可移动物体，基于语义标签信息的一致性对所述属于最佳匹配的可移动物体进行筛选，得到每个所述可移动物体在所述相邻两帧图像中的粗匹配结果；对所述粗匹配结果对应的每个所述可移动物体在所述相邻两帧图像中的语义面片进行奇异值分解，将最小特征值所在的向量作为投影轴，以每个所述可移动物体的几何中心为原点进行2D投影，对投影后的2D物体提取轮廓并对轮廓相似度进行匹配；对于所述轮廓相似度匹配成功的可移动物体，将该可移动物体在所述相邻两帧图像之权　利　要　求　书 1/3 页 2 CN 115393386 A 2间的语义面片进行融合，将融合后的语义面片作为该可移动物体在所述相邻两帧图像中的后一帧图像的语义面片并保存，同时计算该可移动物体在所述相邻两帧图像之间的位置差，基于所述位置差确定该可移动物体的速度信息，根据该可移动物体的速度信息预测该可移动物体在所述相邻两帧图像中的后一帧图像的新的几何中心信息并保存。 3.根据权利要求1所述的三维场景图的生成方法，其特征在于，所述目标对象包括静态物体；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：对所述三维语义地图中的各语义面片提取语义标签信息，获取包含有相同的静态物体所对应的语义标签信息的所有语义面片；通过空间距离对所述包含有相同的静态物体所对应的语义标签信息的所有语义面片进行聚类优化，得到每个所述静态物体对应的语义面片集；根据每个所述静态物体对应的语义面片集，生成每个所述静态物体对应的场景模型，所述静态物体对应的场景模型包括所述静态物体的三维位姿信息、 3D包围盒以及语义标签信息。 4.根据权利要求3所述的三维场景图的生成方法，其特征在于，所述目标对象还包括可行空间；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：将不具有语义面片的区域划分为所述可行空间，生成所述可行空间对应的场景模型，所述可行空间对应的场景模型采用三维拓扑图或二维拓扑图表示，所述可行空间对应的场景模型包括所述可行空间的三维或二维位姿信息，以及语义上的空间方位信息。 5.根据权利要求4所述的三维场景图的生成方法，其特征在于，所述目标对象还包括结构化环境物体；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：对所述三维语义地图中的各语义面片提取语义标签信息，获取包含有相同的结构化环境物体所对应的语义标签信息的所有语义面片；通过空间距离对所述包含有相同的结构化环境物体所对应的语义标签信息的所有语义面片进行聚类优化，得到每个所述结构化环境物体对应的语义面片集；根据每个所述结构化环境物体对应的语义面片集，生成每个所述结构化环境物体对应的场景模型，所述结构化环境物体对应的场景模型包括所述结构化环境物体的三维位姿信息、 3D包围盒以及语义标签信息。 6.根据权利要求5所述的三维场景图的生成方法，其特征在于，所述目标对象还包括房间区域；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：将所述目标场景对应的三维空间投影到二维平面上，形成二维栅格地图，使用基于维诺图的房间划分算法对二维栅格地图进行划分，确定所述房间区域，并生成所述房间区域对应的场景模型，所述房间区域对应的场景模型包括所述房间区域的三维位姿信息、 3D包围盒以及语义标签信息。 7.根据权利要求6所述的三维场景图的生成方法，其特征在于，所述房间区域有多个，所述目标对象还包括楼层区域；权　利　要　求　书 2/3 页 3 CN 115393386 A 3

专利 三维场景图的生成方法、装置、设备及可读存储介质

专利三维场景图的生成方法、装置、设备及可读存储介质