如视 真实如你所视,数字空间与空间智能综合解决方案引领者 - 如视
下载APP联系我们
  • VR空间
  • 商城
下载客户端联系我们
如视 真实如你所视,数字空间与空间智能综合解决方案引领者 - 如视
产品
  • 平台与应用
    • 一站式 VR 全景制作平台
      一站式 VR 全景制作平台
      热门
      从创作到管理,你的一站式 VR 管家
    • VR 浏览
      VR 浏览
      沉浸式 VR 漫游,让空间细节尽在掌握
  • 自研采集产品
    • 伽罗华 P4
      伽罗华 P4
      热门
      升级款 3D 激光扫描仪,极精秒速采集
    • 伽罗华 M4
      伽罗华 M4
      NEW
      3D 激光扫描仪,空间数字化一步到位
    • 伽罗华 M2
      伽罗华 M2
      3D 激光扫描仪,适配多种空间需求
    • 庞加莱 R1
      庞加莱 R1
      NEW
      小巧轻便,手持实景扫描仪新标杆
    • 庞加莱 S1
      庞加莱 S1
      手持实景扫描仪,超大空间三维重建
    • Realsee G2
      Realsee G2
      热门
      激光 VR 采集云台,室内空间采集优选
  • 兼容采集方式
    • 全景图生成 VR
      全景图生成 VR
      上传全景图,全流程自动化生成 VR
    • 手机拍 VR
      手机拍 VR
      拿起手机拍 VR,随时随地记录空间
    • 全景相机拍 VR
      全景相机拍 VR
      主流相机一键连,2D 全景自动转 VR
  • 能力展示
    • 如视空间数据
      海量空间数据,丰富产物,立即下载了解
    • Argus 大模型
      图片一键还原立体世界,业内首创大模型
  • 下载 如视VR App
    下载 如视VR App
    超越想象的简单,手机也能轻松拍 VR ,随时随地体验空间采集
  • 上门采集服务
    上门采集服务
    专属摄影师上门,覆盖全国 100+ 主要城市,支持灵活调整方案
解决方案
  • 场景类
    • 营销宣传
      营销宣传
      让每一处场景都成获客入口
    • 导航导览
      导航导览
      3D 精准定位,沉浸式导览新体验
    • 孪生底座
      孪生底座
      空间智能 AI,高效全场景数字孪生
    • 多维式培训
      多维式培训
      1:1 实景还原,多维赋能实战培训
    • 远程协作
      远程协作
      提升效率,大幅降低沟通成本
    • 现场踏勘
      现场踏勘
      全维度记录,让踏勘作业更便捷
  • 行业类
    • 房产租售
      房产租售
      热门
      沉浸 VR 带看,真信任,促成交
    • 特展临展
      特展临展
      热门
      省心落地,高效数字化临展
    • 餐饮酒旅
      餐饮酒旅
      餐厅 VR 上线美团,预定转化快人一步
    • 商业零售
      商业零售
      降本提效,打造场景化购物新体验
    • 家装
      家装
      VR 记录全流程,AI 设计一键赋能营销
    • 家居家电
      家居家电
      场景闭环,打通线上销售最后 1 公里
    • 智慧量房
      智慧量房
      NEW
      4 分钟测量,15 分钟直出 CAD
    • 工厂园区
      工厂园区
      数字孪生工厂大幅提高作业效率
    • 展厅展馆
      展厅展馆
      构建线上观展体验,打破时空局限
    • 公共事务
      公共事务
      三维现勘,为社会公正提供证据支撑
    • 道路事故快勘
      道路事故快勘
      精准固证数字化留痕,现场快勘快处快撤
  • 联系我们
    联系我们
    专业顾问N对1全程服务,为您答疑解惑
  • 精彩案例
    精彩案例
    行业落地项目集锦,直观展现应用价值
VR空间
合作与支持
  • 服务与支持
    • 帮助中心
      常见问题与使用指南,快速获取答案
    • 学习中心
      系列视频课程,轻松学会 VR 制作
    • 开发者手册
      开发者必读,实现快速接入
  • 合作生态
    • 开放平台
      共建三维生态,互联大千世界
    • 渠道与生态
      携手如视,成为如视生态合作伙伴
  • 了解我们
    • 新闻中心
      权威发布企业动态,实时呈现行业热点
    • 案例研究
      沉淀客户实践,赋能业务增长
    • 产品功能与更新
      掌握产品更新,高效落地数字化需求
  • 如视介绍
    如视介绍
    数字空间综合解决方案引领者
  • 联系我们
    联系我们
    专业顾问N对1全程服务,为您答疑解惑
商城
  • 去制作 VR
  • 登录
  • 联系我们
学术成果与能力解读

3D物品检测算法及应用

在图像上进行2D物品检测,在学术界已有较多的研究,在工业界也有成熟的应用。但是物理空间实际是3D的,在与空间数字化紧密相连的一些应用中,业务往往还需要关注物品的3D位置。针对数据获取成本和数据处理难度问题,如视都进行了研究并积累了较多成果。
更新于 2024年04月26日

1 背景概述

在图像上进行2D物品检测,在学术界已有较多的研究,在工业界也有成熟的应用。但是物理空间实际是3D的,在与空间数字化紧密相连的一些应用中,业务往往还需要关注物品的3D位置。通常限制3D物品检测算法及应用的两个原因如下:

a) 数据获取成本

在摄像头非常普及的当下,图像获取是非常容易的。但是带3D信息的深度图或点云获取,则更专业和稀少。

b) 数据处理难度

图像数据本质是规则排列的像素,而3D数据的分布是不规则的:有的稀疏、有的稠密;遮挡部分数据缺失等。不规则的数据格式增加了处理难度。

针对上述问题,如视都进行了研究并积累了较多成果。如视采集了千万量级套数的室内场景数据,利用Galois激光扫描采集点云,或大数据训练的智能算法估算深度,大量的数据为3D检测提供了坚实的基础。在3D检测算法方面,研究、实现多种技术路线,针对不同的需求。

2 算法介绍

在不同的需求中,输入的数据、要求的精度都有差异。可以选择不同的技术路线实现3D物品检测。

2.1 级联式检测(Cascaded Detection)

级联式检测即把整个数据处理流程分为两级并串联:第一级使用图像2D检测;第二级再加入深度图,计算3D物品包围盒的位置。其中,第二级中还可利用相机多视约束关系(Multi-View Constraint),对结果进一步筛选和优化。

这种算法的最大优势是可以直接利用成熟的2D检测结果,但是在提出候选物品时只用到了图像,对深度图或点云包含的物品几何特征没有充分发掘利用。


级联式检测流程
级联式检测流程


2.2 基于点云的检测(Point Cloud based Detection)

物品及场景的3D点云,由于不是规则排列的数据,很难像图像那样直接输入神经网络。早期的研究倾向于把3D点云投影到2D图像上,或者对点云进行规则的体素化(Voxelization)后再处理。但这些方法都有量化误差(Quantization Error),让点云失去了原始的精度。

随着 PointNet[1] 及 PointNet++[2] 系列研究开始,算法可以直接从3D点云上提取特征,其中使用一个对称函数(Symmetric Function)对多个点的特征进行一次聚合(Aggregate),使提取的特征具有排列不变性(Permutation Invariance)。这样就能对不规则数据提取稳定的特征。

如视使用 PointNet 为骨干(Backbone)的神经网络提取室内场景点云的特征,再通过物品候选、分类的神经网络,推算家具、电器等物品的3D包围盒。本算法直接对点云进行处理,结果的形状、位置等比级联式算法更加贴合采集的3D数据。


基于点云的检测流程
基于点云的检测流程


2.3 多模态融合检测(Detection with Multi-Modal Fusion)

单独使用2D图像或者3D点云提出候选物品,都属于单模态检测。它们各自都有一定的局限性:图像不包含准确的3D信息;而点云不包含物品高频的纹理特征。只用图像提出候选物品,则最终的3D位置、尺寸偏差可能较大;只用点云提出候选物品,则难以区分几何外形类似、但实际不同的物品(例如餐桌和办公桌、冰箱和尺寸类似的柜子)。

我们使用多模态融合的检测,即指在物品候选阶段就同时使用从2D图像上提取的纹理特征以及从3D点云中提取的几何特征。把两方面的特征连接在一起后,再通过联合的物品候选、分类的神经网络,推算家具、电器等物品的3D包围盒。

“简单粗暴”地把更多模态的数据堆叠在一起,理论上可以让算法的上限更高,但在工程实践中,可能造成算法模型的过度拟合[3]。为了解决这些问题,我们需要针对性的调整多模态的权重比例,引入多模态联合损失函数(Multi-Modal Joint Loss)、单模态辅助损失函数(Uni-Modal Auxiliary Loss)等,使训练的算法模型能够达到比较理想的状态。最终结果优于单模态算法。


多模态融合检测流程
多模态融合检测流程


3 行业应用

与空间数字化相关的很多业务,都需要识别或标注目标物体的位置、尺寸、角度等。3D物品检测算法可以被封装成一个基础服务,提供给更外层的应用。以下提供两个应用示例。

3.1 为AI家装设计提供参考方案

通常而言,AI家装设计需要采用复杂的规则或者推荐算法,对家具的摆放位置进行推理。但从另外一个角度来说,如视已经采集了海量的新房样板间数据,其中包含不同户型、不同家具的真实摆放方案,可以为AI设计算法的训练提供参考。而这些真实方案的获取需要依赖人工标注家具位置或者自动的3D物品检测算法。显然,自动算法能够极大提高数据处理流程的效率。


3D物品检测提取真实设计方案
3D物品检测提取真实设计方案


3.2 助力工业设备数字化管理

在某些工业设备区域,企业不仅需要可视化的查看,还需要精确地标注具体设备,录入数字化管理系统。而3D物品检测算法可以降低人工标注工作量,提升运营效率。


某厂房3D物品检测用于数字化管理
某厂房3D物品检测用于数字化管理


4 论文引用

[1] [Charles R. Qi et al. 2017] PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

[2] [Charles R. Qi et al. 2017] PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

[3] [Weiyao Wang et al. 2020] What Makes Training Multi-modal Classification Networks Hard?

上一篇

Structure-aware Indoor Scene Reconstruction via Two Levels of Abstraction

下一篇

混合现实解读
  • 产品
    • 伽罗华 Galois P4
    • Realsee G2
    • 庞加莱 Poincare
    • 手机拍 VR
  • 解决方案
    • 展厅展馆
    • 商业零售
    • 工厂园区
    • 房产租售
  • 关于我们
    • 如视介绍
    • 新闻媒体
    • 联系我们
  • 快速链接
    • 管理后台
    • 开放平台
    • 法律协议
    • 维修售后
  • 联系我们
    • 电话:400-897-9658
    • 时间:工作日 9:00-19:00(北京时间)
    • 邮箱:mkt@realsee.com
    • 地址:北京市海淀区上地六街弘源首著大厦
  • 关注我们
    扫描下方二维码关注我们公众号关注我们微博
    扫码关注我们的微信公众号
    微信公众号
如视Realsee
如你之视(北京)科技有限公司|地址:北京市海淀区信息路7号弘源首著大厦1号楼8层|电话:400-897-9658
©Copyright2026 realsee.com版权所有|营业执照|ICP|京ICP备2022009190号-3
违法和不良信息举报电话:010-8644 0676|违法和不良信息举报邮箱:complaint@realsee.com|京公网安备 11010802039437号,logo京公网安备 11010802039437号

更多「学术成果与能力解读」

EDM: Efficient Deep Feature Matching

EDM: Efficient Deep Feature Matching

2025年08月07日
Multi-view Inverse Rendering for Large-scale Real-world Indoor Scenes

Multi-view Inverse Rendering for Large-scale Real-world Indoor Scenes

2024年04月25日
 PhyIR: Physics-Based Inverse Rendering for Panoramic Indoor Images

PhyIR: Physics-Based Inverse Rendering for Panoramic Indoor Images

2024年04月25日
查看更多