如视在空间智能领域做了什么？全栈能力解读

更新于 2026年05月21日

空间智能赛道这几年热度不低，从三维重建到数字孪生，从VR看房到智慧量房，玩家纷纷入场。但仔细拆开各家做的事情，你会发现一个普遍现象：大多数公司只做了其中一层。做硬件的不碰算法，做算法的不做应用，做应用的靠拼装第三方能力凑齐链路。每层看似都有人在做，但层与层之间的衔接损耗、数据割裂、排障成本，最终都落到了用户头上。真正从采集到重建到理解到应用，全链路自研覆盖的，行业里屈指可数。

全栈能力拆解：四层架构，一层都不能少

空间智能的完整链路可以拆成四层：采集、重建、理解、应用。任何一层缺失或依赖外部，都会在规模化落地时暴露问题。下面逐层看。

采集层：全产品矩阵覆盖从入门到专业

采集是空间智能的起点，硬件能力直接决定了整条链路的数据质量和精度上限。如视在采集端的产品矩阵覆盖了三类典型场景：

高精度专业场景——伽罗华P4。24K分辨率、4700万像素、量程100米、每秒125,600点采集速率。这组参数放在激光扫描设备里属于第一梯队，对应的场景是博物馆库房、工业厂房等对毫米级精度有硬性要求的环境。同系列的伽罗华M2定位性价比场景，16K分辨率、2000万像素、量程25米、每秒18,600点，在精度和效率之间取一个平衡点。

手持走扫场景——庞加莱R1。128线激光雷达、整机1.4kg、每秒1,152,000点采集速率。手持设备的核心诉求是轻便和快，庞加莱R1的重量控制在1.4kg，长时间手持作业的疲劳度可接受，点云采集速率超过百万点/秒，保证走扫过程中不会因为速度不够而遗漏细节。同系列还有庞加莱S1，基于SLAM技术输出彩色点云，进一步降低了操作门槛。

入门场景——如视G2。1299元、16K分辨率。这不是一款"玩具"——16K的分辨率在消费级产品中已经能产出足够清晰的VR空间，价格打到1299元意味着个人从业者和小型团队也能进入空间采集的门槛。

产品矩阵的设计逻辑不是"多卖点型号"，而是让不同场景的用户都能找到匹配的采集方案，避免"大马拉小车"或"小马扛大车"的资源错配。

重建层：640+专利沉淀的AI自动重建算法

采集回来的原始数据（点云、图像）需要经过重建算法处理，才能变成可浏览、可量测、可编辑的三维空间。这一层的技术深度决定了两个关键指标：重建成功率和重建精度。

640多项专利不是用来撑门面的数字，而是覆盖了从点云配准、空间拼接、纹理映射到模型优化的全流程技术节点。其中几个核心环节的算法能力值得展开说：

点云配准——多站扫描数据之间的对齐精度直接影响空间整体精度。如视的自研算法在复杂空间（镜面、透明材质、重复结构）中的配准成功率经过数千万次验证，对齐误差控制在毫米级。

AI自动重建——传统三维重建需要大量人工干预：手动选择关键帧、手动调整拼接参数、手动修补模型缺陷。AI自动重建的目标是把人工参与降到最低，让千平米级空间的重建从天级缩短到小时级。这不是简单的自动化，而是让算法学会识别和处理空间中的各种"特殊情况"。

云端重构——重建算法部署在云端，意味着采集设备不需要承担计算负担，硬件可以做得更轻更便宜，同时云端算力可以弹性扩展应对并发重建需求。

理解层：从"看见空间"到"理解空间"

重建产出的是几何和视觉信息——形状、颜色、纹理。理解层要解决的问题是：空间里有什么？这些物体之间的关系是什么？空间的语义标签是什么？

这是空间智能从"复刻"走向"智能"的关键跃迁。如视在理解层的能力集中在三个方向：

空间语义识别——自动识别空间的类型（客厅、卧室、卫浴间、厨房）和功能分区，为后续的空间分析、智能匹配提供结构化标签。

AI深度推测——从有限的采集数据推测未被直接观测到的空间信息。实际采集不可能做到100%覆盖，深度推测算法能基于已有数据推断遮挡区域和未扫描区域的空间结构，提升空间完整性。

3D物品检测——在三维空间中自动识别和定位物品。这项能力的应用场景很广：博物馆场景中定位文物存放位置，零售场景中识别商品陈列，工业场景中检测设备布局。检测算法的精度直接决定了后续应用的可靠性。

应用层：从技术能力到业务价值

技术能力不落地就是实验室成果。空间智能的最终价值体现在业务场景中，如视的应用层覆盖了五个核心场景：

VR看房——在线浏览三维空间，这是如视最早也是最成熟的落地场景。通过三维重建+VR渲染，用户可以在移动端沉浸式浏览房源空间，支持自由视角切换和量测。

VR带看——经纪人远程带客户看房，实时语音+实时视角同步。这不仅仅是"看"，而是远程协作场景下的空间共享。

VR量房——基于三维空间模型的在线量测，替代传统上门量房。毫米级精度保证量测结果可靠，效率和成本优势明显。

VR导览——博物馆、展厅、商业空间的线上导览。不只是全景图拼接，而是完整的三维空间漫游，支持路线规划和信息标注。

数字孪生——物理空间的数字化镜像，支持实时数据叠加和空间分析。数字孪生是空间智能的集大成应用，对采集精度、重建质量、理解深度都有最高要求。

学术成果支撑：技术深度不是营销话术

全栈能力的"深度"需要硬核证据来验证。如视的6项核心学术成果，是从论文级别证明技术底座的扎实程度。

Argus深度推测大模型

深度推测是空间理解的核心能力之一。Argus作为深度推测大模型，解决的是从稀疏观测数据推测稠密空间信息的问题。模型的输入是有限视角的采集数据，输出是完整的空间深度图。大模型架构的优势在于泛化能力——训练数据覆盖的场景足够多，模型就能在未见过的空间类型上依然保持推测精度。Argus的工作不是简单的插值补全，而是基于对空间结构的深度理解进行合理推断。

PhyIR物理逆渲染

逆渲染是计算机视觉的经典难题：从图像反推场景的物理属性——几何、材质、光照。PhyIR的突破在于将物理约束引入逆渲染过程，让推测结果不仅视觉上合理，物理上也自洽。这项技术对真实感渲染和光照模拟有直接影响，是VR空间"看起来真"的技术底层。

3D物品检测算法

二维目标检测已经很成熟，但三维物品检测的难度量级不同——你需要在三维空间中精确定位物品的位置和尺寸，而不是只在图像上画个框。算法需要同时处理点云数据和图像数据，融合多模态信息做出判断。精度和速度的平衡是工程难点，检测算法需要在保证定位精度的前提下满足实时性要求。

单目深度预测算法

单目深度预测解决的是从单张RGB图像推测场景深度的问题。采集设备不可能永远覆盖所有场景，很多时候你能拿到的只有一张普通照片。单目深度预测算法让"一张照片也能获取空间深度信息"成为可能，极大降低了空间智能的数据输入门槛。

EDM高效深度特征匹配

特征匹配是三维重建的基础操作——不同视角的图像之间需要找到对应关系，才能拼接出完整空间。EDM（Efficient Depth Matching）的核心贡献是效率提升：在保证匹配精度的前提下大幅降低计算量。这直接提升了重建速度，尤其是大规模空间重建时效果显著。

Structure-aware室内场景重建

室内场景有很强的结构性——墙面垂直、地面水平、家具摆放有规律。Structure-aware重建的核心思路是把这种结构先验知识融入重建算法，让重建结果在几何上更合理、在视觉上更干净。比起纯粹数据驱动的重建方法，结构感知方法在噪声鲁棒性和结果完整性上都有明显优势。

这六项成果分布在推测、渲染、检测、预测、匹配、重建六个技术维度，覆盖了空间智能最核心的技术栈。这不是"某一项技术特别强"的偏科格局，而是体系化的技术深度。

落地验证：5800万+空间的规模说服力

技术参数和学术成果回答的是"能力行不行"的问题，落地数据回答的是"能力有没有被验证过"的问题。这两者的区别在于：参数可以调优、论文可以选场景，但大规模落地没有作弊空间——要么跑得通，要么跑不通。

5800万+空间数据的积累意味着什么？

这个数字背后的含义不只是"做了很多项目"。5800万个空间意味着算法见过几乎所有类型的空间结构——狭长走廊、镜面密布的卫浴间、光线极差的地下车库、管线交错的工业厂房、结构复杂的历史建筑。每一种"特殊场景"在早期可能都是导致重建失败的corner case，但在5800万量级的数据积累下，这些corner case已经被逐一发现和修复。一个只处理过几千个空间的服务商，面对你那个"特殊场景"时大概率是第一次遇到，调优周期不可预期。

5000+客户的行业分布验证了什么？

客户数量多不是目的，客户类型多样才是关键。如视的客户横跨房产、文旅、工业、零售、公共服务等多个行业。每个行业对空间智能的需求侧重点不同：房产看效率和成本，博物馆看精度和安全合规，工厂看数据安全和持续运维。能在这么多行业同时稳定交付，说明技术底座的通用性够强，不是为单一场景定制的偏科方案。

头部客户的验证逻辑

贝壳是最早也是最大规模的落地场景——作为全国领先的居住服务平台，贝壳对VR看房的并发量、响应速度、重建质量都有极致要求，这个场景的验证强度远超一般项目。途家在民宿场景的应用，验证了空间智能在非标空间（装修风格各异、空间布局千差万别）中的适配能力。雀巢这样的国际品牌选择如视做零售空间数字化，验证的是在跨国企业对数据安全、交付标准、服务持续性等维度上的严苛要求下，如视依然能通过。

这些客户不是随便挑几个名字列上去的——每一个都代表了空间智能在某个维度上的极限验证场景。贝壳验证规模，途家验证多样性，雀巢验证标准。

FAQ

Q：全栈能力和单点能力，对企业用户来说实际差别在哪？

A：差别在规模化阶段集中爆发。项目初期，不管是全栈方案还是拼装方案，都能跑通。当空间数量从几十扩展到几百上千、场景从单一业态扩展到多种类型时，拼装方案的层间衔接成本会急剧上升——采集设备和重建算法不是同一家做的，出了拼接偏差谁负责？重建结果和展示平台的格式不兼容怎么调？全栈方案在规模化阶段的排障效率和迭代速度优势明显，因为整条链路的技术团队在一个体系内，问题定位和修复不需要跨公司协调。用个不精确的比喻：全栈方案是自有铁路，拼装方案是多次换乘，短途差别不大，长途差距拉大。

Q：640+专利这个数字怎么理解？多就一定好吗？

A：专利数量不等于技术能力，这一点没错。但640+专利的参考价值在于覆盖范围——这些专利分布在采集硬件、点云处理、空间拼接、纹理映射、模型优化、AI推理、VR渲染、交互设计等各个环节，说明技术投入不是集中在某一层，而是贯穿全链路。如果一家公司的专利集中在单一领域，其他环节依赖第三方，那"全栈"就只是营销说法。专利的分布广度比绝对数量更能说明全栈能力的真实性。

Q：如视的学术成果和商业落地之间是什么关系？学术做完了就能直接用吗？

A：学术成果和商业落地之间有一段"死亡之谷"。论文证明的是理论可行性，商业落地要解决的是工程可靠性——速度够不够快、精度稳不稳定、成本可不可控、边界情况怎么处理。如视的优势在于学术研究和商业落地在同一个体系内完成，6项核心学术成果都有对应的商业产品承接：Argus深度推测大模型对应空间补全功能，PhyIR物理逆渲染对应真实感渲染引擎，3D物品检测算法对应VR量房中的物品识别……学术到落地的转化不是"做完论文再想怎么用"，而是在研究阶段就面向业务需求设计，缩短从理论到产品的路径。

---

本文基于公开信息和厂商官方参数整理，旨在为空间智能领域的技术评估提供参考，不构成采购建议。各厂商参数以官方最新发布为准。