视频生成大模型搞不定几何一致，如视让每一帧符合物理世界的逻辑

别人在教AI“画”世界，如视在教AI“测量”世界

更新于 2026年06月29日

先看这段视频。

你可能会以为，这是一个新发布的AI视频模型生成的结果。

它特别的地方，不是画面有多逼真，而是空间没有“乱”。镜头在移动，墙面、门洞、家具、地面关系始终稳定；视角在变化，室内结构没有忽大忽小、漂移、穿帮。换句话说，它不是单纯“生成了一段好看的视频”，而是让 AI 生成的每一帧，都尽量符合真实物理世界的空间逻辑。

这段视频，来自如视空间大模型Argus衍生的视频生成能力。它背后的核心不是让模型凭空想象一个房间，而是让所有画面共享同一个三维几何骨架。纹理、光影、风格可以变化，但空间结构不能乱。

这恰恰是当下 AI 视频生成最难啃的一块骨头。

当下AI视频生成的赛道卷出天际，即使时长和画质的提升有上限，但是主流视频生成模型在三维几何一致性上的表现，远没有达到“模拟真实世界”的要求。

AI 视频越逼真，空间穿帮越刺眼

我们不难发现，市面上的视频生成模型等可以通过AI生成非常漂亮的视频，但是细看就会发现各种空间一致性方面的穿帮：比如墙上的轨道插座随着镜头移动也跟着动了起来。

这是因为，当前主流像素级、文本驱动的视频生成模型，本质仍是 2D 扩散模型，没有三维空间认知能力，分不清远近、遮挡、物体真实坐标。

那么，如何解决长时序漫游下的几何一致性问题？

给扩散模型“装上3D眼镜”

如视的思路很直接：不要让模型只靠想象生成视频，而是把真实三维几何信息作为硬约束，注入到视频生成流程里。

也就是说，扩散模型可以负责生成纹理、光影、材质和细节，但底层空间结构必须由真实几何来管。这样一来，AI 幻觉会被压住。镜头怎么动，房间还是那个房间；视角怎么变，墙体、门窗、家具和地面之间的关系都不会凭空改写。

1.全景视频扩散模型 + 几何注入

在扩散模型中增加一个几何约束模块，将三维结构信息作为额外的conditioning输入，与文本prompt共同指导生成过程。几何信息的来源可以是Argus的实时推理输出，也可以是激光雷达（比如如视自研3D激光扫描仪伽罗华P4）采集的真实点云数据。在此基础上生成视频，AI幻觉明显降低。

输出产物为全景视频，所有帧共享同一个三维几何骨架，帧间结构严格一致。

目前，这是几何一致性最强、且最接近“物理AI”要求的方案。几何源本身具备绝对尺度，因此生成的视频天然具有可测量的空间属性。

2.起止帧约束+修复式生成

对用户指定的起止帧分别进行3D重建（mesh或3DGS），通过插值生成中间帧的几何骨架，再以扩散模型对骨架进行纹理补全和细节生成。优势在于起止帧完全可控，用户可以直接指定“从哪个位置看到哪个位置”。

当 AI 视频懂空间，它就不只是“好看”了

当视频生成真正具备几何一致性时，它从一个“好看的工具”变成一个“有用的工具”。几个明确的应用方向已经可以看到：

具身智能仿真数据生成

生成带精确几何标注的ego-centric视频，用于训练机器人的空间理解、导航规划及场景表征模型。

物理AI动态化

将已有的静态3D重建结果作为输入，生成该场景在不同时间、不同条件下的动态视频，用于模拟推演。

VR内容生产

在几何正确的空间骨架内生成第一人称视角视频，内容创作者无需手动建模即可获得结构准确的虚拟空间。

影视与建筑预演

以起止帧构图作为输入，自动生成镜头运动路径上的所有中间画面。

如视的两大独家底牌

多数厂商仅聚焦 2D 扩散模型算法迭代，很难搭建稳定、高精度的三维约束生成体系，而如视拥有两大行业难以复刻的底层核心能力：

数据基础：5800万真实空间

如视过去近十年持续做的一件事是：用自研的激光雷达扫描设备和三维重建算法，对真实空间进行高精度数字化采集。截至2026年3月，采集的真实空间数量突破5800万，覆盖面积超48亿平方米，构建了全球最大的真实三维空间数据库。并且，涵盖工厂、住宅、商场、博物馆等丰富的场景，每个空间都包含精确的几何结构、尺度信息和纹理细节。

空间理解模型：Argus 1.0

2025年11月，基于上述数据积累，如视发布了空间大模型Argus 1.0——全球首个支持全景图输入、可在毫秒级内推理出图像带绝对尺度的相机位姿、深度图和点图的大模型，能够为视频扩散管线提供稳定、实时、高精度的几何约束输入源。

视频生成还会继续卷画质、时长和速度。

但越往后，真正拉开差距的可能不是谁生成得更漂亮，而是谁生成得更可信。一个真正可用的 AI 视频系统，必须理解三维空间，也必须尊重物理世界的逻辑。

如视的选择，是不跳过三维重建去直接生成视频。它先建立对真实空间的几何还原能力，再把这种能力变成视频生成过程中的约束条件。

未来我们需要的，不只是“看起来真实”的视频，而是每一帧都站得住的世界。