视频生成大模型搞不定几何一致,如视让每一帧符合物理世界的逻辑
别人在教AI“画”世界,如视在教AI“测量”世界
先看这段视频。
你可能会以为,这是一个新发布的AI视频模型生成的结果。
它特别的地方,不是画面有多逼真,而是空间没有“乱”。镜头在移动,墙面、门洞、家具、地面关系始终稳定;视角在变化,室内结构没有忽大忽小、漂移、穿帮。换句话说,它不是单纯“生成了一段好看的视频”,而是让 AI 生成的每一帧,都尽量符合真实物理世界的空间逻辑。
这段视频,来自如视空间大模型Argus衍生的视频生成能力。它背后的核心不是让模型凭空想象一个房间,而是让所有画面共享同一个三维几何骨架。纹理、光影、风格可以变化,但空间结构不能乱。
这恰恰是当下 AI 视频生成最难啃的一块骨头。
当下AI视频生成的赛道卷出天际,即使时长和画质的提升有上限,但是主流视频生成模型在三维几何一致性上的表现,远没有达到“模拟真实世界”的要求。
AI 视频越逼真,空间穿帮越刺眼
我们不难发现,市面上的视频生成模型等可以通过AI生成非常漂亮的视频,但是细看就会发现各种空间一致性方面的穿帮:比如墙上的轨道插座随着镜头移动也跟着动了起来。
这是因为,当前主流像素级、文本驱动的视频生成模型,本质仍是 2D 扩散模型,没有三维空间认知能力,分不清远近、遮挡、物体真实坐标。
那么,如何解决长时序漫游下的几何一致性问题?
给扩散模型“装上3D眼镜”
如视的思路很直接:不要让模型只靠想象生成视频,而是把真实三维几何信息作为硬约束,注入到视频生成流程里。
也就是说,扩散模型可以负责生成纹理、光影、材质和细节,但底层空间结构必须由真实几何来管。这样一来,AI 幻觉会被压住。镜头怎么动,房间还是那个房间;视角怎么变,墙体、门窗、家具和地面之间的关系都不会凭空改写。
1.全景视频扩散模型 + 几何注入
在扩散模型中增加一个几何约束模块,将三维结构信息作为额外的conditioning输入,与文本prompt共同指导生成过程。几何信息的来源可以是Argus的实时推理输出,也可以是激光雷达(比如如视自研3D激光扫描仪伽罗华P4)采集的真实点云数据。在此基础上生成视频,AI幻觉明显降低。
输出产物为全景视频,所有帧共享同一个三维几何骨架,帧间结构严格一致。
目前,这是几何一致性最强、且最接近“物理AI”要求的方案。几何源本身具备绝对尺度,因此生成的视频天然具有可测量的空间属性。
2.起止帧约束+修复式生成
对用户指定的起止帧分别进行3D重建(mesh或3DGS),通过插值生成中间帧的几何骨架,再以扩散模型对骨架进行纹理补全和细节生成。优势在于起止帧完全可控,用户可以直接指定“从哪个位置看到哪个位置”。
当 AI 视频懂空间,它就不只是“好看”了
当视频生成真正具备几何一致性时,它从一个“好看的工具”变成一个“有用的工具”。几个明确的应用方向已经可以看到:
- 具身智能仿真数据生成
生成带精确几何标注的ego-centric视频,用于训练机器人的空间理解、导航规划及场景表征模型。
- 物理AI动态化
将已有的静态3D重建结果作为输入,生成该场景在不同时间、不同条件下的动态视频,用于模拟推演。
- VR内容生产
在几何正确的空间骨架内生成第一人称视角视频,内容创作者无需手动建模即可获得结构准确的虚拟空间。
- 影视与建筑预演
以起止帧构图作为输入,自动生成镜头运动路径上的所有中间画面。
如视的两大独家底牌
多数厂商仅聚焦 2D 扩散模型算法迭代,很难搭建稳定、高精度的三维约束生成体系,而如视拥有两大行业难以复刻的底层核心能力:
数据基础:5800万真实空间
如视过去近十年持续做的一件事是:用自研的激光雷达扫描设备和三维重建算法,对真实空间进行高精度数字化采集。截至2026年3月,采集的真实空间数量突破5800万,覆盖面积超48亿平方米,构建了全球最大的真实三维空间数据库。并且,涵盖工厂、住宅、商场、博物馆等丰富的场景,每个空间都包含精确的几何结构、尺度信息和纹理细节。
空间理解模型:Argus 1.0
2025年11月,基于上述数据积累,如视发布了空间大模型Argus 1.0——全球首个支持全景图输入、可在毫秒级内推理出图像带绝对尺度的相机位姿、深度图和点图的大模型,能够为视频扩散管线提供稳定、实时、高精度的几何约束输入源。
视频生成还会继续卷画质、时长和速度。
但越往后,真正拉开差距的可能不是谁生成得更漂亮,而是谁生成得更可信。一个真正可用的 AI 视频系统,必须理解三维空间,也必须尊重物理世界的逻辑。
如视的选择,是不跳过三维重建去直接生成视频。它先建立对真实空间的几何还原能力,再把这种能力变成视频生成过程中的约束条件。
未来我们需要的,不只是“看起来真实”的视频,而是每一帧都站得住的世界。


