3D-Layout-R1：用场景图推理实现结构化空间布局编辑

评分 6.7 · 来源：arXiv · 发布于 2026-03-24

评分依据：将场景图推理与 RL 结合做空间编辑有新意，15% IoU 提升显著，但应用场景较窄

要点

3D-Layout-R1 提出了一种基于场景图推理的空间布局编辑方法。与传统的 Chain-of-Thought SFT 方法不同，该方法通过将 3D 场景表示为结构化的场景图（scene graph），利用图上的推理链来指导空间编辑操作。

关键创新在于引入了强化学习来训练模型的推理过程——模型不是模仿人工标注的思维链，而是通过奖励信号学习最优的空间推理策略。实验表明，该方法在多个 3D 布局编辑基准上比 CoT-SFT 方法 IoU 提升 15%，证明了结构化推理加 RL 优于单纯的模仿学习。

这篇文章呼应了一个重要的趋势：在需要结构化推理的任务中，RL 正在取代 CoT-SFT 成为更优的训练范式。15% 的 IoU 提升不是小数目，说明让模型「学会推理」比「教会推理」更有效。不过，该方法目前主要面向室内 3D 场景编辑，距离通用的空间智能还有距离。