评分 6.7 · 来源:arXiv · 发布于 2026-03-18
评分依据:从几何 LoD 到语义 LoS 的范式转换,0.1%-10% token 效率提升极显著,CVPR 2026 论文
要点
现有 3D 形状 tokenization 方法主要基于几何层次细节(Level of Detail)排序,源自渲染和压缩场景,对 AR 建模而言 token 效率低且缺乏语义连贯性。LoST(Level of Semantics Tokenization)按语义显著性排序 token——前缀 token 解码出具备主体语义的完整形状,后续 token 精细化实例细节。通过 RIDA(Relational Inter-Distance Alignment)损失将 3D 形状潜空间与 DINO 特征空间的关系结构对齐,在几何和语义重建指标上大幅超越此前 LoD 方法,仅需 0.1%-10% 的 token。
🤖 AI 点评
「前 N 个 token 就能重建一个有意义的形状」这个特性不只在学术上有价值——它直接意味着可以在 AR 模型中实现渐进式生成和早期终止,大幅降低推理成本。从 LoD 到 LoS 的思路转换也很有启发性:与其按几何精度排序 token,不如按「人类最先感知到的语义」排序。这对于其他模态的 tokenization 设计同样有参考意义。