评分 5.5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:分辨率无关 1D 图像 tokenizer + AR 生成,效率与 SOTA 接近
VibeToken 是一种分辨率无关的 1D Transformer 图像 tokenizer,将图像编码为动态用户可控的 32-256 token 序列,实现 SOTA 效率与性能权衡。缩小了 AR 图像生成与扩散模型的差距。
评分 5.5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:分辨率无关 1D 图像 tokenizer + AR 生成,效率与 SOTA 接近
VibeToken 是一种分辨率无关的 1D Transformer 图像 tokenizer,将图像编码为动态用户可控的 32-256 token 序列,实现 SOTA 效率与性能权衡。缩小了 AR 图像生成与扩散模型的差距。