VibeToken: Scaling 1D Image Tokenizers and Autoregressive Models for Dynamic Resolution Generations

发布

2026年04月29日

采集 2026年04月29日 06:31

学术前沿 5.5 分 — 分辨率无关 1D 图像 tokenizer + AR 生成，效率与 SOTA 接近

原文： arXiv cs.LG

评分 5.5 · 来源：arXiv cs.LG · 发布于 2026-04-29

评分依据：分辨率无关 1D 图像 tokenizer + AR 生成，效率与 SOTA 接近

VibeToken 是一种分辨率无关的 1D Transformer 图像 tokenizer，将图像编码为动态用户可控的 32-256 token 序列，实现 SOTA 效率与性能权衡。缩小了 AR 图像生成与扩散模型的差距。

标签：

Multi-layer Cross-Attention is Provably Optimal for Multi-modal In-Context Learning

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios