Multi-layer Cross-Attention is Provably Optimal for Multi-modal In-Context Learning

发布

2026年04月29日

采集 2026年04月29日 06:31

学术前沿 5.5 分 — 证明多层交叉注意力在多模态 ICL 中的最优性，理论结果有分量

原文： arXiv cs.LG

评分 5.5 · 来源：arXiv cs.LG · 发布于 2026-04-29

评分依据：证明多层交叉注意力在多模态 ICL 中的最优性，理论结果有分量

ICL 机制理解进展迅速但集中于单模态数据。本文引入数学可处理的框架研究多模态 ICL，并证明类 transformer 架构何时需要多层交叉注意力来实现最优的多模态 in-context 学习性能。

标签：

What Makes Good Instruction-Tuning Data? An In-Context Learning Perspective

VibeToken: Scaling 1D Image Tokenizers and Autoregressive Models for Dynamic Resolution Generations