Skip to content
星际流动

Multi-layer Cross-Attention is Provably Optimal for Multi-modal In-Context Learning

发布
采集
学术前沿 5.5 分 — 证明多层交叉注意力在多模态 ICL 中的最优性,理论结果有分量
原文: arXiv cs.LG

评分 5.5 · 来源:arXiv cs.LG · 发布于 2026-04-29

评分依据:证明多层交叉注意力在多模态 ICL 中的最优性,理论结果有分量

ICL 机制理解进展迅速但集中于单模态数据。本文引入数学可处理的框架研究多模态 ICL,并证明类 transformer 架构何时需要多层交叉注意力来实现最优的多模态 in-context 学习性能。


标签: