What Makes Good Instruction-Tuning Data? An In-Context Learning Perspective

发布

2026年04月29日

采集 2026年04月29日 06:31

学术前沿 5.5 分 — 从 ICL 影响力视角选择指令微调数据，回答什么是好的指令数据

原文： arXiv cs.CL

评分 5.5 · 来源：arXiv cs.CL · 发布于 2026-04-29

评分依据：从 ICL 影响力视角选择指令微调数据，回答什么是好的指令数据

指令微调数据集通常包含大量冗余和低质量样本。本文提出基于加权 in-context influence (wICI) 的选择框架，测量每个候选样本多大程度上降低了语义相关的同伴的指令跟随难度。

标签：

How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum

Multi-layer Cross-Attention is Provably Optimal for Multi-modal In-Context Learning