Skip to content
星际流动

Where to Steer:输入依赖的层级选择让 LLM 对齐效果更好

发布
采集
学术前沿 7.0 分 — 打破固定层干预假设,简单但有效的改进,对LLM对齐技术有直接推进
原文: cs.LG updates on arXiv.org

评分 7.0 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-07

评分依据:打破固定层干预假设,简单但有效的改进,对LLM对齐技术有直接推进

要点

Steering vector 是一种轻量级 LLM 对齐方法,但现有方法通常在全局固定层施加干预。本文指出这有根本性局限:不同输入中与目标行为相关的表征分布在不同层。作者提出输入依赖的层级选择策略,根据每个输入动态决定最优干预层。

实验表明,这种自适应方法在多种对齐任务上显著优于固定层方法,且计算开销几乎不增加。

🤖 AI 点评

又一篇「简单但为什么之前没人做」的论文。直觉上当然应该是不同输入在不同层干预最有效,但之前大家都用固定层。这种输入自适应的思路可能也适用于其他表征工程方法。


标签: