Where to Steer：输入依赖的层级选择让 LLM 对齐效果更好

发布

2026年04月07日

采集 2026年04月08日 04:31

学术前沿 7.0 分 — 打破固定层干预假设，简单但有效的改进，对LLM对齐技术有直接推进

评分 7.0 · 来源：cs.LG updates on arXiv.org · 发布于 2026-04-07

评分依据：打破固定层干预假设，简单但有效的改进，对LLM对齐技术有直接推进

要点

Steering vector 是一种轻量级 LLM 对齐方法，但现有方法通常在全局固定层施加干预。本文指出这有根本性局限：不同输入中与目标行为相关的表征分布在不同层。作者提出输入依赖的层级选择策略，根据每个输入动态决定最优干预层。

实验表明，这种自适应方法在多种对齐任务上显著优于固定层方法，且计算开销几乎不增加。

又一篇「简单但为什么之前没人做」的论文。直觉上当然应该是不同输入在不同层干预最有效，但之前大家都用固定层。这种输入自适应的思路可能也适用于其他表征工程方法。