LIRA: Latent Instruction Representation Alignment defending against jailbreaks/backdoors/unlearning

发布

2026年04月14日

采集 2026年04月14日 04:31

学术前沿 6.0 分 — 统一框架处理jailbreak、backdoor和unlearning，通过改变模型解释指令的方式而非行为来提升泛化性。

评分 6 · 来源：cs.LG updates on arXiv.org · 发布于 2026-04-14

评分依据：统一框架处理jailbreak、backdoor和unlearning，通过改变模型解释指令的方式而非行为来提升泛化性。