Doing More With Less: Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling

发布

2026年04月29日

采集 2026年04月29日 06:31

工程实践 5.5 分 — 重新评估剪枝对推理时 scaling 的影响，发现结构化剪枝损害推理能力

原文： arXiv cs.LG

评分 5.5 · 来源：arXiv cs.LG · 发布于 2026-04-29

评分依据：重新评估剪枝对推理时 scaling 的影响，发现结构化剪枝损害推理能力

虽然当前 LLM 展示出卓越的 TTS 推理能力，大参数量和高推理成本推动了剪枝方法发展。但具体到推理 LLM，先验工作表明结构化剪枝（移除整个层块）显著降低性能。本文重新审视剪枝在 TTS 下的有效性。

标签：

ARQ: A Mixed-Precision Quantization Framework for Accurate and Certifiably Robust DNNs

Carbon-Taxed Transformers: A Green Compression Pipeline for Overgrown Language Models