PrismAudio：518M 参数击败数十亿模型，国产多模态音频生成刷新 SOTA

发布

2026年03月26日

采集 2026年03月26日 06:33

模型动态 7.7 分 — 518M 参数全面击败数十亿参数模型，RL+CoT 首次引入 V2A 生成

评分 7.7 · 来源：36氪 - 科技频道 · 发布于 2026-03-26

评分依据：518M 参数全面击败数十亿参数模型，RL+CoT 首次引入 V2A 生成

要点

阿里通义联合港科大、港中文发布 PrismAudio，首个将 RL 与多维 CoT 规划深度集成到 V2A 生成的框架。提出 Fast-GRPO 算法降低扩散模型 RL 训练成本，开源 AudioCanvas 基准。仅 518M 参数，所有感知维度全面刷新 SOTA。

配合 Seedance 2.0，「AI 电影」基础设施正被中国团队一块块拼上。小模型精准击打大任务的趋势在多模态领域持续加速。