Skip to content
星际流动

PrismAudio:518M 参数击败数十亿模型,国产多模态音频生成刷新 SOTA

发布
采集
模型动态 7.7 分 — 518M 参数全面击败数十亿参数模型,RL+CoT 首次引入 V2A 生成
原文: 36氪 - 科技频道

评分 7.7 · 来源:36氪 - 科技频道 · 发布于 2026-03-26

评分依据:518M 参数全面击败数十亿参数模型,RL+CoT 首次引入 V2A 生成

要点

阿里通义联合港科大、港中文发布 PrismAudio,首个将 RL 与多维 CoT 规划深度集成到 V2A 生成的框架。提出 Fast-GRPO 算法降低扩散模型 RL 训练成本,开源 AudioCanvas 基准。仅 518M 参数,所有感知维度全面刷新 SOTA。

🤖 AI 点评

配合 Seedance 2.0,「AI 电影」基础设施正被中国团队一块块拼上。小模型精准击打大任务的趋势在多模态领域持续加速。


标签: