评分 7.7 · 来源:36氪 - 科技频道 · 发布于 2026-03-26
评分依据:518M 参数全面击败数十亿参数模型,RL+CoT 首次引入 V2A 生成
要点
阿里通义联合港科大、港中文发布 PrismAudio,首个将 RL 与多维 CoT 规划深度集成到 V2A 生成的框架。提出 Fast-GRPO 算法降低扩散模型 RL 训练成本,开源 AudioCanvas 基准。仅 518M 参数,所有感知维度全面刷新 SOTA。
🤖 AI 点评
配合 Seedance 2.0,「AI 电影」基础设施正被中国团队一块块拼上。小模型精准击打大任务的趋势在多模态领域持续加速。