模型动态
55 篇文章
- 7.7
Anthropic 内部文档泄露:最强新模型全面碾压 Opus 4.6,但因安全风险暂不发布
Anthropic CMS 配置失误导致约 3000 份内部文档公开,披露正在测试的最强 AI 模型。该模型在多项基准中超越 Opus 4.6,但因其过强的漏洞发现与攻击能力被内部标记为暂不宜发布。
- 6.7
谷歌 Lyria 3 Pro:一键生成 3 分钟完整歌曲,AI 音乐进入结构化创作时代
谷歌 DeepMind 发布 Lyria 3 Pro,音乐时长从 30 秒提升至 3 分钟,支持前奏/主歌/副歌/桥段精细控制,已全线铺入 Gemini 生态。
- 6.6
Cohere开源2B参数语音转写模型,支持14种语言消费级GPU可运行
Cohere发布专为语音转写设计的开源模型,仅20亿参数即可在消费级GPU上部署,支持14种语言
- 7.0
ARC-AGI-3 血洗全球大模型:人类满分,AI第一名仅 0.2%
ARC-AGI-3 基准测试出炉,从静态题升级为交互式游戏,150多个关卡让所有顶尖大模型全军覆没,Opus 4.6 从 69.2% 暴跌至 0.2%,揭示了当前 AI 能力中最深的裂隙。
- 6.6
Mistral发布开源语音生成模型,可在智能手表上运行
Mistral推出开源语音生成模型,体积极为紧凑,可在智能手表和智能手机等终端设备上本地运行
- 7.7
PrismAudio:518M 参数击败数十亿模型,国产多模态音频生成刷新 SOTA
阿里通义联合港科大发布 PrismAudio,首个将 RL 与 CoT 规划集成到视频配音生成
- 7.8
Google DeepMind 发布 Project Genie:AI 驱动的无限交互世界生成
DeepMind 推出 Project Genie,用 AI 生成无限可交互的虚拟世界环境,探索从游戏到模拟的新范式。
- 6.7
Luma AI 发布 Uni-1:单架构统一图像理解与生成,基准超越 Google 和 OpenAI
Luma AI 推出 Uni-1 模型,在统一架构中同时实现图像理解和生成,基准测试超越 Google 和 OpenAI,成本降低 30%。
- 7.4
乐天发布 AI 3.0:日本最大开源 LLM,700B MoE 架构瞄准日语实战
乐天推出约 700B 参数 MoE 架构的 AI 3.0,仅 40B 活跃参数,日语 MT-Bench 得分 8.88,成为日本迄今最大的开源大模型。
- 8.0
OpenAI 发布 GPT-5.4:首个原生 Computer Use 通用模型
GPT-5.4 在编程、Agent 工作流和通用推理上全面超越前代,OSWorld 75% 超越人类基线,GDPval 83% 覆盖 44 个职业
- 7.0
OLMo Hybrid:Ai2 用 DeltaNet 混合架构实现数据效率翻倍
AI2 发布 OLMo Hybrid 7B,用线性循环层替代 75% 注意力层,在 3T token 训练中实现全面性能提升
- 6.7
Midjourney V8 Alpha 发布:5 倍速度 + 2K 原生,但高级功能涨价 4 倍
Midjourney V8 Alpha 测试开启,生成速度提升 5 倍支持原生 2K,但 HD 模式和风格参考功能消耗 4 倍额度
- 7.0
MiniCPM-o 4.5 开源:9B 参数实现全双工全模态交互,告别对讲机模式
OpenBMB 发布仅 9B 参数的全双工全模态大模型,支持边看边听主动说的自然交互范式,小体量可端侧部署,为实时多模态交互提供实用路径。
- 8.4
Anthropic 发布 Claude Opus 4.6:Agent 编程新标杆
Anthropic 最强模型 Opus 4.6 上线,1M token 上下文窗口、Agent 团队协作、自适应思考等核心能力全面升级
- 7.0
Moonshot AI 确认 Kimi-k2.5 为 Cursor Composer 2 底座模型
Kimi 官方确认其旗舰模型通过 FireworksAI 平台为 Cursor 最新编程 Agent 提供基础能力
- 7.1
MiniMax M2.7 发布:模型参与自身 30-50% 的训练流程
MiniMax 推出自进化 LLM M2.7,模型自主完成训练调试、指标分析等研发环节,MLE Bench Lite 奖牌率 66.6%
- 7.3
Nemotron 3 Content Safety 4B:支持多模态多语言的轻量级内容审核模型
NVIDIA 基于 Gemma-3 4B-IT 微调的内容安全模型,支持文本+图像联合审核、140+ 语言,使用 LoRA 适配保持轻量。
- 8.0
Nemotron-Cascade 2:30B MoE 仅激活 3B,IMO/IOI/ICPC 金牌级开源推理模型
NVIDIA 发布 30B MoE 开源模型,Cascade RL + 多领域蒸馏技术让小模型达到三大竞赛金牌水平
- 6.5
Meta Avocado 再次推迟至 5 月,内部讨论授权 Google Gemini 临时替代
Meta 因性能未达预期再次推迟 Avocado 发布,内部首次讨论授权 Google Gemini 作为临时方案,开源 AI 战略面临关键考验。
- 7.0
GPT-5.3-Codex 成为 GitHub Copilot 首个 LTS 模型
GitHub 与 OpenAI 合作推出首个长期支持模型,GPT-5.3-Codex 承诺 12 个月稳定期,将自动成为 Copilot 默认基线模型