Tag: multimodal
All the articles with the tag "multimodal".
- 7.3
Image Generators are Generalist Vision Learners
图像生成模型是通用的视觉学习者——提供生成式预训练涌现视觉理解能力的系统性证据,挑战生成/理解二分法。
- 5.0
- 6.5
- 7.4
VLM 真的需要 Vision Transformer 吗?SSM 视觉编码器表现更优
系统性评测发现,在匹配的 ImageNet 初始化条件下,SSM 视觉编码器在 VQA 和定位任务上全面优于 ViT
- 7.3
Nemotron 3 Content Safety 4B:支持多模态多语言的轻量级内容审核模型
NVIDIA 基于 Gemma-3 4B-IT 微调的内容安全模型,支持文本+图像联合审核、140+ 语言,使用 LoRA 适配保持轻量。
- 7.5
Google Maps 推出「Ask Maps」——Gemini 驱动的自然语言地图问答
· CNBCGoogle 在 Google Maps 中集成 Gemini,推出 Ask Maps 功能,支持用自然语言问「地图本来无法回答的问题」,同时引入 3D Immersive Navigation 驾驶模式。
- 8.0
Google 发布 Gemini Embedding 2——首个原生多模态 Embedding 模型
Google 推出 Gemini Embedding 2,首个同时覆盖文本、图像、视频、音频的原生多模态嵌入模型,支持 8K 上下文和 100+ 语言,已上线公开预览。
- 8.0
Luma 推出创意 AI Agent,背后是全新「统一智能」模型
Luma AI 发布 Luma Agents,基于全新 Unified Intelligence 模型,能协调文本、图像、视频、音频多个系统,端到端完成创意工作。
- 7.5
Google 发布 Gemini 3.1 Flash Lite:最快最省钱的 Gemini 3 系列模型
Gemini 3.1 Flash Lite 于 3 月 3 日正式上线 Google AI Studio 和 Vertex AI,支持 1M token 上下文、多模态输入,速度比 2.5 Flash 快 2.5 倍。