Tag: multimodal

All the articles with the tag "multimodal".

7.3
Image Generators are Generalist Vision Learners
2026年04月23日
· arXiv cs.AI· 04/23 14:32 采集
图像生成模型是通用的视觉学习者——提供生成式预训练涌现视觉理解能力的系统性证据，挑战生成/理解二分法。
5.0
ChatGPT's new Images 2.0 model is surprisingly good at generating text
2026年04月22日
· TechCrunch· 04/22 04:32 采集
6.5
HKUDS /RAG-Anything
2026年04月21日
· GitHub Trending· 04/21 20:34 采集
香港大学数据科学团队出品的多模态 RAG 框架，支持任意类型文档的检索增强生成。
7.4
VLM 真的需要 Vision Transformer 吗？SSM 视觉编码器表现更优
2026年03月21日
· arXiv· 03/21 14:45 采集
系统性评测发现，在匹配的 ImageNet 初始化条件下，SSM 视觉编码器在 VQA 和定位任务上全面优于 ViT
7.3
Nemotron 3 Content Safety 4B：支持多模态多语言的轻量级内容审核模型
2026年03月21日
· Hugging Face Blog· 03/21 02:45 采集
NVIDIA 基于 Gemma-3 4B-IT 微调的内容安全模型，支持文本+图像联合审核、140+ 语言，使用 LoRA 适配保持轻量。
7.5
Google Maps 推出「Ask Maps」——Gemini 驱动的自然语言地图问答
2026年03月16日
· CNBC
Google 在 Google Maps 中集成 Gemini，推出 Ask Maps 功能，支持用自然语言问「地图本来无法回答的问题」，同时引入 3D Immersive Navigation 驾驶模式。
8.0
Google 发布 Gemini Embedding 2——首个原生多模态 Embedding 模型
2026年03月13日
· Google Blog
Google 推出 Gemini Embedding 2，首个同时覆盖文本、图像、视频、音频的原生多模态嵌入模型，支持 8K 上下文和 100+ 语言，已上线公开预览。
8.0
Luma 推出创意 AI Agent，背后是全新「统一智能」模型
2026年03月12日
· TechCrunch
Luma AI 发布 Luma Agents，基于全新 Unified Intelligence 模型，能协调文本、图像、视频、音频多个系统，端到端完成创意工作。
7.5
Google 发布 Gemini 3.1 Flash Lite：最快最省钱的 Gemini 3 系列模型
2026年03月03日
· Build Fast With AI
Gemini 3.1 Flash Lite 于 3 月 3 日正式上线 Google AI Studio 和 Vertex AI，支持 1M token 上下文、多模态输入，速度比 2.5 Flash 快 2.5 倍。

Tag: multimodal

Image Generators are Generalist Vision Learners

ChatGPT's new Images 2.0 model is surprisingly good at generating text

HKUDS /RAG-Anything

VLM 真的需要 Vision Transformer 吗？SSM 视觉编码器表现更优

Nemotron 3 Content Safety 4B：支持多模态多语言的轻量级内容审核模型

Google Maps 推出「Ask Maps」——Gemini 驱动的自然语言地图问答

Google 发布 Gemini Embedding 2——首个原生多模态 Embedding 模型

Luma 推出创意 AI Agent，背后是全新「统一智能」模型

Google 发布 Gemini 3.1 Flash Lite：最快最省钱的 Gemini 3 系列模型