评分 7.2 · 来源:PR Newswire · 发布于 2026-03-16
评分依据:企业级数字人技术在实时性和成本上取得突破,但属于垂直应用领域
要点
D-ID 发布 V4 Expressive Visual Agents,这是新一代超高保真数字人,专为实时 LLM 对话和企业长视频内容设计。
核心技术突破:
- 超低延迟:对话轮次延迟低于 0.5 秒,支持实时交互
- 扩散模型驱动:基于真实演员表演数据训练,表情自然度大幅提升
- 情感自适应:根据 LLM 回复内容和情感自动调整面部表情和语气
- 高分辨率:支持最高 4K 分辨率输出,唇形同步精准
- 成本优势:比 Google VEO 3 Fast 便宜 70 倍,每次对话成本仅几美分
企业应用场景:
- 员工培训、客户服务、内部沟通
- 多语言教育视频、产品讲解
- 实时双向交互(非单向视频播放)
商业数据:
- 已服务 1,500 家企业客户和数百万订阅用户
- 此前版本已创建超过 80 万个视觉 Agent 和 3 亿个非交互式数字人
- 2025 年 9 月收购 simpleshow 后,ARR 增长 250%
- 起步价仅 $5.90/月
🤖 AI 点评
数字人技术从「生成短视频」进化到「实时对话界面」是个关键转折——这意味着 AI 不再只是内容生产工具,而是开始成为人机交互的视觉层。D-ID 的成本优势(70 倍差距)和企业客户基础让它在这个赛道上占据先机,尤其是培训、客服这类需要「人脸」但不需要真人的场景。
值得关注的是「情感自适应」能力——LLM 输出的情感标签能实时驱动表情变化,这比静态数字人更接近真实对话体验。但问题是:用户真的需要一个「有表情的 AI」吗?还是说文字/语音界面已经足够?这可能取决于具体场景——客服和培训可能需要,纯工具类交互可能不需要。