LumosX: 多身份一致性与属性对齐的个性化视频生成

发布

2026年03月21日

采集 2026年03月23日 10:34

学术前沿 6.8 分 — ICLR 2026 Camera Ready，解决个性化视频生成中身份-属性对齐的核心难题，新注意力机制有技术深度，附带开源代码和数据基准

原文： arXiv

评分 6.8 · 来源：arXiv · 发布于 2026-03-20

评分依据：ICLR 2026 Camera Ready，解决个性化视频生成中身份-属性对齐的核心难题，新注意力机制有技术深度，附带开源代码和数据基准

核心问题

扩散模型推动了个性化视频生成，但多主体场景中精确的面部-属性对齐仍然困难：现有方法缺乏显式机制确保群组内部一致性，不同主体间的身份特征和属性容易混淆。

方法：LumosX

LumosX 同时改进数据侧和模型侧：

数据侧

定制化数据收集流程，从独立视频中提取描述和视觉线索
利用多模态大语言模型（MLLM）推断并分配主体间的依赖关系
构建细粒度结构化基准数据集

模型侧

关系自注意力（Relational Self-Attention）：将位置感知嵌入与注意力动态交织，编码主体间显式依赖
关系跨注意力（Relational Cross-Attention）：强化主体-属性绑定，确保群组内聚性和主体间分离性

效果

在自建基准上达到 SOTA，在细粒度、身份一致且语义对齐的多主体个性化视频生成任务上表现优异。

开源

代码和模型已公开：https://jiazheng-xing.github.io/lumosx-home/

收录：ICLR 2026 Camera Ready

标签：

PIXAR: From Masks to Pixels — VLM 图像篡改检测新分类法与基准

基于排序反馈的在线学习与均衡计算——无需数值效用即可训练 LLM 路由