评分 6.8 · 来源:arXiv · 发布于 2026-03-20
评分依据:ICLR 2026 Camera Ready,解决个性化视频生成中身份-属性对齐的核心难题,新注意力机制有技术深度,附带开源代码和数据基准
核心问题
扩散模型推动了个性化视频生成,但多主体场景中精确的面部-属性对齐仍然困难:现有方法缺乏显式机制确保群组内部一致性,不同主体间的身份特征和属性容易混淆。
方法:LumosX
LumosX 同时改进数据侧和模型侧:
数据侧
- 定制化数据收集流程,从独立视频中提取描述和视觉线索
- 利用多模态大语言模型(MLLM)推断并分配主体间的依赖关系
- 构建细粒度结构化基准数据集
模型侧
- 关系自注意力(Relational Self-Attention):将位置感知嵌入与注意力动态交织,编码主体间显式依赖
- 关系跨注意力(Relational Cross-Attention):强化主体-属性绑定,确保群组内聚性和主体间分离性
效果
在自建基准上达到 SOTA,在细粒度、身份一致且语义对齐的多主体个性化视频生成任务上表现优异。
开源
代码和模型已公开:https://jiazheng-xing.github.io/lumosx-home/
收录:ICLR 2026 Camera Ready