Step1X-Edit: A practical framework for general image editing
1.Introduction
图像编辑与自然语言指令的结合已成为视觉-语言研究中越来越重要的任务,它最终为用户提供了直观的交互方式,核心的几个挑战:1.理解细微的语义、精确定位编辑区域以及保持图像的保真度,尽管扩散模型显著提高了图像生成质量,但现有的设计通过将文本编码器与扩散模型相相结合,往往在遵循编辑指令以保持输入图像与搬家指令之间的对齐方面不能很好的响应,尤其是在细微编辑指令或组合时。
GPT4o,Gemini2Flash和SeedEdit的进展推动了基于指令的图像编辑,利用大规模的视觉-语言建模能力,在多种场景中执行高保真的编辑,OminiGen和ACE++在整体泛化,编辑准确性和生成图像质量方面仍然存在不足。
提出了一个更大数据,包括了11个主要的编辑任务类型,生成了超过100w条高质量的训练数据,这些图像指令涵盖了广泛的编辑操作,包括对象操作、属性修改、布局调整和风格化,确