8月19日报道,阿里推出Qwen-Image-Edit,这是其此前8月5日推出的图像生成基础模型Qwen-Image的图像编辑版本,基于原生多模态大模型(MLLM),突破了传统“文生图”和需要精准蒙版的局限,实现了通过纯文本指令对现有图像进行高精度、高一致性的智能编辑。



核心功能
- 🖼️ 指令式编辑:只需输入自然语言描述,即可对图像进行修改。例如:“给照片里的狗戴上一顶生日帽”或“将天空换成夕阳下的火烧云”。
- 🎯 精准区域理解:能够精准理解指令中提到的物体、属性和空间关系(如“左边”、“后面的”),并自动定位到图像中需要编辑的特定区域,无需用户手动绘制蒙版。
- 📐 分辨率自由:支持灵活可变的分辨率处理,可以处理不同尺寸和比例的输入图像,并能输出高质量的结果。
- 🔄 多轮对话编辑:支持在对话中基于上一轮编辑后的图像进行连续、多轮的修改,像聊天一样不断优化图像,直到满意为止。


✨ 突出特点
- 🧠 原生多模态架构:不同于依赖外部分割模型(如SAM)或扩散模型的方案,它采用端到端的训练方式,让模型自身深度理解图像内容与指令的关联,编辑效果更自然、一致。
- 🔍 细节保持惊人:在修改指定内容的同时,能最大限度地保留原始图像中无需改变的细节(如背景、人物的面部特征、纹理等),避免了传统编辑工具常出现的画面失真或破坏。
- 🎨 风格一致性高:编辑后新增或修改的内容(如纹理、光照、风格)能与原图无缝融合,保持整体画面的和谐与统一,仿佛原本就是如此。
- ⚡ 高效便捷:将复杂的图像编辑技术简化为“一句话的事”,极大降低了用户门槛,让不具备专业PS技能的用户也能轻松实现高质量的创意编辑。
相关链接
使用地址:Qwen
