免费

MGIE-苹果开源,输入文字指令就能让手机开始自动修图

 

日前,苹果推出一款开源人工智能模型 MGIE,能够基于多模态大语言模型(multimodal large language models,MLLM)来解释用户命令,并处理各种编辑场景的像素级操作,比如,全局照片优化、本地编辑、Photoshop 风格的修改等。

工作原理

MGIE 的核心是一个多模态大型语言模型(MLLM),它能够同时处理文本和图像的信息,并在两者之间建立联系。MLLM 由两个子模型组成,一个是文本生成模型,另一个是图像编辑模型

文本生成模型的作用是根据用户的输入,生成一系列的图像编辑指令,比如“将红色跑车修改成蓝色”或“在图片右上角添加一个月亮”。

这些指令不仅包含了用户想要的效果,还包含了一些细节,比如颜色、位置、大小等。文本生成模型的训练数据来自于一个大规模的图像-文本对齐数据集,其中每张图像都有一个或多个对应的文本指令。

图像编辑模型的作用是根据文本生成模型的输出,对图像进行相应的修改。图像编辑模型采用了一个编码-解码的结构,首先将图像编码成一个特征向量。

然后根据文本指令对特征向量进行修改,最后将修改后的特征向量解码成新的图像。图像编辑模型的训练数据来自于一个大规模的图像-图像对齐数据集,其中每张图像都有一个或多个对应的修改后的图像。

核心优势

MGIE 的核心优势在于其多模态特性,它不仅能够理解文本指令,还能结合图像内容进行智能分析,从而实现更加精准和自然的编辑效果。这种技术的应用范围非常广泛,从日常的社交媒体照片编辑到专业的图像设计工作,MGIE 都能够提供强大的支持。

特点说明

  • 能够从根本上提高目标图像的质量(清晰度、亮度等),并且可以加入绘画、卡通等艺术效果。
  • 既能够对目标图像中的目标区域或对象(服饰、人脸、眼睛等)进行修改,又能够改变这些区域或对象的性质,比如颜色、样式、大小等。
  • 能够实现包括剪裁、旋转等在内的各种常见 Photoshop 风格的编辑,并且应用更改背景、添加或删除对象,以及混合对象等更高级的编辑。
  • 能够基于 MLLM 生成简明易懂的指令,以有效指导模型进行编辑,从而全面提高用户体验

相关地址

体验地址:https://huggingface.co/spaces/tsujuifu/ml-mgie

项目地址:https://mllm-ie.github.io/

代码地址:https://github.com/tsujuifu/pytorch_mgie

论文地址:https://openreview.net/pdf?id=S1RKWSyZ2Y