MGIE-苹果开源，输入文字指令就能让手机开始自动修图

日前，苹果推出一款开源人工智能模型 MGIE，能够基于多模态大语言模型（multimodal large language models，MLLM）来解释用户命令，并处理各种编辑场景的像素级操作，比如，全局照片优化、本地编辑、Photoshop 风格的修改等。

MGIE 的核心是一个多模态大型语言模型（MLLM），它能够同时处理文本和图像的信息，并在两者之间建立联系。MLLM 由两个子模型组成，一个是文本生成模型，另一个是图像编辑模型。

文本生成模型的作用是根据用户的输入，生成一系列的图像编辑指令，比如“将红色跑车修改成蓝色”或“在图片右上角添加一个月亮”。

这些指令不仅包含了用户想要的效果，还包含了一些细节，比如颜色、位置、大小等。文本生成模型的训练数据来自于一个大规模的图像-文本对齐数据集，其中每张图像都有一个或多个对应的文本指令。

图像编辑模型的作用是根据文本生成模型的输出，对图像进行相应的修改。图像编辑模型采用了一个编码-解码的结构，首先将图像编码成一个特征向量。

然后根据文本指令对特征向量进行修改，最后将修改后的特征向量解码成新的图像。图像编辑模型的训练数据来自于一个大规模的图像-图像对齐数据集，其中每张图像都有一个或多个对应的修改后的图像。

MGIE 的核心优势在于其多模态特性，它不仅能够理解文本指令，还能结合图像内容进行智能分析，从而实现更加精准和自然的编辑效果。这种技术的应用范围非常广泛，从日常的社交媒体照片编辑到专业的图像设计工作，MGIE 都能够提供强大的支持。