Apple制作了一款AI图像工具可让您通过描述图像进行编辑

来源：要闻2024-02-08 10:51:09

导读苹果研究人员发布了一种新模型，让用户可以用简单的语言描述他们想要在照片中更改的内容，而无需接触照片编辑软件。Apple与加州大学圣巴巴...

苹果研究人员发布了一种新模型，让用户可以用简单的语言描述他们想要在照片中更改的内容，而无需接触照片编辑软件。

Apple与加州大学圣巴巴拉分校合作开发的MGIE模型可以通过文本提示对图像进行裁剪、调整大小、翻转和添加滤镜。

MGIE代表MLLM引导图像编辑，可应用于简单和更复杂的图像编辑任务，例如修改照片中的特定对象，使它们具有不同的形状或变得更亮。该模型融合了多模态语言模型的两种不同用途。首先，它学习如何解释用户提示。然后它“想象”编辑的样子(例如，要求照片中的天空更蓝就变成了提高图像天空部分的亮度)。

当使用MGIE编辑照片时，用户只需输入他们想要更改图片的内容即可。该论文使用了编辑意大利辣香肠披萨图像的示例。输入提示“使其更健康”会添加蔬菜配料。撒哈拉老虎的照片看起来很暗，但在告诉模型“添加更多对比度以模拟更多光线”后，图片显得更亮。

“MGIE不是简单但模糊的指导，而是得出明确的视觉感知意图并导致合理的图像编辑。我们从各个编辑方面进行了广泛的研究，并证明我们的MGIE在保持竞争效率的同时有效提高了性能。我们还相信MLLM引导的框架可以为未来的视觉和语言研究做出贡献，”研究人员在论文中表示。

据VentureBeat报道，苹果通过GitHub提供MGIE供下载，同时还发布了HuggingFaceSpaces的网络演示。该公司没有透露该模型的计划是什么，尚无法研究。

一些图像生成平台，例如OpenAI的DALL-E3，可以对通过文本输入创建的图片执行简单的照片编辑任务。大多数人都求助于Photoshop的创造者Adobe来进行图像编辑，它也有自己的AI编辑模型。其FireflyAI模型支持生成填充，可将生成的背景添加到照片中。

与微软、Meta或谷歌不同，苹果在生成人工智能领域并不是一个重要的参与者，但苹果首席执行官蒂姆库克表示，该公司希望今年在其设备中添加更多人工智能功能。去年12月，苹果研究人员发布了名为MLX的开源机器学习框架，以便更轻松地在AppleSilicon上训练人工智能模型。

关键词：