苹果推出突破性的人工智能图像编辑模型mgie-九游官网首页进入

导读苹果研究人员推出了一种突破性的人工智能模型——mllm引导图像编辑(mgie)，能够根据文本提示编辑图像。该模型是与加州大学圣巴巴拉分校的研...

苹果研究人员推出了一种突破性的人工智能模型——mllm引导图像编辑(mgie)，能够根据文本提示编辑图像。该模型是与加州大学圣巴巴拉分校的研究人员合作开发的，代表了图像编辑技术的重大进步。据报道，与现有模型不同，mgie可处理各种编辑场景，从简单的颜色调整到复杂的对象操作。

mgie的核心是多模态大语言模型(mllm)，它解释用户请求并为图像编辑提供简洁的指令。这种方法使模型能够有效地解决不明确的命令，从而获得合理的编辑结果。例如，mllm理解“让披萨更健康”的请求，并将术语“健康”与“蔬菜配料”联系起来，指示扩散模型相应地编辑图像。

mgie与llm引导图像编辑(lgie)等现有模型的区别在于其增强的视觉感知。虽然lgie仅限于单一模态，但mgie中的mllm可以访问输入图像和跨模态理解，从而允许更多描述性指令。此功能使模型能够识别图像中需要调整的特定区域，例如使某些区域变亮以获得所需的效果。

mgie现在作为github上的开源项目提供，提供代码、数据和预训练模型供下载。此外，huggingface空间上托管的网络演示允许用户直接体验模型的图像编辑功能。然而，除了研究项目之外，苹果尚未透露将mgie整合到其产品中的计划。

在苹果最近的季度财报电话会议上，首席执行官蒂姆·库克证实了该公司正在为其设备开发人工智能功能。该公司可能会在今年晚些时候公布业绩。businessstandard预计这些ai增强功能将扩展到各种apple服务，包括siri、消息和applemusic。通过结合生成式ai功能，用户可以预期整个apple生态系统的文本摘要、个性化建议和增强功能等改进。