导读 苹果研究人员推出了一种突破性的人工智能模型——mllm引导图像编辑(mgie),能够根据文本提示编辑图像。该模型是与加州大学圣巴巴拉分校的研...

苹果研究人员推出了一种突破性的人工智能模型——mllm引导图像编辑(mgie),能够根据文本提示编辑图像。该模型是与加州大学圣巴巴拉分校的研究人员合作开发的,代表了图像编辑技术的重大进步。据报道,与现有模型不同,mgie可处理各种编辑场景,从简单的颜色调整到复杂的对象操作。

mgie的核心是多模态大语言模型(mllm),它解释用户请求并为图像编辑提供简洁的指令。这种方法使模型能够有效地解决不明确的命令,从而获得合理的编辑结果。例如,mllm理解“让披萨更健康”的请求,并将术语“健康”与“蔬菜配料”联系起来,指示扩散模型相应地编辑图像。

mgie与llm引导图像编辑(lgie)等现有模型的区别在于其增强的视觉感知。虽然lgie仅限于单一模态,但mgie中的mllm可以访问输入图像和跨模态理解,从而允许更多描述性指令。此功能使模型能够识别图像中需要调整的特定区域,例如使某些区域变亮以获得所需的效果。

mgie现在作为github上的开源项目提供,提供代码、数据和预训练模型供下载。此外,huggingface空间上托管的网络演示允许用户直接体验模型的图像编辑功能。然而,除了研究项目之外,苹果尚未透露将mgie整合到其产品中的计划。

在苹果最近的季度财报电话会议上,首席执行官蒂姆·库克证实了该公司正在为其设备开发人工智能功能。该公司可能会在今年晚些时候公布业绩。businessstandard预计这些ai增强功能将扩展到各种apple服务,包括siri、消息和applemusic。通过结合生成式ai功能,用户可以预期整个apple生态系统的文本摘要、个性化建议和增强功能等改进。