MGIE是苹果团队最近发布的一款AI图像处理工具,运用多模态大模型来填补指令不足的问题,用户只需拍照后输入文字指令即可实现手机自动修图。
MGIE是由多模态大型模型和扩散模型组成的,其通过学习获得简练的指令表达,并提供清晰的视觉引导。扩散模型通过端到端训练实现同步更新,并利用潜在的目标想象力执行图像编辑。这种方式使MGIE能够从先天的视觉推理中受益,解决模糊的人类指令,最终实现适当的编辑。
MGIE官网资源链接
体验链接: https://huggingface.co/spaces/tsujuifu/ml-mgie
访问以下网站获取项目信息: https://mllm-ie.github.io/
GitHub链接: https://github.com/apple/ml-mgie
论文链接: https://openreview.net/pdf?id=S1RKWSyZ2Y
效果对比: