Дослідники Apple випустили нову модель, яка дозволяє користувачам описувати простою мовою, що вони хочуть змінити на фотографії, навіть не торкаючись програмного забезпечення для редагування фотографій.
Модель MGIE, над якою Apple працювала з Каліфорнійським університетом у Санта-Барбарі, може обрізати, змінювати розмір, перевертати та додавати фільтри до зображень за допомогою текстових підказок.
MGIE, що розшифровується як MLLM-Guided Image Editing, можна застосовувати для простих і складніших завдань редагування зображень, як-от зміна певних об’єктів на фотографії, щоб зробити їх іншою формою або зробити їх яскравішими. Модель поєднує два різних використання мультимодальних мовних моделей. По-перше, він навчається інтерпретувати підказки користувача. Потім він «уявляє», як виглядатиме редагування (наприклад, прохання зробити на фотографії блакитніше небо стає збільшенням яскравості небесної частини зображення).
Під час редагування фотографії за допомогою MGIE користувачі просто повинні ввести те, що вони хочуть змінити на зображенні. У роботі використано приклад редагування зображення піци пепероні. Введення підказки «зробіть це здоровішим» додає овочеві начинки. Фотографія тигрів у Сахарі виглядає темною, але після того, як модель повідомила «додати більше контрасту, щоб симулювати більше світла», фотографія виглядає яскравішою.
«Замість коротких, але неоднозначних вказівок, MGIE виводить явні візуальні наміри та веде до розумного редагування зображень. Ми проводимо широкі дослідження з різних аспектів редагування та демонструємо, що наш MGIE ефективно покращує продуктивність, зберігаючи конкурентоспроможність. Ми також вважаємо, що структура, керована MLLM, може сприяти майбутнім дослідженням бачення та мови», — йдеться в статті дослідників.