/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fe5950e8ea1af61ec3933291e77069ebb.jpg)
OpenAI додала в GPT-4o покращену генерацію зображень — тепер в ChatGPT за замовчанням
OpenAI представила довгоочікуване покращення генерації зображень. Тепер замість окремої моделі, як-от DALL·E, новий удосконалений генератор зображень є частиною GPT-4o.
На ринку існує безліч ШІ-моделей для створення вражаючих візуальних сцен, але вони часто мають труднощі з відображенням тексту, логотипів та інших елементів, які не рідко зустрічаються у повсякденному житті.
OpenAI стверджує, що її нова генерація зображень GPT-4o вирішує ці недоліки. Вона може точно відтворювати текст і краще слідувати інструкціям завдяки своїй базі знань і контексту чату. Крім того, нова модель дозволяє редагувати завантажені зображення або створювати нові, використовуючи завантажене зображення як візуальне натхнення.
Доступність і нові можливості
Оновлений генератор зображень у GPT-4o вже починає розгортатися для всіх користувачів ChatGPT Plus, Pro, Team та Free. Оскільки ця модель стане стандартною для генерації зображень у ChatGPT, користувачам більше не потрібно буде вибирати її вручну перед введенням запиту.
Користувачі можуть налаштовувати зображення, вказуючи співвідношення сторін, точні кольори (HEX-коди) або навіть прозорий фон. У найближчі тижні новий генератор з’явиться і для користувачів ChatGPT Enterprise та Edu.
Нову модель також можна використовувати в Sora для створення зображень або через спеціальний DALL·E GPT. Для розробників підтримка генерації зображень через API GPT-4o з’явиться найближчими тижнями.
Обмеження моделі
Попри численні покращення, у моделі все ще є деякі обмеження:
- Час генерації – через підвищену деталізацію створення зображення може займати до однієї хвилини.
- Кадрування – довгі зображення, наприклад постери, можуть обрізатися надто щільно, особливо в нижній частині.
- Вигадування деталей – у запитах з недостатньою контекстною інформацією модель може «домислювати» деталі.
- Обмеження знань – при створенні складних концепцій (наприклад, повної періодичної таблиці) модель може неточно відтворювати більше ніж 10-20 об’єктів одночасно.
- Труднощі з нелатинськими мовами – символи можуть відображатися некоректно або спотворюватися.
- Редагування частин зображення – виправлення окремих деталей (наприклад, орфографічних помилок) не завжди працює без побічних змін у зображенні.
- Проблеми з деталізацією на малих розмірах – модель може некоректно відображати дрібні деталі.
OpenAI планує виправляти ці обмеження у найближчі тижні та місяці.
Усі зображення, створені за допомогою цього генератора, міститимуть C2PA-метадані, а внутрішній інструмент OpenAI зможе перевіряти їхнє походження.
Попри деякі обмеження, новий генератор зображень GPT-4o значно покращує точність і гнучкість створення зображень. OpenAI обіцяє подальші вдосконалення, тож користувачів чекає ще якісніший та зручніший інструмент для роботи із зображеннями.
Нещодавно OpenAI запустила GPT-4.5, але з обмеженим доступом — бо «скінчились GPU».
Джерело: neowin