В 2023 году только ленивый не публикует впечатляющие картины, сделанные искусственным интеллектом. Для генерации визуального контента разработчики создают всё более совершенные инструменты. Знание их особенностей позволит читателям выбрать наиболее подходящую нейросеть для решения своих конкретных задач.
Редакция MC.today изучила преимущества, стили и способы использования наиболее популярных платформ для создания изображений на основе текстовых запросов пользователей.
Содержание
- Midjourney
- Stable Diffusion
- Adobe Firefly
- BlueWillow
- Leonardo AI
- Сравнение нейросетей по одному запросу
- Заключение
Midjourney
Официальный сайт
Галлерея
Стоимость: платно, от $10/месяц до $120/месяц
Пожалуй самая популярная сегодня нейросеть для создания изображений по текстовым описаниям. Она стала широко известной благодаря их высокому качеству и большому количеству завирусившихся в интернете дипфейков.
Примеры изображений сгенерированных Midjourney / Источник: legacy.midjourney.com
Ранее мы уже писали о Папе Франциске в пуховике Balenciaga и сгенерированном с помощью Midjourney изображении возможного ареста бывшего президента США Дональда Трампа.
Из-за злоупотребления подобными реалистичными медиафалами для распространения ложной информации владельцы Midjourney были вынуждены отключить бесплатные пробные версии. Теперь стоимость доступа к платформе начинается с $10/месяц.
За эти деньги пользователь получает 200 GPU-минут. Разберемся, что это такое. Для генерации изображений Midjourney использует графические процессоры, или GPU. Время их использования вы и оплачиваете, когда покупаете подписку.
На сколько изображений хватит 200 GPU-минут в минимальном пакете точно сказать сложно, так как это зависит от множества факторов. Назовем основные закономерности: меньше всего тратят вариации, больше – сама генерация (примерно 40 секунд) и еще больше апскейл (Upscale) – увеличение разрешения изображений.
Как работать с Midjourney
Первым делом вам нужно будет создать аккаунт в Discord, так как работа с нейросетью происходит там. Для тех, кто не в курсе, это система мгновенного обмена сообщений с поддержкой видеоконференций, предназначенная для использования различными сообществами по интересам.
Заставка сайта midjourney.com
После этого можно зайти на сайт Midjourney, где вас встретит впечатляющая заставка в стиле «Матрицы».
На главной странице сайта можно изучить документацию, посмотреть примеры работ или нажать на кнопку «Join the Beta», чтобы перейти на сервер Midjourney в Discord.
Лента сервера Midjourney в Discord
Далее в левой части меню выбираете любой канал для новичков – его можно отличить по слову newbies в названии. Теперь в окно внизу, как и в любом другом чат-боте, можно вводить команды.
Команды бота Midjourney
Начинаются они всегда с косой черты. После ее ввода вы увидите список возможных команд. Команда /info показывает информацию. Например, сколько у вас осталось GPU-минут. Команда /settings выводит на экран параметры, которые можно отрегулировать.
Самая важная для вас команда называется /imagine и позволяет создать с помощью Midjourney изображение. Для этого нужно будет ввести в появившееся поле на английском языке запрос для нейросети, или «промпт», и отправить его в чат.
Желательно использовать в запросе такую последовательность: описание объекта, двойное двоеточие (::), основная стилистика, дополнительные параметры. Пример запроса: Epic portrait of baby yoda in the jungle :: hyperrealistic, intricate details, shiny, cinematic, unreal engine, artstation, –aspect 2:3.
Кроме этого, есть множество сайтов, где можно подсмотреть удачный запрос на примере готовых картинок, или сервисов, где вам помогут составить промпт на основе перечня стилей и параметров изображения.
Кнопки для работы с изображениями в Midjourney
Через некоторое время вы получите четыре варианта изображения для своего запроса. Под ними вы увидите кнопки U1, U2, U3, U4 и V1, V2, V3, V4. «U» значит Upscale — увеличить масштаб и качество, «V» значит Version — создать еще 4 версии выбранного изображения.
Меню для работы с отдельным изображением
Например, я ввел простой запрос «kitty robot, 3d cartoon, colorful background» и получил четыре варианта с «котоботом», из которых мне больше понравился верхний левый. Жму на кнопку «U1» и получаю улучшенный вариант первого фото с новым меню.
- Vary создает новые 4 изображения похожие на выбранное.
- Vary (Region) позволяет изменить только указанный фрагмент фото.
Команда Vary (Region) меняет выбранный фрагмент изображения
- Upscale (2x) и Upscale (4x) – вариации апскейла. Исходя из названия, второй в два раза сильнее.
- Zoom out – отдаляет центральный объект и создает четыре новых изображения с разными вариациями фона.
Команда «Стрелка вправо» добавляет справа от объекта свободное место
- Стрелки расширяют изображение влево, вправо, вверх или вниз и делают четыре варианта с разным фоном. Но скриншоте можно увидеть, что свободного места добавилось справа от котенка.
- Эмодзи позволяют оценить свою или чужую работу.
- Web открывает ссылку на изображение на сайте-галерее.
Настройка параметров изображения в Midjourney
Соотношения сторон / Aspect Ratios
Параметр –aspect или –ar изменяет соотношение сторон созданного изображения. Обычно оно обозначается двумя числами, разделенными двоеточием, например 7:4 или 4:3.
Примеры соотношения сторон в Midjourney
Стандартным для Midjourney является соотношение сторон 1:1. В параметре –aspect можно использовать только целые числа. Поэтому всегда используйте 16:10 вместо 1,6:1.
Уровень хаоса / Chaos
Параметр –chaos или –c влияет на разнообразие изображений и может принимать значения от нуля до 100. Высокие значения –chaos дают более необычные и неожиданные результаты и композиции. Низкие –chaos дают более надежные и повторяющиеся результаты.
Уровень хаоса в запросе Midjourney
Для примера сравните изображения по запросу «гибрид арбуза и совы». Левая четверка отвечает параметру –chaos 0, для правой использовали значение –chaos 80.
Изменение качества / Quality comparison
Параметр –quality, или –q изменяет количество времени, которое нейросеть тратит на создание изображения. Настройки более высокого качества обрабатываются дольше и обеспечивают в результате больше мелких деталей.
Влияние параметра –q на результат генерации в Midjourney
Качество изображения в Midjourney может принимать значения –quality .25, –quality .5 и –quality 1. По умолчанию оно равно единице, но может быть уменьшено для экономии времени и вычислительных ресурсов. На скриншоте левый рисунок соответствует минимальному значению качества, а правый – максимальному.
Стилизация / Stylize
Midjourney умеет создавать изображения с художественными цветами, композицией и формами. Параметр –stylize или –s влияет на то, насколько сильно применяется эти характеристики. По умолчанию он равен 100 и может меняться от нуля до 1000.
Влияние стилизации на результат генерации в Midjourney
Низкие значения стилизации создают изображения, которые более точно соответствуют подсказке, но при этом выглядят менее художественными. Высокие значения стилизации создают очень художественные изображения, но менее связанные с подсказкой.
Для примера сравните изображения по запросу «детский рисунок кота». Левая четверка отвечает параметру –stylize 0, для правой было принято значение –stylize 750. Первая выглядит, как рисунок пятилетнего ребенка. Вторая скорее похожа на произведение профессионального художника.
Как сохранить созданные в Midjourney картинки
Все созданные вами изображения автоматически сохраняются в галерее вашего кабинета на сайте Midjourney. При этом очень удобно, что вместе с ними сохраняются и использованные промпты.
Еще один вариант – кликнуть на картинку в чате. После этого можно сохранить изображение в контекстном меню правой кнопкой мыши. Но лучше нажать на ссылку «Открыть в браузере», это позволяет сохранить фото в большем разрешении.
Лайфхак для более удобной работы
Один из главных недостатков Midjourney, который отталкивает многих от работы с этой платформой, – это постоянно сдвигающаяся лента сообщений Discord. Искать свои картинки в их потоке – довольно утомительное занятие. Но из этой ситуации есть выход.
Бота от Midjourney можно добавить на собственный сервер Discord. Для этого нужно найти его в списке пользователей справа и нажать на большую кнопку «добавить на сервер». Если списка на вашей странице нет, нажмите на кнопку «Показать список участников» в верхней части меню. На скриншоте она помечена стрелкой.
Размещение бота Midjourney на своем сервере одним махом решает сразу несколько проблем: ваши картинки не затеряются в море других сообщений и вам не мешают сообщения других новичков, а значит можно целиком сосредоточиться на творчестве.
Преимущества Midjourney
- Высокое качество изображений.
- Поддержка большого количества стилей.
- Возможность генерировать несколько изображений одновременно.
- Удобная функция улучшения и увеличения изображений.
- В вашем аккаунте сохраняются все изображения и промпты.
Недостатки Midjourney
- Нет пробной версии.
- Реже, чем в других нейросетях, но встречаются проблемы с человеческой анатомией, особенно с пальцами и глазами.
- Относительно долгая генерация изображений.
- Работа в Discord не всем может показаться удобной.
Stable Diffusion
Официальный сайт
Галлерея
Ссылка для скачивания
Стоимость: бесплатно
Stable Diffusion (SD) – это полностью бесплатная программа с открытым исходным кодом, которая может стать отличной альтернативой Midjourney. Более того, при желании ее даже можно установить на свой персональный компьютер. А значит вы не будете зависеть от интернет-соединения, цензуры или других ограничений владельцев нейросети.
Примеры изображений сгенерированных Stable Diffusion / Источник: prompthero.com
Если сравнивать изображения Stable Diffusion с аналогичными от Midjourney, то можно сказать, что у бесплатной нейросети они получаются чуть менее выразительными, но более точно соответствуют запросу.
Энтузиасты научили SD создавать наборы предметов для компьютерных игр и делать по запросу целые видеоролики из последовательно меняющихся изображений. Кроме того, она может похвастаться функциями, которых нет у конкурентов.
Так, функция Inpainting позволяет заменить любой объект на картинке на другой, сгенерированный нейросетью. Например, в этом ролике видно, что с помощью Stable Diffusion легко заменить собаку на фото котом или лисой.
Еще интереснее возможности, которые открывает функция Outpainting. С ее помощью можно генерировать фон вокруг готовых картинок и дорисовывать существующие на них объекты. Например, как вам идея дорисовать платье героине картины «Девушки с жемчужной сережкой» нидерландского художника Яна Вермеера?
В Stable Diffusion также можно указывать негативный промпт (Negative Prompt) – это перечень объектов, которые не должны появляться на картинке. Например, вы создали изображение по запросу «Осенний Париж», но вам не нравится, как получились люди. Повторяете генерацию с негативным промптом «люди» – и ваш Париж становится совершенно безлюдным.
Самую подробную информацию по разным аспектам использования Stable Diffusion можно найти в ветке reddit r/StableDiffusion. Мы же опишем несколько простых способов работы с этой нейросетью через веб-браузер.
Генерация изображений на dezgo.com
Сайт dezgo.com позволяет генерировать изображения с помощью Stable Diffusion без регистрации, достаточно выбрать в выпадающем списке моделей ИИ пункт «Stable Diffusion 2.1».
Генерация изображений на replicate.com
На сайте replicate.com требуется регистрация. Но зато есть возможность задать подробные настройки: разрешение изображения по ширине и высоте, количество генерируемых изображений, количество шагов генерации и так далее.
Генерация изображений в DreamStudio
Платформа DreamStudio использует нейросеть Stable Diffusion, обеспечивает быструю работу и высокое качество изображений, но требует создания аккаунта и ограничивает количество генераций 25 токенами (примерно 100 изображений). За $10 можно приобрести еще 1000 токенов.
Преимущества Stable Diffusion
- В отличие от конкурентов, Stable Diffusion – это бесплатный проект с открытым исходным кодом, поэтому его возможностями могут пользоваться абсолютно все. А при желании его даже можно развернуть на своем ПК. Правда, сделать это не очень просто. Нужно, как минимум, «дружить» с командной строкой.
- Stable Diffusion знает стили от художников времен ренессанса и до современных создателей видеоигр. Например, пользователи нейросети довольно часто обращаются к фентезийному стилю польского художника Грега Рутковски.
- SD имеет оригинальные инструменты Inpainting и Outpainting, которые могут облегчить редактирование изображений.
- Функциональность SD регулярно расширяется за счет новых инструментов, плагинов и расширений, которые создают энтузиасты.
Недостатки Stable Diffusion
- Для запуска и стабильной работы Stable Diffusion на вашем ПК подойдет далеко не всякое «железо». Потребуется мощная видеокарта и несколько десятков гигабайт свободного места на диске.
- Не самый дружелюбный интерфейс.
Adobe Firefly
Официальный сайт
Галлерея
Стоимость подписки: 25 генеративных кредитов ежемесячно для бесплатных аккаунтов Adobe Express, Adobe Firefly, Creative Cloud.
Примеры изображений сгенерированных Adobe Firefly / Источник: firefly.adobe.com
Adobe Firefly – это ИИ-программа для генерации изображений по описанию от компании Adobe – лидера в области цифровых продуктов для графического дизайна. Чтобы начать использовать Firefly, нужно зайти в свой аккаунт Adobe или зарегистрироваться и дождаться приглашения.
Результат генерации по запросу «Kitty robot, 3d cartoon, colorful background»
Интерфейс приложения отличается простотой и дружелюбностью. Тут можно в один клик поменять пропорции изображения, настроить его интенсивность, освещение и композицию, подобрать из готовых списков стиль и визуальные эффекты.
Интересно, что на фоне последних скандалов с дипфейками от нейросетей, продукт Adobe напрочь лишили возможности создавать изображения с известными людьми и персонажами.
Результат запроса «Leonardo Di Caprio portrait painted by Vincent van Gogh»
Так, на мой запрос «portrait of Baby Yoda in the jungle» нейросеть просто выдала портреты красивых девушек в джунглях. А на запрос «Leonardo Di Caprio portrait painted by Vincent van Gogh» выдала портреты женщин в стиле Ван Гога. Между тем Midjourney и Stable Diffusion не испытывали с задачами никаких затруднений.
Автоматическое удаление фона в Adobe Firefly
Несомненным преимуществом Firefly является его тесная интеграция с другими сервисами Adobe. Это очень удобно, когда в пару кликов к готовому изображению можно добавить яркую подпись из коллекции шаблонов, отрегулировать контраст и яркость или полностью удалить фон.
Нанесение на изображение надписи с помощью шаблонов Adobe
Одним словом, Firefly предлагает все, чтобы создание и редактирование изображений стало для вас захватывающим и приятным занятием. Признаюсь, мне самому было довольно сложно оторваться от экспериментов с kitty robot.
Результат запроса «Kitty robot, 3d cartoon, colorful background» с указанием текстуры материала metal
Еще один момент, при сохранении сгенерированного изображения через меню «Сохранить» Firefly добавляет на него водяной знак. Но если выбрать один из пунктов в меню «Изменить», например, «Добавить объекты», то изображение автоматически открывается в редакторе. А из него уже сохраняется без водяного знака.
Преимущества Adobe Firefly
- Простой и дружелюбный интерфейс, возможность легко выбирать из огромной коллекции эффектов и стилей.
- Интеграция с другими продуктами Adobe.
- Высокое качество изображений.
- Быстрая генерация.
- Функция использования сгенерированного изображения в качестве референса, чтобы создать похожие изображения.
Недостатки Adobe Firefly
- Проблемы с анатомией людей.
- Нет истории генерации.
- Firefly игнорирует имена известных людей и некоторые слова, которые считает запрещенными.
- Добавляет на работы небольшой водяной знак Adobe.
- До 1 ноября 2023 года для подписчиков Creative Cloud, Adobe Firefly, Adobe Express і Adobe Stock не применялись лимиты на кредиты. Но теперь для создания изображений, генеративной заливки и добавления эффектов прийдется тратить по одному кредиту. Больше о тарифных планах и количестве кредитов для каждого из них можно узнать в справочном разделе сайта Adobe.
BlueWillow
Официальный сайт
Галлерея
Стоимость: 10 изображений в день (20 кредитов) бесплатно, 2000 изображений в месяц за $9,99
Примеры изображений сгенерированных BlueWillow / Источник: bluewillow.ai
На заглавной странице сайта BlueWillow вас встречает большая кнопка «Generate Artwork». Нажатие на нее открывает портал LimeWare, где можно генерировать изображения с помощью нейронной сети модели BlueWillow v4.
Генерация изображений на портале LimeWare
Кстати, на этом же сайте при желании можно выбрать для использования и другие нейронки. Например, Stable Diffusion v2.1; Stable Diffusion v1.5; Stable Diffusion XL v1.0; Google Imagen; Dalle-2.
Есть также возможность генерации изображений в Discord, но работа в общем канале, который постоянно обновляется, – удовольствие не из лучших.
BlueWillow поддерживает 11 языков и разные стили, позволяет выбирать количество изображений для одновременной генерации, разрешение картинки, уровень ее качества и степень соответствия запросу.
Преимущества BlueWillow
- Поддержка нескольких языков: английский, французский, немецкий, португальский, испанский, итальянский, русский, китайский, индийский, корейский, филиппинский.
- Наличие на сайте подробного словаря с перечислением поддерживаемых стилей и примерами промптов.
Недостатки BlueWillow
- Уровень креативности изображений, на мой взгляд, несколько уступает Firefly и Midjourney.
- Есть проблемы с анатомией людей.
Leonardo AI
Официальный сайт
Стоимость: до 150 генераций в день бесплатно и более 8,5 тыс. генераций за $10
Главная страница Leonardo.Ai
Заходим на официальный сайт и сразу же видим надпись «Кредитная карта не нужна». Это многообещающее заявление! Жмем на кнопку «Создать аккаунт», соглашаемся использовать для регистрации Google-аккаунт и попадаем на платформу Leonardo.
Домашняя страница платформы Leonardo
Её интерфейс насыщен большим количеством элементов, куда вводить промпт пока непонятно, поэтому стоит разобраться с интерфейсом подробнее. Начнем с левого верхнего угла. Тут в глаза бросаются 150 монет и кнопка Upgraide.
Тарифные планы Leonardo.Ai
При нажатии на нее открывается страница с тарифными планами. Как мы уже писали, 150 генераций в день можно получить бесплатно, далее идут тарифы за $10, $24 и $48 в месяц.
Кроме тарифных планов в левой панели главной страницы можно найти следующие разделы:
- Home – домашняя страница, где мы сейчас и находимся.
- Community Feed – лента с популярными работами пользователей.
- Personal Feed – лента с вашими работами.
- Training & Datasets – страница для обучения собственной модели. Да, вы не ошиблись – в Leonardo можно создать и обучить собственную модель нейросети.
- Finetuned Models – модели, созданные сообществом пользователей.
- AI Image Generation – страница для генерации изображений, где мы будем вводить свой запрос.
Страница введения промпта на Leonardo.Ai
Итак, переходим на страницу генерации. Сразу бросается огромная яркая кнопка «Generate», справа от которой указана стоимость выбранных по умолчанию настроек – 20 кредитов. Уменьшение количества изображений с 4 до 1 уменьшает стоимость генерации до 16 кредитов. Отключение режима Alchemy V2 – до 8 кредитов.
Левая панель на странице генерации содержит настройки, которые можно использовать при создании изображения. Тут можно выбрать количество создаваемых изображений (по умолчанию 4), режим Alchemy для более точной генерации, пропорции изображения (по умолчанию стоит 3:2) и точность соответствия запросу.
Результат генерации по запросу «Kitty robot, 3d cartoon, colorful background»
Вводим запрос и жмем «Generate». Нейросеть выдает четверку изображений. Удобно, что при желании отредактировать промпт его не нужно искать где-то в недрах настроек. Прямо над сгенерированными изображениями слева мы видим свой промпт, справа – список настроек.
Меню редактирования изображения в Leonardo.Ai
Нажатием одной кнопки мы можем скопировать промпт или использовать его еще раз. При выборе конкретного изображения появляются функции «скачать / Download», «удалить фон / Remove background», «улучшить качество изображения / Alchemy Refiner», «Редактировать на холсте / Edit in canvas».
Попробуем увеличить изображение во встроенном редакторе. Генерируем девушку-панка и жмем кнопку «Edit in canvas».
Генеративная заливка во встроенном редакторе Leonardo.Ai
Перемещаем рамку редактирования в область, которую хотим расширить. Пишем запрос «graffity» и нажимаем кнопку «Generate». Как видите, справа от девушки появляется еще один кусок стены с граффити.
Перемещаем рамку редактирования влево и пишем в запросе «TV set» – cлева от девушки появляется что-то, отдаленно напоминающее телевизор. При этом более подходящий вариант можно выбрать из 4 предложенных.
Преимущества Leonardo AI
- Высокое качество изображений.
- Сохраняется история генерации со всеми настройками и промптами.
- Есть возможность копировать промпты нажатием одной кнопки.
- Кредитов достаточно много и они обновляются каждый день.
Недостатки Leonardo AI
- Есть проблемы с анатомией.
- Иногда генерации длятся по 45 и больше секунд.
Сравнение нейросетей по одному запросу
Для сравнения мы использовали самый простой запрос «Kitty robot, 3d cartoon, colorful background». Результаты вы сами можете оценить ниже.
Midjourney
Stable Diffusion
Adobe Firefly
BlueWillow
Leonardo AI
Заключение
Итак, каждая нейронная сеть имеет свой уникальный стиль и может предложить пользователям разные преимущества. Определить лучшую из них вряд ли возможно, так как оценка изображений – вопрос субъективный. Поэтому выбирайте те изображения, которые пришлись вам по душе, смело экспериментируйте с запросами и создавайте собственные шедевры.