Нейросети для генерации изображений

Post Views: 4 981

План:

Введение
MidJourney
BlueWillow
Stable Diffusion
Craiyon
Dream by WOMBO
Playground AI
Lexica
NeuralBlender
Другие варианты
Заключение

Введение

С каждым днём нейронные сети стремительно развиваются. Уже сейчас любой пользователь Интернета регулярно встречает те или иные работы, выполненные искусственным интеллектом. Нейросети активно применяются для обработки массивов данных и генерации контента в различном его виде. В этой статье мы рассмотрим различные сервисы искусственного интеллекта для генерации изображений и ознакомимся с принципами взаимодействия с нейросетями.

MidJourney

MidJourney — пожалуй, один из самых известных сервисов, пользующийся большой популярностью как среди интересующихся людей, так и среди продвинутых специалистов. Нейросеть постоянно совершенствуется и уже сейчас показывает весьма интересные результаты. Попробовать её в действии может каждый пользователь Discord. Всего доступно 25 бесплатных использований, после чего вы можете приобрести платную версию сервиса.

Чтобы пользоваться MidJourney, необходимо создать учетную запись в Discord или авторизоваться, если она у вас уже имеется. Перейдите на страницу Midjourney и присоединитесь к серверу, нажав на Join the Beta. После принятия приглашения вы перейдёте к каналу MidJourney. Запросы можно написать в любом из разделов newbies. Также бота можно добавить на любой созданный вами сервер. Для этого следует открыть список всех участников и найти в нём MidJourney бот.

Нажмите на него и выберите – добавить на сервер, после чего укажите заранее созданный канал.

Чтобы взаимодействовать с ботом, имеются соответствующие команды. Их полный список, а также некоторые полезные ссылки можно просмотреть, введя в строку /help. Количество оставшихся бесплатных применений можно увидеть благодаря /info.

Для начала необходимо настроить основные параметры. Введите сообщение /settings. С помощью появившегося окна настроек можно установить необходимые значения для более чёткой генерации.

В первой строке устанавливается версия бота MidJourney. Чем новее версия, тем более проработанные изображения можно получить в итоге. Niji version создаёт картинки в стиле аниме. MJ test и MJ test photo генерируют по два изображения, а второй вариант делает их наиболее реалистичными. Имеется возможность настройки качества, при лучших настройках генерация будет стоить вам двух действий вместо одного. Также вы можете выбрать режим отображения результатов запроса, но приватный доступен только по подписке. Remix mode помогает в запросах со ссылкой на любое ваше фото. Последний параметр позволяет увеличить или уменьшить скорость обработки запроса.

После успешной настройки переходим к написанию запросов, за которые отвечает команда /imagine prompt. Создание изображения занимает несколько минут в зависимости от загруженности сервера. Как и во всех генераторах изображений, точность конечных изображений зависит от используемых подсказок в вашем сообщении. Существует немало сайтов, благодаря которым можно грамотно сформировать подробный запрос, наиболее приближенный к вашим желаниям. Примером таких сайтов выступают Midjourney Prompt Tool, MidJourney Prompt Builder и MidJourney Prompt Helper.

MidJourney всегда генерирует 4 изображения из подсказок, из которых в дальнейшем можно выбрать нужный вариант (кнопки U1, U2, U3, U4), получить его увеличенную версию и сохранить. Помимо этого можно пересоздать все изображения (кнопка с двойной стрелкой) или использовать одну из картинок для следующей генерации (кнопки V1, V2, V3, V4).

После основного текста запроса следуют буквенные обозначения ранее заданных параметров. Также имеются дополнительные значения, которые вы можете указать:

—ar (—aspect) устанавливает соотношения сторон картинки. По умолчанию используется 1: 1, но также поддерживаются форматы 3:2, 16:9, 16:10 и другие.
—chaos (от 0 до 100) настраивает уровень «креативности» бота, из-за чего при более высоких значениях можно получить довольно неожиданные результаты.
—s (—stylize) (от 0 до 1000) определяет степень соответствия изображения запросу. По умолчанию значение равно 100, а с повышением этой цифры фото будет менее привязанным к введённому вами тексту

Более подробно ознакомиться со всеми функциями можно на официальном руководстве пользования MidJourney.

Помимо ввода текстовых запросов вы можете использовать ссылки на изображения, которые послужат основой генерируемых картинок. Для запроса, состоящего из фото, используйте /blend и загрузите до 5 изображений в Discord, перетащив их с рабочего стола или указав ссылку на открытые фото в новой вкладке браузера. Для большего контроля используйте /imagine prompt с загрузкой до двух изображений и текстовым запросом.

По окончании бесплатных попыток использования MidJourney можете продолжить работу с ботом платно. Сервис имеет несколько планов подписки, которые вы можете приобрести. После оформления покупки ваши запросы и генерируемые изображения больше не будут отображаться для других пользователей в общем чате.

BlueWillow

Наиболее близкая к MidJourney по принципу действий нейросеть – BlueWillow.

Она также поддерживается через Discord, однако в отличие от MidJourney является абсолютно бесплатной и не имеет лимита запросов. После входа на сервер вам предлагается ознакомиться с краткой инструкцией, а также со списком запрещённых тем для запросов.

Отправка запросов осуществляется в каналах rookie, а команда не отличается от предыдущей нейросети — /imagine. В поле prompt вводятся ваши подсказки для бота. В течение минуты после отправки запроса вы получите четыре изображения, соответствующие указанным критериям. Ниже представлены варианты запроса icon for Android app, flat lightbulb:

Чтобы генерировать корректные запросы, вы можете использовать сайты для MidJourney, указанные ранее в статье: Midjourney Prompt Tool, MidJourney Prompt Builder и MidJourney Prompt Helper.

Дополнительные команды позволяют лучше настроить итоговое изображение:

—no – отрицательный элемент, например —no 3d. Записывается после основного запроса;
—ar — соотношения сторон в конце запроса: —ar 3:2;

Имеется возможность повторной генерации запроса, кнопки U1, U2, U3, U4 увеличивают выбранное изображение, а V1, V2, V3 и V4 создают новую четвёрку на основе выбранного варианта. Опираясь на третье изображение, бот сгенерировал следующие иконки:

Чтобы не потерять готовые изображения среди других запросов участников, воспользуйтесь поиском в правом верхнем углу приложения Discord и введите «С упоминанием: <Ваше имя пользователя>» (в английской версии mentions:<имя пользователя>).

Stable Diffusion

Stable Diffusion – генератор изображений с открытым исходным кодом. Существуют как онлайн-версии Stable Diffusion, так и различные сборки для установки на персональный компьютер с большим набором функций. Хорошим вариантом для начинающих пользователей станет Easy Diffusion. В статье будет представлена версия NMKD Stable Diffusion GUI, однако пользоваться можно любыми вариантами.

Dreamstudio – официальная веб-версия Stable Diffusion от Stability AI.

Для начала работы с нейросетью необходимо зарегистрироваться либо войти через Google или Discord. После регистрации вы увидите четыре заготовки для изображений справа и панель настроек запроса слева. DreamStudio бесплатно предоставляет 25 кредитов, что равняется примерно 125 изображениям. В дальнейшем вы можете приобрести дополнительные 1000 кредитов за 10$.

Для настройки генерации имеются разные версии ИИ, стили исполнения, строка запроса и нежелательных объектов, настройки расширения и числа изображений (от 1 до 10 картинок за одну генерацию). При стандартных значениях и рандомно сгенерированном запросе были получены следующие результаты:

Полученные изображения можно сохранить, использовать в качестве примера для следующей генерации или удалить. Также имеется функция создания вариаций сгенерированного варианта.

Помимо текстовых запросов вы можете добавить изображение в качестве основы для генерации. Такие изображения получились на основе иконки приложения Collage maker: (https://play.google.com/store/apps/details?id=ru.androidtools.collage_photo_editor)

Подробнее со всеми функциями DreamStudio можно ознакомиться в разделе Prompt guide.

Перейдём к настольной версии Stable Diffusion. Для установки NMKD Stable Diffusion GUI скачайте файл по ссылке, распакуйте полученный архив и запустите приложение. Интерфейс не обладает значительными отличиями от DreamStudio.

В самой верхней части левой панели находится поле ввода запроса и поле для элементов, которых на картинке быть не должно. Ниже располагаются кнопки для вставки изображений. Далее – параметры для настройки работы ИИ.

Generation Steps – количество шагов для генерации изображений. Чем выше значение, тем дольше выполняется запрос и тем более проработанную картинку можно получить на выходе. Однако периодически количество шагов не даёт ожидаемого результата. В таком случае отредактируйте текст запроса, увеличьте число подсказок и деталей для изображений.

Amount** Of Images To Generate – число изображений, которые вы получите по окончании обработки запроса.

Prompt Guidance (CFG Scale) – при высоких значениях нейросеть будет строго следовать вашему запросу, а при низких будет реализовывать больше отвлечённых от текста элементов. Значения от 7 до 12 считаются средними и наиболее желательными.

Seed – точка старта генерации. По умолчанию значение отсутствует, благодаря чему генерируются более разнообразные картинки. Если же вам нужны схожие между собой результаты, поставьте произвольное значение, которое не будет сменяться.

Resolution – разрешение результатов запроса. Можно выбрать различные значения ширины и высоты из выпадающего списка. По умолчанию размер – 512×512.

Sampler – настраивает способ генерации изображения. В зависимости от режима изменяется число шагов, требуемых для получения хорошего изображения. По ссылке можно увидеть различия в качестве изображений.

Генерация требует достаточного ожидания, что может для некоторых быть критичным недостатком искуственного интелекта. Ниже вы можете увидеть результаты запроса Urban town, violet color, sketch при стандартных настройках:

Craiyon

Craiyon (ранее DALL-E mini) – проект от OpenAI, упрощённая версия DALL-E 2. В отличие от этой нейросети, Craiyon можно использовать бесплатно неограниченное число раз. Для создания изображений не требуется регистрация или донат. Всё что вам нужно – это открыть сайт и ввести свой запрос.

Сервис очень прост в использовании, однако не имеет большинства функций более популярных нейросетей. Вы можете вводить только текстовые сообщения, возможность вставки изображений отсутствует.

Из дополнительных функций имеется возможность выбрать один из нескольких предложенных стилей, а также поле ввода отрицательных подсказок для нейросети.

Процесс генерации изображений длится около минуты. Имеются платные варианты подписки, снижающие скорость создания картинок. Также в платном режиме ваши запросы будут иметь больший приоритет, исчезнет вотермарка, а результаты генерации не будет видеть никто кроме вас. Ниже вы можете увидеть сгенерированные картинки по запросу icon for Android app, flat lightbulb, low poly:

По завершении работы нейросети вы можете сохранить любое понравившееся изображение. Ниже генератора изображений располагается поле, в котором появляются варианты запроса, основанные на набранном вами тексте. Нажмите на кнопку Try this one, чтобы перенести данный запрос в строку набора подсказок и создать новые картинки.

Картинки по предложенному запросу A glowing flat bulb with geometric sides for Android app:

Отличительной особенностью сервиса является раздел для создания принта. Выберите любую сгенерированную картинку и посмотрите, как она будет выглядеть на футболке. Имеются варианты отображения изображения отдельно, с текстом или с интерфейсом Craiyon, а также светлая и темная версия футболки. Как и отдельную картинку, на футболку можно уместить всю линейку сгенерированных фото.

После выбора вида принта пользователь может завершить настройку на сайте продуктов Craiyon и приобрести любой из предложенных вариантов верхней одежды.

В разделе Search вы можете ознакомиться с созданными изображениями других пользователей, скопировать запрос, сохранить картинки, использовать их для повторной генерации или применить в качестве принта.

Dream by WOMBO

Dream by WOMBO – ИИ, работающая на основе текстовых запросов и изображений. Генерирует изображения размером 960×1568, что подойдёт для установки обоев на экран телефона или для личного пользования. Отличается сравнительно высокой скоростью выполнения запросов – в среднем около 10-15 секунд. Обладает большим выбором стилей рисования, расширяющимся в платной версии сервиса. Dream не требует регистрации, однако при желании вы можете ввести свой электронный адрес или войти через учётную запись Google. Имеется как веб-версия, так и приложение для iOS и Android.

Нейросеть предлагает два варианта взаимодействий: Create Artwork и Edit Image (в бета-версии). В первом на основе запросов генерируются изображения, а во втором редактируются уже готовые работы с вашего устройства.

В разделе Create Artwork вы можете вводить запросы в поле Enter prompt. Имеется ограничение в 200 символов, но это не мешает вводить подробные подсказки и получать качественные результаты.

На данный момент предлагается более 70 стилей (не включая No style), абсолютное большинство из которых доступно абсолютно бесплатно. Среди них имеются следующие: Gloomy, Realistic, Spectral, Watercolor, Unrealistic, VFX, Comic, Fantastical, Isometric, Polygon, Anime и многие другие. На примере представлен результат запроса icon for Android app, flat lightbulb, стиль Polygon. В бесплатной версии нейросеть генерирует одно изображение.

Любые сгенерированные картинки можно изменить, используя дополнительный текстовый запрос. Для этого под Art Preview находится кнопка Edit with text. В открывшемся окне введите запрос на нужные вам коррективы (например, изменить цвет изображения, раскрасить чёрно-белое фото, превратить собаку в кошку). Для одного изображения доступно две попытки изменения картинки, после чего можно сохранить изменения или отменить их. Раздел Edit Image действует идентичным образом. Для примера был выполнен запрос на смену дневного света закатным:

Кнопка Finalize предназначена для завершения работы с результатом запроса. Здесь вы можете сохранить изображение, сгенерировать запрос повторно, дать название картинке, указать тэги для поиска другими пользователями. При регистрации данное изображение можно опубликовать в сети.

Ниже в разделе Create Artwork находится поле для добавления фото-референса, на котором будет основываться готовый запрос. Можно выбрать как одно из четырёх предложенных фото, так и картинку с устройства. После загрузки появляется шкала влияния. При низком влиянии ИИ почти не будет опираться на фото при генерации, а при высоком создаст наиболее приближённую по виду картинку.

Такие результаты получились по запросу Bird sits in spring forest with another bird (стиль VFX) с применением каждого из предложенных изображений-референсов:

В любое время вы можете перейти на платную версию нейросети. Имеется возможность оплачивать $9.99 ежемесячно или приобрести постоянную подписку за $169.99. После покупки становятся доступны все стили изображений, вывод четырёх фото за раз, создание альтернативных вариантов лучшей сгенерированный картинки и другие функции.

Playground AI

Playground AI – генератор изображений на основе письменных описаний или изображений. Зачастую получаемые результаты имеют проработанный главный объект и размытый задний план. При должном опыте работы с нейросетями пользователь может создать достаточно реалистичные изображения за пару секунд. Генератор подходит для формирования идей или создания изображений для личного пользования.

Чтобы создавать изображения, требуется войти в учетную запись Google. После успешной авторизации вы перейдёте к созданию запроса. В левой панели в первую очередь можно увидеть фильтр, позволяющий выбрать один из 41 предложенного стиля картинки (colorpop, app icon, pixel, pop art, cinematic и другие). Ниже представлено поле ввода запроса, после него – поле с отрицательными подсказками. Также имеется возможность вставки изображения-референса для работы нейросети.

В правой же части расположены настройки вида и генерации запроса. Выбрать модель ИИ в бесплатной версии можно из трёх вариантов: Playground v1, Stable Diffusion 1.5 и Stable Diffusion 2.1. Имеется возможность выбрать разные варианты разрешения картинки – от 512х512 до 1024х1024. Ниже находятся бегунки с настройкой уровня соответствия вашим подсказкам, а также качества и детальности проработки, что влияет на скорость генерации. Также можно выбрать номер генерации, если вы хотите получить сильно схожие варианты картинок. В бесплатной версии за одну генерацию вы получите одно изображение.

Ниже пример генерации запроса app icon for Android app, flat flashlight с настройками по умолчанию.

Готовую картинку можно сохранить, удалить, редактировать с помощью текстовых указаний, загрузить в лучшем качестве и увидеть в полноэкранном режиме.

Повторная генерация на основе прошлого результата запроса:

Любое сгенерированное изображение автоматически загружается в галерею сайта Playground. В случае если вы хотите оставить картинку при себе, достаточно навести курсор на сгенерированное фото, выбрать Actions и применить функцию Make Private.

Бесплатная подписка на Playground позволяет генерировать 1000 изображений в день, 50 из них на высокого качества. Если вы планируете пользоваться сервисом на постоянной основе, вы можете приобрести подписку по одному из двух тарифов, позволяющих генерировать больше картинок без ограничений в настройках.

Lexica

Lexica – бесплатная нейросеть, генерирующая изображения на основе текста и изображений. Нередко она используется в качестве галереи изображений и запросов для ИИ.

Для начала работы требуется регистрация по адресу электронной почты или вход через Google аккаунт. После авторизации вы можете перейти к генерации изображений в разделе Generate. Генератор представлен двумя строками ввода, одна для ввода основного запроса, другая – для негативных запросов. Справа от строк расположено окно, в котором можно изменить расширение холста, добавить изображение, а также настроить контрастность картинок. Принцип ввода запросов не отличается от других нейросетей – чем детальнее проработан текст, тем качественнее конечный результат.

Такие результаты были получены по запросу icon for android app, lightbulb, flat style, polygon (расширение 512х576):

Все сгенерированные в профиле изображения можно увидеть в разделе History, переход к которому осуществляется через верхнюю панель вкладок. Для изменения числа изображений в ряду имеется бегунок, регулирующий отображение картинок.

Как было упомянуто ранее, сервис обладает большой базой изображений, созданных с помощью Stable Diffusion и Lexica. По ключевым словам можно найти картинки на интересующие вас темы, которые в дальнейшем можно использовать для собственных запросов. При нажатии по изображению откроется окно с общей информацией о файле. Вы можете скопировать запрос или URL, а также открыть готовое изображение с запросом в редакторе (Open in editor) или найти фото с одинаковыми подсказками (Explore this style).

Ниже представлен результат скопированного и модифицированного запроса a detailed portrait of a cute calm brunette girl hugging a tabby cat illustrator, by alphonse mucha, digital art, realistic painting, dnd, character design, trending on artstation:

Наведя мышку на сгенерированное фото, вам открывается список действий над ним:

Generate variations создаёт на основе выбранной картинки дополнительные варианты;

Upscale the image финализирует фото, добавляя больше деталей

Generate a wider version расширяет изображение, дополняя пространство вокруг

Помимо данных кнопок есть также функция сохранения изображения, загрузки запроса и картинки в редактор.

В месяц можно создать 100 изображений в быстром режиме, для генерации последующих картинок нужно будет ждать дольше. Если же вы заинтересованы в частом пользовании сервисом, предлагаются несколько платных тарифов на выбор.

NeuralBlender

NeuralBlender — ИИ для создания изображений на основе ваших текстовых подсказок. Позволяет быстро создавать идеи для дальнейших работ и дорисовок. Генерирует неплохие пейзажи, а при должном уровне работы с нейросетью выходят достойные изображения в разных видах и стилях.

На экране create сразу видна строка для записи запросов, с которой вы будете работать чаще всего. Ниже выбрать версию генерации (платную или бесплатную), рандомную или фиксированную генерацию, стиль изображения, разрешение картинок и их общее число за одну генерацию. В бесплатной версии можно генерировать одно изображение за раз. Такой результат был получен по запросу snowy mountains, sunset, painting by Dali:

Процесс генерации отображается во вкладке queue, после чего готовая картинка перемещается в my art, где вы сможете посмотреть все получившиеся результаты. Из этого раздела изображение можно сохранить на своё устройство.

Для генерации изображений в продвинутом режиме имеется система кредитов. Приобрести их можно оплатой в разделе credits

Другие варианты

Помимо перечисленных, существуют и другие неплохие нейросети для генерации изображений:

Imagine от Magic Studio (бесплатная для пользования, нужна регистрация),

Getimg.ai (100 бесплатных изображений в месяц, совмещает запрос и изображение, также может смешивать несколько картинок),

Hypnogram (бесплатный ИИ, подходит для генерации идей и последующей доработки)

PromptFlow (бесплатная нейросеть, простая в использовании)

Mage.space (есть платные тарифы, можно использовать бесплатно с ограничениями)

Pixai (нейросеть для изображения аниме персонажей, имеется система ежедневного получения кредитов)

Заключение

Мы рассмотрели некоторые из наиболее известных нейросетей и особенности работы с ними. Вы можете выбрать один наиболее понравившийся ИИ или же совмещать несколько сервисов для разных целей. В любом случае, окончательный выбор за вами.