06 февраля 2023
Обновлено 07.02.2023

Гайд по работе с нейросетью Midjourney, генерирующей изображение из текста. Эксперимент «Канобу»

Аска Лэнгли в образе героини фэнтези // сгенерировано «Канобу» с помощью Midjourney
Аска Лэнгли в образе героини фэнтези // сгенерировано «Канобу» с помощью Midjourney

Ещё с лета 2022 года на YouTube можно наблюдать всплеск пользовательских видео с переосмыслением героев современных фильмов и сериалов на лад тёмного фэнтези 80-х – подобные эксперименты стали возможны благодаря новым нейросетям, а именно Midjourney. Midjourney создаёт изображение на основе текстового запроса. Редактор «Канобу» рассказывает о Midjourney подробнее: как пользоваться, как формулировать запрос и есть ли способ обхода ограничений?

Гайд по работе с нейросетью Midjourney, генерирующей изображение из текста. Эксперимент «Канобу» - фото 1

Midjourney – независимый проект, разработанный математиком Дэвидом Хольцем и его командой. Хольц успел поработать в Институте Макса Планка и в NASA, в первом — исследовал алгоритмы нейровизуализации, а во втором — совместно с другими учёными разрабатывал LiDAR — технологию, позволяющую определять дальность объекта с помощью света. Взяв себе в команду других энтузиастов в области ИИ, Хольц запустил нейросеть Midjourney в феврале 2022 года. Midjourney – это искусственный интеллект, генерирующий изображение из текста. Сейчас доступна к использованию бета-версия, работающая с помощью бота Discord. С августа Midjourney можно добавлять на любой сторонний сервер, с одним условием – максимальное число подписчиков не должно превышать 10 тысяч.

Для нового пользователя бета-версия предлагает бесплатный доступ к 25 GPU-минутам, равных 25 действиям, из-за чего перед использованием лучше подробно ознакомиться с механикой ИИ, чтобы случайно не потратить все доступные манипуляции впустую.

Как начать работу в Midjourney?

Гайд по работе с нейросетью Midjourney, генерирующей изображение из текста. Эксперимент «Канобу» - фото 2

Для начала нужно зарегистрироваться в Discord и присоединиться к серверу Midjourney, который можно найти на официальном сайте. Перед работой нужно изучить правила (в разделе Rules), чтобы случайно не оказаться в бане.

В работе бета-версии есть интересная фишка – можно наблюдать за тем, как пользователи генерируют свои изображения. Пользователь должен выбрать любой камерный чат – их огромное множество и все находятся на главной странице прямо в центре и называются «newbies-100», «newbies-107» и т.д. В чате идёт поток сообщений и генерированных изображений, среди которых окажутся и ваши реализованные запросы. Все изображения дублируются в раздел уведомлений (кнопка «Почта» в верхнем правом углу) – что весьма удобно, в случае, если из-за активности чата ваш рисунок затерялся в сообщениях.

Как приступить к генерации первой картинки?

Нужно зайти в один из чатов «newbies» и ввести команду /imagine в поле для отправки сообщения. После ввода команды в строке сообщения появится «prompt», запрашивающая дальнейший ввод текста. Всё, что вы напишите после prompt будет вашим запросом боту. Сразу после отправки в чате вас потребуют согласиться с правилами сообщества – будьте внимательны!

Формулировка должна быть строго на английском языке, иначе Midjourney не сможет грамотно его считать. Обычно пользователи пишут свой запрос через запятую: набор узнаваемых образов и объектов. После ввода запроса нужно нажать «отправить»и бот приступит к генерации изображения.

Мы, например, выбрали такую формулировку: young Debbie Harry, dark fantasy film, sword (Молодая Дэбби Харри, фильм жанра тёмное фэнтези, меч). Вот, что из этого получилось:

Гайд по работе с нейросетью Midjourney, генерирующей изображение из текста. Эксперимент «Канобу» - фото 3

Скорость генерации зависит от загрузки сервера, но обычно обработка запроса требует меньше минуты. Однако с помощью команды /settings можно настроить удобную для вас скорость. Написав команду, в чате появится окно настроек:

После отправки запроса бот предложит четыре картинки, созданных согласно вашему тексту. Под коллажем появятся кнопки: «U1, U2, U3, U4» и «V1, V2, V3, V4». Использовать их нужно с осторожностью – о чём далее. Для начала нужно выбрать наиболее удачный вариант изображения из четырёх, который вы хотите улучшить.

  • Нажав на кнопку с буквой U можно улучшить разрешение картинки, кнопку с буквой V получить дополнительные вариации к нужной вам картинке.

И так можно работать над одним запросом, пока не истратятся все бесплатные попытки. Важно: лимит на бесплатную генерацию изображений для каждого пользователя равен 25. Просьбы улучшить разрешение, представить дополнительные 4 вариации – тоже входят в эти 25 попыток. Когда попыток почти не останется – бот пришлёт уведомление.

Чтобы сохранить картинку в высоком разрешении нужно нажать на строчку «открыть в браузере», которая появится при просмотре изображения. На случай, если всё равно всё потерялось – все работы пользователей хранятся на сайте Midjourney в разделе Community Showcase, главное, авторизоваться через Discord.

Как правильно сформулировать запрос? Думаем вместе на основе ошибок и удачных вариантов

Помочь с формулировкой запроса может внимательное изучение чатов. В условиях открытости сообщества можно увидеть и прочесть запросы пользователей и оценить их эффективность. Пожалуй, можно выделить парочку основных принципов:

  • 1 принцип: Нужно быть конкретным и объективным: указывать конкретные места (известные гуглу), понятные объекты, конкретный визуальный стиль;
  • 2 принцип: Сообщение боту может быть написано в формате полноценного предложения, содержащего подлежащее, сказуемое, дополнение, эпитеты.

В нашем первом примере мы сделали простой запрос по первому принципу: вокалистка группы Blondie Дэбби Харри, узнаваемый жанр литературы и кино – фэнтези, и артефакт – меч. Получился портрет, в котором нет заднего фона. Поэтому мы решили расширить запрос и написать развёрнуто по второму принципу: Debbie Harry as an '80s era dark fantasy heroine stands in front of a forest with a sword (Дэбби Харри в образе героини тёмного фэнтези эпохи 80-х стоит на фоне леса с мечом).

Вот, что из этого получилось:

Гайд по работе с нейросетью Midjourney, генерирующей изображение из текста. Эксперимент «Канобу» - фото 4
  • При совершенствовании запроса с помощью кнопки V4 мы получили следующий результат:
Гайд по работе с нейросетью Midjourney, генерирующей изображение из текста. Эксперимент «Канобу» - фото 5

Теперь Дэбби похожа на настоящую героиню, правда не из 80-х, а современных фэнтези сериалов – что тоже неплохо.

Самое важное – помнить, что нейросеть не терпит путаницы, не стоит писать Midjourney загадками, сперва представьте образ, персонажа, сочетание, продумайте пространство, атрибуты, цвета, а затем смело составляйте сообщение боту.

Пользователи Midjourney чаще всего создают запрос, используя запятые или двоеточия, это помогает нейросети быстро понять антураж, атмосферу и облик продукта вашего воображения. Мы попробовали сделать примерно одно и то же двумя путями, и пришли к выводу, что лучше всего работает полноценное предложение или перечисление элементов изображения через запятые.

Запрос через двоеточие следует строить так: описание объекта :: стиль изображения :: дополнительные свойства :: --короткие команды.

Вот, что получилось с использованием двоеточия в запросе: Debbie Harry with a sword :: in dark fantasy 80s film :: full body

Гайд по работе с нейросетью Midjourney, генерирующей изображение из текста. Эксперимент «Канобу» - фото 6

Больше похоже на Марго Робби, чем на Дэбби. Поэтому с двоеточиями нужно быть осторожнее.

Советы для формулировки запроса

Конкретизация визуального стиля или сеттинга может упростить работу нейросети. Midjourney знакома со всеми художественными стилями, ей известны и кинематографические жанры. Кстати, в чатах часто используются длинные запросы, где пользователи прописывают всё до мелочей: свет (дневной/ночной), пространство (улица, комната, кафе и т.д), объекты на заднем фоне, возраст, пол, одежду. Можно даже задать запрос с указанием типа объектива камеры, положение света, рук, тела и т.д.

Чтобы в точности сформулировать стиль используйте фразу «in the style of», чтобы сделать отсылку к художнику, режиссёру или фотографу следом напишите «by x», где x – автор, на которого нейросеть должна ориентироваться.

Вот, что вышло у нас, с использованием этих рекомендаций. Запрос звучал так: Debbie Harry as a witch with a sword in the style of Highlander film by Ron Howard (Ведьма Дэбби Харри с мечом в стиле «Горца», если бы его снял Рон Ховард). Слева – первая версия нейросети, справа – с уточнением V3. Получился впечатляющий результат!

Можно попросить нейросеть сделать из аниме персонажа героя кино, вот как мы поступили с Аской из Евангелиона, написав почти тот же запрос, что и с Дэбби: Asuka Langley as a witch with a bow in the style of Highlander film by Ron Howard, full body, cinematic.

  • Но, чтобы повеселиться, а не превращать процесс в гонку за лучшим результатом, лучше не перегибать, а останавливаться на лаконичных простых запросах.

Можно, конечно, быть более изобретательным, главное, случайно не перестараться и не вносить противоречащие друг другу характеристики.

Дополнительные рекомендации

  • Есть неплохой сервис для формулировки запроса Prompt Helper – нужно ввести слова, размер изображения и другие параметры.
  • А Promptomania будет более полезна, можно добавить кадры из фильмов или любой другой референс, но он больше подходит для пользователей с подпиской на безлимитный тариф.

Для оптимизации изображения могут помочь несколько полезных команд:

  • –ar. Команда для корректировки aspect ratio – «соотношение сторон». Если не нравится стандартный размер картинки 1:1, можно установить свой, 16:9, например.
  • –iw. Если вы хотите работать с референсом, то эта функция поможет загрузить изображение в бот. Референс также можно настроить в зависимости от того, насколько сильно вы хотите похожее изображение. Значение “веса” по умолчанию равно -0,25.
  • –q. Качество изображения по умолчанию равно 1. Если установить параметр на 2, то изображение будет более детализированным.
  • –s. Позволяет выбрать уровень стилизации от 0 до 60 000.
  • –wallpaper. Нейросеть сразу поймэт, что качество и детали изображения – в большом приоритете. Команда эффективно создаст изображение в отличном расширении.
  • –chaos. Хаотичность генерации также можно настроить от 0 до 100.
  • –video. Если интересно, как Midjourney работает с запросом – бот может создать видео генерации изображения и прислать на почту.

Платная подписка для тех, кому не хватило!

Ограничение в 25 действий оправдано, всё таки нейросеть часто используется в коммерческих целях, в чём вы убедитесь, пролистав запросы других пользователей в любом из чатов. Кто-то запрашивает логотип, кто-то рекламный постер.

Но, если 25-ти шансов не хватило для полноценного знакомства с нейросетью можно оформить подписку. У Midjourney два уровня платной подписки. Первая стоит 10$ в месяц, что по современному курсу равно 700 Р. Она даёт доступ к 200 попыткам на генерацию. Вторая стоит 30 $ (примерно 2100 Р) – она предлагает безлимитный доступ к боту. В связи с ограничениями российских карт осуществить покупку будет сложно. Есть и другой нюанс – при регистрации в Discord требуется номер телефона, поэтому привязать несколько аккаунтов и остаться незамеченным – не получится. Обход ограничений страшен баном.

На каких художников стоит обратить внимание?

В любом случае опробовать хотя бы 25 попыток стоит. А по завершению работы в боте можно насладиться совместными работами искусственного интеллекта и авторов-художников, например, художник Neptune Glitter Ball создаёт ретрофутуристических персонажей с использованием Midjourney. В его работах вырастает целый потусторонний мир в духе научной-фантастики 50-х, по созданным автором образам можно снять десятки китчевых фильмов. Художник Джеф Хан (Jeff Han) предлагает осмысление популярных брендов с помощью живописи XIX века – логотипы Nike, Netflix встраиваются в катастрофические полотна эпохи романтизма, а его макдональдсовский клоун становится обитателем чуждого подводного дна. Глеб Александров также использует Midjourney, чтобы представить жуткие космические пространства и экспрессивные космические станции. На youtube канале demonflyingfox можно встретить интересные эксперименты по переосмыслению популярных героев кино и сериалов XX века в сеттинге ситкомов 80-х, японских хорроров или тёмного фэнтези.

Комментарии 1
Чтобы оставить комментарий, Войдите или Зарегистрируйтесь
koprocefal
koprocefal
А ещё картинки можно улучшать: https://huggingface.co/spaces/...