Гайд по работе с нейросетью Midjourney, генерирующей изображение из текста. Эксперимент «Канобу»
Ещё с лета 2022 года на YouTube можно наблюдать всплеск пользовательских видео с переосмыслением героев современных фильмов и сериалов на лад тёмного фэнтези 80-х – подобные эксперименты стали возможны благодаря новым нейросетям, а именно Midjourney. Midjourney создаёт изображение на основе текстового запроса. Редактор «Канобу» рассказывает о Midjourney подробнее: как пользоваться, как формулировать запрос и есть ли способ обхода ограничений?
Midjourney – независимый проект, разработанный математиком Дэвидом Хольцем и его командой. Хольц успел поработать в Институте Макса Планка и в NASA, в первом — исследовал алгоритмы нейровизуализации, а во втором — совместно с другими учёными разрабатывал LiDAR — технологию, позволяющую определять дальность объекта с помощью света. Взяв себе в команду других энтузиастов в области ИИ, Хольц запустил нейросеть Midjourney в феврале 2022 года. Midjourney – это искусственный интеллект, генерирующий изображение из текста. Сейчас доступна к использованию бета-версия, работающая с помощью бота Discord. С августа Midjourney можно добавлять на любой сторонний сервер, с одним условием – максимальное число подписчиков не должно превышать 10 тысяч.
Для нового пользователя бета-версия предлагает бесплатный доступ к 25 GPU-минутам, равных 25 действиям, из-за чего перед использованием лучше подробно ознакомиться с механикой ИИ, чтобы случайно не потратить все доступные манипуляции впустую.
Как начать работу в Midjourney?
Для начала нужно зарегистрироваться в Discord и присоединиться к серверу Midjourney, который можно найти на официальном сайте. Перед работой нужно изучить правила (в разделе Rules), чтобы случайно не оказаться в бане.
В работе бета-версии есть интересная фишка – можно наблюдать за тем, как пользователи генерируют свои изображения. Пользователь должен выбрать любой камерный чат – их огромное множество и все находятся на главной странице прямо в центре и называются «newbies-100», «newbies-107» и т.д. В чате идёт поток сообщений и генерированных изображений, среди которых окажутся и ваши реализованные запросы. Все изображения дублируются в раздел уведомлений (кнопка «Почта» в верхнем правом углу) – что весьма удобно, в случае, если из-за активности чата ваш рисунок затерялся в сообщениях.
Как приступить к генерации первой картинки?
Нужно зайти в один из чатов «newbies» и ввести команду /imagine в поле для отправки сообщения. После ввода команды в строке сообщения появится «prompt», запрашивающая дальнейший ввод текста. Всё, что вы напишите после prompt будет вашим запросом боту. Сразу после отправки в чате вас потребуют согласиться с правилами сообщества – будьте внимательны!
Формулировка должна быть строго на английском языке, иначе Midjourney не сможет грамотно его считать. Обычно пользователи пишут свой запрос через запятую: набор узнаваемых образов и объектов. После ввода запроса нужно нажать «отправить»и бот приступит к генерации изображения.
Мы, например, выбрали такую формулировку: young Debbie Harry, dark fantasy film, sword (Молодая Дэбби Харри, фильм жанра тёмное фэнтези, меч). Вот, что из этого получилось:
Скорость генерации зависит от загрузки сервера, но обычно обработка запроса требует меньше минуты. Однако с помощью команды /settings можно настроить удобную для вас скорость. Написав команду, в чате появится окно настроек:
После отправки запроса бот предложит четыре картинки, созданных согласно вашему тексту. Под коллажем появятся кнопки: «U1, U2, U3, U4» и «V1, V2, V3, V4». Использовать их нужно с осторожностью – о чём далее. Для начала нужно выбрать наиболее удачный вариант изображения из четырёх, который вы хотите улучшить.
- Нажав на кнопку с буквой U можно улучшить разрешение картинки, кнопку с буквой V получить дополнительные вариации к нужной вам картинке.
И так можно работать над одним запросом, пока не истратятся все бесплатные попытки. Важно: лимит на бесплатную генерацию изображений для каждого пользователя равен 25. Просьбы улучшить разрешение, представить дополнительные 4 вариации – тоже входят в эти 25 попыток. Когда попыток почти не останется – бот пришлёт уведомление.
Чтобы сохранить картинку в высоком разрешении нужно нажать на строчку «открыть в браузере», которая появится при просмотре изображения. На случай, если всё равно всё потерялось – все работы пользователей хранятся на сайте Midjourney в разделе Community Showcase, главное, авторизоваться через Discord.
Как правильно сформулировать запрос? Думаем вместе на основе ошибок и удачных вариантов
Помочь с формулировкой запроса может внимательное изучение чатов. В условиях открытости сообщества можно увидеть и прочесть запросы пользователей и оценить их эффективность. Пожалуй, можно выделить парочку основных принципов:
- 1 принцип: Нужно быть конкретным и объективным: указывать конкретные места (известные гуглу), понятные объекты, конкретный визуальный стиль;
- 2 принцип: Сообщение боту может быть написано в формате полноценного предложения, содержащего подлежащее, сказуемое, дополнение, эпитеты.
В нашем первом примере мы сделали простой запрос по первому принципу: вокалистка группы Blondie Дэбби Харри, узнаваемый жанр литературы и кино – фэнтези, и артефакт – меч. Получился портрет, в котором нет заднего фона. Поэтому мы решили расширить запрос и написать развёрнуто по второму принципу: Debbie Harry as an '80s era dark fantasy heroine stands in front of a forest with a sword (Дэбби Харри в образе героини тёмного фэнтези эпохи 80-х стоит на фоне леса с мечом).
Вот, что из этого получилось:
- При совершенствовании запроса с помощью кнопки V4 мы получили следующий результат:
Теперь Дэбби похожа на настоящую героиню, правда не из 80-х, а современных фэнтези сериалов – что тоже неплохо.
Самое важное – помнить, что нейросеть не терпит путаницы, не стоит писать Midjourney загадками, сперва представьте образ, персонажа, сочетание, продумайте пространство, атрибуты, цвета, а затем смело составляйте сообщение боту.
Пользователи Midjourney чаще всего создают запрос, используя запятые или двоеточия, это помогает нейросети быстро понять антураж, атмосферу и облик продукта вашего воображения. Мы попробовали сделать примерно одно и то же двумя путями, и пришли к выводу, что лучше всего работает полноценное предложение или перечисление элементов изображения через запятые.
Запрос через двоеточие следует строить так: описание объекта :: стиль изображения :: дополнительные свойства :: --короткие команды.
Вот, что получилось с использованием двоеточия в запросе: Debbie Harry with a sword :: in dark fantasy 80s film :: full body
Больше похоже на Марго Робби, чем на Дэбби. Поэтому с двоеточиями нужно быть осторожнее.
Советы для формулировки запроса
Конкретизация визуального стиля или сеттинга может упростить работу нейросети. Midjourney знакома со всеми художественными стилями, ей известны и кинематографические жанры. Кстати, в чатах часто используются длинные запросы, где пользователи прописывают всё до мелочей: свет (дневной/ночной), пространство (улица, комната, кафе и т.д), объекты на заднем фоне, возраст, пол, одежду. Можно даже задать запрос с указанием типа объектива камеры, положение света, рук, тела и т.д.
Чтобы в точности сформулировать стиль используйте фразу «in the style of», чтобы сделать отсылку к художнику, режиссёру или фотографу следом напишите «by x», где x – автор, на которого нейросеть должна ориентироваться.
Вот, что вышло у нас, с использованием этих рекомендаций. Запрос звучал так: Debbie Harry as a witch with a sword in the style of Highlander film by Ron Howard (Ведьма Дэбби Харри с мечом в стиле «Горца», если бы его снял Рон Ховард). Слева – первая версия нейросети, справа – с уточнением V3. Получился впечатляющий результат!
Можно попросить нейросеть сделать из аниме персонажа героя кино, вот как мы поступили с Аской из Евангелиона, написав почти тот же запрос, что и с Дэбби: Asuka Langley as a witch with a bow in the style of Highlander film by Ron Howard, full body, cinematic.
- Но, чтобы повеселиться, а не превращать процесс в гонку за лучшим результатом, лучше не перегибать, а останавливаться на лаконичных простых запросах.
Можно, конечно, быть более изобретательным, главное, случайно не перестараться и не вносить противоречащие друг другу характеристики.
Дополнительные рекомендации
- Есть неплохой сервис для формулировки запроса Prompt Helper – нужно ввести слова, размер изображения и другие параметры.
- А Promptomania будет более полезна, можно добавить кадры из фильмов или любой другой референс, но он больше подходит для пользователей с подпиской на безлимитный тариф.
Для оптимизации изображения могут помочь несколько полезных команд:
- –ar. Команда для корректировки aspect ratio – «соотношение сторон». Если не нравится стандартный размер картинки 1:1, можно установить свой, 16:9, например.
- –iw. Если вы хотите работать с референсом, то эта функция поможет загрузить изображение в бот. Референс также можно настроить в зависимости от того, насколько сильно вы хотите похожее изображение. Значение “веса” по умолчанию равно -0,25.
- –q. Качество изображения по умолчанию равно 1. Если установить параметр на 2, то изображение будет более детализированным.
- –s. Позволяет выбрать уровень стилизации от 0 до 60 000.
- –wallpaper. Нейросеть сразу поймэт, что качество и детали изображения – в большом приоритете. Команда эффективно создаст изображение в отличном расширении.
- –chaos. Хаотичность генерации также можно настроить от 0 до 100.
- –video. Если интересно, как Midjourney работает с запросом – бот может создать видео генерации изображения и прислать на почту.
Платная подписка для тех, кому не хватило!
Ограничение в 25 действий оправдано, всё таки нейросеть часто используется в коммерческих целях, в чём вы убедитесь, пролистав запросы других пользователей в любом из чатов. Кто-то запрашивает логотип, кто-то рекламный постер.
Но, если 25-ти шансов не хватило для полноценного знакомства с нейросетью можно оформить подписку. У Midjourney два уровня платной подписки. Первая стоит 10$ в месяц, что по современному курсу равно 700 Р. Она даёт доступ к 200 попыткам на генерацию. Вторая стоит 30 $ (примерно 2100 Р) – она предлагает безлимитный доступ к боту. В связи с ограничениями российских карт осуществить покупку будет сложно. Есть и другой нюанс – при регистрации в Discord требуется номер телефона, поэтому привязать несколько аккаунтов и остаться незамеченным – не получится. Обход ограничений страшен баном.
На каких художников стоит обратить внимание?
В любом случае опробовать хотя бы 25 попыток стоит. А по завершению работы в боте можно насладиться совместными работами искусственного интеллекта и авторов-художников, например, художник Neptune Glitter Ball создаёт ретрофутуристических персонажей с использованием Midjourney. В его работах вырастает целый потусторонний мир в духе научной-фантастики 50-х, по созданным автором образам можно снять десятки китчевых фильмов. Художник Джеф Хан (Jeff Han) предлагает осмысление популярных брендов с помощью живописи XIX века – логотипы Nike, Netflix встраиваются в катастрофические полотна эпохи романтизма, а его макдональдсовский клоун становится обитателем чуждого подводного дна. Глеб Александров также использует Midjourney, чтобы представить жуткие космические пространства и экспрессивные космические станции. На youtube канале demonflyingfox можно встретить интересные эксперименты по переосмыслению популярных героев кино и сериалов XX века в сеттинге ситкомов 80-х, японских хорроров или тёмного фэнтези.