27 мая 2025Интернет

ByteDance представила мощную модель генерации и редактирования изображений Bagel

Самое интересное о кино на YouTube канале Игромании!

Обложка: Фото: ByteDance

Китайская технологическая компания ByteDance, владеющая TikTok, анонсировала собственную мультимодальную модель под названием Bagel, способную работать с изображениями на уровне самых передовых разработок в индустрии, включая GPT-4o от OpenAI и Gemini 2.0 от Google.

Модель обладает внушительными характеристиками — семь миллиардов активных параметров, — и сейчас доступна в формате бесплатной демоверсии. Bagel умеет не только создавать и редактировать изображения, но и анализировать графики, интерпретировать содержимое фотографий и даже давать пояснения к ним.

Альберт Эйнштейн в стиле аниме Источник ByteDance

Одной из особенностей стала возможность включения режима «рассуждений», при котором Bagel делает попытку интеллектуального анализа изображения с учётом контекста. Например, модель успешно «развернула» покрывало на фото, стараясь сохранить его узор — демонстрация того, как она способна «представлять», что скрыто за пределами кадра.

Источник: ByteDance

Несмотря на заявленные возможности, в демоверсии могут наблюдаться замедления и перебои, предупреждают разработчики. Тем, кто хочет интегрировать Bagel в свои проекты или протестировать её в стабильной среде, предлагается локальная установка. Исходный код уже опубликован — модель выложена на HuggingFace и GitHub.

Фигурка в коробке, созданная по фотографии Источник: ByteDance

VK Музыка запускает летнюю развлекательную площадку в центре Москвы с концертами и стендапами Инженеры-робототехники из из подмосковья создали робота-феникса ICEGERGERT получил первую награду от VK Музыки за самый стремительный взлёт

Читать ещё

Комментарии

Чтобы оставить комментарий, Войдите или Зарегистрируйтесь

Всё об играх и железе

Разместить рекламу