27 мая 2025Интернет

ByteDance представила мощную модель генерации и редактирования изображений Bagel

Обложка:  Фото: ByteDance
Обложка: Фото: ByteDance

Китайская технологическая компания ByteDance, владеющая TikTok, анонсировала собственную мультимодальную модель под названием Bagel, способную работать с изображениями на уровне самых передовых разработок в индустрии, включая GPT-4o от OpenAI и Gemini 2.0 от Google.

Модель обладает внушительными характеристиками — семь миллиардов активных параметров, — и сейчас доступна в формате бесплатной демоверсии. Bagel умеет не только создавать и редактировать изображения, но и анализировать графики, интерпретировать содержимое фотографий и даже давать пояснения к ним.

Альберт Эйнштейн в стиле аниме Источник ByteDance

Альберт Эйнштейн в стиле аниме Источник ByteDance

Одной из особенностей стала возможность включения режима «рассуждений», при котором Bagel делает попытку интеллектуального анализа изображения с учётом контекста. Например, модель успешно «развернула» покрывало на фото, стараясь сохранить его узор — демонстрация того, как она способна «представлять», что скрыто за пределами кадра.

Источник: ByteDance

Источник: ByteDance

Несмотря на заявленные возможности, в демоверсии могут наблюдаться замедления и перебои, предупреждают разработчики. Тем, кто хочет интегрировать Bagel в свои проекты или протестировать её в стабильной среде, предлагается локальная установка. Исходный код уже опубликован — модель выложена на HuggingFace и GitHub.

Фигурка в коробке, созданная по фотографии Источник: ByteDance

Фигурка в коробке, созданная по фотографии Источник: ByteDance

Комментарии
Чтобы оставить комментарий, Войдите или Зарегистрируйтесь