ИИ команды Google DeepMind читает по губам лучше профессионалов

Ещё больше интересных видео на YouTube канале Игромании!

Команда Google DeepMind совместно с учеными из Оксфордского университета продемонстрировала алгоритм распознавания речи по артикуляции человека.

ИИ команды Google DeepMind читает по губам лучше профессионалов - фото 1

Искусственный интеллект обучался на популярных ток-шоу вроде Newsnight, BBC Breakfast, Question Time, выходивших с 2010 по 2015 годы. Всего ИИ «посмотрел» 5 000 часов видео (118 тысяч предложений). После алгоритму предложили 200 видеофрагментов без звука. Детище DeepMind распознало 46.8% слов, тогда как профессиональный чтец по губам лишь 12.4%. Показатели могли быть еще лучше, но на стадии обучения в некоторых фрагментах аудио и видео отставали друг от друга, что мешало алгоритму корректно выстраивать ассоциативные связи.

Меня как любителя фильмов и сериалов с субтитрами новость особенно греет. Представьте, что алгоритм добавит текстовое сопровождение к видео в день выхода, а Google Translate с интегрированным машинным обучением, переведет его на русский за пару секунд. Заживем!

Дота умирает. За про-сценой следят все меньше и меньше «Ониксовый шторм»: продолжение мирового бестселлера Ребекки Яррос эксклюзивно в VK Музыке Патч VALORANT 10.09 — визуальные обновления, доработки карт и улучшение качества игры

Читать ещё

Комментарии 8

Чтобы оставить комментарий, Войдите или Зарегистрируйтесь

MxPR8 лет назад

А VoCo за 10 минут озвучит его любым голосом https://www.youtube.com/watch?...

zmant8 лет назад

contract.wars.acc28 лет назад

Почему она должна делать это хуже людей? Согласен, что робот может водить хуже или играть в футбол. А почему он дложен хуже обрабатывать статические данные. Например картинки губ, которые меняются?

Всё об играх и железе

Разместить рекламу