22 ноября 2016Технологии
Обновлено 23.11.2016

ИИ команды Google DeepMind читает по губам лучше профессионалов


Команда Google DeepMind совместно с учеными из Оксфордского университета продемонстрировала алгоритм распознавания речи по артикуляции человека.

ИИ команды Google DeepMind читает по губам лучше профессионалов - фото 1

Искусственный интеллект обучался на популярных ток-шоу вроде Newsnight, BBC Breakfast, Question Time, выходивших с 2010 по 2015 годы. Всего ИИ «посмотрел» 5 000 часов видео (118 тысяч предложений). После алгоритму предложили 200 видеофрагментов без звука. Детище DeepMind распознало 46.8% слов, тогда как профессиональный чтец по губам лишь 12.4%. Показатели могли быть еще лучше, но на стадии обучения в некоторых фрагментах аудио и видео отставали друг от друга, что мешало алгоритму корректно выстраивать ассоциативные связи.

Меня как любителя фильмов и сериалов с субтитрами новость особенно греет. Представьте, что алгоритм добавит текстовое сопровождение к видео в день выхода, а Google Translate с интегрированным машинным обучением, переведет его на русский за пару секунд. Заживем!

Комментарии 8
Чтобы оставить комментарий,Войдите или Зарегистрируйтесь
MxPR
MxPR
А VoCo за 10 минут озвучит его любым голосом https://www.youtube.com/watch?... 
zmant
zmant
contract.wars.acc2
contract.wars.acc2
Почему она должна делать это хуже людей? Согласен, что робот может водить хуже или играть в футбол. А почему он дложен хуже обрабатывать статические данные. Например картинки губ, которые меняются?