ИИ команды Google DeepMind читает по губам лучше профессионалов
Команда Google DeepMind совместно с учеными из Оксфордского университета продемонстрировала алгоритм распознавания речи по артикуляции человека.

Искусственный интеллект обучался на популярных ток-шоу вроде Newsnight, BBC Breakfast, Question Time, выходивших с 2010 по 2015 годы. Всего ИИ «посмотрел» 5 000 часов видео (118 тысяч предложений). После алгоритму предложили 200 видеофрагментов без звука. Детище DeepMind распознало 46.8% слов, тогда как профессиональный чтец по губам лишь 12.4%. Показатели могли быть еще лучше, но на стадии обучения в некоторых фрагментах аудио и видео отставали друг от друга, что мешало алгоритму корректно выстраивать ассоциативные связи.
Меня как любителя фильмов и сериалов с субтитрами новость особенно греет. Представьте, что алгоритм добавит текстовое сопровождение к видео в день выхода, а Google Translate с интегрированным машинным обучением, переведет его на русский за пару секунд. Заживем!


