Группа исследователей из Китая и США обучила нейросеть распознавать речь по губам с помощью видео.
Попытки создать эффективные алгоритмы, которые могли бы читать по губам, предпринимаются уже давно. Однако даже самые современные программы работают не так эффективно, как алгоритмы, распознающие звуковую речь.
Специалисты Чжэцзянского университета разработали методику LIBS, которая использует метод работы распознавателей речи. LIBS извлекает нужные аудиоданные из видео и при этом ориентируется на контекст происходящего и на движения губ говорящего.
Затем нейросеть соотносит эту информацию с видеоинформацией посредством выявления соответствия между ними и использует параметр фильтрации для доработки разных вариантов.
Метод дистилляции знаний основан на том, что нейросеть, обученная на большом количестве данных, выступает моделью-учителем для нейросети-ученика. Обе сети получают одинаковый набор данных, но ученик при этом пытается повторять за учителем.
В новом исследовании нейросеть распознавания речи по аудиозаписи выступает в качестве учителя для алгоритма, который учится читать по губам. Результаты показали, что новый алгоритм распознаёт речь по губам на 7,66% лучше, чем ранее созданные приложения.