Голосовой помощник понимающий без голоса
Практически все современные смартфоны оборудованы голосовыми помощниками, распознающими и выполняющими команды пользователя. За последние годы разработчикам удалось довести уровень точности распознавания речи алгоритмами до уровня специалистов по набору текста, а также научить помощники поддерживать диалог, запоминая контекст предыдущих команд. Тем не менее, исследования показывают, что большинство людей не используют голосовые помощники в общественных местах, поскольку при этом они чувствуют себя некомфортно.
Юаньчунь Ши (Yuanchun Shi) и его коллеги из Университета Цинхуа разработали голосовой помощник для смартфонов, умеющий распознавать речь по движениям губ, даже если пользователь не издает звуков.
Во время работы приложение определяет лицо в кадре с камеры смартфона и после этого начинает отслеживать положение 20 контрольных точек, которые достаточно точно описывают форму губ. Кроме того, он определяет степень открытости рта, что позволяет отслеживать моменты начала и конца команды. После этого данные передаются на другой алгоритм на основе сверхточной нейросети, который занимается непосредственно распознаванием речи по движениям губ. Стоит отметить, что пока разработчики реализовали распознавание не на самом смартфоне, а на дополнительном и достаточно мощном компьютере.



