
Очки с искусственным интеллектом понимают беззвучную речь
Исследователи из Корнельского университета, штат Нью-Йорк, разработали интерфейс распознавания беззвучной речи, который использует акустическое зондирование и искусственный интеллект (ИИ) для непрерывного распознавания до 31 беззвучной команды.
Носимый интерфейс с низким энергопотреблением, получил название EchoSpeech («Эхо-речь»). Устройству требуется всего несколько минут для обучения пользователя, прежде чем оно распознает команды, и затем систему можно запускать на смартфоне.
— Руидонг Чжан, ведущий автор EchoSpeech, докторант кафедры информатики.
В своём нынешнем виде EchoSpeech можно также использовать для общения с другими людьми через смартфон в местах, где звучащая речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Интерфейс беззвучной речи также можно совместить со стилусом и использовать с программным обеспечением для проектирования, таким как CAD, чтобы обходиться без клавиатуры и мыши.
Оснащённые парой микрофонов и динамиков размером меньше карандашных ластиков, очки EchoSpeech превращаются в носимую гидроакустическую систему на базе ИИ, посылающую и принимающую звуковые волны на основе движений лица и рта в частности. Алгоритм глубокого обучения затем анализирует эти профили в режиме реального времени с точностью около 95%.
Чен Чжан, доцент кафедры информатики и директор лаборатории интеллектуальных компьютерных интерфейсов для будущих взаимодействий (SciFi) в Корнелле, пояснил, что для восприятия данных сонар направляют на говорящего. В итоге изобретение в виде очков получилось маленьким, экономичным, а также сохраняет конфиденциальность.
Большинство технологий распознавания беззвучной речи ограничены набором команд и требуют, чтобы пользователь смотрел на камеру или носил её, что непрактично и неосуществимо, добавил Чен Чжан. По его словам, существуют также серьёзные проблемы с конфиденциальностью, связанные с носимыми камерами — как для пользователя, так и для тех, с кем тот взаимодействует.
— Франсуа Гимбретьер, профессор информатики.
А поскольку данные обрабатываются локально на смартфоне, а не загружаются в облако, конфиденциальная информация не выходит из-под контроля.
Носимый интерфейс с низким энергопотреблением, получил название EchoSpeech («Эхо-речь»). Устройству требуется всего несколько минут для обучения пользователя, прежде чем оно распознает команды, и затем систему можно запускать на смартфоне.
Для людей, которые не могут озвучить речь, эта технология может стать отличным способом синтезировать слова. Это может вернуть пациентам их голоса
— Руидонг Чжан, ведущий автор EchoSpeech, докторант кафедры информатики.
В своём нынешнем виде EchoSpeech можно также использовать для общения с другими людьми через смартфон в местах, где звучащая речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Интерфейс беззвучной речи также можно совместить со стилусом и использовать с программным обеспечением для проектирования, таким как CAD, чтобы обходиться без клавиатуры и мыши.
Оснащённые парой микрофонов и динамиков размером меньше карандашных ластиков, очки EchoSpeech превращаются в носимую гидроакустическую систему на базе ИИ, посылающую и принимающую звуковые волны на основе движений лица и рта в частности. Алгоритм глубокого обучения затем анализирует эти профили в режиме реального времени с точностью около 95%.
Чен Чжан, доцент кафедры информатики и директор лаборатории интеллектуальных компьютерных интерфейсов для будущих взаимодействий (SciFi) в Корнелле, пояснил, что для восприятия данных сонар направляют на говорящего. В итоге изобретение в виде очков получилось маленьким, экономичным, а также сохраняет конфиденциальность.
Большинство технологий распознавания беззвучной речи ограничены набором команд и требуют, чтобы пользователь смотрел на камеру или носил её, что непрактично и неосуществимо, добавил Чен Чжан. По его словам, существуют также серьёзные проблемы с конфиденциальностью, связанные с носимыми камерами — как для пользователя, так и для тех, с кем тот взаимодействует.
Технология акустического восприятия EchoSpeech устраняет необходимость в видеокамерах. А поскольку аудиоданные намного меньше, чем изображения или видео, для их обработки требуется меньшая пропускная способность, и их можно передавать на смартфон через блютус в режиме реального времени
— Франсуа Гимбретьер, профессор информатики.
А поскольку данные обрабатываются локально на смартфоне, а не загружаются в облако, конфиденциальная информация не выходит из-под контроля.
- Дмитрий Ладыгин
- youtu.be/ZjucAwFqVqQ
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Пес войны из вечной мерзлоты: российские ученые «воскресили» самого древнего спецназовца Сибири
Уникальная реконструкция Северо-Восточного федерального университета действительно потрясает!...

Сканирование «Титаника» раскрыло героические поступки на тонущем корабле
Появились сенсационные подробности последних часов гибнущего судна....

Аргентинские ученые предложили неожиданную разгадку тайны Антикитерского механизма
Возможно, он постоянно «зависал», как старый компьютер. Или был вообще… игрушкой....

Почему западные эксперты боятся российских спутников-призраков?
Собрали для вас информацию по новой секретной российской миссии....

В мозгах спецназовцев обнаружились скрытые аномалии
Новейшее исследование показало, что обычный МРТ вообще не видит некоторые травмы головы....

60 косаток разом напали на редкого кита у берегов Западной Австралии
Жестокость 40-минутной охоты ужаснула даже бывалых ученых....

Пока мир тонет в песках, эта пустыня стремительно зеленеет!
Ученые рассказали, почему Великая индийская пустыня стала на 38% зеленее всего за 20 лет....

В Австралии «поправили» гены ядовитых жаб и создали ненасытных каннибалов
Генетически модифицированная ага никогда не взрослеет....

Причина необъяснимых нападений морских львов на людей наконец-то раскрыта
Все дело в редком токсине, который заполонил прибрежные воды Калифорнии....

Если бы не астероид, динозавры до сих пор жили бы на планете
Новое исследование показало, что древние ящеры не были обречены до глобальной катастрофы....

Общий наркоз стирает уникальность головного мозга
Открытие поможет выводить пациентов из комы....

Чужой бог в сердце Тикаля: Тайна алтаря, который хотели забыть
Археологи рассказали, почему майя стирали следы чужой цивилизации....

Археологи обнаружили в Египте 3400-летний затерянный город
Самое поразительное: он скрывался… под руинами древнегреческого некрополя....

В 30 раз экономнее, в 50 раз быстрее — вычислительная электроника переходит… на свет
Фотонные чипы отправляют кремний на пенсию?...

Живые громоотводы: раскрыта тайна деревьев, которые заставили молнию работать на себя
Ученые говорят, что Dipteryx oleifera переиграли саму природу....

Fauxtomation: как за фасадом ИИ скрываются «рабы» с цифровых «плантаций»
Оказалось, что вместо нейросетей работают тысячи филиппинцев за 1,5 $ в час....