Очки с искусственным интеллектом понимают беззвучную речь
Исследователи из Корнельского университета, штат Нью-Йорк, разработали интерфейс распознавания беззвучной речи, который использует акустическое зондирование и искусственный интеллект (ИИ) для непрерывного распознавания до 31 беззвучной команды.
Носимый интерфейс с низким энергопотреблением, получил название EchoSpeech («Эхо-речь»). Устройству требуется всего несколько минут для обучения пользователя, прежде чем оно распознает команды, и затем систему можно запускать на смартфоне.
— Руидонг Чжан, ведущий автор EchoSpeech, докторант кафедры информатики.
В своём нынешнем виде EchoSpeech можно также использовать для общения с другими людьми через смартфон в местах, где звучащая речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Интерфейс беззвучной речи также можно совместить со стилусом и использовать с программным обеспечением для проектирования, таким как CAD, чтобы обходиться без клавиатуры и мыши.
Оснащённые парой микрофонов и динамиков размером меньше карандашных ластиков, очки EchoSpeech превращаются в носимую гидроакустическую систему на базе ИИ, посылающую и принимающую звуковые волны на основе движений лица и рта в частности. Алгоритм глубокого обучения затем анализирует эти профили в режиме реального времени с точностью около 95%.
Чен Чжан, доцент кафедры информатики и директор лаборатории интеллектуальных компьютерных интерфейсов для будущих взаимодействий (SciFi) в Корнелле, пояснил, что для восприятия данных сонар направляют на говорящего. В итоге изобретение в виде очков получилось маленьким, экономичным, а также сохраняет конфиденциальность.
Большинство технологий распознавания беззвучной речи ограничены набором команд и требуют, чтобы пользователь смотрел на камеру или носил её, что непрактично и неосуществимо, добавил Чен Чжан. По его словам, существуют также серьёзные проблемы с конфиденциальностью, связанные с носимыми камерами — как для пользователя, так и для тех, с кем тот взаимодействует.
— Франсуа Гимбретьер, профессор информатики.
А поскольку данные обрабатываются локально на смартфоне, а не загружаются в облако, конфиденциальная информация не выходит из-под контроля.
Носимый интерфейс с низким энергопотреблением, получил название EchoSpeech («Эхо-речь»). Устройству требуется всего несколько минут для обучения пользователя, прежде чем оно распознает команды, и затем систему можно запускать на смартфоне.
Для людей, которые не могут озвучить речь, эта технология может стать отличным способом синтезировать слова. Это может вернуть пациентам их голоса
— Руидонг Чжан, ведущий автор EchoSpeech, докторант кафедры информатики.
В своём нынешнем виде EchoSpeech можно также использовать для общения с другими людьми через смартфон в местах, где звучащая речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Интерфейс беззвучной речи также можно совместить со стилусом и использовать с программным обеспечением для проектирования, таким как CAD, чтобы обходиться без клавиатуры и мыши.
Оснащённые парой микрофонов и динамиков размером меньше карандашных ластиков, очки EchoSpeech превращаются в носимую гидроакустическую систему на базе ИИ, посылающую и принимающую звуковые волны на основе движений лица и рта в частности. Алгоритм глубокого обучения затем анализирует эти профили в режиме реального времени с точностью около 95%.
Чен Чжан, доцент кафедры информатики и директор лаборатории интеллектуальных компьютерных интерфейсов для будущих взаимодействий (SciFi) в Корнелле, пояснил, что для восприятия данных сонар направляют на говорящего. В итоге изобретение в виде очков получилось маленьким, экономичным, а также сохраняет конфиденциальность.
Большинство технологий распознавания беззвучной речи ограничены набором команд и требуют, чтобы пользователь смотрел на камеру или носил её, что непрактично и неосуществимо, добавил Чен Чжан. По его словам, существуют также серьёзные проблемы с конфиденциальностью, связанные с носимыми камерами — как для пользователя, так и для тех, с кем тот взаимодействует.
Технология акустического восприятия EchoSpeech устраняет необходимость в видеокамерах. А поскольку аудиоданные намного меньше, чем изображения или видео, для их обработки требуется меньшая пропускная способность, и их можно передавать на смартфон через блютус в режиме реального времени
— Франсуа Гимбретьер, профессор информатики.
А поскольку данные обрабатываются локально на смартфоне, а не загружаются в облако, конфиденциальная информация не выходит из-под контроля.
- Дмитрий Ладыгин
- youtu.be/ZjucAwFqVqQ
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Таинственная «дверь» обнаружена в Антарктиде
Теория заговора против официальной науки: кто окажется прав?...
15 000 американских городов станут призраками в ближайшие десятилетия
Ученые уверены, что «там просто некому будет жить»....
Не по вкусу: комары пьют кровь не у всех подряд
Полезно понимать для защиты от опасных насекомых....
НЛО управляют армией беспилотников, которые следят за военными базами США
Загадочные дроны буквально терроризируют американских военных летчиков....
Странный случай: укус змеи подействовал на австралийца спустя 15 часов
Только 10% укушенных на самом деле получают дозу яда....
Собаки поднялись на новую ступень эволюции
Третья стадия одомашнивания — что это значит?...
20 млн жителей США могут остаться без воды
Великие озера поразила небывалая засуха....
Первые оседлые люди в Европе: в Сербии обнаружили дом возрастом 8000 лет
Обгорелое жилище перевернуло представления о ранних поселенцах....
Вспененный гель быстро останавливает кровотечение и снижает риск заражения
Учёные изобрели спасающую жизнь «повязку»....
Кошки могут понимать многие слова
Но для экспериментов голос хозяина произносил бессмыслицу....
Google срочно переходит на атомную энергию
АЭС опасны, но у Америки просто нет выхода....
Первая частная космическая станция появится на орбите в 2025 году
Комплекс, созданный с учетом проблем астронавтов, потянул на миллиард долларов....
Американские ученые отрицают ускорение глобального потепления
Формально, так и есть, но это ещё не всё....
Окаменелости в Индии рассказали о самом раннем случае разделки слонов людьми
Это произошло не менее 300 тысяч лет назад....
Детекторы ИИ ложно обвинили студентов в плагиате
Ничто не ново на всё 100%....
Режиссер фильма «Я, робот» утверждает, что Илон Маск крадет его идеи
Смех смехом, но новые проекты Маска удивительно похожи на кадры из фильма....