Очки с искусственным интеллектом понимают беззвучную речь
Исследователи из Корнельского университета, штат Нью-Йорк, разработали интерфейс распознавания беззвучной речи, который использует акустическое зондирование и искусственный интеллект (ИИ) для непрерывного распознавания до 31 беззвучной команды.
Носимый интерфейс с низким энергопотреблением, получил название EchoSpeech («Эхо-речь»). Устройству требуется всего несколько минут для обучения пользователя, прежде чем оно распознает команды, и затем систему можно запускать на смартфоне.
— Руидонг Чжан, ведущий автор EchoSpeech, докторант кафедры информатики.
В своём нынешнем виде EchoSpeech можно также использовать для общения с другими людьми через смартфон в местах, где звучащая речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Интерфейс беззвучной речи также можно совместить со стилусом и использовать с программным обеспечением для проектирования, таким как CAD, чтобы обходиться без клавиатуры и мыши.
Оснащённые парой микрофонов и динамиков размером меньше карандашных ластиков, очки EchoSpeech превращаются в носимую гидроакустическую систему на базе ИИ, посылающую и принимающую звуковые волны на основе движений лица и рта в частности. Алгоритм глубокого обучения затем анализирует эти профили в режиме реального времени с точностью около 95%.
Чен Чжан, доцент кафедры информатики и директор лаборатории интеллектуальных компьютерных интерфейсов для будущих взаимодействий (SciFi) в Корнелле, пояснил, что для восприятия данных сонар направляют на говорящего. В итоге изобретение в виде очков получилось маленьким, экономичным, а также сохраняет конфиденциальность.
Большинство технологий распознавания беззвучной речи ограничены набором команд и требуют, чтобы пользователь смотрел на камеру или носил её, что непрактично и неосуществимо, добавил Чен Чжан. По его словам, существуют также серьёзные проблемы с конфиденциальностью, связанные с носимыми камерами — как для пользователя, так и для тех, с кем тот взаимодействует.
— Франсуа Гимбретьер, профессор информатики.
А поскольку данные обрабатываются локально на смартфоне, а не загружаются в облако, конфиденциальная информация не выходит из-под контроля.
Носимый интерфейс с низким энергопотреблением, получил название EchoSpeech («Эхо-речь»). Устройству требуется всего несколько минут для обучения пользователя, прежде чем оно распознает команды, и затем систему можно запускать на смартфоне.
Для людей, которые не могут озвучить речь, эта технология может стать отличным способом синтезировать слова. Это может вернуть пациентам их голоса
— Руидонг Чжан, ведущий автор EchoSpeech, докторант кафедры информатики.
В своём нынешнем виде EchoSpeech можно также использовать для общения с другими людьми через смартфон в местах, где звучащая речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Интерфейс беззвучной речи также можно совместить со стилусом и использовать с программным обеспечением для проектирования, таким как CAD, чтобы обходиться без клавиатуры и мыши.
Оснащённые парой микрофонов и динамиков размером меньше карандашных ластиков, очки EchoSpeech превращаются в носимую гидроакустическую систему на базе ИИ, посылающую и принимающую звуковые волны на основе движений лица и рта в частности. Алгоритм глубокого обучения затем анализирует эти профили в режиме реального времени с точностью около 95%.
Чен Чжан, доцент кафедры информатики и директор лаборатории интеллектуальных компьютерных интерфейсов для будущих взаимодействий (SciFi) в Корнелле, пояснил, что для восприятия данных сонар направляют на говорящего. В итоге изобретение в виде очков получилось маленьким, экономичным, а также сохраняет конфиденциальность.
Большинство технологий распознавания беззвучной речи ограничены набором команд и требуют, чтобы пользователь смотрел на камеру или носил её, что непрактично и неосуществимо, добавил Чен Чжан. По его словам, существуют также серьёзные проблемы с конфиденциальностью, связанные с носимыми камерами — как для пользователя, так и для тех, с кем тот взаимодействует.
Технология акустического восприятия EchoSpeech устраняет необходимость в видеокамерах. А поскольку аудиоданные намного меньше, чем изображения или видео, для их обработки требуется меньшая пропускная способность, и их можно передавать на смартфон через блютус в режиме реального времени
— Франсуа Гимбретьер, профессор информатики.
А поскольку данные обрабатываются локально на смартфоне, а не загружаются в облако, конфиденциальная информация не выходит из-под контроля.
- Дмитрий Ладыгин
- youtu.be/ZjucAwFqVqQ
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
«Цирк Шубикова» с бомбами: как в СССР создали «невозможный» авианосец
Самолеты атаковали противника, срываясь с летающей авиабазы. Это пытались сделать и США, и Германия, но получилось только у Советского Союза...
Медный парадокс: почему электричество никогда не придет в каждый дом
Эксперты считают, что развитие цивилизации уперлось в мощный геологический барьер. Кто виноват и как выходить из этой ситуации?...
Новое исследование: Христофор Колумб — вообще не тот, кем его считали историки
Ученые даже назвали подлинное имя великого мореплавателя...
Еще одна тайна Аркаима разгадана: ученые объяснили, почему древний город построен именно на этом месте
Оказалось, что наши далекие предки очень умело использовали природную инфраструктуру и обладали инженерными знаниями...
Что за звуки сводили с ума смотрителей маяков: тайна разгадана учеными
Эксперты из Института поиска внеземного разума говорят: новое открытие в буквальном смысле открыло им глаза и уши...
60 млрд Солнц в одной точке: что скрывает самая тяжелая пара черных дыр?
Секрет абсолютной пустоты, похоже, разгадан. Там нет вообще ничего: Ни пыли, ни газа, ни звезд...
Назад в будущее: почему Швеция запрещает смартфоны в школах и возвращается к бумажным учебникам?
По словам экспертов, отмена цифровизации сейчас происходит во многих странах. Неужели человечество одумалось и начинает выздоравливать?...
Трехметровые осетры и тайна древнего русского города: историки раскрыли, как появилась Старая Ладога
Ответы на многие вопросы дали… 67 000 костей. Иногда, чтобы распутать исторический детектив, надо заглядывать не в хроники, а в мусорные кучи...
В тени российского орла: сколько раз Петербург спасал Вашингтон от полной гибели?
Когда-то американцы клялись, что США будет дружить с Россией, покуда светят звезды. А сейчас делают вид, что не помнят...
4600-летний секрет «неубиваемости» Великой пирамиды раскрыт: все дело в специальных камерах
Древние инженеры опередили время на тысячелетия. Строение находится на своей частоте и гасит внешние вибрации...
Мы все «марсиане»: ученые доказали, что жизнь с Красной планеты могла долететь за несколько лет
Компьютерное моделирование подтвердило: бактерии способны пережить Великий перенос с Марса на Землю. И этот процесс может идти прямо сейчас...
СССР был первым в энергии ветра: что помешало стать лидером планеты?
Это был невероятный и прорывной проект советского конструктора Юрия Кондратюка. Того самого, по расчетам которого, американцы полетели на Луну...
«Печать Евы»: почему у этих женщин рождаются только девочки
Оказалось, что старые теории вообще не работают. Но есть две мутации, которые могут усилить друг друга...