Очки с искусственным интеллектом понимают беззвучную речь
Исследователи из Корнельского университета, штат Нью-Йорк, разработали интерфейс распознавания беззвучной речи, который использует акустическое зондирование и искусственный интеллект (ИИ) для непрерывного распознавания до 31 беззвучной команды.
Носимый интерфейс с низким энергопотреблением, получил название EchoSpeech («Эхо-речь»). Устройству требуется всего несколько минут для обучения пользователя, прежде чем оно распознает команды, и затем систему можно запускать на смартфоне.
— Руидонг Чжан, ведущий автор EchoSpeech, докторант кафедры информатики.
В своём нынешнем виде EchoSpeech можно также использовать для общения с другими людьми через смартфон в местах, где звучащая речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Интерфейс беззвучной речи также можно совместить со стилусом и использовать с программным обеспечением для проектирования, таким как CAD, чтобы обходиться без клавиатуры и мыши.
Оснащённые парой микрофонов и динамиков размером меньше карандашных ластиков, очки EchoSpeech превращаются в носимую гидроакустическую систему на базе ИИ, посылающую и принимающую звуковые волны на основе движений лица и рта в частности. Алгоритм глубокого обучения затем анализирует эти профили в режиме реального времени с точностью около 95%.
Чен Чжан, доцент кафедры информатики и директор лаборатории интеллектуальных компьютерных интерфейсов для будущих взаимодействий (SciFi) в Корнелле, пояснил, что для восприятия данных сонар направляют на говорящего. В итоге изобретение в виде очков получилось маленьким, экономичным, а также сохраняет конфиденциальность.
Большинство технологий распознавания беззвучной речи ограничены набором команд и требуют, чтобы пользователь смотрел на камеру или носил её, что непрактично и неосуществимо, добавил Чен Чжан. По его словам, существуют также серьёзные проблемы с конфиденциальностью, связанные с носимыми камерами — как для пользователя, так и для тех, с кем тот взаимодействует.
— Франсуа Гимбретьер, профессор информатики.
А поскольку данные обрабатываются локально на смартфоне, а не загружаются в облако, конфиденциальная информация не выходит из-под контроля.
Носимый интерфейс с низким энергопотреблением, получил название EchoSpeech («Эхо-речь»). Устройству требуется всего несколько минут для обучения пользователя, прежде чем оно распознает команды, и затем систему можно запускать на смартфоне.
Для людей, которые не могут озвучить речь, эта технология может стать отличным способом синтезировать слова. Это может вернуть пациентам их голоса
— Руидонг Чжан, ведущий автор EchoSpeech, докторант кафедры информатики.
В своём нынешнем виде EchoSpeech можно также использовать для общения с другими людьми через смартфон в местах, где звучащая речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Интерфейс беззвучной речи также можно совместить со стилусом и использовать с программным обеспечением для проектирования, таким как CAD, чтобы обходиться без клавиатуры и мыши.
Оснащённые парой микрофонов и динамиков размером меньше карандашных ластиков, очки EchoSpeech превращаются в носимую гидроакустическую систему на базе ИИ, посылающую и принимающую звуковые волны на основе движений лица и рта в частности. Алгоритм глубокого обучения затем анализирует эти профили в режиме реального времени с точностью около 95%.
Чен Чжан, доцент кафедры информатики и директор лаборатории интеллектуальных компьютерных интерфейсов для будущих взаимодействий (SciFi) в Корнелле, пояснил, что для восприятия данных сонар направляют на говорящего. В итоге изобретение в виде очков получилось маленьким, экономичным, а также сохраняет конфиденциальность.
Большинство технологий распознавания беззвучной речи ограничены набором команд и требуют, чтобы пользователь смотрел на камеру или носил её, что непрактично и неосуществимо, добавил Чен Чжан. По его словам, существуют также серьёзные проблемы с конфиденциальностью, связанные с носимыми камерами — как для пользователя, так и для тех, с кем тот взаимодействует.
Технология акустического восприятия EchoSpeech устраняет необходимость в видеокамерах. А поскольку аудиоданные намного меньше, чем изображения или видео, для их обработки требуется меньшая пропускная способность, и их можно передавать на смартфон через блютус в режиме реального времени
— Франсуа Гимбретьер, профессор информатики.
А поскольку данные обрабатываются локально на смартфоне, а не загружаются в облако, конфиденциальная информация не выходит из-под контроля.
- Дмитрий Ладыгин
- youtu.be/ZjucAwFqVqQ
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Припрятал сокровища, но был убит: историки раскрыли трагическую судьбу владельца богатейшего клада Москвы
Почему наследники так и не нашли это огромное состояние, хотя ходили по нему каждый день?...
Пчелы стремительно исчезают в России: из-за чего так происходит и чем это грозит россиянам?
Почему ученые считают, что государство самоустранилось от решения данной проблемы?...
Еще одно пророчество Жириновского сбывается прямо сейчас. Белые люди едут в Россию
По словам экспертов, на этот раз все очень серьезно. Договариваться о переселенцах приехал Эролл Маск, отец знаменитого миллиардера...
Тайну «проклятия фараонов» раскрыло письмо столетней давности
Открыватель гробницы Тутанхамона, археолог Говард Картер, прямо называл имя человека, который изобрел «сенсацию». В итоге потрясающее научное открытие...
«Боевые роботы» СССР на Зимней войне: как уникальные танки без экипажей вызывали ужас у финнов
Эксперты назвали главные причины, почему прорывной проект Остехбюро был закрыт...
Стало известно, почему Эверест аномально ухудшает здоровье у тысяч альпинистов
Никакой мистики, но очень много криминала. Непальская полиция раскрыла колоссальное преступление, жертвами которого стали 4782 иностранца...
Что не так с отстрелом бакланов на Байкале: почему иркутский биолог раскритиковал планы областной администрации?
Профессор Сергей Пыжьянов предупреждает: ответ, который может дать природа, сведет на нет все усилия человека. В итоге будет только хуже...
100 000-летняя загадка: ученые назвали предмет, благодаря которому люди сумели заселить всю планету
Американские антропологи не ожидали, что такой простой артефакт окажется настолько универсальным и полезным...
Кусочек мха помог раскрыть запутанное дело о разграблении могил
Преступники имели очень сильное алиби, но хлорофилловые часы сдали их с поличным...