Российская разработка может предсказать ещё не озвученное слово
Исследователи из НИУ ВШЭ и Московского государственного медико-стоматологического университета разработали модель машинного обучения, которая может предсказать слово, которое собирается произнести испытуемый. Система действует на основе нейронной активности, записанной с помощью минимального количества вставленных в мозг электродов.
Статью «Декодирование речи с помощью небольшого набора пространственно разделённых минимально инвазивных внутричерепных электродов ЭЭГ с компактной и интерпретируемой нейронной сетью» опубликовали в «Журнале нейронной инженерии» (Journal of Neural Engineering). Исследование финансировалось за счёт гранта Правительства Российской Федерации в рамках национального проекта «Наука и университеты».
Миллионы людей во всем мире страдают от нарушений речи. Причины потери речи могут быть разными, например, инсульт или врождённые заболевания. Сегодня доступны технологии для восстановления коммуникативной функции таких пациентов, в том числе интерфейсы «беззвучной речи». Такие способы распознают речь, отслеживая движение артикуляционных мышц, когда человек произносит слова, не издавая ни звука. Однако такие устройства помогают некоторым пациентам, но не тем, у кого, например, паралич лицевых мышц.
Речевые нейропротезы — интерфейсы мозг-компьютер, способные декодировать речь на основе активности мозга, — могут обеспечить таким пациентам доступное и надёжное решение для восстановления общения. В отличие от персональных компьютеров, устройства с интерфейсом мозг-компьютер (ИМК) управляются непосредственно мозгом без необходимости использования клавиатуры или микрофона. Однако эта технология требует серьёзного вмешательства по имплантации электродов в ткани головного мозга. Тем более, наиболее точное распознавание речи достигается с помощью нейропротезов с электродами, покрывающими большую площадь кортикальной поверхности. К тому же решения для считывания мозговой активности не предназначены для длительного использования и представляют значительный риск для пациентов.
Исследователи Центра биоэлектрических интерфейсов НИУ ВШЭ и Московского государственного медико-стоматологического университета изучили возможность создания функционирующего нейропротеза, способного декодировать речь с приемлемой точностью путём считывания активности мозга с небольшого набора электродов, которые имплантировали в ограниченную область коры головного мозга. Авторы предполагают, что в будущем эта минимально инвазивная процедура может даже выполняться под местной анестезией. В опубликованном исследовании учёные собрали данные о двух пациентах с эпилепсией, которым ранее с другой целью вживили внутричерепные электроды — чтобы выявить зоны, в которых возникают приступы.
У первого пациента имплантировали с двух сторон в общей сложности пять стержней стереоэлектроэнцефалографии (sEEG) с шестью контактами в каждом. А второму пациенту вживили девять электрокортикографических (ECoG) полосок с восемью контактами в каждой. В отличие от ECoG, электроды для sEEG могут быть имплантированы без полной трепанации через отверстие в черепе. В этом исследовании для декодирования нейронной активности использовались только шесть контактов одного стержня sEEG у одного пациента и восемь контактов одной полоски ECoG у другого.
Испытуемых попросили прочитать вслух шесть предложений, каждое из которых повторялось от 30 до 60 раз в случайном порядке. Предложения различались по структуре, и большинство слов в одном предложении начинались с одной и той же буквы. Предложения содержали в общей сложности 26 различных слов. Пока испытуемые читали, электроды регистрировали их мозговую активность.
Затем эти данные сопоставили со звуковыми сигналами, чтобы сформировать 27 фрагментов звучания, включая 26 слов и один фрагмент тишины. Полученный обучающий набор данных содержал сигналы, записанные в первые 40 минут эксперимента. Его передали в модель машинного обучения с архитектурой, основанной на нейронных сетях. Задача обучения для нейронной сети состояла в том, чтобы предсказать следующее произнесенное слово (фрагмент) на основе данных нейронной активности, предшествующих произнесению.
Разрабатывая архитектуру нейронной сети, исследователи хотели сделать её простой, компактной и легко интерпретируемой. Они разработали двухэтапную архитектуру, которая сначала извлекала внутренние речевые представления из записанных данных мозговой активности, производя логарифмические спектральные коэффициенты, а затем предсказывала конкретный фрагмент, то есть слово или молчание.
Обученная таким образом нейронная сеть достигла точности в 55%, используя только шесть каналов данных, записанных одним электродом sEEG у первого пациента, и 70% точности, используя только восемь каналов данных, записанных одной полосой ECoG у второго пациента. Достигнутые результаты сопоставимы с точностью, полученной в других исследованиях с использованием устройств, которые требовали имплантации электродов по всей поверхности коры головного мозга.
Настроенная интерпретируемая модель позволяет объяснить в нейрофизиологических терминах, какая нейронная информация вносит наибольший вклад в предсказание слова, которое должно быть произнесено. Исследователи изучили сигналы, поступающие от разных групп нейронов, чтобы определить, какие из них были ключевыми для последующей задачи. Результаты согласуются с результатами отображения речи. В основе — предположение, что модель использует нейронные сигналы, которые являются ключевыми, и поэтому могут быть использованы для декодирования воображаемой речи.
Ещё одно преимущество этого решения — оно не требует построения функций вручную. Модель научилась извлекать речевые представления непосредственно из данных о мозговой активности. Интерпретируемость результатов также указывает на то, что сеть декодирует сигналы от мозга, а не от какой-либо сопутствующей активности, такой как электрические сигналы от артикуляционных мышц или возникающие из-за эффекта микрофона.
Исследователи подчёркивают, что прогноз всегда основывался на данных нейронной активности, предшествующих высказыванию. Они уверены в гарантии того, что правило принятия решений не использовало реакцию слуховой коры на уже произнесённую речь.
— Алексей Осадчий, ведущий автор исследования, директор Центра биоэлектрических интерфейсов Института когнитивной нейронауки НИУ ВШЭ.
Статью «Декодирование речи с помощью небольшого набора пространственно разделённых минимально инвазивных внутричерепных электродов ЭЭГ с компактной и интерпретируемой нейронной сетью» опубликовали в «Журнале нейронной инженерии» (Journal of Neural Engineering). Исследование финансировалось за счёт гранта Правительства Российской Федерации в рамках национального проекта «Наука и университеты».
Миллионы людей во всем мире страдают от нарушений речи. Причины потери речи могут быть разными, например, инсульт или врождённые заболевания. Сегодня доступны технологии для восстановления коммуникативной функции таких пациентов, в том числе интерфейсы «беззвучной речи». Такие способы распознают речь, отслеживая движение артикуляционных мышц, когда человек произносит слова, не издавая ни звука. Однако такие устройства помогают некоторым пациентам, но не тем, у кого, например, паралич лицевых мышц.
Речевые нейропротезы — интерфейсы мозг-компьютер, способные декодировать речь на основе активности мозга, — могут обеспечить таким пациентам доступное и надёжное решение для восстановления общения. В отличие от персональных компьютеров, устройства с интерфейсом мозг-компьютер (ИМК) управляются непосредственно мозгом без необходимости использования клавиатуры или микрофона. Однако эта технология требует серьёзного вмешательства по имплантации электродов в ткани головного мозга. Тем более, наиболее точное распознавание речи достигается с помощью нейропротезов с электродами, покрывающими большую площадь кортикальной поверхности. К тому же решения для считывания мозговой активности не предназначены для длительного использования и представляют значительный риск для пациентов.
Исследователи Центра биоэлектрических интерфейсов НИУ ВШЭ и Московского государственного медико-стоматологического университета изучили возможность создания функционирующего нейропротеза, способного декодировать речь с приемлемой точностью путём считывания активности мозга с небольшого набора электродов, которые имплантировали в ограниченную область коры головного мозга. Авторы предполагают, что в будущем эта минимально инвазивная процедура может даже выполняться под местной анестезией. В опубликованном исследовании учёные собрали данные о двух пациентах с эпилепсией, которым ранее с другой целью вживили внутричерепные электроды — чтобы выявить зоны, в которых возникают приступы.
У первого пациента имплантировали с двух сторон в общей сложности пять стержней стереоэлектроэнцефалографии (sEEG) с шестью контактами в каждом. А второму пациенту вживили девять электрокортикографических (ECoG) полосок с восемью контактами в каждой. В отличие от ECoG, электроды для sEEG могут быть имплантированы без полной трепанации через отверстие в черепе. В этом исследовании для декодирования нейронной активности использовались только шесть контактов одного стержня sEEG у одного пациента и восемь контактов одной полоски ECoG у другого.
Испытуемых попросили прочитать вслух шесть предложений, каждое из которых повторялось от 30 до 60 раз в случайном порядке. Предложения различались по структуре, и большинство слов в одном предложении начинались с одной и той же буквы. Предложения содержали в общей сложности 26 различных слов. Пока испытуемые читали, электроды регистрировали их мозговую активность.
Затем эти данные сопоставили со звуковыми сигналами, чтобы сформировать 27 фрагментов звучания, включая 26 слов и один фрагмент тишины. Полученный обучающий набор данных содержал сигналы, записанные в первые 40 минут эксперимента. Его передали в модель машинного обучения с архитектурой, основанной на нейронных сетях. Задача обучения для нейронной сети состояла в том, чтобы предсказать следующее произнесенное слово (фрагмент) на основе данных нейронной активности, предшествующих произнесению.
Разрабатывая архитектуру нейронной сети, исследователи хотели сделать её простой, компактной и легко интерпретируемой. Они разработали двухэтапную архитектуру, которая сначала извлекала внутренние речевые представления из записанных данных мозговой активности, производя логарифмические спектральные коэффициенты, а затем предсказывала конкретный фрагмент, то есть слово или молчание.
Обученная таким образом нейронная сеть достигла точности в 55%, используя только шесть каналов данных, записанных одним электродом sEEG у первого пациента, и 70% точности, используя только восемь каналов данных, записанных одной полосой ECoG у второго пациента. Достигнутые результаты сопоставимы с точностью, полученной в других исследованиях с использованием устройств, которые требовали имплантации электродов по всей поверхности коры головного мозга.
Настроенная интерпретируемая модель позволяет объяснить в нейрофизиологических терминах, какая нейронная информация вносит наибольший вклад в предсказание слова, которое должно быть произнесено. Исследователи изучили сигналы, поступающие от разных групп нейронов, чтобы определить, какие из них были ключевыми для последующей задачи. Результаты согласуются с результатами отображения речи. В основе — предположение, что модель использует нейронные сигналы, которые являются ключевыми, и поэтому могут быть использованы для декодирования воображаемой речи.
Ещё одно преимущество этого решения — оно не требует построения функций вручную. Модель научилась извлекать речевые представления непосредственно из данных о мозговой активности. Интерпретируемость результатов также указывает на то, что сеть декодирует сигналы от мозга, а не от какой-либо сопутствующей активности, такой как электрические сигналы от артикуляционных мышц или возникающие из-за эффекта микрофона.
Исследователи подчёркивают, что прогноз всегда основывался на данных нейронной активности, предшествующих высказыванию. Они уверены в гарантии того, что правило принятия решений не использовало реакцию слуховой коры на уже произнесённую речь.
Использование таких интерфейсов сопряжено с минимальными рисками для пациента. Если всё получится, то, возможно, удастся расшифровать воображаемую речь по нейронной активности, регистрируемой небольшим количеством минимально инвазивных электродов, имплантированных в амбулаторных условиях под местной анестезией
— Алексей Осадчий, ведущий автор исследования, директор Центра биоэлектрических интерфейсов Института когнитивной нейронауки НИУ ВШЭ.
- Дмитрий Ладыгин
- pexels.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Искали золото в Австралии, а обнаружили следы взрыва тысяч атомных бомб
Почему находка древней катастрофы сильно продвинуло исследование Марса?...
Секреты «русского гена»: о чем молчит гаплогруппа R1a1?
67 общих маркеров ДНК: половина современных русских мужчин и две трети мужчин из высших каст Северной Индии происходят от одного предка. И не только......
Непотушенный окурок взорвал целый город: чудовищная катастрофа и чудовищная ложь в США
Почему власти десятилетиями умалчивали истинную причину самого мощного техногенного ЧП в истории Штатов?...
Если высохнет Каспий: почему это особенно опасно для России?
Прогнозы пугают: уникальное море-озеро может уменьшиться почти на 40%. И это катастрофа...
Третий сын Сталина: родство подтвердил уникальный документ из Красноярского архива
Будущий вождь обещал жениться, но судьба и история оказались против этого брака...
«Код» таинственной золотой подводной сферы наконец-то взломан спустя три года
Ученые говорят: это был настоящий ДНК-детектив. Внеземная «капсула» оказалась «деталью» морского гиганта...
Гениально, многоэтажно и смертельно опасно: как римляне научились строить высотные дома
Почему реальный Древний Рим выглядел вообще не так, как нам показывают в исторических фильмах?...
Почему индейцы — родственники россиян: что нашли в ДНК коренных американцев?
Как связан древний мальчик с Байкала с племенем в Амазонии? Какой подарок от древних людей помог заселить Америку?...
Первый раз настоящий сахар нашли в космосе: почему ученые в восторге?
Чем космический сахар отличается от земного? И почему биологи говорят, что это сенсация?...
Тайный алтарь на развалинах мертвого города майя обнаружили археологи
Выяснилось, что индейцы долгие столетия продолжали исповедовать, казалось бы, давно забытый древний культ...
За что Владимир Ленин трижды выдвигался на Нобелевскую премию?
Почему самая большая «мирная» награда так и не дошла до главного большевика?...
Старше на 500 лет: что скрывает «тестовая модель» Стоунхенджа?
Сначала «тренировались» на дереве, а потом перешли на камень...
Прорыв в астрономии: найти жизнь в космосе будет гораздо проще
Ученых не пугает даже погрешность в 20%. Зато будут просканированы тысячи планет...