
Российская разработка может предсказать ещё не озвученное слово
Исследователи из НИУ ВШЭ и Московского государственного медико-стоматологического университета разработали модель машинного обучения, которая может предсказать слово, которое собирается произнести испытуемый. Система действует на основе нейронной активности, записанной с помощью минимального количества вставленных в мозг электродов.
Статью «Декодирование речи с помощью небольшого набора пространственно разделённых минимально инвазивных внутричерепных электродов ЭЭГ с компактной и интерпретируемой нейронной сетью» опубликовали в «Журнале нейронной инженерии» (Journal of Neural Engineering). Исследование финансировалось за счёт гранта Правительства Российской Федерации в рамках национального проекта «Наука и университеты».
Миллионы людей во всем мире страдают от нарушений речи. Причины потери речи могут быть разными, например, инсульт или врождённые заболевания. Сегодня доступны технологии для восстановления коммуникативной функции таких пациентов, в том числе интерфейсы «беззвучной речи». Такие способы распознают речь, отслеживая движение артикуляционных мышц, когда человек произносит слова, не издавая ни звука. Однако такие устройства помогают некоторым пациентам, но не тем, у кого, например, паралич лицевых мышц.
Речевые нейропротезы — интерфейсы мозг-компьютер, способные декодировать речь на основе активности мозга, — могут обеспечить таким пациентам доступное и надёжное решение для восстановления общения. В отличие от персональных компьютеров, устройства с интерфейсом мозг-компьютер (ИМК) управляются непосредственно мозгом без необходимости использования клавиатуры или микрофона. Однако эта технология требует серьёзного вмешательства по имплантации электродов в ткани головного мозга. Тем более, наиболее точное распознавание речи достигается с помощью нейропротезов с электродами, покрывающими большую площадь кортикальной поверхности. К тому же решения для считывания мозговой активности не предназначены для длительного использования и представляют значительный риск для пациентов.
Исследователи Центра биоэлектрических интерфейсов НИУ ВШЭ и Московского государственного медико-стоматологического университета изучили возможность создания функционирующего нейропротеза, способного декодировать речь с приемлемой точностью путём считывания активности мозга с небольшого набора электродов, которые имплантировали в ограниченную область коры головного мозга. Авторы предполагают, что в будущем эта минимально инвазивная процедура может даже выполняться под местной анестезией. В опубликованном исследовании учёные собрали данные о двух пациентах с эпилепсией, которым ранее с другой целью вживили внутричерепные электроды — чтобы выявить зоны, в которых возникают приступы.
У первого пациента имплантировали с двух сторон в общей сложности пять стержней стереоэлектроэнцефалографии (sEEG) с шестью контактами в каждом. А второму пациенту вживили девять электрокортикографических (ECoG) полосок с восемью контактами в каждой. В отличие от ECoG, электроды для sEEG могут быть имплантированы без полной трепанации через отверстие в черепе. В этом исследовании для декодирования нейронной активности использовались только шесть контактов одного стержня sEEG у одного пациента и восемь контактов одной полоски ECoG у другого.
Испытуемых попросили прочитать вслух шесть предложений, каждое из которых повторялось от 30 до 60 раз в случайном порядке. Предложения различались по структуре, и большинство слов в одном предложении начинались с одной и той же буквы. Предложения содержали в общей сложности 26 различных слов. Пока испытуемые читали, электроды регистрировали их мозговую активность.
Затем эти данные сопоставили со звуковыми сигналами, чтобы сформировать 27 фрагментов звучания, включая 26 слов и один фрагмент тишины. Полученный обучающий набор данных содержал сигналы, записанные в первые 40 минут эксперимента. Его передали в модель машинного обучения с архитектурой, основанной на нейронных сетях. Задача обучения для нейронной сети состояла в том, чтобы предсказать следующее произнесенное слово (фрагмент) на основе данных нейронной активности, предшествующих произнесению.
Разрабатывая архитектуру нейронной сети, исследователи хотели сделать её простой, компактной и легко интерпретируемой. Они разработали двухэтапную архитектуру, которая сначала извлекала внутренние речевые представления из записанных данных мозговой активности, производя логарифмические спектральные коэффициенты, а затем предсказывала конкретный фрагмент, то есть слово или молчание.
Обученная таким образом нейронная сеть достигла точности в 55%, используя только шесть каналов данных, записанных одним электродом sEEG у первого пациента, и 70% точности, используя только восемь каналов данных, записанных одной полосой ECoG у второго пациента. Достигнутые результаты сопоставимы с точностью, полученной в других исследованиях с использованием устройств, которые требовали имплантации электродов по всей поверхности коры головного мозга.
Настроенная интерпретируемая модель позволяет объяснить в нейрофизиологических терминах, какая нейронная информация вносит наибольший вклад в предсказание слова, которое должно быть произнесено. Исследователи изучили сигналы, поступающие от разных групп нейронов, чтобы определить, какие из них были ключевыми для последующей задачи. Результаты согласуются с результатами отображения речи. В основе — предположение, что модель использует нейронные сигналы, которые являются ключевыми, и поэтому могут быть использованы для декодирования воображаемой речи.
Ещё одно преимущество этого решения — оно не требует построения функций вручную. Модель научилась извлекать речевые представления непосредственно из данных о мозговой активности. Интерпретируемость результатов также указывает на то, что сеть декодирует сигналы от мозга, а не от какой-либо сопутствующей активности, такой как электрические сигналы от артикуляционных мышц или возникающие из-за эффекта микрофона.
Исследователи подчёркивают, что прогноз всегда основывался на данных нейронной активности, предшествующих высказыванию. Они уверены в гарантии того, что правило принятия решений не использовало реакцию слуховой коры на уже произнесённую речь.
— Алексей Осадчий, ведущий автор исследования, директор Центра биоэлектрических интерфейсов Института когнитивной нейронауки НИУ ВШЭ.
Статью «Декодирование речи с помощью небольшого набора пространственно разделённых минимально инвазивных внутричерепных электродов ЭЭГ с компактной и интерпретируемой нейронной сетью» опубликовали в «Журнале нейронной инженерии» (Journal of Neural Engineering). Исследование финансировалось за счёт гранта Правительства Российской Федерации в рамках национального проекта «Наука и университеты».
Миллионы людей во всем мире страдают от нарушений речи. Причины потери речи могут быть разными, например, инсульт или врождённые заболевания. Сегодня доступны технологии для восстановления коммуникативной функции таких пациентов, в том числе интерфейсы «беззвучной речи». Такие способы распознают речь, отслеживая движение артикуляционных мышц, когда человек произносит слова, не издавая ни звука. Однако такие устройства помогают некоторым пациентам, но не тем, у кого, например, паралич лицевых мышц.
Речевые нейропротезы — интерфейсы мозг-компьютер, способные декодировать речь на основе активности мозга, — могут обеспечить таким пациентам доступное и надёжное решение для восстановления общения. В отличие от персональных компьютеров, устройства с интерфейсом мозг-компьютер (ИМК) управляются непосредственно мозгом без необходимости использования клавиатуры или микрофона. Однако эта технология требует серьёзного вмешательства по имплантации электродов в ткани головного мозга. Тем более, наиболее точное распознавание речи достигается с помощью нейропротезов с электродами, покрывающими большую площадь кортикальной поверхности. К тому же решения для считывания мозговой активности не предназначены для длительного использования и представляют значительный риск для пациентов.
Исследователи Центра биоэлектрических интерфейсов НИУ ВШЭ и Московского государственного медико-стоматологического университета изучили возможность создания функционирующего нейропротеза, способного декодировать речь с приемлемой точностью путём считывания активности мозга с небольшого набора электродов, которые имплантировали в ограниченную область коры головного мозга. Авторы предполагают, что в будущем эта минимально инвазивная процедура может даже выполняться под местной анестезией. В опубликованном исследовании учёные собрали данные о двух пациентах с эпилепсией, которым ранее с другой целью вживили внутричерепные электроды — чтобы выявить зоны, в которых возникают приступы.
У первого пациента имплантировали с двух сторон в общей сложности пять стержней стереоэлектроэнцефалографии (sEEG) с шестью контактами в каждом. А второму пациенту вживили девять электрокортикографических (ECoG) полосок с восемью контактами в каждой. В отличие от ECoG, электроды для sEEG могут быть имплантированы без полной трепанации через отверстие в черепе. В этом исследовании для декодирования нейронной активности использовались только шесть контактов одного стержня sEEG у одного пациента и восемь контактов одной полоски ECoG у другого.
Испытуемых попросили прочитать вслух шесть предложений, каждое из которых повторялось от 30 до 60 раз в случайном порядке. Предложения различались по структуре, и большинство слов в одном предложении начинались с одной и той же буквы. Предложения содержали в общей сложности 26 различных слов. Пока испытуемые читали, электроды регистрировали их мозговую активность.
Затем эти данные сопоставили со звуковыми сигналами, чтобы сформировать 27 фрагментов звучания, включая 26 слов и один фрагмент тишины. Полученный обучающий набор данных содержал сигналы, записанные в первые 40 минут эксперимента. Его передали в модель машинного обучения с архитектурой, основанной на нейронных сетях. Задача обучения для нейронной сети состояла в том, чтобы предсказать следующее произнесенное слово (фрагмент) на основе данных нейронной активности, предшествующих произнесению.
Разрабатывая архитектуру нейронной сети, исследователи хотели сделать её простой, компактной и легко интерпретируемой. Они разработали двухэтапную архитектуру, которая сначала извлекала внутренние речевые представления из записанных данных мозговой активности, производя логарифмические спектральные коэффициенты, а затем предсказывала конкретный фрагмент, то есть слово или молчание.
Обученная таким образом нейронная сеть достигла точности в 55%, используя только шесть каналов данных, записанных одним электродом sEEG у первого пациента, и 70% точности, используя только восемь каналов данных, записанных одной полосой ECoG у второго пациента. Достигнутые результаты сопоставимы с точностью, полученной в других исследованиях с использованием устройств, которые требовали имплантации электродов по всей поверхности коры головного мозга.
Настроенная интерпретируемая модель позволяет объяснить в нейрофизиологических терминах, какая нейронная информация вносит наибольший вклад в предсказание слова, которое должно быть произнесено. Исследователи изучили сигналы, поступающие от разных групп нейронов, чтобы определить, какие из них были ключевыми для последующей задачи. Результаты согласуются с результатами отображения речи. В основе — предположение, что модель использует нейронные сигналы, которые являются ключевыми, и поэтому могут быть использованы для декодирования воображаемой речи.
Ещё одно преимущество этого решения — оно не требует построения функций вручную. Модель научилась извлекать речевые представления непосредственно из данных о мозговой активности. Интерпретируемость результатов также указывает на то, что сеть декодирует сигналы от мозга, а не от какой-либо сопутствующей активности, такой как электрические сигналы от артикуляционных мышц или возникающие из-за эффекта микрофона.
Исследователи подчёркивают, что прогноз всегда основывался на данных нейронной активности, предшествующих высказыванию. Они уверены в гарантии того, что правило принятия решений не использовало реакцию слуховой коры на уже произнесённую речь.
Использование таких интерфейсов сопряжено с минимальными рисками для пациента. Если всё получится, то, возможно, удастся расшифровать воображаемую речь по нейронной активности, регистрируемой небольшим количеством минимально инвазивных электродов, имплантированных в амбулаторных условиях под местной анестезией
— Алексей Осадчий, ведущий автор исследования, директор Центра биоэлектрических интерфейсов Института когнитивной нейронауки НИУ ВШЭ.
- Дмитрий Ладыгин
- pexels.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Выяснилось, что суша вокруг Аральского моря... стремительно поднимается
И ученые сумели разгадать эту удивительную загадку природы....

В каменных гробницах древней Ирландии похоронены вовсе не те, о ком думали ученые
Генетический анализ переписывает историю неолита....

Тайна последнего Папы: сбудется ли пророчество XII века?
Три Петра, один престол: что об этом говорят историки и сам Ватикан?...

Что 220 дней в космосе сделали с 70-летним мужчиной?
Старейший астронавт NASA возвратился на Землю....

Застукали: антарктического гигантского кальмара впервые запечатлели в естественной среде
Прошёл век после открытия вида....

Невероятная история единственного человека, которому удалось проникнуть в Зону 51
Джерри Фримен не только выбрался оттуда, но и рассказал, что увидел....

«Двух монстров» засняли на камеру в знаменитом шотландском озере
Ученые не верят, но кого тогда видел очевидец?...

Американские военные приступили к строительству орбитального авианосца
Пентагон говорит, что это исключительно ради мира. Но эксперты прогнозируют военную эскалацию в космосе....

Оказывается, римляне периодически врали о своих победах в исторических хрониках
Недавно археологи обнаружили в Судане очередное яркое тому подтверждение....

Бетон в туннелях для автотранспорта гниёт удивительно быстро
Казалось бы прочный материал гложут микробы....

Китай испытал новейшую водородную, но не ядерную бомбу
Кто-то говорит, что это инновация, а кто-то, что такое уже было в СССР....

Ученые заставили человеческий глаз видеть совершенно новый цвет
Он называется оло, и его практически не описать словами....

Шимпанзе устраивают пьяные вечеринки
Похоже, у человека и близких видов это в крови....

Вороны еще раз подтвердили свою гениальность
Исследование показало, что эти птицы отлично распознают… геометрические фигуры....

Ученые доказали: вода на Земле не из космоса, а своя собственная
Она зародилась «автоматически». И это в корне меняет теорию жизни во Вселенной....

Нюхали чужие футболки: женщины полагаются на запах при выборе друзей
Наука требует странных опытов....