Российская разработка может предсказать ещё не озвученное слово
Исследователи из НИУ ВШЭ и Московского государственного медико-стоматологического университета разработали модель машинного обучения, которая может предсказать слово, которое собирается произнести испытуемый. Система действует на основе нейронной активности, записанной с помощью минимального количества вставленных в мозг электродов.
Статью «Декодирование речи с помощью небольшого набора пространственно разделённых минимально инвазивных внутричерепных электродов ЭЭГ с компактной и интерпретируемой нейронной сетью» опубликовали в «Журнале нейронной инженерии» (Journal of Neural Engineering). Исследование финансировалось за счёт гранта Правительства Российской Федерации в рамках национального проекта «Наука и университеты».
Миллионы людей во всем мире страдают от нарушений речи. Причины потери речи могут быть разными, например, инсульт или врождённые заболевания. Сегодня доступны технологии для восстановления коммуникативной функции таких пациентов, в том числе интерфейсы «беззвучной речи». Такие способы распознают речь, отслеживая движение артикуляционных мышц, когда человек произносит слова, не издавая ни звука. Однако такие устройства помогают некоторым пациентам, но не тем, у кого, например, паралич лицевых мышц.
Речевые нейропротезы — интерфейсы мозг-компьютер, способные декодировать речь на основе активности мозга, — могут обеспечить таким пациентам доступное и надёжное решение для восстановления общения. В отличие от персональных компьютеров, устройства с интерфейсом мозг-компьютер (ИМК) управляются непосредственно мозгом без необходимости использования клавиатуры или микрофона. Однако эта технология требует серьёзного вмешательства по имплантации электродов в ткани головного мозга. Тем более, наиболее точное распознавание речи достигается с помощью нейропротезов с электродами, покрывающими большую площадь кортикальной поверхности. К тому же решения для считывания мозговой активности не предназначены для длительного использования и представляют значительный риск для пациентов.
Исследователи Центра биоэлектрических интерфейсов НИУ ВШЭ и Московского государственного медико-стоматологического университета изучили возможность создания функционирующего нейропротеза, способного декодировать речь с приемлемой точностью путём считывания активности мозга с небольшого набора электродов, которые имплантировали в ограниченную область коры головного мозга. Авторы предполагают, что в будущем эта минимально инвазивная процедура может даже выполняться под местной анестезией. В опубликованном исследовании учёные собрали данные о двух пациентах с эпилепсией, которым ранее с другой целью вживили внутричерепные электроды — чтобы выявить зоны, в которых возникают приступы.
У первого пациента имплантировали с двух сторон в общей сложности пять стержней стереоэлектроэнцефалографии (sEEG) с шестью контактами в каждом. А второму пациенту вживили девять электрокортикографических (ECoG) полосок с восемью контактами в каждой. В отличие от ECoG, электроды для sEEG могут быть имплантированы без полной трепанации через отверстие в черепе. В этом исследовании для декодирования нейронной активности использовались только шесть контактов одного стержня sEEG у одного пациента и восемь контактов одной полоски ECoG у другого.
Испытуемых попросили прочитать вслух шесть предложений, каждое из которых повторялось от 30 до 60 раз в случайном порядке. Предложения различались по структуре, и большинство слов в одном предложении начинались с одной и той же буквы. Предложения содержали в общей сложности 26 различных слов. Пока испытуемые читали, электроды регистрировали их мозговую активность.
Затем эти данные сопоставили со звуковыми сигналами, чтобы сформировать 27 фрагментов звучания, включая 26 слов и один фрагмент тишины. Полученный обучающий набор данных содержал сигналы, записанные в первые 40 минут эксперимента. Его передали в модель машинного обучения с архитектурой, основанной на нейронных сетях. Задача обучения для нейронной сети состояла в том, чтобы предсказать следующее произнесенное слово (фрагмент) на основе данных нейронной активности, предшествующих произнесению.
Разрабатывая архитектуру нейронной сети, исследователи хотели сделать её простой, компактной и легко интерпретируемой. Они разработали двухэтапную архитектуру, которая сначала извлекала внутренние речевые представления из записанных данных мозговой активности, производя логарифмические спектральные коэффициенты, а затем предсказывала конкретный фрагмент, то есть слово или молчание.
Обученная таким образом нейронная сеть достигла точности в 55%, используя только шесть каналов данных, записанных одним электродом sEEG у первого пациента, и 70% точности, используя только восемь каналов данных, записанных одной полосой ECoG у второго пациента. Достигнутые результаты сопоставимы с точностью, полученной в других исследованиях с использованием устройств, которые требовали имплантации электродов по всей поверхности коры головного мозга.
Настроенная интерпретируемая модель позволяет объяснить в нейрофизиологических терминах, какая нейронная информация вносит наибольший вклад в предсказание слова, которое должно быть произнесено. Исследователи изучили сигналы, поступающие от разных групп нейронов, чтобы определить, какие из них были ключевыми для последующей задачи. Результаты согласуются с результатами отображения речи. В основе — предположение, что модель использует нейронные сигналы, которые являются ключевыми, и поэтому могут быть использованы для декодирования воображаемой речи.
Ещё одно преимущество этого решения — оно не требует построения функций вручную. Модель научилась извлекать речевые представления непосредственно из данных о мозговой активности. Интерпретируемость результатов также указывает на то, что сеть декодирует сигналы от мозга, а не от какой-либо сопутствующей активности, такой как электрические сигналы от артикуляционных мышц или возникающие из-за эффекта микрофона.
Исследователи подчёркивают, что прогноз всегда основывался на данных нейронной активности, предшествующих высказыванию. Они уверены в гарантии того, что правило принятия решений не использовало реакцию слуховой коры на уже произнесённую речь.
— Алексей Осадчий, ведущий автор исследования, директор Центра биоэлектрических интерфейсов Института когнитивной нейронауки НИУ ВШЭ.
Статью «Декодирование речи с помощью небольшого набора пространственно разделённых минимально инвазивных внутричерепных электродов ЭЭГ с компактной и интерпретируемой нейронной сетью» опубликовали в «Журнале нейронной инженерии» (Journal of Neural Engineering). Исследование финансировалось за счёт гранта Правительства Российской Федерации в рамках национального проекта «Наука и университеты».
Миллионы людей во всем мире страдают от нарушений речи. Причины потери речи могут быть разными, например, инсульт или врождённые заболевания. Сегодня доступны технологии для восстановления коммуникативной функции таких пациентов, в том числе интерфейсы «беззвучной речи». Такие способы распознают речь, отслеживая движение артикуляционных мышц, когда человек произносит слова, не издавая ни звука. Однако такие устройства помогают некоторым пациентам, но не тем, у кого, например, паралич лицевых мышц.
Речевые нейропротезы — интерфейсы мозг-компьютер, способные декодировать речь на основе активности мозга, — могут обеспечить таким пациентам доступное и надёжное решение для восстановления общения. В отличие от персональных компьютеров, устройства с интерфейсом мозг-компьютер (ИМК) управляются непосредственно мозгом без необходимости использования клавиатуры или микрофона. Однако эта технология требует серьёзного вмешательства по имплантации электродов в ткани головного мозга. Тем более, наиболее точное распознавание речи достигается с помощью нейропротезов с электродами, покрывающими большую площадь кортикальной поверхности. К тому же решения для считывания мозговой активности не предназначены для длительного использования и представляют значительный риск для пациентов.
Исследователи Центра биоэлектрических интерфейсов НИУ ВШЭ и Московского государственного медико-стоматологического университета изучили возможность создания функционирующего нейропротеза, способного декодировать речь с приемлемой точностью путём считывания активности мозга с небольшого набора электродов, которые имплантировали в ограниченную область коры головного мозга. Авторы предполагают, что в будущем эта минимально инвазивная процедура может даже выполняться под местной анестезией. В опубликованном исследовании учёные собрали данные о двух пациентах с эпилепсией, которым ранее с другой целью вживили внутричерепные электроды — чтобы выявить зоны, в которых возникают приступы.
У первого пациента имплантировали с двух сторон в общей сложности пять стержней стереоэлектроэнцефалографии (sEEG) с шестью контактами в каждом. А второму пациенту вживили девять электрокортикографических (ECoG) полосок с восемью контактами в каждой. В отличие от ECoG, электроды для sEEG могут быть имплантированы без полной трепанации через отверстие в черепе. В этом исследовании для декодирования нейронной активности использовались только шесть контактов одного стержня sEEG у одного пациента и восемь контактов одной полоски ECoG у другого.
Испытуемых попросили прочитать вслух шесть предложений, каждое из которых повторялось от 30 до 60 раз в случайном порядке. Предложения различались по структуре, и большинство слов в одном предложении начинались с одной и той же буквы. Предложения содержали в общей сложности 26 различных слов. Пока испытуемые читали, электроды регистрировали их мозговую активность.
Затем эти данные сопоставили со звуковыми сигналами, чтобы сформировать 27 фрагментов звучания, включая 26 слов и один фрагмент тишины. Полученный обучающий набор данных содержал сигналы, записанные в первые 40 минут эксперимента. Его передали в модель машинного обучения с архитектурой, основанной на нейронных сетях. Задача обучения для нейронной сети состояла в том, чтобы предсказать следующее произнесенное слово (фрагмент) на основе данных нейронной активности, предшествующих произнесению.
Разрабатывая архитектуру нейронной сети, исследователи хотели сделать её простой, компактной и легко интерпретируемой. Они разработали двухэтапную архитектуру, которая сначала извлекала внутренние речевые представления из записанных данных мозговой активности, производя логарифмические спектральные коэффициенты, а затем предсказывала конкретный фрагмент, то есть слово или молчание.
Обученная таким образом нейронная сеть достигла точности в 55%, используя только шесть каналов данных, записанных одним электродом sEEG у первого пациента, и 70% точности, используя только восемь каналов данных, записанных одной полосой ECoG у второго пациента. Достигнутые результаты сопоставимы с точностью, полученной в других исследованиях с использованием устройств, которые требовали имплантации электродов по всей поверхности коры головного мозга.
Настроенная интерпретируемая модель позволяет объяснить в нейрофизиологических терминах, какая нейронная информация вносит наибольший вклад в предсказание слова, которое должно быть произнесено. Исследователи изучили сигналы, поступающие от разных групп нейронов, чтобы определить, какие из них были ключевыми для последующей задачи. Результаты согласуются с результатами отображения речи. В основе — предположение, что модель использует нейронные сигналы, которые являются ключевыми, и поэтому могут быть использованы для декодирования воображаемой речи.
Ещё одно преимущество этого решения — оно не требует построения функций вручную. Модель научилась извлекать речевые представления непосредственно из данных о мозговой активности. Интерпретируемость результатов также указывает на то, что сеть декодирует сигналы от мозга, а не от какой-либо сопутствующей активности, такой как электрические сигналы от артикуляционных мышц или возникающие из-за эффекта микрофона.
Исследователи подчёркивают, что прогноз всегда основывался на данных нейронной активности, предшествующих высказыванию. Они уверены в гарантии того, что правило принятия решений не использовало реакцию слуховой коры на уже произнесённую речь.
Использование таких интерфейсов сопряжено с минимальными рисками для пациента. Если всё получится, то, возможно, удастся расшифровать воображаемую речь по нейронной активности, регистрируемой небольшим количеством минимально инвазивных электродов, имплантированных в амбулаторных условиях под местной анестезией
— Алексей Осадчий, ведущий автор исследования, директор Центра биоэлектрических интерфейсов Института когнитивной нейронауки НИУ ВШЭ.
- Дмитрий Ладыгин
- pexels.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Раскрыта главная тайна антарктического льда: ученые узнали, как и кем была взломана природная защита Шестого континента
Похоже, той Антарктиде, которую мы знаем, приходит конец. Впрочем, это не точно...
Древнеримский артефакт переписывает историю Америки: Колумб был не первым?
Почему находка из индейской могилы почти 100 лет вызывает ожесточенные споры среди археологов и историков?...
Тайна гибели сибирского «Титаника»: почему некоторые детали катастрофы 1921 года неизвестны даже сейчас?
Поразительно, но тогда судьи единогласно оправдали капитана парохода. Так кто же тогда был виновником этого страшного происшествия?...
Еще раз об убийстве Андрея Боголюбского: что рассказали кости погибшего князя?
Профессор судебной медицины поправил историков и выявил неточности древних летописей...
Японец 26 лет ждал, пока раскроют убийство его жены. Часть 2. Расплата
Как наука отменила срок давности у преступления? И какая тайна осталась не раскрытой?...
Японец 26 лет ждал, пока раскроют убийство его жены
Как новейшие технологии помогли сдвинуть с места нераскрываемое дело...
Главный секрет человеческого дыхания: ученые рассказали, почему мы дышим «вахтовым методом»
Эксперты предупреждают: из-за особенности организма многие люди не смогут попасть в космос. Но решение все-таки есть...
Жители Анд переписали свою ДНК: почему горные индейцы пьют ядовитую воду, но чувствуют себя при этом хорошо?
По словам ученых, эволюция сделала красивый и хитрый ход. И это не иммунитет к токсинам, а нечто другое, более интересное...
43 000 черепков открыли тысячелетние тайны Древнего Египта
Почему глиняная библиотека Атрибиса потрясла весь археологический мир?...
Ядерный взрыв на Луне: для чего советские ученые хотели провести такой грандиозный эксперимент?
Зачем России атомный реактор на Луне и как он поможет нам добраться до Венеры?...
Почему эти меры не спасут Антарктиду: пять проектов по спасению ледников оказались провалом
Эксперт жестко проанализировал самые популярные программы по сохранению льда на Шестом континенте. Увы, они оказались невыполнимой фантастикой, причем опасно...