Российская разработка может предсказать ещё не озвученное слово
Исследователи из НИУ ВШЭ и Московского государственного медико-стоматологического университета разработали модель машинного обучения, которая может предсказать слово, которое собирается произнести испытуемый. Система действует на основе нейронной активности, записанной с помощью минимального количества вставленных в мозг электродов.
Статью «Декодирование речи с помощью небольшого набора пространственно разделённых минимально инвазивных внутричерепных электродов ЭЭГ с компактной и интерпретируемой нейронной сетью» опубликовали в «Журнале нейронной инженерии» (Journal of Neural Engineering). Исследование финансировалось за счёт гранта Правительства Российской Федерации в рамках национального проекта «Наука и университеты».
Миллионы людей во всем мире страдают от нарушений речи. Причины потери речи могут быть разными, например, инсульт или врождённые заболевания. Сегодня доступны технологии для восстановления коммуникативной функции таких пациентов, в том числе интерфейсы «беззвучной речи». Такие способы распознают речь, отслеживая движение артикуляционных мышц, когда человек произносит слова, не издавая ни звука. Однако такие устройства помогают некоторым пациентам, но не тем, у кого, например, паралич лицевых мышц.
Речевые нейропротезы — интерфейсы мозг-компьютер, способные декодировать речь на основе активности мозга, — могут обеспечить таким пациентам доступное и надёжное решение для восстановления общения. В отличие от персональных компьютеров, устройства с интерфейсом мозг-компьютер (ИМК) управляются непосредственно мозгом без необходимости использования клавиатуры или микрофона. Однако эта технология требует серьёзного вмешательства по имплантации электродов в ткани головного мозга. Тем более, наиболее точное распознавание речи достигается с помощью нейропротезов с электродами, покрывающими большую площадь кортикальной поверхности. К тому же решения для считывания мозговой активности не предназначены для длительного использования и представляют значительный риск для пациентов.
Исследователи Центра биоэлектрических интерфейсов НИУ ВШЭ и Московского государственного медико-стоматологического университета изучили возможность создания функционирующего нейропротеза, способного декодировать речь с приемлемой точностью путём считывания активности мозга с небольшого набора электродов, которые имплантировали в ограниченную область коры головного мозга. Авторы предполагают, что в будущем эта минимально инвазивная процедура может даже выполняться под местной анестезией. В опубликованном исследовании учёные собрали данные о двух пациентах с эпилепсией, которым ранее с другой целью вживили внутричерепные электроды — чтобы выявить зоны, в которых возникают приступы.
У первого пациента имплантировали с двух сторон в общей сложности пять стержней стереоэлектроэнцефалографии (sEEG) с шестью контактами в каждом. А второму пациенту вживили девять электрокортикографических (ECoG) полосок с восемью контактами в каждой. В отличие от ECoG, электроды для sEEG могут быть имплантированы без полной трепанации через отверстие в черепе. В этом исследовании для декодирования нейронной активности использовались только шесть контактов одного стержня sEEG у одного пациента и восемь контактов одной полоски ECoG у другого.
Испытуемых попросили прочитать вслух шесть предложений, каждое из которых повторялось от 30 до 60 раз в случайном порядке. Предложения различались по структуре, и большинство слов в одном предложении начинались с одной и той же буквы. Предложения содержали в общей сложности 26 различных слов. Пока испытуемые читали, электроды регистрировали их мозговую активность.
Затем эти данные сопоставили со звуковыми сигналами, чтобы сформировать 27 фрагментов звучания, включая 26 слов и один фрагмент тишины. Полученный обучающий набор данных содержал сигналы, записанные в первые 40 минут эксперимента. Его передали в модель машинного обучения с архитектурой, основанной на нейронных сетях. Задача обучения для нейронной сети состояла в том, чтобы предсказать следующее произнесенное слово (фрагмент) на основе данных нейронной активности, предшествующих произнесению.
Разрабатывая архитектуру нейронной сети, исследователи хотели сделать её простой, компактной и легко интерпретируемой. Они разработали двухэтапную архитектуру, которая сначала извлекала внутренние речевые представления из записанных данных мозговой активности, производя логарифмические спектральные коэффициенты, а затем предсказывала конкретный фрагмент, то есть слово или молчание.
Обученная таким образом нейронная сеть достигла точности в 55%, используя только шесть каналов данных, записанных одним электродом sEEG у первого пациента, и 70% точности, используя только восемь каналов данных, записанных одной полосой ECoG у второго пациента. Достигнутые результаты сопоставимы с точностью, полученной в других исследованиях с использованием устройств, которые требовали имплантации электродов по всей поверхности коры головного мозга.
Настроенная интерпретируемая модель позволяет объяснить в нейрофизиологических терминах, какая нейронная информация вносит наибольший вклад в предсказание слова, которое должно быть произнесено. Исследователи изучили сигналы, поступающие от разных групп нейронов, чтобы определить, какие из них были ключевыми для последующей задачи. Результаты согласуются с результатами отображения речи. В основе — предположение, что модель использует нейронные сигналы, которые являются ключевыми, и поэтому могут быть использованы для декодирования воображаемой речи.
Ещё одно преимущество этого решения — оно не требует построения функций вручную. Модель научилась извлекать речевые представления непосредственно из данных о мозговой активности. Интерпретируемость результатов также указывает на то, что сеть декодирует сигналы от мозга, а не от какой-либо сопутствующей активности, такой как электрические сигналы от артикуляционных мышц или возникающие из-за эффекта микрофона.
Исследователи подчёркивают, что прогноз всегда основывался на данных нейронной активности, предшествующих высказыванию. Они уверены в гарантии того, что правило принятия решений не использовало реакцию слуховой коры на уже произнесённую речь.
— Алексей Осадчий, ведущий автор исследования, директор Центра биоэлектрических интерфейсов Института когнитивной нейронауки НИУ ВШЭ.
Статью «Декодирование речи с помощью небольшого набора пространственно разделённых минимально инвазивных внутричерепных электродов ЭЭГ с компактной и интерпретируемой нейронной сетью» опубликовали в «Журнале нейронной инженерии» (Journal of Neural Engineering). Исследование финансировалось за счёт гранта Правительства Российской Федерации в рамках национального проекта «Наука и университеты».
Миллионы людей во всем мире страдают от нарушений речи. Причины потери речи могут быть разными, например, инсульт или врождённые заболевания. Сегодня доступны технологии для восстановления коммуникативной функции таких пациентов, в том числе интерфейсы «беззвучной речи». Такие способы распознают речь, отслеживая движение артикуляционных мышц, когда человек произносит слова, не издавая ни звука. Однако такие устройства помогают некоторым пациентам, но не тем, у кого, например, паралич лицевых мышц.
Речевые нейропротезы — интерфейсы мозг-компьютер, способные декодировать речь на основе активности мозга, — могут обеспечить таким пациентам доступное и надёжное решение для восстановления общения. В отличие от персональных компьютеров, устройства с интерфейсом мозг-компьютер (ИМК) управляются непосредственно мозгом без необходимости использования клавиатуры или микрофона. Однако эта технология требует серьёзного вмешательства по имплантации электродов в ткани головного мозга. Тем более, наиболее точное распознавание речи достигается с помощью нейропротезов с электродами, покрывающими большую площадь кортикальной поверхности. К тому же решения для считывания мозговой активности не предназначены для длительного использования и представляют значительный риск для пациентов.
Исследователи Центра биоэлектрических интерфейсов НИУ ВШЭ и Московского государственного медико-стоматологического университета изучили возможность создания функционирующего нейропротеза, способного декодировать речь с приемлемой точностью путём считывания активности мозга с небольшого набора электродов, которые имплантировали в ограниченную область коры головного мозга. Авторы предполагают, что в будущем эта минимально инвазивная процедура может даже выполняться под местной анестезией. В опубликованном исследовании учёные собрали данные о двух пациентах с эпилепсией, которым ранее с другой целью вживили внутричерепные электроды — чтобы выявить зоны, в которых возникают приступы.
У первого пациента имплантировали с двух сторон в общей сложности пять стержней стереоэлектроэнцефалографии (sEEG) с шестью контактами в каждом. А второму пациенту вживили девять электрокортикографических (ECoG) полосок с восемью контактами в каждой. В отличие от ECoG, электроды для sEEG могут быть имплантированы без полной трепанации через отверстие в черепе. В этом исследовании для декодирования нейронной активности использовались только шесть контактов одного стержня sEEG у одного пациента и восемь контактов одной полоски ECoG у другого.
Испытуемых попросили прочитать вслух шесть предложений, каждое из которых повторялось от 30 до 60 раз в случайном порядке. Предложения различались по структуре, и большинство слов в одном предложении начинались с одной и той же буквы. Предложения содержали в общей сложности 26 различных слов. Пока испытуемые читали, электроды регистрировали их мозговую активность.
Затем эти данные сопоставили со звуковыми сигналами, чтобы сформировать 27 фрагментов звучания, включая 26 слов и один фрагмент тишины. Полученный обучающий набор данных содержал сигналы, записанные в первые 40 минут эксперимента. Его передали в модель машинного обучения с архитектурой, основанной на нейронных сетях. Задача обучения для нейронной сети состояла в том, чтобы предсказать следующее произнесенное слово (фрагмент) на основе данных нейронной активности, предшествующих произнесению.
Разрабатывая архитектуру нейронной сети, исследователи хотели сделать её простой, компактной и легко интерпретируемой. Они разработали двухэтапную архитектуру, которая сначала извлекала внутренние речевые представления из записанных данных мозговой активности, производя логарифмические спектральные коэффициенты, а затем предсказывала конкретный фрагмент, то есть слово или молчание.
Обученная таким образом нейронная сеть достигла точности в 55%, используя только шесть каналов данных, записанных одним электродом sEEG у первого пациента, и 70% точности, используя только восемь каналов данных, записанных одной полосой ECoG у второго пациента. Достигнутые результаты сопоставимы с точностью, полученной в других исследованиях с использованием устройств, которые требовали имплантации электродов по всей поверхности коры головного мозга.
Настроенная интерпретируемая модель позволяет объяснить в нейрофизиологических терминах, какая нейронная информация вносит наибольший вклад в предсказание слова, которое должно быть произнесено. Исследователи изучили сигналы, поступающие от разных групп нейронов, чтобы определить, какие из них были ключевыми для последующей задачи. Результаты согласуются с результатами отображения речи. В основе — предположение, что модель использует нейронные сигналы, которые являются ключевыми, и поэтому могут быть использованы для декодирования воображаемой речи.
Ещё одно преимущество этого решения — оно не требует построения функций вручную. Модель научилась извлекать речевые представления непосредственно из данных о мозговой активности. Интерпретируемость результатов также указывает на то, что сеть декодирует сигналы от мозга, а не от какой-либо сопутствующей активности, такой как электрические сигналы от артикуляционных мышц или возникающие из-за эффекта микрофона.
Исследователи подчёркивают, что прогноз всегда основывался на данных нейронной активности, предшествующих высказыванию. Они уверены в гарантии того, что правило принятия решений не использовало реакцию слуховой коры на уже произнесённую речь.
Использование таких интерфейсов сопряжено с минимальными рисками для пациента. Если всё получится, то, возможно, удастся расшифровать воображаемую речь по нейронной активности, регистрируемой небольшим количеством минимально инвазивных электродов, имплантированных в амбулаторных условиях под местной анестезией
— Алексей Осадчий, ведущий автор исследования, директор Центра биоэлектрических интерфейсов Института когнитивной нейронауки НИУ ВШЭ.
- Дмитрий Ладыгин
- pexels.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Капитан «обреченной экспедиции» был съеден собственным экипажем
Темные факты, хранившиеся почти два века в тайне, начинают постепенно раскрываться....
Ученые рассказали, что на самом деле означают сны
Похоже, что сонники нас обманывали....
Илон Маск снова в центре крупного скандала
Новые спутники Starlink вызывают ярость у астрономов....
Гладиаторы сражались насмерть. Или нет?
Ответ оказался крайне неоднозначным....
По новой теории человеческое сознание находится сразу во многих скрытых измерениях
Это кажется дичью, но американский физик уверяет, что нашел доказательства....
Самому одинокому в мире дереву из тысячелетней косточки исполнилось 14 лет
Лекарственное дерево вырастили из древнего семени, найденного в пещере....
Новая тайна озера Мичиган: на дне найдены десятки гигантских кратеров
Как они появились и что от них ждать, ученые пока не знают....
Слепить автомобиль: вязкость нового конструкционного клея в 22 раза превзошла эпоксидку
Новое вещество с добавкой резины сделает транспорт легче и экономичнее....
Эффективность максимальна: паучьи клыки оказались необычайно мощными резаками
Анатомия пауков прокладывает путь для новых режущих инструментов....
Авиакомпании будут замедлять скорость самолетов
Это делается во благо всех людей, но вот получится ли?...
Волки-убийцы терроризируют индийский штат Уттар-Прадеш
Почему хищники открыли охоту на детей?...
Кровавая тайна разгадана спустя полвека
Некоторые люди теперь могут вздохнуть с облегчением....
Мамонты возвращаются! Первые особи появятся уже через четыре года
Что нас ждет: возрождение древних гигантов или экологическая катастрофа?...
Возле светловолосых мумий из китайской пустыни нашли кефирный сыр возрастом 3600 лет
Исследованы геномы молочнокислых бактерий бронзового века....
Голубое пятно в мозге оказалось порталом в мир грёз
Учёные открыли секрет сновидений и их связи с заболеваниями....
Новое понимание эволюции зауроподов: в Индии рассмотрели хвостовые булавы
Но зачем они были нужны длинношеим гигантам — загадка....