
Разрешив ИИ задавать вопросы мы можем сделать его умнее
Инженеры-биомедики из Университета Дьюка продемонстрировали новый метод, позволяющий значительно повысить эффективность моделей машинного обучения при поиске новых молекулярных терапевтических средств при использовании лишь части имеющихся данных. Работая с алгоритмом, который активно выявляет пробелы в наборах данных, исследователи могут в некоторых случаях более чем удвоить свою точность.
Этот новый подход может помочь ученым идентифицировать и классифицировать молекулы с характеристиками, которые могут быть полезны для разработки новых кандидатов в лекарства и других материалов.
Работа появилась в журнале Digital Discovery, издаваемом Королевским химическим обществом 23 июня.
Алгоритмы машинного обучения все чаще используются для идентификации и прогнозирования свойств малых молекул, таких как кандидаты в лекарства и другие соединения. Хотя были достигнуты значительные успехи как в вычислительной мощности, так и в алгоритмах машинного обучения, их возможности в настоящее время ограничены существующими наборами данных, используемых для их обучения, которые далеки от совершенства.
Одна из основных проблем связана с предвзятостью ИИ при выборке данных. Это происходит, когда имеется значительное количество точек данных, которые демонстрируют одно свойство гораздо больше, чем другое, например потенциальную способность молекулы ингибировать определенный белок или характеристики его структуры.
— Дэниел Рекер, доцент кафедры биомедицинской инженерии в Университете Дьюка.
Это становится особенно проблематичным, если дело касается открытия и разработки лекарств, когда ученые часто имеют дело с наборами данных, в которых более 99% тестируемых соединений являются «неэффективными», и только небольшая часть молекул помечена как потенциально полезные.
Чтобы решить эту проблему, исследователи используют процесс, известный как подвыборка данных, когда их алгоритм учится на небольшом, но достаточно репрезентативном подмножестве данных. Хотя этот процесс может устранить предвзятость, предоставив модели равное количество примеров для обучения, он также может исключить ключевые точки данных и негативно повлиять на общую точность алгоритма. Чтобы компенсировать это, исследователи разработали сотни методов подвыборки, чтобы ограничить количество потерянной информации.
Однако Рекер и его сотрудники захотели выяснить, способна ли техника, известная как активное машинное обучение, решить данную проблему.
— Дэниел Рекер.
Как правило, Рекер и другие исследователи применяют алгоритмы активного обучения для создания новых данных, например, для идентификации новых лекарств, но Рекер и его команда хотели изучить, что произойдет, если алгоритм будет запущен на существующих наборах данных. В то время как это применение активного машинного обучения с подвыборкой изучалось в других исследованиях, Рекер и его команда были первыми, кто протестировал алгоритм в молекулярной биологии и разработке лекарств.
Чтобы проверить эффективность своего активного подхода к подвыборке, команда собрала наборы данных о молекулах с различными характеристиками, включая молекулы, которые могут преодолевать гематоэнцефалический барьер, молекулы, которые могут ингибировать белок, связанный с болезнью Альцгеймера, и соединения, которые, как было показано, ингибируют Репликация ВИЧ. Затем они протестировали свой алгоритм активного обучения на моделях, которые учились на полном наборе данных, и на 16 современных стратегиях подвыборки.
Команда показала, что активная подвыборка способна идентифицировать и предсказывать молекулярные характеристики более точно, чем каждая из стандартных стратегий подвыборки, и, что наиболее важно, в некоторых случаях была на 139 процентов эффективнее, чем алгоритм, который обучался на полном наборе данных. Их модель также смогла точно приспособиться к ошибкам в данных, что указывает на то, что она может быть особенно полезна для наборов данных низкого качества.
Но что самое удивительное, команда обнаружила, что идеальное количество данных для использования было намного меньше, чем ожидалось, а в некоторых случаях требовалось только 10% доступных данных.
— Дэниел Рекер.
Хотя Рекер и его команда надеются изучить этот переломный момент в будущей работе, они также планируют использовать этот новый подход для выявления новых молекул для потенциальных терапевтических мишеней. Поскольку активное машинное обучение становится популярным во многих различных областях исследований, команда надеется, что их работа поможет ученым лучше понять этот алгоритм и его устойчивость к ошибкам в данных.
Этот новый подход может помочь ученым идентифицировать и классифицировать молекулы с характеристиками, которые могут быть полезны для разработки новых кандидатов в лекарства и других материалов.
Работа появилась в журнале Digital Discovery, издаваемом Королевским химическим обществом 23 июня.
Проблема предвзятости
Алгоритмы машинного обучения все чаще используются для идентификации и прогнозирования свойств малых молекул, таких как кандидаты в лекарства и другие соединения. Хотя были достигнуты значительные успехи как в вычислительной мощности, так и в алгоритмах машинного обучения, их возможности в настоящее время ограничены существующими наборами данных, используемых для их обучения, которые далеки от совершенства.
Одна из основных проблем связана с предвзятостью ИИ при выборке данных. Это происходит, когда имеется значительное количество точек данных, которые демонстрируют одно свойство гораздо больше, чем другое, например потенциальную способность молекулы ингибировать определенный белок или характеристики его структуры.
Это как если бы вы обучили алгоритм различать изображения собак и кошек, но дали бы ему миллиард фотографий собак для обучения и только сотню фотографий кошек. Алгоритм станет настолько хорош в идентификации собак, что все начнет выглядеть как собака, и он забудет обо всем остальном в мире
— Дэниел Рекер, доцент кафедры биомедицинской инженерии в Университете Дьюка.
Это становится особенно проблематичным, если дело касается открытия и разработки лекарств, когда ученые часто имеют дело с наборами данных, в которых более 99% тестируемых соединений являются «неэффективными», и только небольшая часть молекул помечена как потенциально полезные.
Чтобы решить эту проблему, исследователи используют процесс, известный как подвыборка данных, когда их алгоритм учится на небольшом, но достаточно репрезентативном подмножестве данных. Хотя этот процесс может устранить предвзятость, предоставив модели равное количество примеров для обучения, он также может исключить ключевые точки данных и негативно повлиять на общую точность алгоритма. Чтобы компенсировать это, исследователи разработали сотни методов подвыборки, чтобы ограничить количество потерянной информации.
Однако Рекер и его сотрудники захотели выяснить, способна ли техника, известная как активное машинное обучение, решить данную проблему.
При активном машинном обучении алгоритм, по сути, может задавать вопросы или запрашивать дополнительную информацию, если он запутался или чувствует пробел в данных, а не пассивно просеивает их. Это делает модели активного обучения очень эффективными при прогнозировании производительности
— Дэниел Рекер.
Как правило, Рекер и другие исследователи применяют алгоритмы активного обучения для создания новых данных, например, для идентификации новых лекарств, но Рекер и его команда хотели изучить, что произойдет, если алгоритм будет запущен на существующих наборах данных. В то время как это применение активного машинного обучения с подвыборкой изучалось в других исследованиях, Рекер и его команда были первыми, кто протестировал алгоритм в молекулярной биологии и разработке лекарств.
Доказательство эффективности метода
Чтобы проверить эффективность своего активного подхода к подвыборке, команда собрала наборы данных о молекулах с различными характеристиками, включая молекулы, которые могут преодолевать гематоэнцефалический барьер, молекулы, которые могут ингибировать белок, связанный с болезнью Альцгеймера, и соединения, которые, как было показано, ингибируют Репликация ВИЧ. Затем они протестировали свой алгоритм активного обучения на моделях, которые учились на полном наборе данных, и на 16 современных стратегиях подвыборки.
Команда показала, что активная подвыборка способна идентифицировать и предсказывать молекулярные характеристики более точно, чем каждая из стандартных стратегий подвыборки, и, что наиболее важно, в некоторых случаях была на 139 процентов эффективнее, чем алгоритм, который обучался на полном наборе данных. Их модель также смогла точно приспособиться к ошибкам в данных, что указывает на то, что она может быть особенно полезна для наборов данных низкого качества.
Но что самое удивительное, команда обнаружила, что идеальное количество данных для использования было намного меньше, чем ожидалось, а в некоторых случаях требовалось только 10% доступных данных.
Есть момент, когда модель активной подвыборки собирает всю необходимую ей информацию, и если вы добавите больше данных, это отрицательно скажется на производительности. Эта проблема была особенно интересна для нас, потому что она намекает на то, что есть переломный момент, когда дополнительная информация больше не помогает, даже в подвыборке
— Дэниел Рекер.
Хотя Рекер и его команда надеются изучить этот переломный момент в будущей работе, они также планируют использовать этот новый подход для выявления новых молекул для потенциальных терапевтических мишеней. Поскольку активное машинное обучение становится популярным во многих различных областях исследований, команда надеется, что их работа поможет ученым лучше понять этот алгоритм и его устойчивость к ошибкам в данных.
- Алексей Павлов
- NicoElNino
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Выяснилось, что суша вокруг Аральского моря... стремительно поднимается
И ученые сумели разгадать эту удивительную загадку природы....

Еще раз о ядерной войне на Марсе
Гипотетический конфликт на Красной планете не дает покоя некоторым ученым....

Причина необъяснимых нападений морских львов на людей наконец-то раскрыта
Все дело в редком токсине, который заполонил прибрежные воды Калифорнии....

В каменных гробницах древней Ирландии похоронены вовсе не те, о ком думали ученые
Генетический анализ переписывает историю неолита....

Ужасное наводнение создало Средиземное море всего за несколько месяцев
Потоп мчался со скоростью 115 километров в час....

Застукали: антарктического гигантского кальмара впервые запечатлели в естественной среде
Прошёл век после открытия вида....

Властелины огня: как древние люди поддерживали пламя в самые холодные времена
Основным топливом была древесина ели....

Термоядерный двигатель доставит людей до Марса всего за три месяца
Новая эра космических исследований вот-вот начнется?...

А фиолетовый-то, говорят… ненастоящий!
Ученые доказали, что этот цвет — иллюзия, существующая лишь у нас в голове....

Ученые заставили человеческий глаз видеть совершенно новый цвет
Он называется оло, и его практически не описать словами....

Новое исследование показало: мягкие игрушки — самые опасные вещи в доме
Микробов в этих предметах оказалось вдвое больше, чем на сиденье унитаза....

Ещё одна бесценная находка: челюсть с берегов Тайваня принадлежала денисовцу
Загадка не давала покоя несколько лет....

Раскрыт секрет: почему самые древние метеориты не долетают до Земли
Против само Солнце, но это не единственная причина....

Зачем археологи измерили и сравнили размеры 50 000 древних домов
Общественное расслоение нельзя считать неизбежным....

Ученые доказали: вода на Земле не из космоса, а своя собственная
Она зародилась «автоматически». И это в корне меняет теорию жизни во Вселенной....

Что рассказал древнегреческий гимнасий на Сицилии
Сохраняли язык при римском владычестве....