Разрешив ИИ задавать вопросы мы можем сделать его умнее
Инженеры-биомедики из Университета Дьюка продемонстрировали новый метод, позволяющий значительно повысить эффективность моделей машинного обучения при поиске новых молекулярных терапевтических средств при использовании лишь части имеющихся данных. Работая с алгоритмом, который активно выявляет пробелы в наборах данных, исследователи могут в некоторых случаях более чем удвоить свою точность.
Этот новый подход может помочь ученым идентифицировать и классифицировать молекулы с характеристиками, которые могут быть полезны для разработки новых кандидатов в лекарства и других материалов.
Работа появилась в журнале Digital Discovery, издаваемом Королевским химическим обществом 23 июня.
Алгоритмы машинного обучения все чаще используются для идентификации и прогнозирования свойств малых молекул, таких как кандидаты в лекарства и другие соединения. Хотя были достигнуты значительные успехи как в вычислительной мощности, так и в алгоритмах машинного обучения, их возможности в настоящее время ограничены существующими наборами данных, используемых для их обучения, которые далеки от совершенства.
Одна из основных проблем связана с предвзятостью ИИ при выборке данных. Это происходит, когда имеется значительное количество точек данных, которые демонстрируют одно свойство гораздо больше, чем другое, например потенциальную способность молекулы ингибировать определенный белок или характеристики его структуры.
— Дэниел Рекер, доцент кафедры биомедицинской инженерии в Университете Дьюка.
Это становится особенно проблематичным, если дело касается открытия и разработки лекарств, когда ученые часто имеют дело с наборами данных, в которых более 99% тестируемых соединений являются «неэффективными», и только небольшая часть молекул помечена как потенциально полезные.
Чтобы решить эту проблему, исследователи используют процесс, известный как подвыборка данных, когда их алгоритм учится на небольшом, но достаточно репрезентативном подмножестве данных. Хотя этот процесс может устранить предвзятость, предоставив модели равное количество примеров для обучения, он также может исключить ключевые точки данных и негативно повлиять на общую точность алгоритма. Чтобы компенсировать это, исследователи разработали сотни методов подвыборки, чтобы ограничить количество потерянной информации.
Однако Рекер и его сотрудники захотели выяснить, способна ли техника, известная как активное машинное обучение, решить данную проблему.
— Дэниел Рекер.
Как правило, Рекер и другие исследователи применяют алгоритмы активного обучения для создания новых данных, например, для идентификации новых лекарств, но Рекер и его команда хотели изучить, что произойдет, если алгоритм будет запущен на существующих наборах данных. В то время как это применение активного машинного обучения с подвыборкой изучалось в других исследованиях, Рекер и его команда были первыми, кто протестировал алгоритм в молекулярной биологии и разработке лекарств.
Чтобы проверить эффективность своего активного подхода к подвыборке, команда собрала наборы данных о молекулах с различными характеристиками, включая молекулы, которые могут преодолевать гематоэнцефалический барьер, молекулы, которые могут ингибировать белок, связанный с болезнью Альцгеймера, и соединения, которые, как было показано, ингибируют Репликация ВИЧ. Затем они протестировали свой алгоритм активного обучения на моделях, которые учились на полном наборе данных, и на 16 современных стратегиях подвыборки.
Команда показала, что активная подвыборка способна идентифицировать и предсказывать молекулярные характеристики более точно, чем каждая из стандартных стратегий подвыборки, и, что наиболее важно, в некоторых случаях была на 139 процентов эффективнее, чем алгоритм, который обучался на полном наборе данных. Их модель также смогла точно приспособиться к ошибкам в данных, что указывает на то, что она может быть особенно полезна для наборов данных низкого качества.
Но что самое удивительное, команда обнаружила, что идеальное количество данных для использования было намного меньше, чем ожидалось, а в некоторых случаях требовалось только 10% доступных данных.
— Дэниел Рекер.
Хотя Рекер и его команда надеются изучить этот переломный момент в будущей работе, они также планируют использовать этот новый подход для выявления новых молекул для потенциальных терапевтических мишеней. Поскольку активное машинное обучение становится популярным во многих различных областях исследований, команда надеется, что их работа поможет ученым лучше понять этот алгоритм и его устойчивость к ошибкам в данных.
Этот новый подход может помочь ученым идентифицировать и классифицировать молекулы с характеристиками, которые могут быть полезны для разработки новых кандидатов в лекарства и других материалов.
Работа появилась в журнале Digital Discovery, издаваемом Королевским химическим обществом 23 июня.
Проблема предвзятости
Алгоритмы машинного обучения все чаще используются для идентификации и прогнозирования свойств малых молекул, таких как кандидаты в лекарства и другие соединения. Хотя были достигнуты значительные успехи как в вычислительной мощности, так и в алгоритмах машинного обучения, их возможности в настоящее время ограничены существующими наборами данных, используемых для их обучения, которые далеки от совершенства.
Одна из основных проблем связана с предвзятостью ИИ при выборке данных. Это происходит, когда имеется значительное количество точек данных, которые демонстрируют одно свойство гораздо больше, чем другое, например потенциальную способность молекулы ингибировать определенный белок или характеристики его структуры.
Это как если бы вы обучили алгоритм различать изображения собак и кошек, но дали бы ему миллиард фотографий собак для обучения и только сотню фотографий кошек. Алгоритм станет настолько хорош в идентификации собак, что все начнет выглядеть как собака, и он забудет обо всем остальном в мире
— Дэниел Рекер, доцент кафедры биомедицинской инженерии в Университете Дьюка.
Это становится особенно проблематичным, если дело касается открытия и разработки лекарств, когда ученые часто имеют дело с наборами данных, в которых более 99% тестируемых соединений являются «неэффективными», и только небольшая часть молекул помечена как потенциально полезные.
Чтобы решить эту проблему, исследователи используют процесс, известный как подвыборка данных, когда их алгоритм учится на небольшом, но достаточно репрезентативном подмножестве данных. Хотя этот процесс может устранить предвзятость, предоставив модели равное количество примеров для обучения, он также может исключить ключевые точки данных и негативно повлиять на общую точность алгоритма. Чтобы компенсировать это, исследователи разработали сотни методов подвыборки, чтобы ограничить количество потерянной информации.
Однако Рекер и его сотрудники захотели выяснить, способна ли техника, известная как активное машинное обучение, решить данную проблему.
При активном машинном обучении алгоритм, по сути, может задавать вопросы или запрашивать дополнительную информацию, если он запутался или чувствует пробел в данных, а не пассивно просеивает их. Это делает модели активного обучения очень эффективными при прогнозировании производительности
— Дэниел Рекер.
Как правило, Рекер и другие исследователи применяют алгоритмы активного обучения для создания новых данных, например, для идентификации новых лекарств, но Рекер и его команда хотели изучить, что произойдет, если алгоритм будет запущен на существующих наборах данных. В то время как это применение активного машинного обучения с подвыборкой изучалось в других исследованиях, Рекер и его команда были первыми, кто протестировал алгоритм в молекулярной биологии и разработке лекарств.
Доказательство эффективности метода
Чтобы проверить эффективность своего активного подхода к подвыборке, команда собрала наборы данных о молекулах с различными характеристиками, включая молекулы, которые могут преодолевать гематоэнцефалический барьер, молекулы, которые могут ингибировать белок, связанный с болезнью Альцгеймера, и соединения, которые, как было показано, ингибируют Репликация ВИЧ. Затем они протестировали свой алгоритм активного обучения на моделях, которые учились на полном наборе данных, и на 16 современных стратегиях подвыборки.
Команда показала, что активная подвыборка способна идентифицировать и предсказывать молекулярные характеристики более точно, чем каждая из стандартных стратегий подвыборки, и, что наиболее важно, в некоторых случаях была на 139 процентов эффективнее, чем алгоритм, который обучался на полном наборе данных. Их модель также смогла точно приспособиться к ошибкам в данных, что указывает на то, что она может быть особенно полезна для наборов данных низкого качества.
Но что самое удивительное, команда обнаружила, что идеальное количество данных для использования было намного меньше, чем ожидалось, а в некоторых случаях требовалось только 10% доступных данных.
Есть момент, когда модель активной подвыборки собирает всю необходимую ей информацию, и если вы добавите больше данных, это отрицательно скажется на производительности. Эта проблема была особенно интересна для нас, потому что она намекает на то, что есть переломный момент, когда дополнительная информация больше не помогает, даже в подвыборке
— Дэниел Рекер.
Хотя Рекер и его команда надеются изучить этот переломный момент в будущей работе, они также планируют использовать этот новый подход для выявления новых молекул для потенциальных терапевтических мишеней. Поскольку активное машинное обучение становится популярным во многих различных областях исследований, команда надеется, что их работа поможет ученым лучше понять этот алгоритм и его устойчивость к ошибкам в данных.
- Алексей Павлов
- NicoElNino
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Как на ладони: Обнаружен морской гигант, который виден из космоса
Мегакоралл у Соломоновых островов оказался самым крупным животным Земли....
Спасти планету сможет… африканский червь
В Кении найдено насекомое с удивительными способностями....
«Орешник», «Бук» и «Тополь»: искусный нейминг от российских военных конструкторов
Наука как сбить Запад с толку....
Главная тайна Седьмой планеты разгадана через 38 лет
Уран оказался не таким уж странным, как думали ученые....
80 000 лет жизни: какие тайны скрывает самое древнее и большое существо на планете?
Залог невероятного долголетия и удивительного выживания обнаружили учёные....
Раскрыт секрет идеального женского тела?
Оказывается, дело вовсе не в соотношении талии и бедер....
Саблезубый котёнок томился во льдах Якутии 35 тысяч лет
Благодаря находке стало известно, что сородичи пушистика обитали в столь холодных местах....
Ученая вылечила свой рак вирусами собственного производства
Если человек хочет жить — медицина бессильна....
Эти «красные монстры» вообще не должны существовать
Что узнали астрономы о трех невозможно огромных галактиках....
Почти бессмертные существа помогут человечеству покорить глубокий космос
Ученым, наконец, удалось «взломать» код поразительной живучести тихоходок....
Разгадано учеными: почему города разрушают сердце и разум
Причины, которые нашли исследователи, вас удивят....
Ещё один одинокий: в Балтийском море обнаружен дельфин, который может говорить только сам с собой
Совсем как старый вдовец, которого давно не навещали близкие....
Турбулентность отменяется! А пилоты-люди вообще будут не нужны
Искусственный интеллект может в корне изменить авиацию....
Надеялись на Беса: древние египтянки при беременности хлебали галлюциногенные смеси
Думали, что божок с двусмысленным для нас именем убережёт....
АД-контроль: новейшая разработка облегчит жизнь гипертоникам
Ультразвуковой пластырь будет следить за давлением нон-стоп....
Большой мозг — не значит самый умный
Последнее исследование собак показало парадоксальные результаты....