
Разрешив ИИ задавать вопросы мы можем сделать его умнее
Инженеры-биомедики из Университета Дьюка продемонстрировали новый метод, позволяющий значительно повысить эффективность моделей машинного обучения при поиске новых молекулярных терапевтических средств при использовании лишь части имеющихся данных. Работая с алгоритмом, который активно выявляет пробелы в наборах данных, исследователи могут в некоторых случаях более чем удвоить свою точность.
Этот новый подход может помочь ученым идентифицировать и классифицировать молекулы с характеристиками, которые могут быть полезны для разработки новых кандидатов в лекарства и других материалов.
Работа появилась в журнале Digital Discovery, издаваемом Королевским химическим обществом 23 июня.
Алгоритмы машинного обучения все чаще используются для идентификации и прогнозирования свойств малых молекул, таких как кандидаты в лекарства и другие соединения. Хотя были достигнуты значительные успехи как в вычислительной мощности, так и в алгоритмах машинного обучения, их возможности в настоящее время ограничены существующими наборами данных, используемых для их обучения, которые далеки от совершенства.
Одна из основных проблем связана с предвзятостью ИИ при выборке данных. Это происходит, когда имеется значительное количество точек данных, которые демонстрируют одно свойство гораздо больше, чем другое, например потенциальную способность молекулы ингибировать определенный белок или характеристики его структуры.
— Дэниел Рекер, доцент кафедры биомедицинской инженерии в Университете Дьюка.
Это становится особенно проблематичным, если дело касается открытия и разработки лекарств, когда ученые часто имеют дело с наборами данных, в которых более 99% тестируемых соединений являются «неэффективными», и только небольшая часть молекул помечена как потенциально полезные.
Чтобы решить эту проблему, исследователи используют процесс, известный как подвыборка данных, когда их алгоритм учится на небольшом, но достаточно репрезентативном подмножестве данных. Хотя этот процесс может устранить предвзятость, предоставив модели равное количество примеров для обучения, он также может исключить ключевые точки данных и негативно повлиять на общую точность алгоритма. Чтобы компенсировать это, исследователи разработали сотни методов подвыборки, чтобы ограничить количество потерянной информации.
Однако Рекер и его сотрудники захотели выяснить, способна ли техника, известная как активное машинное обучение, решить данную проблему.
— Дэниел Рекер.
Как правило, Рекер и другие исследователи применяют алгоритмы активного обучения для создания новых данных, например, для идентификации новых лекарств, но Рекер и его команда хотели изучить, что произойдет, если алгоритм будет запущен на существующих наборах данных. В то время как это применение активного машинного обучения с подвыборкой изучалось в других исследованиях, Рекер и его команда были первыми, кто протестировал алгоритм в молекулярной биологии и разработке лекарств.
Чтобы проверить эффективность своего активного подхода к подвыборке, команда собрала наборы данных о молекулах с различными характеристиками, включая молекулы, которые могут преодолевать гематоэнцефалический барьер, молекулы, которые могут ингибировать белок, связанный с болезнью Альцгеймера, и соединения, которые, как было показано, ингибируют Репликация ВИЧ. Затем они протестировали свой алгоритм активного обучения на моделях, которые учились на полном наборе данных, и на 16 современных стратегиях подвыборки.
Команда показала, что активная подвыборка способна идентифицировать и предсказывать молекулярные характеристики более точно, чем каждая из стандартных стратегий подвыборки, и, что наиболее важно, в некоторых случаях была на 139 процентов эффективнее, чем алгоритм, который обучался на полном наборе данных. Их модель также смогла точно приспособиться к ошибкам в данных, что указывает на то, что она может быть особенно полезна для наборов данных низкого качества.
Но что самое удивительное, команда обнаружила, что идеальное количество данных для использования было намного меньше, чем ожидалось, а в некоторых случаях требовалось только 10% доступных данных.
— Дэниел Рекер.
Хотя Рекер и его команда надеются изучить этот переломный момент в будущей работе, они также планируют использовать этот новый подход для выявления новых молекул для потенциальных терапевтических мишеней. Поскольку активное машинное обучение становится популярным во многих различных областях исследований, команда надеется, что их работа поможет ученым лучше понять этот алгоритм и его устойчивость к ошибкам в данных.
Этот новый подход может помочь ученым идентифицировать и классифицировать молекулы с характеристиками, которые могут быть полезны для разработки новых кандидатов в лекарства и других материалов.
Работа появилась в журнале Digital Discovery, издаваемом Королевским химическим обществом 23 июня.
Проблема предвзятости
Алгоритмы машинного обучения все чаще используются для идентификации и прогнозирования свойств малых молекул, таких как кандидаты в лекарства и другие соединения. Хотя были достигнуты значительные успехи как в вычислительной мощности, так и в алгоритмах машинного обучения, их возможности в настоящее время ограничены существующими наборами данных, используемых для их обучения, которые далеки от совершенства.
Одна из основных проблем связана с предвзятостью ИИ при выборке данных. Это происходит, когда имеется значительное количество точек данных, которые демонстрируют одно свойство гораздо больше, чем другое, например потенциальную способность молекулы ингибировать определенный белок или характеристики его структуры.
Это как если бы вы обучили алгоритм различать изображения собак и кошек, но дали бы ему миллиард фотографий собак для обучения и только сотню фотографий кошек. Алгоритм станет настолько хорош в идентификации собак, что все начнет выглядеть как собака, и он забудет обо всем остальном в мире
— Дэниел Рекер, доцент кафедры биомедицинской инженерии в Университете Дьюка.
Это становится особенно проблематичным, если дело касается открытия и разработки лекарств, когда ученые часто имеют дело с наборами данных, в которых более 99% тестируемых соединений являются «неэффективными», и только небольшая часть молекул помечена как потенциально полезные.
Чтобы решить эту проблему, исследователи используют процесс, известный как подвыборка данных, когда их алгоритм учится на небольшом, но достаточно репрезентативном подмножестве данных. Хотя этот процесс может устранить предвзятость, предоставив модели равное количество примеров для обучения, он также может исключить ключевые точки данных и негативно повлиять на общую точность алгоритма. Чтобы компенсировать это, исследователи разработали сотни методов подвыборки, чтобы ограничить количество потерянной информации.
Однако Рекер и его сотрудники захотели выяснить, способна ли техника, известная как активное машинное обучение, решить данную проблему.
При активном машинном обучении алгоритм, по сути, может задавать вопросы или запрашивать дополнительную информацию, если он запутался или чувствует пробел в данных, а не пассивно просеивает их. Это делает модели активного обучения очень эффективными при прогнозировании производительности
— Дэниел Рекер.
Как правило, Рекер и другие исследователи применяют алгоритмы активного обучения для создания новых данных, например, для идентификации новых лекарств, но Рекер и его команда хотели изучить, что произойдет, если алгоритм будет запущен на существующих наборах данных. В то время как это применение активного машинного обучения с подвыборкой изучалось в других исследованиях, Рекер и его команда были первыми, кто протестировал алгоритм в молекулярной биологии и разработке лекарств.
Доказательство эффективности метода
Чтобы проверить эффективность своего активного подхода к подвыборке, команда собрала наборы данных о молекулах с различными характеристиками, включая молекулы, которые могут преодолевать гематоэнцефалический барьер, молекулы, которые могут ингибировать белок, связанный с болезнью Альцгеймера, и соединения, которые, как было показано, ингибируют Репликация ВИЧ. Затем они протестировали свой алгоритм активного обучения на моделях, которые учились на полном наборе данных, и на 16 современных стратегиях подвыборки.
Команда показала, что активная подвыборка способна идентифицировать и предсказывать молекулярные характеристики более точно, чем каждая из стандартных стратегий подвыборки, и, что наиболее важно, в некоторых случаях была на 139 процентов эффективнее, чем алгоритм, который обучался на полном наборе данных. Их модель также смогла точно приспособиться к ошибкам в данных, что указывает на то, что она может быть особенно полезна для наборов данных низкого качества.
Но что самое удивительное, команда обнаружила, что идеальное количество данных для использования было намного меньше, чем ожидалось, а в некоторых случаях требовалось только 10% доступных данных.
Есть момент, когда модель активной подвыборки собирает всю необходимую ей информацию, и если вы добавите больше данных, это отрицательно скажется на производительности. Эта проблема была особенно интересна для нас, потому что она намекает на то, что есть переломный момент, когда дополнительная информация больше не помогает, даже в подвыборке
— Дэниел Рекер.
Хотя Рекер и его команда надеются изучить этот переломный момент в будущей работе, они также планируют использовать этот новый подход для выявления новых молекул для потенциальных терапевтических мишеней. Поскольку активное машинное обучение становится популярным во многих различных областях исследований, команда надеется, что их работа поможет ученым лучше понять этот алгоритм и его устойчивость к ошибкам в данных.
- Алексей Павлов
- NicoElNino
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Тайна необъяснимых северных кратеров разгадана спустя 11 лет после появления первого провала на Ямале
Почему российские ученые не рады своему открытию, называя его «русской рулеткой»?...

Турецкие археологи обнаружили затерянный мост, способный переписать всю раннюю историю человечества
Оказалось, что научная сенсация все это время... валялась у ученых буквально под ногами...

Секретная база в Гренландии, спрятанная 30-метровым слоем льда, угрожает всему миру
Гляциолог Уильям Колган говорит: «Американские военные думали, что это никогда не вскроется, но теперь...»...

Рядом с пирамидами Гизы обнаружены секретные тоннели, ведущие в забытый подземный мир
Быть может, их построили даже не египтяне. Но кто тогда?...

В Антарктиде обнаружен метановый «спящий гигант», который очень быстро просыпается. И это плохая новость
Ученые в тревоге задаются вопросом: означают ли десятки газовых гейзеров под водой, что эффект домино уже запущен?...

В самом большом кратере Луны происходит что-то очень странное
Поэтому астронавты планируют туда заглянуть в самое ближайшее время...

Наше тело — это… большой мозг: эксперимент русского ученого может совершить революцию в медицине
Эксперты говорят: «Открытие клеточной памяти — это огромный шаг к медицине, где лечение будет подбираться точно для конкретного человека»...

Археологи поражены: 404 тысячи лет назад «римляне» спокойно разделали гигантского слона... 3-сантиметровыми ножичками
Получается, что древние охотники могли справиться с самым большим животным в Европе буквально голыми руками?...

Ученые выяснили: в каком возрасте наш мозг достигает пика своей активности
Почему же 20-30 лет оказались стереотипом, далеким от реальной жизни?...

«Черный ящик» раскрыл тайну летучей мыши, пожирающей птиц прямо в полете
Ученые совершенно не ожидали, что рукокрылый властелин ночного неба по свирепости и охотничьему мастерству даст фору даже соколам...

Астрофизики Гавайского университета неожиданно разгадали тайну… солнечного дождя
Рассказываем, почему новое открытие важно для каждого жителя Земли...

Как мадагаскарские лемуры ускоряют покорение космоса?
И почему именно эти животные оказались самые ценными для будущего всего человечества?...

Мог ли великий художник Клод Моне видеть в ультрафиолетовом спектре, как пчела?
Историки уверены: после операции на глазах с французским живописцем стали происходит очень странные вещи...