Разрешив ИИ задавать вопросы мы можем сделать его умнее
Инженеры-биомедики из Университета Дьюка продемонстрировали новый метод, позволяющий значительно повысить эффективность моделей машинного обучения при поиске новых молекулярных терапевтических средств при использовании лишь части имеющихся данных. Работая с алгоритмом, который активно выявляет пробелы в наборах данных, исследователи могут в некоторых случаях более чем удвоить свою точность.
Этот новый подход может помочь ученым идентифицировать и классифицировать молекулы с характеристиками, которые могут быть полезны для разработки новых кандидатов в лекарства и других материалов.
Работа появилась в журнале Digital Discovery, издаваемом Королевским химическим обществом 23 июня.
Алгоритмы машинного обучения все чаще используются для идентификации и прогнозирования свойств малых молекул, таких как кандидаты в лекарства и другие соединения. Хотя были достигнуты значительные успехи как в вычислительной мощности, так и в алгоритмах машинного обучения, их возможности в настоящее время ограничены существующими наборами данных, используемых для их обучения, которые далеки от совершенства.
Одна из основных проблем связана с предвзятостью ИИ при выборке данных. Это происходит, когда имеется значительное количество точек данных, которые демонстрируют одно свойство гораздо больше, чем другое, например потенциальную способность молекулы ингибировать определенный белок или характеристики его структуры.
— Дэниел Рекер, доцент кафедры биомедицинской инженерии в Университете Дьюка.
Это становится особенно проблематичным, если дело касается открытия и разработки лекарств, когда ученые часто имеют дело с наборами данных, в которых более 99% тестируемых соединений являются «неэффективными», и только небольшая часть молекул помечена как потенциально полезные.
Чтобы решить эту проблему, исследователи используют процесс, известный как подвыборка данных, когда их алгоритм учится на небольшом, но достаточно репрезентативном подмножестве данных. Хотя этот процесс может устранить предвзятость, предоставив модели равное количество примеров для обучения, он также может исключить ключевые точки данных и негативно повлиять на общую точность алгоритма. Чтобы компенсировать это, исследователи разработали сотни методов подвыборки, чтобы ограничить количество потерянной информации.
Однако Рекер и его сотрудники захотели выяснить, способна ли техника, известная как активное машинное обучение, решить данную проблему.
— Дэниел Рекер.
Как правило, Рекер и другие исследователи применяют алгоритмы активного обучения для создания новых данных, например, для идентификации новых лекарств, но Рекер и его команда хотели изучить, что произойдет, если алгоритм будет запущен на существующих наборах данных. В то время как это применение активного машинного обучения с подвыборкой изучалось в других исследованиях, Рекер и его команда были первыми, кто протестировал алгоритм в молекулярной биологии и разработке лекарств.
Чтобы проверить эффективность своего активного подхода к подвыборке, команда собрала наборы данных о молекулах с различными характеристиками, включая молекулы, которые могут преодолевать гематоэнцефалический барьер, молекулы, которые могут ингибировать белок, связанный с болезнью Альцгеймера, и соединения, которые, как было показано, ингибируют Репликация ВИЧ. Затем они протестировали свой алгоритм активного обучения на моделях, которые учились на полном наборе данных, и на 16 современных стратегиях подвыборки.
Команда показала, что активная подвыборка способна идентифицировать и предсказывать молекулярные характеристики более точно, чем каждая из стандартных стратегий подвыборки, и, что наиболее важно, в некоторых случаях была на 139 процентов эффективнее, чем алгоритм, который обучался на полном наборе данных. Их модель также смогла точно приспособиться к ошибкам в данных, что указывает на то, что она может быть особенно полезна для наборов данных низкого качества.
Но что самое удивительное, команда обнаружила, что идеальное количество данных для использования было намного меньше, чем ожидалось, а в некоторых случаях требовалось только 10% доступных данных.
— Дэниел Рекер.
Хотя Рекер и его команда надеются изучить этот переломный момент в будущей работе, они также планируют использовать этот новый подход для выявления новых молекул для потенциальных терапевтических мишеней. Поскольку активное машинное обучение становится популярным во многих различных областях исследований, команда надеется, что их работа поможет ученым лучше понять этот алгоритм и его устойчивость к ошибкам в данных.
Этот новый подход может помочь ученым идентифицировать и классифицировать молекулы с характеристиками, которые могут быть полезны для разработки новых кандидатов в лекарства и других материалов.
Работа появилась в журнале Digital Discovery, издаваемом Королевским химическим обществом 23 июня.
Проблема предвзятости
Алгоритмы машинного обучения все чаще используются для идентификации и прогнозирования свойств малых молекул, таких как кандидаты в лекарства и другие соединения. Хотя были достигнуты значительные успехи как в вычислительной мощности, так и в алгоритмах машинного обучения, их возможности в настоящее время ограничены существующими наборами данных, используемых для их обучения, которые далеки от совершенства.
Одна из основных проблем связана с предвзятостью ИИ при выборке данных. Это происходит, когда имеется значительное количество точек данных, которые демонстрируют одно свойство гораздо больше, чем другое, например потенциальную способность молекулы ингибировать определенный белок или характеристики его структуры.
Это как если бы вы обучили алгоритм различать изображения собак и кошек, но дали бы ему миллиард фотографий собак для обучения и только сотню фотографий кошек. Алгоритм станет настолько хорош в идентификации собак, что все начнет выглядеть как собака, и он забудет обо всем остальном в мире
— Дэниел Рекер, доцент кафедры биомедицинской инженерии в Университете Дьюка.
Это становится особенно проблематичным, если дело касается открытия и разработки лекарств, когда ученые часто имеют дело с наборами данных, в которых более 99% тестируемых соединений являются «неэффективными», и только небольшая часть молекул помечена как потенциально полезные.
Чтобы решить эту проблему, исследователи используют процесс, известный как подвыборка данных, когда их алгоритм учится на небольшом, но достаточно репрезентативном подмножестве данных. Хотя этот процесс может устранить предвзятость, предоставив модели равное количество примеров для обучения, он также может исключить ключевые точки данных и негативно повлиять на общую точность алгоритма. Чтобы компенсировать это, исследователи разработали сотни методов подвыборки, чтобы ограничить количество потерянной информации.
Однако Рекер и его сотрудники захотели выяснить, способна ли техника, известная как активное машинное обучение, решить данную проблему.
При активном машинном обучении алгоритм, по сути, может задавать вопросы или запрашивать дополнительную информацию, если он запутался или чувствует пробел в данных, а не пассивно просеивает их. Это делает модели активного обучения очень эффективными при прогнозировании производительности
— Дэниел Рекер.
Как правило, Рекер и другие исследователи применяют алгоритмы активного обучения для создания новых данных, например, для идентификации новых лекарств, но Рекер и его команда хотели изучить, что произойдет, если алгоритм будет запущен на существующих наборах данных. В то время как это применение активного машинного обучения с подвыборкой изучалось в других исследованиях, Рекер и его команда были первыми, кто протестировал алгоритм в молекулярной биологии и разработке лекарств.
Доказательство эффективности метода
Чтобы проверить эффективность своего активного подхода к подвыборке, команда собрала наборы данных о молекулах с различными характеристиками, включая молекулы, которые могут преодолевать гематоэнцефалический барьер, молекулы, которые могут ингибировать белок, связанный с болезнью Альцгеймера, и соединения, которые, как было показано, ингибируют Репликация ВИЧ. Затем они протестировали свой алгоритм активного обучения на моделях, которые учились на полном наборе данных, и на 16 современных стратегиях подвыборки.
Команда показала, что активная подвыборка способна идентифицировать и предсказывать молекулярные характеристики более точно, чем каждая из стандартных стратегий подвыборки, и, что наиболее важно, в некоторых случаях была на 139 процентов эффективнее, чем алгоритм, который обучался на полном наборе данных. Их модель также смогла точно приспособиться к ошибкам в данных, что указывает на то, что она может быть особенно полезна для наборов данных низкого качества.
Но что самое удивительное, команда обнаружила, что идеальное количество данных для использования было намного меньше, чем ожидалось, а в некоторых случаях требовалось только 10% доступных данных.
Есть момент, когда модель активной подвыборки собирает всю необходимую ей информацию, и если вы добавите больше данных, это отрицательно скажется на производительности. Эта проблема была особенно интересна для нас, потому что она намекает на то, что есть переломный момент, когда дополнительная информация больше не помогает, даже в подвыборке
— Дэниел Рекер.
Хотя Рекер и его команда надеются изучить этот переломный момент в будущей работе, они также планируют использовать этот новый подход для выявления новых молекул для потенциальных терапевтических мишеней. Поскольку активное машинное обучение становится популярным во многих различных областях исследований, команда надеется, что их работа поможет ученым лучше понять этот алгоритм и его устойчивость к ошибкам в данных.
- Алексей Павлов
- NicoElNino
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Новое исследование показало: Стоунхендж столетиями «водил за нос». Похоже, историю опять придется переписывать
Оказалось, что сенсация скрывалась в огромном круге, состоящем из загадочных шахт...
Людовик XIV умер совсем не от гангрены: ученые сумели раскрыть истину лишь 310 лет спустя
Эксперты говорят: французский король был обречен. Медикам того времени была совершенно неизвестна его болезнь...
Необъяснимые аномалии в тайге на Дальнем Востоке: читаем походные дневники военного разведчика и писателя Владимира Арсеньева
Часть первая: свет в ночном море, мираж «фата-моргана» и почти моментальное замерзание воды...
ЦРУ, море в пустыне и нефть: кто и зачем остановил проект Египта на 60 лет?
Часть вторая: Холодная война, 200 ядерных взрывов и 15 миллиардов, которые могут все изменить...
Меньше трех дней до конца света на орбите: почему программа CRASH Clock бьет тревогу?
Сотрудники Маска уверяют, что у них все под контролем. Но эксперты сравнивают орбиту с карточным домиком. Кто же прав?...
Что стоит за таинственными аномалиями в дальневосточной тайге? Продолжаем читать походные дневники военного разведчика и писателя Владимира Арсеньева
Часть вторая: снежная гроза, феномен моретрясения и встреча со «снежным человеком»...
Парадокс Великой Зеленой стены: Китай посадил 78 миллиардов новых деревьев, но климат стал только хуже. Как так вышло?
Ученые назвали причины, почему самый грандиозный экологический проект за всю историю в итоге обернулся головной болью для миллионов китайских граждан...
Египет хотел создать МОРЕ в пустыне Сахара: почему проект заморозили на 60 лет?
Часть первая: Реальный шанс спастись от всемирного потопа...
Российский ученый уверен, что максимально приблизился к разгадке тайны шаровой молнии
Похоже, наука ошибалась: это не плазменный сгусток, а «живой кристалл» из частиц-призраков...
Темная сторона Рима: выяснилось, что Империя веками «выкачивала» здоровье из покоренных народов
Новые находки заставили ученых признать: для простых людей римский «прогресс» был скорее приговором, чем спасением. Но почему же так вышло?...
Загадочная письменность Б из пещер у Мертвого моря наконец-то расшифрована
Ученые «ломали» древний шифр эпохи Христа более 70 лет, но результат разочаровал многих. Почему?...
Встречи с неведомым: завершаем чтение дневников разведчика и писателя Владимира Арсеньева
Часть третья: таинственный огонь в лесу, свет из облаков, призрак в тумане и странный дым на море...
Первая «чернокожая британка» оказалась белой: новое исследование заставило историков полностью пересмотреть портрет женщины из Бичи-Хед
Почему ученые так сильно ошиблись с ее внешностью? И стоит ли после этого доверять реконструкциям по ДНК?...