Разрешив ИИ задавать вопросы мы можем сделать его умнее
Инженеры-биомедики из Университета Дьюка продемонстрировали новый метод, позволяющий значительно повысить эффективность моделей машинного обучения при поиске новых молекулярных терапевтических средств при использовании лишь части имеющихся данных. Работая с алгоритмом, который активно выявляет пробелы в наборах данных, исследователи могут в некоторых случаях более чем удвоить свою точность.
Этот новый подход может помочь ученым идентифицировать и классифицировать молекулы с характеристиками, которые могут быть полезны для разработки новых кандидатов в лекарства и других материалов.
Работа появилась в журнале Digital Discovery, издаваемом Королевским химическим обществом 23 июня.
Алгоритмы машинного обучения все чаще используются для идентификации и прогнозирования свойств малых молекул, таких как кандидаты в лекарства и другие соединения. Хотя были достигнуты значительные успехи как в вычислительной мощности, так и в алгоритмах машинного обучения, их возможности в настоящее время ограничены существующими наборами данных, используемых для их обучения, которые далеки от совершенства.
Одна из основных проблем связана с предвзятостью ИИ при выборке данных. Это происходит, когда имеется значительное количество точек данных, которые демонстрируют одно свойство гораздо больше, чем другое, например потенциальную способность молекулы ингибировать определенный белок или характеристики его структуры.
— Дэниел Рекер, доцент кафедры биомедицинской инженерии в Университете Дьюка.
Это становится особенно проблематичным, если дело касается открытия и разработки лекарств, когда ученые часто имеют дело с наборами данных, в которых более 99% тестируемых соединений являются «неэффективными», и только небольшая часть молекул помечена как потенциально полезные.
Чтобы решить эту проблему, исследователи используют процесс, известный как подвыборка данных, когда их алгоритм учится на небольшом, но достаточно репрезентативном подмножестве данных. Хотя этот процесс может устранить предвзятость, предоставив модели равное количество примеров для обучения, он также может исключить ключевые точки данных и негативно повлиять на общую точность алгоритма. Чтобы компенсировать это, исследователи разработали сотни методов подвыборки, чтобы ограничить количество потерянной информации.
Однако Рекер и его сотрудники захотели выяснить, способна ли техника, известная как активное машинное обучение, решить данную проблему.
— Дэниел Рекер.
Как правило, Рекер и другие исследователи применяют алгоритмы активного обучения для создания новых данных, например, для идентификации новых лекарств, но Рекер и его команда хотели изучить, что произойдет, если алгоритм будет запущен на существующих наборах данных. В то время как это применение активного машинного обучения с подвыборкой изучалось в других исследованиях, Рекер и его команда были первыми, кто протестировал алгоритм в молекулярной биологии и разработке лекарств.
Чтобы проверить эффективность своего активного подхода к подвыборке, команда собрала наборы данных о молекулах с различными характеристиками, включая молекулы, которые могут преодолевать гематоэнцефалический барьер, молекулы, которые могут ингибировать белок, связанный с болезнью Альцгеймера, и соединения, которые, как было показано, ингибируют Репликация ВИЧ. Затем они протестировали свой алгоритм активного обучения на моделях, которые учились на полном наборе данных, и на 16 современных стратегиях подвыборки.
Команда показала, что активная подвыборка способна идентифицировать и предсказывать молекулярные характеристики более точно, чем каждая из стандартных стратегий подвыборки, и, что наиболее важно, в некоторых случаях была на 139 процентов эффективнее, чем алгоритм, который обучался на полном наборе данных. Их модель также смогла точно приспособиться к ошибкам в данных, что указывает на то, что она может быть особенно полезна для наборов данных низкого качества.
Но что самое удивительное, команда обнаружила, что идеальное количество данных для использования было намного меньше, чем ожидалось, а в некоторых случаях требовалось только 10% доступных данных.
— Дэниел Рекер.
Хотя Рекер и его команда надеются изучить этот переломный момент в будущей работе, они также планируют использовать этот новый подход для выявления новых молекул для потенциальных терапевтических мишеней. Поскольку активное машинное обучение становится популярным во многих различных областях исследований, команда надеется, что их работа поможет ученым лучше понять этот алгоритм и его устойчивость к ошибкам в данных.
Этот новый подход может помочь ученым идентифицировать и классифицировать молекулы с характеристиками, которые могут быть полезны для разработки новых кандидатов в лекарства и других материалов.
Работа появилась в журнале Digital Discovery, издаваемом Королевским химическим обществом 23 июня.
Проблема предвзятости
Алгоритмы машинного обучения все чаще используются для идентификации и прогнозирования свойств малых молекул, таких как кандидаты в лекарства и другие соединения. Хотя были достигнуты значительные успехи как в вычислительной мощности, так и в алгоритмах машинного обучения, их возможности в настоящее время ограничены существующими наборами данных, используемых для их обучения, которые далеки от совершенства.
Одна из основных проблем связана с предвзятостью ИИ при выборке данных. Это происходит, когда имеется значительное количество точек данных, которые демонстрируют одно свойство гораздо больше, чем другое, например потенциальную способность молекулы ингибировать определенный белок или характеристики его структуры.
Это как если бы вы обучили алгоритм различать изображения собак и кошек, но дали бы ему миллиард фотографий собак для обучения и только сотню фотографий кошек. Алгоритм станет настолько хорош в идентификации собак, что все начнет выглядеть как собака, и он забудет обо всем остальном в мире
— Дэниел Рекер, доцент кафедры биомедицинской инженерии в Университете Дьюка.
Это становится особенно проблематичным, если дело касается открытия и разработки лекарств, когда ученые часто имеют дело с наборами данных, в которых более 99% тестируемых соединений являются «неэффективными», и только небольшая часть молекул помечена как потенциально полезные.
Чтобы решить эту проблему, исследователи используют процесс, известный как подвыборка данных, когда их алгоритм учится на небольшом, но достаточно репрезентативном подмножестве данных. Хотя этот процесс может устранить предвзятость, предоставив модели равное количество примеров для обучения, он также может исключить ключевые точки данных и негативно повлиять на общую точность алгоритма. Чтобы компенсировать это, исследователи разработали сотни методов подвыборки, чтобы ограничить количество потерянной информации.
Однако Рекер и его сотрудники захотели выяснить, способна ли техника, известная как активное машинное обучение, решить данную проблему.
При активном машинном обучении алгоритм, по сути, может задавать вопросы или запрашивать дополнительную информацию, если он запутался или чувствует пробел в данных, а не пассивно просеивает их. Это делает модели активного обучения очень эффективными при прогнозировании производительности
— Дэниел Рекер.
Как правило, Рекер и другие исследователи применяют алгоритмы активного обучения для создания новых данных, например, для идентификации новых лекарств, но Рекер и его команда хотели изучить, что произойдет, если алгоритм будет запущен на существующих наборах данных. В то время как это применение активного машинного обучения с подвыборкой изучалось в других исследованиях, Рекер и его команда были первыми, кто протестировал алгоритм в молекулярной биологии и разработке лекарств.
Доказательство эффективности метода
Чтобы проверить эффективность своего активного подхода к подвыборке, команда собрала наборы данных о молекулах с различными характеристиками, включая молекулы, которые могут преодолевать гематоэнцефалический барьер, молекулы, которые могут ингибировать белок, связанный с болезнью Альцгеймера, и соединения, которые, как было показано, ингибируют Репликация ВИЧ. Затем они протестировали свой алгоритм активного обучения на моделях, которые учились на полном наборе данных, и на 16 современных стратегиях подвыборки.
Команда показала, что активная подвыборка способна идентифицировать и предсказывать молекулярные характеристики более точно, чем каждая из стандартных стратегий подвыборки, и, что наиболее важно, в некоторых случаях была на 139 процентов эффективнее, чем алгоритм, который обучался на полном наборе данных. Их модель также смогла точно приспособиться к ошибкам в данных, что указывает на то, что она может быть особенно полезна для наборов данных низкого качества.
Но что самое удивительное, команда обнаружила, что идеальное количество данных для использования было намного меньше, чем ожидалось, а в некоторых случаях требовалось только 10% доступных данных.
Есть момент, когда модель активной подвыборки собирает всю необходимую ей информацию, и если вы добавите больше данных, это отрицательно скажется на производительности. Эта проблема была особенно интересна для нас, потому что она намекает на то, что есть переломный момент, когда дополнительная информация больше не помогает, даже в подвыборке
— Дэниел Рекер.
Хотя Рекер и его команда надеются изучить этот переломный момент в будущей работе, они также планируют использовать этот новый подход для выявления новых молекул для потенциальных терапевтических мишеней. Поскольку активное машинное обучение становится популярным во многих различных областях исследований, команда надеется, что их работа поможет ученым лучше понять этот алгоритм и его устойчивость к ошибкам в данных.
- Алексей Павлов
- NicoElNino
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Бомбы с орбиты: почему советская технология, воскрешенная Китаем, встревожила США?
Американцы слишком долго считали свои системы раннего предупреждения лучшими на планете. Теперь......
Битва под Каневом: почему на 350 лет замолчали сокрушительную победу России?
Неудобная победа, предательство и идеология. Мы бы могли вообще не узнать об этом триумфе русского оружия...
С Ноева ковчега сняли запрет: что покажут радары на Арарате?
История, которую больше всего высмеивали ученые, неожиданно становится все более реальной...
Дикий народ чучуна: Кто наводил ужас на коренное население Сибири?
Йети? Люди-изгои? Древнее племя? Пока что вопросов больше, чем ответов...
Мрачный прогноз для США из 1995 года сбылся: в чем великий ученый Саган оказался прав?
Исследователь говорил: все плохо, но еще не все потеряно. Его советы могут реально помочь всему человечеству...
Почему их ДНК не меняется уже 42 000 лет: определен самый древний народ на планете
Три раза предки жителей Океании встречались с исчезнувшими видами людей, и это в корне изменило их гены...
Тайна «косого глаза» Венеры раскрыта: что увидела нейросеть на картинах Боттичелли?
Художник нарисовал пять портретов прекрасной Симонетты Веспуччи. И каждое полотно еще больше подтверждает страшный диагноз...
Новая вселенная внутри звезды: почему Эйнштейн мог ошибаться насчет черных дыр
Больше 20 лет эта гипотеза в буквальном смысле раздирает мир науки. Но, возможно, именно она выведет ученых из тупика сингулярности...
Снегопады в Антарктиде становятся все аномальнее: и ученые, наконец-то, знают почему?
Ученым придется пересмотреть все климатические модели Шестого континента. Кстати, снега там будет выпадать с каждым годом все больше...
Еще одна тайна майя: археологи секрет алтаря в заброшенном городе
Выяснилось, что индейцы долгие столетия продолжали исповедовать, казалось бы, давно забытый древний культ...
Марс под вопросом: что может обнулить иммунитет у космонавтов?
И почему защита организма перестает видеть микробы, выжившие в космосе?...
43 — проклятый возраст Рюриковичей: почему многие князья не переживали этот роковой рубеж?
Генетики говорят: русская династия слишком поздно поняла, что попала в ловушку «чистой» крови...
Кипящая дыра в Йеллоустоуне: почему геологи «проморгали» опасный инцидент?
Геологический детектив: незамеченный взрыв, неожиданный провал и далеко идущие последствия...
Бельгийскую разведку снова взломали: хакеры целый год качали оттуда секретные данные
Эксперты говорят: проникновение было замечено совершенно случайно. И это пугает...
Доказана жизнь на спутнике Юпитера: как же бактериям удалось добраться с Земли на Европу?
За 3,5 миллиарда лет земные бактерии могли долететь до 105 звездных систем. Так что у Европы есть все шансы на «заражение»...
Сначала Стоунхендж был... не каменным: найден прототип легендарного святилища
Доисторическая религия оказалась старше на 500 лет, чем считали ученые. И она играла огромную роль в жизни древних людей...