Генеративный ИИ сходит с ума, если переобучится на данных ИИ
Новое исследование искусственного интеллекта (ИИ) выявило ограничение в сетях текущего поколения, используемых в ChatGPT и Midjourney.
Уточним, что выходные данные ИИ — это текст, созданный ChatGPT, или изображения, порождённые моделью преобразования текста в картинку Stable Diffusion. Оказалось, что сети ИИ, обученные на выходных данных ИИ, как правило, сходят с ума после пяти циклов обучения на том, что сгенерировал сам ИИ. Это очевидно на титульной картинке к новости: по лицам словно прошлись напильником.
Выражение «сойти с ума» содержит в английском оригинале публикации не просто слово mad, «безумный», а аббревиатуру MAD — это сокращение от Model Autophagy Disorder, «расстройство с самопоеданием модели». Термин предложили учёные из двух университетов, Райса и Стэнфордского, которые участвовали в исследовании.
Понятие MAD означает явление, когда модели ИИ и качество результатов ухудшаются при повторном обучении на данных, сгенерированных ИИ. Как следует из термина, модель, по сути, съедает саму себя, как мифический змей Уроборос. Она теряет информацию о хвостах (крайностях) исходного распределения данных и начинает выдавать результаты, которые в большей степени соответствуют среднему значению.
По сути, обучение больших языковых моделей (LLM) на своих собственных (или чужих) выходных данных создаёт эффект конвергенции, сближения, данных, из которых состоит сама LLM. Последовательные итерации (обработки) при обучении на сгенерированных LLM данных приводят к тому, что модель теряет доступ к менее распространённым элементам.
Данные на краях, которые имеют меньше вариаций и менее представлены, по существу исчезают. Из-за этого остающиеся в модели элементы менее разнообразны и регрессируют к среднему значению. Согласно результатам исследования, требуется около пяти раундов итерации, пока не исчезнут хвосты исходного распределения — и это момент, когда наступает то самое безумие, MAD. Влияет ли расстройство аутофагии (самопоедания) на все модели ИИ, в точности пока неизвестно. Исследователи успели обкатать проблему на архитектуре нейронной сети типа автокодировщика, модели гауссовой смеси (GMM) и большой языковой модели.
Так уж получилось, что все типы моделей, которые могут сойти с ума, широко распространены. Так, автокодировщики могут прогнозировать популярность для соцсетей, сжимать изображения, подавлять шумы в картинках и генерировать новый графический контент. А модели гауссовой смеси используют для оценки плотности, кластеризации и сегментации изображений, что делает их особенно полезными для статистики и наук о данных.
Что касается больших языковых моделей, то они составляют основу современных популярных приложений для чат-ботов, в том числе ChatGPT от OpenAI и AI Claude от Anthropic. И они тоже склонны сходить с ума при обучении на своих собственных выходных данных. При растущей значимости алгоритмических моделей ИИ и в корпоративной сфере, и для рядовых пользователей — это проблема.
Итак, исследователи заглянули в чёрный ящик ИИ. И практически разрушили всякую надежду на то, что человечество обрело бесконечный источник данных. На самом деле определённые модели ИИ оказались, образно говоря, беговым колесом для хомячка: машина загружает в него данные, а затем возвращает внутрь его собственные данные, чтобы сгенерировать больше данных, которые затем возвращаются обратно.
Такой алгоритмический фанатизм не учитывает элементы, которые были изначально в меньшинстве. Результат налицо, точнее, опять-таки на лицах на заглавной картинке.
Другой важный момент — проблема происхождения данных. Теперь особенно важно иметь возможность отделять «оригинальные» данные от «искусственных». Если вы не можете определить, какие данные были созданы LLM или приложением для генерации картинки, вы можете случайно включить их в обучающие данные для вашего продукта следующего поколения.
К сожалению, этот корабль уже отчалил, пишет издание Tom’s Hardware. Уже создано некое количество немаркированных данных, созданных сетями такого типа и включённых в другие системы. Даже если бы у нас была копия всего интернета до взрыва популярности ChatGPT или Midjourney, во всемирную паутину уже давно ежедневно поступает контент, «придуманный» ИИ. И это не говоря уже об огромных объёмах того, что все эти машинные умы успели наштамповать.
Однако знание о проблеме означает, что поиск водяного знака, который безошибочно идентифицирует порождённый ИИ контент, теперь стал ещё важнее. И пропорционально выросла ответственность за маркировку того, что создано ИИ. (А ещё нарисовалась максимально прибыльная задача для разработчиков).
Однако существуют и другие способы компенсировать описанные отклонения. Один из них — просто изменить вес (в смысле науки о данных). Если увеличить релевантность или частоту результатов в хвостах распределения, они естественным образом будут двигаться вдоль колоколообразной кривой, ближе к среднему значению. Из этого следует, что тогда они были бы гораздо менее подвержены обрезке при самогенерирующемся обучении. Да, модель по-прежнему будет терять данные по краям кривой, но они будут не только там. Но это создаёт новую проблему — последствий тонкой настройки модели и того, как это повлияет на результат.
Для каждого вопроса, на который нашли ответ, возникает ряд новых.
• истинности ответов модели, где отклонения известны как галлюцинации;
• является ли модель предвзятой и откуда берётся эта предвзятость — из самих ли обучающих данных или из процесса взвешивания, используемого для создания сети, или из MAD;
• что происходит, когда модели обучаются на своих собственных данных.
Раз уже пишут без кавычек, что ИИ сходит с ума, то возможно и другое сравнение. Люди без доступа к новому опыту тоже деградируют, становясь эхо-камерами чего-то прежнего. Когда кто-то или что- то обучаются на собственных выходных данных, — это не к добру.
Уточним, что выходные данные ИИ — это текст, созданный ChatGPT, или изображения, порождённые моделью преобразования текста в картинку Stable Diffusion. Оказалось, что сети ИИ, обученные на выходных данных ИИ, как правило, сходят с ума после пяти циклов обучения на том, что сгенерировал сам ИИ. Это очевидно на титульной картинке к новости: по лицам словно прошлись напильником.
Выражение «сойти с ума» содержит в английском оригинале публикации не просто слово mad, «безумный», а аббревиатуру MAD — это сокращение от Model Autophagy Disorder, «расстройство с самопоеданием модели». Термин предложили учёные из двух университетов, Райса и Стэнфордского, которые участвовали в исследовании.
Понятие MAD означает явление, когда модели ИИ и качество результатов ухудшаются при повторном обучении на данных, сгенерированных ИИ. Как следует из термина, модель, по сути, съедает саму себя, как мифический змей Уроборос. Она теряет информацию о хвостах (крайностях) исходного распределения данных и начинает выдавать результаты, которые в большей степени соответствуют среднему значению.
По сути, обучение больших языковых моделей (LLM) на своих собственных (или чужих) выходных данных создаёт эффект конвергенции, сближения, данных, из которых состоит сама LLM. Последовательные итерации (обработки) при обучении на сгенерированных LLM данных приводят к тому, что модель теряет доступ к менее распространённым элементам.
Данные на краях, которые имеют меньше вариаций и менее представлены, по существу исчезают. Из-за этого остающиеся в модели элементы менее разнообразны и регрессируют к среднему значению. Согласно результатам исследования, требуется около пяти раундов итерации, пока не исчезнут хвосты исходного распределения — и это момент, когда наступает то самое безумие, MAD. Влияет ли расстройство аутофагии (самопоедания) на все модели ИИ, в точности пока неизвестно. Исследователи успели обкатать проблему на архитектуре нейронной сети типа автокодировщика, модели гауссовой смеси (GMM) и большой языковой модели.
Так уж получилось, что все типы моделей, которые могут сойти с ума, широко распространены. Так, автокодировщики могут прогнозировать популярность для соцсетей, сжимать изображения, подавлять шумы в картинках и генерировать новый графический контент. А модели гауссовой смеси используют для оценки плотности, кластеризации и сегментации изображений, что делает их особенно полезными для статистики и наук о данных.
Что касается больших языковых моделей, то они составляют основу современных популярных приложений для чат-ботов, в том числе ChatGPT от OpenAI и AI Claude от Anthropic. И они тоже склонны сходить с ума при обучении на своих собственных выходных данных. При растущей значимости алгоритмических моделей ИИ и в корпоративной сфере, и для рядовых пользователей — это проблема.
Итак, исследователи заглянули в чёрный ящик ИИ. И практически разрушили всякую надежду на то, что человечество обрело бесконечный источник данных. На самом деле определённые модели ИИ оказались, образно говоря, беговым колесом для хомячка: машина загружает в него данные, а затем возвращает внутрь его собственные данные, чтобы сгенерировать больше данных, которые затем возвращаются обратно.
Такой алгоритмический фанатизм не учитывает элементы, которые были изначально в меньшинстве. Результат налицо, точнее, опять-таки на лицах на заглавной картинке.
Другой важный момент — проблема происхождения данных. Теперь особенно важно иметь возможность отделять «оригинальные» данные от «искусственных». Если вы не можете определить, какие данные были созданы LLM или приложением для генерации картинки, вы можете случайно включить их в обучающие данные для вашего продукта следующего поколения.
К сожалению, этот корабль уже отчалил, пишет издание Tom’s Hardware. Уже создано некое количество немаркированных данных, созданных сетями такого типа и включённых в другие системы. Даже если бы у нас была копия всего интернета до взрыва популярности ChatGPT или Midjourney, во всемирную паутину уже давно ежедневно поступает контент, «придуманный» ИИ. И это не говоря уже об огромных объёмах того, что все эти машинные умы успели наштамповать.
Однако знание о проблеме означает, что поиск водяного знака, который безошибочно идентифицирует порождённый ИИ контент, теперь стал ещё важнее. И пропорционально выросла ответственность за маркировку того, что создано ИИ. (А ещё нарисовалась максимально прибыльная задача для разработчиков).
Однако существуют и другие способы компенсировать описанные отклонения. Один из них — просто изменить вес (в смысле науки о данных). Если увеличить релевантность или частоту результатов в хвостах распределения, они естественным образом будут двигаться вдоль колоколообразной кривой, ближе к среднему значению. Из этого следует, что тогда они были бы гораздо менее подвержены обрезке при самогенерирующемся обучении. Да, модель по-прежнему будет терять данные по краям кривой, но они будут не только там. Но это создаёт новую проблему — последствий тонкой настройки модели и того, как это повлияет на результат.
Для каждого вопроса, на который нашли ответ, возникает ряд новых.
На передний план выходят вопросы:
• истинности ответов модели, где отклонения известны как галлюцинации;
• является ли модель предвзятой и откуда берётся эта предвзятость — из самих ли обучающих данных или из процесса взвешивания, используемого для создания сети, или из MAD;
• что происходит, когда модели обучаются на своих собственных данных.
Раз уже пишут без кавычек, что ИИ сходит с ума, то возможно и другое сравнение. Люди без доступа к новому опыту тоже деградируют, становясь эхо-камерами чего-то прежнего. Когда кто-то или что- то обучаются на собственных выходных данных, — это не к добру.
- Дмитрий Ладыгин
- tomshardware.com; wikipedia.org
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Российские ученые «поймали за руку» Илона Маска
Они доказали, что его ракеты пробивают дыры в атмосфере....
«Титаник» разваливается прямо на глазах
Кто же ускоряет гибель легендарного корабля: люди или природа?...
Западная Европа и США готовятся к худшему
Новая угроза ожидается из Латинской Америки....
NASA обнаружило таинственное энергетическое поле вокруг Земли
Оно уникально, и, похоже, благодаря нему на планете… появилась жизнь....
Спасение человечества находится на дне Северного Ледовитого океана
Финские ученые уверены в этом на 100%....
Starliner Boeing снова в новостях: теперь там что-то жутко стучит и лязгает
NASA придумывает объяснения, а бывший командир МКС говорит, что это не к добру....
Космический корабль BepiColombo невероятно близко подлетел к Меркурию
Свежие снимки рябой планеты удалось сделать благодаря возникшим в полёте неполадкам....
Прорыв или кошмар? Искусственный интеллект стал изменять собственный код
Ученые говорят: ничего страшного. Но так ли это на самом деле?...
Форресты Гампы отменяются
Американские ученые «взломали» код аутизма....
Сосуд из найденного в Шотландии клада викингов оказался иранским
Никто не ожидал, что сокровище прибыло из столь отдаленных мест....
Азиаты оккупируют Британию: сначала мигранты, теперь желтоногие шершни
Экологи бьют тревогу и массово рассылают методички населению....
Безглазая смерть чует тьму: как именно грибок превращает мух в зомби-некрофилов
Главное случается ночью....
Новый метод поможет раскрыть секс-преступления во много раз быстрее
Открытие ускорит проверку улик....
Пандемия может повториться: эксперты бьют тревогу
По словам ученых, на зверофермах Китая творятся ужасные вещи....
Роботы и 3D-печать сделали бетон прочнее благодаря особой структуре
Имитируя природу, бетон можно уложить так, чтобы повысить прочность на 63%....
Компания 1X анонсировала повседневного помощника — гуманоидного робота NEO Beta
Похожий на человека механический слуга умеет ходить, бегать и подниматься по лестнице....