Генеративный ИИ сходит с ума, если переобучится на данных ИИ
Новое исследование искусственного интеллекта (ИИ) выявило ограничение в сетях текущего поколения, используемых в ChatGPT и Midjourney.
Уточним, что выходные данные ИИ — это текст, созданный ChatGPT, или изображения, порождённые моделью преобразования текста в картинку Stable Diffusion. Оказалось, что сети ИИ, обученные на выходных данных ИИ, как правило, сходят с ума после пяти циклов обучения на том, что сгенерировал сам ИИ. Это очевидно на титульной картинке к новости: по лицам словно прошлись напильником.
Выражение «сойти с ума» содержит в английском оригинале публикации не просто слово mad, «безумный», а аббревиатуру MAD — это сокращение от Model Autophagy Disorder, «расстройство с самопоеданием модели». Термин предложили учёные из двух университетов, Райса и Стэнфордского, которые участвовали в исследовании.
Понятие MAD означает явление, когда модели ИИ и качество результатов ухудшаются при повторном обучении на данных, сгенерированных ИИ. Как следует из термина, модель, по сути, съедает саму себя, как мифический змей Уроборос. Она теряет информацию о хвостах (крайностях) исходного распределения данных и начинает выдавать результаты, которые в большей степени соответствуют среднему значению.

По сути, обучение больших языковых моделей (LLM) на своих собственных (или чужих) выходных данных создаёт эффект конвергенции, сближения, данных, из которых состоит сама LLM. Последовательные итерации (обработки) при обучении на сгенерированных LLM данных приводят к тому, что модель теряет доступ к менее распространённым элементам.
Данные на краях, которые имеют меньше вариаций и менее представлены, по существу исчезают. Из-за этого остающиеся в модели элементы менее разнообразны и регрессируют к среднему значению. Согласно результатам исследования, требуется около пяти раундов итерации, пока не исчезнут хвосты исходного распределения — и это момент, когда наступает то самое безумие, MAD. Влияет ли расстройство аутофагии (самопоедания) на все модели ИИ, в точности пока неизвестно. Исследователи успели обкатать проблему на архитектуре нейронной сети типа автокодировщика, модели гауссовой смеси (GMM) и большой языковой модели.
Так уж получилось, что все типы моделей, которые могут сойти с ума, широко распространены. Так, автокодировщики могут прогнозировать популярность для соцсетей, сжимать изображения, подавлять шумы в картинках и генерировать новый графический контент. А модели гауссовой смеси используют для оценки плотности, кластеризации и сегментации изображений, что делает их особенно полезными для статистики и наук о данных.
Что касается больших языковых моделей, то они составляют основу современных популярных приложений для чат-ботов, в том числе ChatGPT от OpenAI и AI Claude от Anthropic. И они тоже склонны сходить с ума при обучении на своих собственных выходных данных. При растущей значимости алгоритмических моделей ИИ и в корпоративной сфере, и для рядовых пользователей — это проблема.
Итак, исследователи заглянули в чёрный ящик ИИ. И практически разрушили всякую надежду на то, что человечество обрело бесконечный источник данных. На самом деле определённые модели ИИ оказались, образно говоря, беговым колесом для хомячка: машина загружает в него данные, а затем возвращает внутрь его собственные данные, чтобы сгенерировать больше данных, которые затем возвращаются обратно.

Такой алгоритмический фанатизм не учитывает элементы, которые были изначально в меньшинстве. Результат налицо, точнее, опять-таки на лицах на заглавной картинке.
Другой важный момент — проблема происхождения данных. Теперь особенно важно иметь возможность отделять «оригинальные» данные от «искусственных». Если вы не можете определить, какие данные были созданы LLM или приложением для генерации картинки, вы можете случайно включить их в обучающие данные для вашего продукта следующего поколения.
К сожалению, этот корабль уже отчалил, пишет издание Tom’s Hardware. Уже создано некое количество немаркированных данных, созданных сетями такого типа и включённых в другие системы. Даже если бы у нас была копия всего интернета до взрыва популярности ChatGPT или Midjourney, во всемирную паутину уже давно ежедневно поступает контент, «придуманный» ИИ. И это не говоря уже об огромных объёмах того, что все эти машинные умы успели наштамповать.
Однако знание о проблеме означает, что поиск водяного знака, который безошибочно идентифицирует порождённый ИИ контент, теперь стал ещё важнее. И пропорционально выросла ответственность за маркировку того, что создано ИИ. (А ещё нарисовалась максимально прибыльная задача для разработчиков).
Однако существуют и другие способы компенсировать описанные отклонения. Один из них — просто изменить вес (в смысле науки о данных). Если увеличить релевантность или частоту результатов в хвостах распределения, они естественным образом будут двигаться вдоль колоколообразной кривой, ближе к среднему значению. Из этого следует, что тогда они были бы гораздо менее подвержены обрезке при самогенерирующемся обучении. Да, модель по-прежнему будет терять данные по краям кривой, но они будут не только там. Но это создаёт новую проблему — последствий тонкой настройки модели и того, как это повлияет на результат.
Для каждого вопроса, на который нашли ответ, возникает ряд новых.
• истинности ответов модели, где отклонения известны как галлюцинации;
• является ли модель предвзятой и откуда берётся эта предвзятость — из самих ли обучающих данных или из процесса взвешивания, используемого для создания сети, или из MAD;
• что происходит, когда модели обучаются на своих собственных данных.
Раз уже пишут без кавычек, что ИИ сходит с ума, то возможно и другое сравнение. Люди без доступа к новому опыту тоже деградируют, становясь эхо-камерами чего-то прежнего. Когда кто-то или что- то обучаются на собственных выходных данных, — это не к добру.
Уточним, что выходные данные ИИ — это текст, созданный ChatGPT, или изображения, порождённые моделью преобразования текста в картинку Stable Diffusion. Оказалось, что сети ИИ, обученные на выходных данных ИИ, как правило, сходят с ума после пяти циклов обучения на том, что сгенерировал сам ИИ. Это очевидно на титульной картинке к новости: по лицам словно прошлись напильником.
Выражение «сойти с ума» содержит в английском оригинале публикации не просто слово mad, «безумный», а аббревиатуру MAD — это сокращение от Model Autophagy Disorder, «расстройство с самопоеданием модели». Термин предложили учёные из двух университетов, Райса и Стэнфордского, которые участвовали в исследовании.
Понятие MAD означает явление, когда модели ИИ и качество результатов ухудшаются при повторном обучении на данных, сгенерированных ИИ. Как следует из термина, модель, по сути, съедает саму себя, как мифический змей Уроборос. Она теряет информацию о хвостах (крайностях) исходного распределения данных и начинает выдавать результаты, которые в большей степени соответствуют среднему значению.

По сути, обучение больших языковых моделей (LLM) на своих собственных (или чужих) выходных данных создаёт эффект конвергенции, сближения, данных, из которых состоит сама LLM. Последовательные итерации (обработки) при обучении на сгенерированных LLM данных приводят к тому, что модель теряет доступ к менее распространённым элементам.
Данные на краях, которые имеют меньше вариаций и менее представлены, по существу исчезают. Из-за этого остающиеся в модели элементы менее разнообразны и регрессируют к среднему значению. Согласно результатам исследования, требуется около пяти раундов итерации, пока не исчезнут хвосты исходного распределения — и это момент, когда наступает то самое безумие, MAD. Влияет ли расстройство аутофагии (самопоедания) на все модели ИИ, в точности пока неизвестно. Исследователи успели обкатать проблему на архитектуре нейронной сети типа автокодировщика, модели гауссовой смеси (GMM) и большой языковой модели.
Так уж получилось, что все типы моделей, которые могут сойти с ума, широко распространены. Так, автокодировщики могут прогнозировать популярность для соцсетей, сжимать изображения, подавлять шумы в картинках и генерировать новый графический контент. А модели гауссовой смеси используют для оценки плотности, кластеризации и сегментации изображений, что делает их особенно полезными для статистики и наук о данных.
Что касается больших языковых моделей, то они составляют основу современных популярных приложений для чат-ботов, в том числе ChatGPT от OpenAI и AI Claude от Anthropic. И они тоже склонны сходить с ума при обучении на своих собственных выходных данных. При растущей значимости алгоритмических моделей ИИ и в корпоративной сфере, и для рядовых пользователей — это проблема.
Итак, исследователи заглянули в чёрный ящик ИИ. И практически разрушили всякую надежду на то, что человечество обрело бесконечный источник данных. На самом деле определённые модели ИИ оказались, образно говоря, беговым колесом для хомячка: машина загружает в него данные, а затем возвращает внутрь его собственные данные, чтобы сгенерировать больше данных, которые затем возвращаются обратно.

Такой алгоритмический фанатизм не учитывает элементы, которые были изначально в меньшинстве. Результат налицо, точнее, опять-таки на лицах на заглавной картинке.
Другой важный момент — проблема происхождения данных. Теперь особенно важно иметь возможность отделять «оригинальные» данные от «искусственных». Если вы не можете определить, какие данные были созданы LLM или приложением для генерации картинки, вы можете случайно включить их в обучающие данные для вашего продукта следующего поколения.
К сожалению, этот корабль уже отчалил, пишет издание Tom’s Hardware. Уже создано некое количество немаркированных данных, созданных сетями такого типа и включённых в другие системы. Даже если бы у нас была копия всего интернета до взрыва популярности ChatGPT или Midjourney, во всемирную паутину уже давно ежедневно поступает контент, «придуманный» ИИ. И это не говоря уже об огромных объёмах того, что все эти машинные умы успели наштамповать.
Однако знание о проблеме означает, что поиск водяного знака, который безошибочно идентифицирует порождённый ИИ контент, теперь стал ещё важнее. И пропорционально выросла ответственность за маркировку того, что создано ИИ. (А ещё нарисовалась максимально прибыльная задача для разработчиков).
Однако существуют и другие способы компенсировать описанные отклонения. Один из них — просто изменить вес (в смысле науки о данных). Если увеличить релевантность или частоту результатов в хвостах распределения, они естественным образом будут двигаться вдоль колоколообразной кривой, ближе к среднему значению. Из этого следует, что тогда они были бы гораздо менее подвержены обрезке при самогенерирующемся обучении. Да, модель по-прежнему будет терять данные по краям кривой, но они будут не только там. Но это создаёт новую проблему — последствий тонкой настройки модели и того, как это повлияет на результат.
Для каждого вопроса, на который нашли ответ, возникает ряд новых.
На передний план выходят вопросы:
• истинности ответов модели, где отклонения известны как галлюцинации;
• является ли модель предвзятой и откуда берётся эта предвзятость — из самих ли обучающих данных или из процесса взвешивания, используемого для создания сети, или из MAD;
• что происходит, когда модели обучаются на своих собственных данных.
Раз уже пишут без кавычек, что ИИ сходит с ума, то возможно и другое сравнение. Люди без доступа к новому опыту тоже деградируют, становясь эхо-камерами чего-то прежнего. Когда кто-то или что- то обучаются на собственных выходных данных, — это не к добру.
- Дмитрий Ладыгин
- tomshardware.com; wikipedia.org
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Еще одна теория заговора оказалась чистой правдой: «химтрейлы» были подтверждены документально
Оказалось, что правительство США десятилетием секретно распыляет в атмосфере вещества, влияющие на погоду и здоровье миллионов...
И снова здравствуйте: ученые РАН начали работу… над советским проектом переброса сибирских рек в Среднюю Азию
Зачем это вообще нужно? И почему сейчас это выгодно России?...
Жители китайской деревни 20 лет подряд ели… самого большого динозавра в Азии
Ученые говорят: это был самый громкий и безумный случай в истории палеонтологии...
Вскрылся неожиданный парадокс: поддержка Украины... значительно укрепила русский язык в Прибалтике
Ученые Псковского университета объяснили этот демографический и лингвистический феномен. Все оказалось более чем интересно...
Открытие якутских ученых коренным образом меняет будущее Арктики
Эксперты подтверждают: новый графенобетон — это настоящая революция в северном строительстве...
Запретный нектар фараонов: химики вскрыли тайную жизнь Древнего Египта
Новое открытие в корне меняет понимание о том, как жила целая цивилизация...
Совершенно случайно выяснилось: волки гораздо умнее, чем считали зоологи
Оказалось, что хищники могут… пользоваться инструментами. А это уже совсем другой уровень интеллекта...
Сибирские ели в Мурманске в прямом смысле кричат... пыльцой
Ученые говорят: мутации достигли 87%. Нужны срочные меры...
Ученые рассказали, как и почему Земля может снова превратиться... в планету-снежок
Парадоксально: сильная жара может стать причиной… лютого холода. Но, как всегда, есть нюансы...
Венера — снова «русская планета»: суперзонд из Новосибирска сможет выжить в этом аду целых 100 дней!
Астрофизики уверены: российская идея с «вечным» запасом гелия открывает новую эру в исследовании соседней планеты...
Последние исследования показывают: все люди… телепаты от рождения
Ну а мозг — это беспроводной передатчик. Почему же ученые так решили?...
Метеорологи рассказали, почему Россия стремительно теплеет… из-за Севера
Все новейшие парадоксы отечественной погоды в отдельно взятой статье...
Разбитый череп из форта Ла-Лома раскрыл тайны древнеримского тотального террора
Испанские археологи говорят: «Это была не столько жестокость, сколько продуманная и проверенная стратегия»...
Археологи в недоумении: Женщина эпохи викингов была похоронена с ракушками во рту
Почему уникальное захоронение заставляет ученых взглянуть по-новому на погребальные обряды скандинавов?...
Второе «Эльдорадо» за два года: китайские геологи снова нашли самую большую золотую жилу в истории
Ученые рассказали, почему Китаю так везет на этот благородный металл...