ChatGPT становится глупее?
Широко известная крупноязыковая модель OpenAI была названа «лучшим чат-ботом с искусственным интеллектом, когда-либо выпущенным для широкой публики» Кевином Рузом, автором книги «Защищенность от будущего: 9 правил для людей в эпоху автоматизации» и «одной из самых величайших вещей, которые когда-либо были сделаны для вычислительной техники», — генеральным директором Nvidia Дженсеном Хуангом.
ChatGPT стал настолько хорош в предоставлении реалистичных ответов на запросы пользователей, что, как утверждают некоторые специалисты, он официально прошел тест Тьюринга, демонстрирующий способности машины достичь человеческого интеллекта.
ChatGPT уже продемонстрировал хорошие результаты на экзаменах по успеваемости во множестве областей: математика (89-е место), юриспруденция (90-е место) и вербальный GRE (99-е место).
Также исследователи из медицинской школы Нью-Йоркского университета сообщили в начале июля 2023 года, что советы, данные ChatGPT по вопросам, связанным со здравоохранением, почти неотличимы от рекомендаций, предоставляемых квалифицированным медицинским персоналом.
Однако исследователи из Стэнфордского университета и Калифорнийского университета в Беркли все еще не готовы доверить ChatGPT принятие каких-либо важных решений.
Вторя растущему количеству опасений, недавно высказанных пользователями, Линцзяо Чен, Матей Захария и Джеймс Чжу заявили, что производительность ChatGPT нестабильна. В некоторых случаях оно ухудшается.
В документе, опубликованном на сервере препринтов arXiv 18 июля, исследователи заявили, что производительность и поведение как GPT-3.5, так и GPT-4 значительно различаются и что ответы на некоторые задачи со временем значительно ухудшились.
Они отметили значительные изменения в производительности за четырехмесячный период, с марта по июнь.
Исследователи сосредоточились на нескольких областях, включая решение математических задач и генерацию компьютерного кода.
В марте 2023 года GPT-4 достиг уровня точности 97,6% при решении задач, связанных с простыми числами. По данным исследователей из Стэнфорда, этот показатель резко упал до 2,4%, когда использовалась обновленная модель от июня 2023 года.
ChatGPT получил широкое признание за способность помогать программистам с задачами по программированию и и отладке. В марте GPT-4 ответила на запросы программистов, выполнив точные, готовые к запуску сценарии чуть более чем в 50% случаев. Но к июню ставка снизилась до 10%. Chat-GPT-3.5 также показал заметное снижение точности с 22% в марте до 2% в июне.
Особенно интересно в этом контексте, что ChatGPT-3.5 показал почти противоположные результаты в математических способностях: достигнув в марте точности решения задач с простыми числами всего на 7,4%, обновленная версия в июне достигла 86,8%.
Один из авторов исследования Джеймс Чжу считает, что на данном этапе трудно определить причину, хотя кажется очевидным, что системные модификации и обновления стали значительными факторами.
— Джеймс Чжу.
Теоретики заговора, которые заметили ухудшение некоторых результатов, предполагают, что OpenAI экспериментирует с альтернативными, меньшими версиями LLM в качестве меры экономии. Другие предполагают, что OpenAI намеренно ослабляет GPT-4, поэтому разочарованные пользователи будут более готовы платить за аксессуар GitHub LLM CoPilot.
OpenAI, впрочем, отвергает подобные претензии.
— Питер Велиндер, вице-президент OpenAI по ChatGPT.
Между тем, некоторые наблюдатели, опасающиеся влияния разрушительного «дрейфа» на результаты моделирования, подталкивают OpenAI к раскрытию источников учебных материалов, кода и других структурных элементов, лежащих в основе ChatGPG 4.0.
— Саша Лучони, специалист из ИИ-компании Hugging Face.
ChatGPT стал настолько хорош в предоставлении реалистичных ответов на запросы пользователей, что, как утверждают некоторые специалисты, он официально прошел тест Тьюринга, демонстрирующий способности машины достичь человеческого интеллекта.
ChatGPT уже продемонстрировал хорошие результаты на экзаменах по успеваемости во множестве областей: математика (89-е место), юриспруденция (90-е место) и вербальный GRE (99-е место).
Также исследователи из медицинской школы Нью-Йоркского университета сообщили в начале июля 2023 года, что советы, данные ChatGPT по вопросам, связанным со здравоохранением, почти неотличимы от рекомендаций, предоставляемых квалифицированным медицинским персоналом.
Однако исследователи из Стэнфордского университета и Калифорнийского университета в Беркли все еще не готовы доверить ChatGPT принятие каких-либо важных решений.
Вторя растущему количеству опасений, недавно высказанных пользователями, Линцзяо Чен, Матей Захария и Джеймс Чжу заявили, что производительность ChatGPT нестабильна. В некоторых случаях оно ухудшается.
В документе, опубликованном на сервере препринтов arXiv 18 июля, исследователи заявили, что производительность и поведение как GPT-3.5, так и GPT-4 значительно различаются и что ответы на некоторые задачи со временем значительно ухудшились.
Они отметили значительные изменения в производительности за четырехмесячный период, с марта по июнь.
Исследователи сосредоточились на нескольких областях, включая решение математических задач и генерацию компьютерного кода.
В марте 2023 года GPT-4 достиг уровня точности 97,6% при решении задач, связанных с простыми числами. По данным исследователей из Стэнфорда, этот показатель резко упал до 2,4%, когда использовалась обновленная модель от июня 2023 года.
ChatGPT получил широкое признание за способность помогать программистам с задачами по программированию и и отладке. В марте GPT-4 ответила на запросы программистов, выполнив точные, готовые к запуску сценарии чуть более чем в 50% случаев. Но к июню ставка снизилась до 10%. Chat-GPT-3.5 также показал заметное снижение точности с 22% в марте до 2% в июне.
Особенно интересно в этом контексте, что ChatGPT-3.5 показал почти противоположные результаты в математических способностях: достигнув в марте точности решения задач с простыми числами всего на 7,4%, обновленная версия в июне достигла 86,8%.
Один из авторов исследования Джеймс Чжу считает, что на данном этапе трудно определить причину, хотя кажется очевидным, что системные модификации и обновления стали значительными факторами.
Мы не до конца понимаем, что вызывает эти изменения в ответах ChatGPT, потому что эти модели непрозрачны. Возможно, что настройка модели для повышения ее производительности в некоторых областях может иметь неожиданные побочные эффекты, ухудшающие ее выполнение в других задачах
— Джеймс Чжу.
Теоретики заговора, которые заметили ухудшение некоторых результатов, предполагают, что OpenAI экспериментирует с альтернативными, меньшими версиями LLM в качестве меры экономии. Другие предполагают, что OpenAI намеренно ослабляет GPT-4, поэтому разочарованные пользователи будут более готовы платить за аксессуар GitHub LLM CoPilot.
OpenAI, впрочем, отвергает подобные претензии.
Мы точно не занижали способности GPT-4. Напротив: мы делаем каждую новую версию умнее предыдущей. Когда вы используете технологию более интенсивно, вы начинаете замечать проблемы, которых не было видно раньше
— Питер Велиндер, вице-президент OpenAI по ChatGPT.
Между тем, некоторые наблюдатели, опасающиеся влияния разрушительного «дрейфа» на результаты моделирования, подталкивают OpenAI к раскрытию источников учебных материалов, кода и других структурных элементов, лежащих в основе ChatGPG 4.0.
Любые результаты на моделях с закрытым исходным кодом не воспроизводимы и не поддаются проверке, и поэтому с научной точки зрения мы не имеем основы для исследований.
Ученым следует постоянно следить за развернутыми LLM. Создатели моделей должны предоставить доступ к базовым моделям, по крайней мере, для целей аудита
Ученым следует постоянно следить за развернутыми LLM. Создатели моделей должны предоставить доступ к базовым моделям, по крайней мере, для целей аудита
— Саша Лучони, специалист из ИИ-компании Hugging Face.
- Алексей Павлов
- arXiv
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Бомбы с орбиты: почему советская технология, воскрешенная Китаем, встревожила США?
Американцы слишком долго считали свои системы раннего предупреждения лучшими на планете. Теперь......
Битва под Каневом: почему на 350 лет замолчали сокрушительную победу России?
Неудобная победа, предательство и идеология. Мы бы могли вообще не узнать об этом триумфе русского оружия...
С Ноева ковчега сняли запрет: что покажут радары на Арарате?
История, которую больше всего высмеивали ученые, неожиданно становится все более реальной...
Дикий народ чучуна: Кто наводил ужас на коренное население Сибири?
Йети? Люди-изгои? Древнее племя? Пока что вопросов больше, чем ответов...
Мрачный прогноз для США из 1995 года сбылся: в чем великий ученый Саган оказался прав?
Исследователь говорил: все плохо, но еще не все потеряно. Его советы могут реально помочь всему человечеству...
Почему их ДНК не меняется уже 42 000 лет: определен самый древний народ на планете
Три раза предки жителей Океании встречались с исчезнувшими видами людей, и это в корне изменило их гены...
Тайна «косого глаза» Венеры раскрыта: что увидела нейросеть на картинах Боттичелли?
Художник нарисовал пять портретов прекрасной Симонетты Веспуччи. И каждое полотно еще больше подтверждает страшный диагноз...
Новая вселенная внутри звезды: почему Эйнштейн мог ошибаться насчет черных дыр
Больше 20 лет эта гипотеза в буквальном смысле раздирает мир науки. Но, возможно, именно она выведет ученых из тупика сингулярности...
Снегопады в Антарктиде становятся все аномальнее: и ученые, наконец-то, знают почему?
Ученым придется пересмотреть все климатические модели Шестого континента. Кстати, снега там будет выпадать с каждым годом все больше...
Еще одна тайна майя: археологи секрет алтаря в заброшенном городе
Выяснилось, что индейцы долгие столетия продолжали исповедовать, казалось бы, давно забытый древний культ...
Марс под вопросом: что может обнулить иммунитет у космонавтов?
И почему защита организма перестает видеть микробы, выжившие в космосе?...
43 — проклятый возраст Рюриковичей: почему многие князья не переживали этот роковой рубеж?
Генетики говорят: русская династия слишком поздно поняла, что попала в ловушку «чистой» крови...
Кипящая дыра в Йеллоустоуне: почему геологи «проморгали» опасный инцидент?
Геологический детектив: незамеченный взрыв, неожиданный провал и далеко идущие последствия...
Бельгийскую разведку снова взломали: хакеры целый год качали оттуда секретные данные
Эксперты говорят: проникновение было замечено совершенно случайно. И это пугает...
Доказана жизнь на спутнике Юпитера: как же бактериям удалось добраться с Земли на Европу?
За 3,5 миллиарда лет земные бактерии могли долететь до 105 звездных систем. Так что у Европы есть все шансы на «заражение»...
Сначала Стоунхендж был... не каменным: найден прототип легендарного святилища
Доисторическая религия оказалась старше на 500 лет, чем считали ученые. И она играла огромную роль в жизни древних людей...