Психологи сообщают, что GPT-3 может рассуждать не хуже студента колледжа
Люди легко решают новые проблемы без какой-либо специальной подготовки или практики, сравнивая их со знакомыми проблемами и распространяя решение на новую проблему. Этот процесс, известный как рассуждение по аналогии, долгое время считался исключительно человеческой способностью. Однако новые данные опровергают это устоявшееся мнение.
Исследования психологов Калифорнийского университета в Лос-Анджелесе показывают, что, как ни удивительно, языковая модель искусственного интеллекта GPT-3 работает примерно так же хорошо, как студенты колледжей, когда их просят решить задачи на рассуждения, которые обычно появляются в тестах на интеллект и стандартизированных тестах, таких как SAT. Исследование опубликовано в Nature Human Behavior.
Авторы статьи считают, что исследование поднимает вопрос о том: является ли подражание GPT-3 человеческому мышлению только побочным продуктом огромного набора данных для обучения языку или он использует принципиально новый тип когнитивного процесса?
Не имея доступа к внутренней работе GPT-3, которая охраняется OpenAI, ученые Калифорнийского университета в Лос-Анджелесе не могут точно определить, как работают его мыслительные способности. Они также пишут, что, хотя GPT-3 работает намного лучше, чем они ожидали, в некоторых задачах на рассуждение, популярный инструмент ИИ по-прежнему регулярно терпит неудачу в других тестах.
— Тейлор Уэбб, исследователь психологии из Калифорнийского университета в Лос-Анджелесе и первый автор исследования.
Уэбб и его коллеги проверили способность GPT-3 решать ряд задач, вдохновленных тестом, известным как «Прогрессивные матрицы Равена», в котором испытуемому предлагается предсказать следующее изображение в сложном расположении фигур. Чтобы позволить GPT-3 «видеть» фигуры, Уэбб преобразовал изображения в текстовый формат, который мог обрабатывать GPT-3; такой подход также гарантировал, что ИИ никогда раньше не сталкивался с подобными вопросами.
Исследователи попросили 40 студентов бакалавриата Калифорнийского университета в Лос-Анджелесе решить те же задачи.
— Хунцзин Лу, профессор психологии Калифорнийского университета в Лос-Анджелесе, старший автор исследования.
GPT-3 правильно решил 80% задач, что намного выше среднего балла испытуемых чуть ниже 60%, но находится в диапазоне самых высоких баллов среди людей.
Исследователи также попросили GPT-3 решить ряд вопросов-аналогов SAT, которые, по их мнению, никогда не публиковались в Интернете, а это означает, что вопросы вряд ли были частью обучающих данных GPT-3. В вопросах пользователям предлагается выбрать пары слов, которые имеют одинаковые отношения. (Например, в задаче «Любовь» — это «ненависть», а «богатый» — соответствует какому слову? Решением будет «бедный».)
Они сравнили баллы GPT-3 с опубликованными результатами SAT абитуриентов колледжа и обнаружили, что ИИ работает лучше, чем средний балл для людей.
Затем исследователи попросили GPT-3 и студентов-добровольцев решить аналогии на основе коротких рассказов, предлагая им прочитать один отрывок, а затем определить другой рассказ, который передает то же значение. Технология справилась с этими задачами хуже, чем студенты, хотя GPT-4, последняя версия технологии OpenAI, показала лучшие результаты, чем GPT-3.
Исследователи Калифорнийского университета в Лос-Анджелесе также разработали собственную компьютерную модель, вдохновленную человеческим мышлением, и сравнивают ее возможности с возможностями коммерческого ИИ.
Исследователи заявили, что GPT-3 пока не может решить проблемы, требующие понимания физического пространства. Например, если предоставить описание набора инструментов — скажем, картонной трубки, ножниц и скотча, — которые можно использовать для переноса шариков жевательной резинки из одной миски в другую, GPT-3 предложит причудливые и в большинстве случаев бессмысленные решения.
— Хунцзин Лу.
Ученые Калифорнийского университета в Лос-Анджелесе надеются выяснить, действительно ли модели изучения языка начинают «думать» как люди или делают что-то совершенно другое, просто имитирующее человеческое мышление.
— сказал Холиок.
Чтобы выяснить это, им потребуется определить основные когнитивные процессы, используемые моделями ИИ, для чего потребуется доступ к программному обеспечению и к данным, используемым для обучения программного обеспечения, а затем провести тесты, которые, как они уверены, программное обеспечение еще не проходило. По их мнению, это будет следующим шагом в решении того, как следует воспринимать ИИ на текущем этапе развития.
Исследования психологов Калифорнийского университета в Лос-Анджелесе показывают, что, как ни удивительно, языковая модель искусственного интеллекта GPT-3 работает примерно так же хорошо, как студенты колледжей, когда их просят решить задачи на рассуждения, которые обычно появляются в тестах на интеллект и стандартизированных тестах, таких как SAT. Исследование опубликовано в Nature Human Behavior.
Авторы статьи считают, что исследование поднимает вопрос о том: является ли подражание GPT-3 человеческому мышлению только побочным продуктом огромного набора данных для обучения языку или он использует принципиально новый тип когнитивного процесса?
Не имея доступа к внутренней работе GPT-3, которая охраняется OpenAI, ученые Калифорнийского университета в Лос-Анджелесе не могут точно определить, как работают его мыслительные способности. Они также пишут, что, хотя GPT-3 работает намного лучше, чем они ожидали, в некоторых задачах на рассуждение, популярный инструмент ИИ по-прежнему регулярно терпит неудачу в других тестах.
Независимо от того, насколько впечатляющими являются наши результаты, важно подчеркнуть, что эта система имеет серьезные ограничения. ИИ может рассуждать по аналогии, но он не может делать то, что очень легко для людей, например, использовать инструменты для решения физической задачи
— Тейлор Уэбб, исследователь психологии из Калифорнийского университета в Лос-Анджелесе и первый автор исследования.
Уэбб и его коллеги проверили способность GPT-3 решать ряд задач, вдохновленных тестом, известным как «Прогрессивные матрицы Равена», в котором испытуемому предлагается предсказать следующее изображение в сложном расположении фигур. Чтобы позволить GPT-3 «видеть» фигуры, Уэбб преобразовал изображения в текстовый формат, который мог обрабатывать GPT-3; такой подход также гарантировал, что ИИ никогда раньше не сталкивался с подобными вопросами.
Исследователи попросили 40 студентов бакалавриата Калифорнийского университета в Лос-Анджелесе решить те же задачи.
Удивительно, но GPT-3 не только работал так же хорошо, как люди, но и совершал аналогичные ошибки
— Хунцзин Лу, профессор психологии Калифорнийского университета в Лос-Анджелесе, старший автор исследования.
GPT-3 правильно решил 80% задач, что намного выше среднего балла испытуемых чуть ниже 60%, но находится в диапазоне самых высоких баллов среди людей.
Исследователи также попросили GPT-3 решить ряд вопросов-аналогов SAT, которые, по их мнению, никогда не публиковались в Интернете, а это означает, что вопросы вряд ли были частью обучающих данных GPT-3. В вопросах пользователям предлагается выбрать пары слов, которые имеют одинаковые отношения. (Например, в задаче «Любовь» — это «ненависть», а «богатый» — соответствует какому слову? Решением будет «бедный».)
Они сравнили баллы GPT-3 с опубликованными результатами SAT абитуриентов колледжа и обнаружили, что ИИ работает лучше, чем средний балл для людей.
Затем исследователи попросили GPT-3 и студентов-добровольцев решить аналогии на основе коротких рассказов, предлагая им прочитать один отрывок, а затем определить другой рассказ, который передает то же значение. Технология справилась с этими задачами хуже, чем студенты, хотя GPT-4, последняя версия технологии OpenAI, показала лучшие результаты, чем GPT-3.
Исследователи Калифорнийского университета в Лос-Анджелесе также разработали собственную компьютерную модель, вдохновленную человеческим мышлением, и сравнивают ее возможности с возможностями коммерческого ИИ.
Исследователи заявили, что GPT-3 пока не может решить проблемы, требующие понимания физического пространства. Например, если предоставить описание набора инструментов — скажем, картонной трубки, ножниц и скотча, — которые можно использовать для переноса шариков жевательной резинки из одной миски в другую, GPT-3 предложит причудливые и в большинстве случаев бессмысленные решения.
Модели изучения языка просто пытаются предсказывать слова, поэтому мы удивлены, что они оказались способны рассуждать. За последние два года технология сделала большой скачок по сравнению с предыдущими версиями
— Хунцзин Лу.
Ученые Калифорнийского университета в Лос-Анджелесе надеются выяснить, действительно ли модели изучения языка начинают «думать» как люди или делают что-то совершенно другое, просто имитирующее человеческое мышление.
GPT-3 может думать подобно человеку. Но, с другой стороны, люди не учились, поглощая весь интернет, поэтому метод обучения совершенно другой. Мы хотели бы знать, действительно ли это происходит так, как это делают люди, или это что-то совершенно новое — то, что мы могли бы назвать настоящим искусственным интеллектом
— сказал Холиок.
Чтобы выяснить это, им потребуется определить основные когнитивные процессы, используемые моделями ИИ, для чего потребуется доступ к программному обеспечению и к данным, используемым для обучения программного обеспечения, а затем провести тесты, которые, как они уверены, программное обеспечение еще не проходило. По их мнению, это будет следующим шагом в решении того, как следует воспринимать ИИ на текущем этапе развития.
- Алексей Павлов
- Unsplash/CC0
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Бомбы с орбиты: почему советская технология, воскрешенная Китаем, встревожила США?
Американцы слишком долго считали свои системы раннего предупреждения лучшими на планете. Теперь......
Битва под Каневом: почему на 350 лет замолчали сокрушительную победу России?
Неудобная победа, предательство и идеология. Мы бы могли вообще не узнать об этом триумфе русского оружия...
С Ноева ковчега сняли запрет: что покажут радары на Арарате?
История, которую больше всего высмеивали ученые, неожиданно становится все более реальной...
Дикий народ чучуна: Кто наводил ужас на коренное население Сибири?
Йети? Люди-изгои? Древнее племя? Пока что вопросов больше, чем ответов...
Мрачный прогноз для США из 1995 года сбылся: в чем великий ученый Саган оказался прав?
Исследователь говорил: все плохо, но еще не все потеряно. Его советы могут реально помочь всему человечеству...
Почему их ДНК не меняется уже 42 000 лет: определен самый древний народ на планете
Три раза предки жителей Океании встречались с исчезнувшими видами людей, и это в корне изменило их гены...
Тайна «косого глаза» Венеры раскрыта: что увидела нейросеть на картинах Боттичелли?
Художник нарисовал пять портретов прекрасной Симонетты Веспуччи. И каждое полотно еще больше подтверждает страшный диагноз...
Новая вселенная внутри звезды: почему Эйнштейн мог ошибаться насчет черных дыр
Больше 20 лет эта гипотеза в буквальном смысле раздирает мир науки. Но, возможно, именно она выведет ученых из тупика сингулярности...
Снегопады в Антарктиде становятся все аномальнее: и ученые, наконец-то, знают почему?
Ученым придется пересмотреть все климатические модели Шестого континента. Кстати, снега там будет выпадать с каждым годом все больше...
Еще одна тайна майя: археологи секрет алтаря в заброшенном городе
Выяснилось, что индейцы долгие столетия продолжали исповедовать, казалось бы, давно забытый древний культ...
Марс под вопросом: что может обнулить иммунитет у космонавтов?
И почему защита организма перестает видеть микробы, выжившие в космосе?...
43 — проклятый возраст Рюриковичей: почему многие князья не переживали этот роковой рубеж?
Генетики говорят: русская династия слишком поздно поняла, что попала в ловушку «чистой» крови...
Кипящая дыра в Йеллоустоуне: почему геологи «проморгали» опасный инцидент?
Геологический детектив: незамеченный взрыв, неожиданный провал и далеко идущие последствия...
Бельгийскую разведку снова взломали: хакеры целый год качали оттуда секретные данные
Эксперты говорят: проникновение было замечено совершенно случайно. И это пугает...
Доказана жизнь на спутнике Юпитера: как же бактериям удалось добраться с Земли на Европу?
За 3,5 миллиарда лет земные бактерии могли долететь до 105 звездных систем. Так что у Европы есть все шансы на «заражение»...
Сначала Стоунхендж был... не каменным: найден прототип легендарного святилища
Доисторическая религия оказалась старше на 500 лет, чем считали ученые. И она играла огромную роль в жизни древних людей...