Психологи сообщают, что GPT-3 может рассуждать не хуже студента колледжа

1 авг 2023

4 912

Психологи сообщают, что GPT-3 может рассуждать не хуже студента колледжа

Люди легко решают новые проблемы без какой-либо специальной подготовки или практики, сравнивая их со знакомыми проблемами и распространяя решение на новую проблему. Этот процесс, известный как рассуждение по аналогии, долгое время считался исключительно человеческой способностью. Однако новые данные опровергают это устоявшееся мнение.

Исследования психологов Калифорнийского университета в Лос-Анджелесе показывают, что, как ни удивительно, языковая модель искусственного интеллекта GPT-3 работает примерно так же хорошо, как студенты колледжей, когда их просят решить задачи на рассуждения, которые обычно появляются в тестах на интеллект и стандартизированных тестах, таких как SAT. Исследование опубликовано в Nature Human Behavior.

Авторы статьи считают, что исследование поднимает вопрос о том: является ли подражание GPT-3 человеческому мышлению только побочным продуктом огромного набора данных для обучения языку или он использует принципиально новый тип когнитивного процесса?

Не имея доступа к внутренней работе GPT-3, которая охраняется OpenAI, ученые Калифорнийского университета в Лос-Анджелесе не могут точно определить, как работают его мыслительные способности. Они также пишут, что, хотя GPT-3 работает намного лучше, чем они ожидали, в некоторых задачах на рассуждение, популярный инструмент ИИ по-прежнему регулярно терпит неудачу в других тестах.

Независимо от того, насколько впечатляющими являются наши результаты, важно подчеркнуть, что эта система имеет серьезные ограничения. ИИ может рассуждать по аналогии, но он не может делать то, что очень легко для людей, например, использовать инструменты для решения физической задачи

— Тейлор Уэбб, исследователь психологии из Калифорнийского университета в Лос-Анджелесе и первый автор исследования.

Уэбб и его коллеги проверили способность GPT-3 решать ряд задач, вдохновленных тестом, известным как «Прогрессивные матрицы Равена», в котором испытуемому предлагается предсказать следующее изображение в сложном расположении фигур. Чтобы позволить GPT-3 «видеть» фигуры, Уэбб преобразовал изображения в текстовый формат, который мог обрабатывать GPT-3; такой подход также гарантировал, что ИИ никогда раньше не сталкивался с подобными вопросами.

Исследователи попросили 40 студентов бакалавриата Калифорнийского университета в Лос-Анджелесе решить те же задачи.

Удивительно, но GPT-3 не только работал так же хорошо, как люди, но и совершал аналогичные ошибки

— Хунцзин Лу, профессор психологии Калифорнийского университета в Лос-Анджелесе, старший автор исследования.

GPT-3 правильно решил 80% задач, что намного выше среднего балла испытуемых чуть ниже 60%, но находится в диапазоне самых высоких баллов среди людей.

Исследователи также попросили GPT-3 решить ряд вопросов-аналогов SAT, которые, по их мнению, никогда не публиковались в Интернете, а это означает, что вопросы вряд ли были частью обучающих данных GPT-3. В вопросах пользователям предлагается выбрать пары слов, которые имеют одинаковые отношения. (Например, в задаче «Любовь» — это «ненависть», а «богатый» — соответствует какому слову? Решением будет «бедный».)

Они сравнили баллы GPT-3 с опубликованными результатами SAT абитуриентов колледжа и обнаружили, что ИИ работает лучше, чем средний балл для людей.

Затем исследователи попросили GPT-3 и студентов-добровольцев решить аналогии на основе коротких рассказов, предлагая им прочитать один отрывок, а затем определить другой рассказ, который передает то же значение. Технология справилась с этими задачами хуже, чем студенты, хотя GPT-4, последняя версия технологии OpenAI, показала лучшие результаты, чем GPT-3.

Исследователи Калифорнийского университета в Лос-Анджелесе также разработали собственную компьютерную модель, вдохновленную человеческим мышлением, и сравнивают ее возможности с возможностями коммерческого ИИ.

Исследователи заявили, что GPT-3 пока не может решить проблемы, требующие понимания физического пространства. Например, если предоставить описание набора инструментов — скажем, картонной трубки, ножниц и скотча, — которые можно использовать для переноса шариков жевательной резинки из одной миски в другую, GPT-3 предложит причудливые и в большинстве случаев бессмысленные решения.

Модели изучения языка просто пытаются предсказывать слова, поэтому мы удивлены, что они оказались способны рассуждать. За последние два года технология сделала большой скачок по сравнению с предыдущими версиями

— Хунцзин Лу.

Ученые Калифорнийского университета в Лос-Анджелесе надеются выяснить, действительно ли модели изучения языка начинают «думать» как люди или делают что-то совершенно другое, просто имитирующее человеческое мышление.

GPT-3 может думать подобно человеку. Но, с другой стороны, люди не учились, поглощая весь интернет, поэтому метод обучения совершенно другой. Мы хотели бы знать, действительно ли это происходит так, как это делают люди, или это что-то совершенно новое — то, что мы могли бы назвать настоящим искусственным интеллектом

— сказал Холиок.

Чтобы выяснить это, им потребуется определить основные когнитивные процессы, используемые моделями ИИ, для чего потребуется доступ к программному обеспечению и к данным, используемым для обучения программного обеспечения, а затем провести тесты, которые, как они уверены, программное обеспечение еще не проходило. По их мнению, это будет следующим шагом в решении того, как следует воспринимать ИИ на текущем этапе развития.

Автор: Алексей Павлов

Использованы фотографии: Unsplash/CC0