
Психологи сообщают, что GPT-3 может рассуждать не хуже студента колледжа
Люди легко решают новые проблемы без какой-либо специальной подготовки или практики, сравнивая их со знакомыми проблемами и распространяя решение на новую проблему. Этот процесс, известный как рассуждение по аналогии, долгое время считался исключительно человеческой способностью. Однако новые данные опровергают это устоявшееся мнение.
Исследования психологов Калифорнийского университета в Лос-Анджелесе показывают, что, как ни удивительно, языковая модель искусственного интеллекта GPT-3 работает примерно так же хорошо, как студенты колледжей, когда их просят решить задачи на рассуждения, которые обычно появляются в тестах на интеллект и стандартизированных тестах, таких как SAT. Исследование опубликовано в Nature Human Behavior.
Авторы статьи считают, что исследование поднимает вопрос о том: является ли подражание GPT-3 человеческому мышлению только побочным продуктом огромного набора данных для обучения языку или он использует принципиально новый тип когнитивного процесса?
Не имея доступа к внутренней работе GPT-3, которая охраняется OpenAI, ученые Калифорнийского университета в Лос-Анджелесе не могут точно определить, как работают его мыслительные способности. Они также пишут, что, хотя GPT-3 работает намного лучше, чем они ожидали, в некоторых задачах на рассуждение, популярный инструмент ИИ по-прежнему регулярно терпит неудачу в других тестах.
— Тейлор Уэбб, исследователь психологии из Калифорнийского университета в Лос-Анджелесе и первый автор исследования.
Уэбб и его коллеги проверили способность GPT-3 решать ряд задач, вдохновленных тестом, известным как «Прогрессивные матрицы Равена», в котором испытуемому предлагается предсказать следующее изображение в сложном расположении фигур. Чтобы позволить GPT-3 «видеть» фигуры, Уэбб преобразовал изображения в текстовый формат, который мог обрабатывать GPT-3; такой подход также гарантировал, что ИИ никогда раньше не сталкивался с подобными вопросами.
Исследователи попросили 40 студентов бакалавриата Калифорнийского университета в Лос-Анджелесе решить те же задачи.
— Хунцзин Лу, профессор психологии Калифорнийского университета в Лос-Анджелесе, старший автор исследования.
GPT-3 правильно решил 80% задач, что намного выше среднего балла испытуемых чуть ниже 60%, но находится в диапазоне самых высоких баллов среди людей.
Исследователи также попросили GPT-3 решить ряд вопросов-аналогов SAT, которые, по их мнению, никогда не публиковались в Интернете, а это означает, что вопросы вряд ли были частью обучающих данных GPT-3. В вопросах пользователям предлагается выбрать пары слов, которые имеют одинаковые отношения. (Например, в задаче «Любовь» — это «ненависть», а «богатый» — соответствует какому слову? Решением будет «бедный».)
Они сравнили баллы GPT-3 с опубликованными результатами SAT абитуриентов колледжа и обнаружили, что ИИ работает лучше, чем средний балл для людей.
Затем исследователи попросили GPT-3 и студентов-добровольцев решить аналогии на основе коротких рассказов, предлагая им прочитать один отрывок, а затем определить другой рассказ, который передает то же значение. Технология справилась с этими задачами хуже, чем студенты, хотя GPT-4, последняя версия технологии OpenAI, показала лучшие результаты, чем GPT-3.
Исследователи Калифорнийского университета в Лос-Анджелесе также разработали собственную компьютерную модель, вдохновленную человеческим мышлением, и сравнивают ее возможности с возможностями коммерческого ИИ.
Исследователи заявили, что GPT-3 пока не может решить проблемы, требующие понимания физического пространства. Например, если предоставить описание набора инструментов — скажем, картонной трубки, ножниц и скотча, — которые можно использовать для переноса шариков жевательной резинки из одной миски в другую, GPT-3 предложит причудливые и в большинстве случаев бессмысленные решения.
— Хунцзин Лу.
Ученые Калифорнийского университета в Лос-Анджелесе надеются выяснить, действительно ли модели изучения языка начинают «думать» как люди или делают что-то совершенно другое, просто имитирующее человеческое мышление.
— сказал Холиок.
Чтобы выяснить это, им потребуется определить основные когнитивные процессы, используемые моделями ИИ, для чего потребуется доступ к программному обеспечению и к данным, используемым для обучения программного обеспечения, а затем провести тесты, которые, как они уверены, программное обеспечение еще не проходило. По их мнению, это будет следующим шагом в решении того, как следует воспринимать ИИ на текущем этапе развития.
Исследования психологов Калифорнийского университета в Лос-Анджелесе показывают, что, как ни удивительно, языковая модель искусственного интеллекта GPT-3 работает примерно так же хорошо, как студенты колледжей, когда их просят решить задачи на рассуждения, которые обычно появляются в тестах на интеллект и стандартизированных тестах, таких как SAT. Исследование опубликовано в Nature Human Behavior.
Авторы статьи считают, что исследование поднимает вопрос о том: является ли подражание GPT-3 человеческому мышлению только побочным продуктом огромного набора данных для обучения языку или он использует принципиально новый тип когнитивного процесса?
Не имея доступа к внутренней работе GPT-3, которая охраняется OpenAI, ученые Калифорнийского университета в Лос-Анджелесе не могут точно определить, как работают его мыслительные способности. Они также пишут, что, хотя GPT-3 работает намного лучше, чем они ожидали, в некоторых задачах на рассуждение, популярный инструмент ИИ по-прежнему регулярно терпит неудачу в других тестах.
Независимо от того, насколько впечатляющими являются наши результаты, важно подчеркнуть, что эта система имеет серьезные ограничения. ИИ может рассуждать по аналогии, но он не может делать то, что очень легко для людей, например, использовать инструменты для решения физической задачи
— Тейлор Уэбб, исследователь психологии из Калифорнийского университета в Лос-Анджелесе и первый автор исследования.
Уэбб и его коллеги проверили способность GPT-3 решать ряд задач, вдохновленных тестом, известным как «Прогрессивные матрицы Равена», в котором испытуемому предлагается предсказать следующее изображение в сложном расположении фигур. Чтобы позволить GPT-3 «видеть» фигуры, Уэбб преобразовал изображения в текстовый формат, который мог обрабатывать GPT-3; такой подход также гарантировал, что ИИ никогда раньше не сталкивался с подобными вопросами.
Исследователи попросили 40 студентов бакалавриата Калифорнийского университета в Лос-Анджелесе решить те же задачи.
Удивительно, но GPT-3 не только работал так же хорошо, как люди, но и совершал аналогичные ошибки
— Хунцзин Лу, профессор психологии Калифорнийского университета в Лос-Анджелесе, старший автор исследования.
GPT-3 правильно решил 80% задач, что намного выше среднего балла испытуемых чуть ниже 60%, но находится в диапазоне самых высоких баллов среди людей.
Исследователи также попросили GPT-3 решить ряд вопросов-аналогов SAT, которые, по их мнению, никогда не публиковались в Интернете, а это означает, что вопросы вряд ли были частью обучающих данных GPT-3. В вопросах пользователям предлагается выбрать пары слов, которые имеют одинаковые отношения. (Например, в задаче «Любовь» — это «ненависть», а «богатый» — соответствует какому слову? Решением будет «бедный».)
Они сравнили баллы GPT-3 с опубликованными результатами SAT абитуриентов колледжа и обнаружили, что ИИ работает лучше, чем средний балл для людей.
Затем исследователи попросили GPT-3 и студентов-добровольцев решить аналогии на основе коротких рассказов, предлагая им прочитать один отрывок, а затем определить другой рассказ, который передает то же значение. Технология справилась с этими задачами хуже, чем студенты, хотя GPT-4, последняя версия технологии OpenAI, показала лучшие результаты, чем GPT-3.
Исследователи Калифорнийского университета в Лос-Анджелесе также разработали собственную компьютерную модель, вдохновленную человеческим мышлением, и сравнивают ее возможности с возможностями коммерческого ИИ.
Исследователи заявили, что GPT-3 пока не может решить проблемы, требующие понимания физического пространства. Например, если предоставить описание набора инструментов — скажем, картонной трубки, ножниц и скотча, — которые можно использовать для переноса шариков жевательной резинки из одной миски в другую, GPT-3 предложит причудливые и в большинстве случаев бессмысленные решения.
Модели изучения языка просто пытаются предсказывать слова, поэтому мы удивлены, что они оказались способны рассуждать. За последние два года технология сделала большой скачок по сравнению с предыдущими версиями
— Хунцзин Лу.
Ученые Калифорнийского университета в Лос-Анджелесе надеются выяснить, действительно ли модели изучения языка начинают «думать» как люди или делают что-то совершенно другое, просто имитирующее человеческое мышление.
GPT-3 может думать подобно человеку. Но, с другой стороны, люди не учились, поглощая весь интернет, поэтому метод обучения совершенно другой. Мы хотели бы знать, действительно ли это происходит так, как это делают люди, или это что-то совершенно новое — то, что мы могли бы назвать настоящим искусственным интеллектом
— сказал Холиок.
Чтобы выяснить это, им потребуется определить основные когнитивные процессы, используемые моделями ИИ, для чего потребуется доступ к программному обеспечению и к данным, используемым для обучения программного обеспечения, а затем провести тесты, которые, как они уверены, программное обеспечение еще не проходило. По их мнению, это будет следующим шагом в решении того, как следует воспринимать ИИ на текущем этапе развития.
- Алексей Павлов
- Unsplash/CC0
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Вот уже 17 лет власти Египта запрещают археологам исследовать легендарный Лабиринт
Что скрывает Египет: библиотеку Атлантиды или доказательства переписывания истории?...

Воскрешение монстра: Colossal возвращает к жизни 3,6-метровую птицу-убийцу моа!
Сможет ли 230-килограммовый гигант из Новой Зеландии выжить среди людей?...

Кости Христа находятся... в США: Тамплиеры бросают вызов Ватикану с помощью ДНК-тестов
Глава ордена: «Саркофаги с останками семьи Иисуса спрятаны от Папы. Мы везли не золото — везли Бога»....

«Богатые тоже плачут»: США открыли «новую эру энергетики» — 800 часов в год без света!
Штаты хвастались ИИ, а электросети «горят» даже от чат-ботов… Россия тем временем запускает термояд....

Антарктида включила режим самоуничтожения? Лед тает, соль растет
Данные со спутников вызвали настоящую панику среди ученых....

Пока все спорят, был ли «Титаник» непотопляемым, вот что обещали за билет в 8700 $ (≈ 220 000 сегодня)
Эксперты рассказали, почему никто не верил в катастрофу....

Такого экологи не ждали: Китай очистил у себя воздух и... подогрел всю планету
Хотели, как лучше, а получилась климатическая бомба....