Психологи сообщают, что GPT-3 может рассуждать не хуже студента колледжа
Люди легко решают новые проблемы без какой-либо специальной подготовки или практики, сравнивая их со знакомыми проблемами и распространяя решение на новую проблему. Этот процесс, известный как рассуждение по аналогии, долгое время считался исключительно человеческой способностью. Однако новые данные опровергают это устоявшееся мнение.
Исследования психологов Калифорнийского университета в Лос-Анджелесе показывают, что, как ни удивительно, языковая модель искусственного интеллекта GPT-3 работает примерно так же хорошо, как студенты колледжей, когда их просят решить задачи на рассуждения, которые обычно появляются в тестах на интеллект и стандартизированных тестах, таких как SAT. Исследование опубликовано в Nature Human Behavior.
Авторы статьи считают, что исследование поднимает вопрос о том: является ли подражание GPT-3 человеческому мышлению только побочным продуктом огромного набора данных для обучения языку или он использует принципиально новый тип когнитивного процесса?
Не имея доступа к внутренней работе GPT-3, которая охраняется OpenAI, ученые Калифорнийского университета в Лос-Анджелесе не могут точно определить, как работают его мыслительные способности. Они также пишут, что, хотя GPT-3 работает намного лучше, чем они ожидали, в некоторых задачах на рассуждение, популярный инструмент ИИ по-прежнему регулярно терпит неудачу в других тестах.
— Тейлор Уэбб, исследователь психологии из Калифорнийского университета в Лос-Анджелесе и первый автор исследования.
Уэбб и его коллеги проверили способность GPT-3 решать ряд задач, вдохновленных тестом, известным как «Прогрессивные матрицы Равена», в котором испытуемому предлагается предсказать следующее изображение в сложном расположении фигур. Чтобы позволить GPT-3 «видеть» фигуры, Уэбб преобразовал изображения в текстовый формат, который мог обрабатывать GPT-3; такой подход также гарантировал, что ИИ никогда раньше не сталкивался с подобными вопросами.
Исследователи попросили 40 студентов бакалавриата Калифорнийского университета в Лос-Анджелесе решить те же задачи.
— Хунцзин Лу, профессор психологии Калифорнийского университета в Лос-Анджелесе, старший автор исследования.
GPT-3 правильно решил 80% задач, что намного выше среднего балла испытуемых чуть ниже 60%, но находится в диапазоне самых высоких баллов среди людей.
Исследователи также попросили GPT-3 решить ряд вопросов-аналогов SAT, которые, по их мнению, никогда не публиковались в Интернете, а это означает, что вопросы вряд ли были частью обучающих данных GPT-3. В вопросах пользователям предлагается выбрать пары слов, которые имеют одинаковые отношения. (Например, в задаче «Любовь» — это «ненависть», а «богатый» — соответствует какому слову? Решением будет «бедный».)
Они сравнили баллы GPT-3 с опубликованными результатами SAT абитуриентов колледжа и обнаружили, что ИИ работает лучше, чем средний балл для людей.
Затем исследователи попросили GPT-3 и студентов-добровольцев решить аналогии на основе коротких рассказов, предлагая им прочитать один отрывок, а затем определить другой рассказ, который передает то же значение. Технология справилась с этими задачами хуже, чем студенты, хотя GPT-4, последняя версия технологии OpenAI, показала лучшие результаты, чем GPT-3.
Исследователи Калифорнийского университета в Лос-Анджелесе также разработали собственную компьютерную модель, вдохновленную человеческим мышлением, и сравнивают ее возможности с возможностями коммерческого ИИ.
Исследователи заявили, что GPT-3 пока не может решить проблемы, требующие понимания физического пространства. Например, если предоставить описание набора инструментов — скажем, картонной трубки, ножниц и скотча, — которые можно использовать для переноса шариков жевательной резинки из одной миски в другую, GPT-3 предложит причудливые и в большинстве случаев бессмысленные решения.
— Хунцзин Лу.
Ученые Калифорнийского университета в Лос-Анджелесе надеются выяснить, действительно ли модели изучения языка начинают «думать» как люди или делают что-то совершенно другое, просто имитирующее человеческое мышление.
— сказал Холиок.
Чтобы выяснить это, им потребуется определить основные когнитивные процессы, используемые моделями ИИ, для чего потребуется доступ к программному обеспечению и к данным, используемым для обучения программного обеспечения, а затем провести тесты, которые, как они уверены, программное обеспечение еще не проходило. По их мнению, это будет следующим шагом в решении того, как следует воспринимать ИИ на текущем этапе развития.
Исследования психологов Калифорнийского университета в Лос-Анджелесе показывают, что, как ни удивительно, языковая модель искусственного интеллекта GPT-3 работает примерно так же хорошо, как студенты колледжей, когда их просят решить задачи на рассуждения, которые обычно появляются в тестах на интеллект и стандартизированных тестах, таких как SAT. Исследование опубликовано в Nature Human Behavior.
Авторы статьи считают, что исследование поднимает вопрос о том: является ли подражание GPT-3 человеческому мышлению только побочным продуктом огромного набора данных для обучения языку или он использует принципиально новый тип когнитивного процесса?
Не имея доступа к внутренней работе GPT-3, которая охраняется OpenAI, ученые Калифорнийского университета в Лос-Анджелесе не могут точно определить, как работают его мыслительные способности. Они также пишут, что, хотя GPT-3 работает намного лучше, чем они ожидали, в некоторых задачах на рассуждение, популярный инструмент ИИ по-прежнему регулярно терпит неудачу в других тестах.
Независимо от того, насколько впечатляющими являются наши результаты, важно подчеркнуть, что эта система имеет серьезные ограничения. ИИ может рассуждать по аналогии, но он не может делать то, что очень легко для людей, например, использовать инструменты для решения физической задачи
— Тейлор Уэбб, исследователь психологии из Калифорнийского университета в Лос-Анджелесе и первый автор исследования.
Уэбб и его коллеги проверили способность GPT-3 решать ряд задач, вдохновленных тестом, известным как «Прогрессивные матрицы Равена», в котором испытуемому предлагается предсказать следующее изображение в сложном расположении фигур. Чтобы позволить GPT-3 «видеть» фигуры, Уэбб преобразовал изображения в текстовый формат, который мог обрабатывать GPT-3; такой подход также гарантировал, что ИИ никогда раньше не сталкивался с подобными вопросами.
Исследователи попросили 40 студентов бакалавриата Калифорнийского университета в Лос-Анджелесе решить те же задачи.
Удивительно, но GPT-3 не только работал так же хорошо, как люди, но и совершал аналогичные ошибки
— Хунцзин Лу, профессор психологии Калифорнийского университета в Лос-Анджелесе, старший автор исследования.
GPT-3 правильно решил 80% задач, что намного выше среднего балла испытуемых чуть ниже 60%, но находится в диапазоне самых высоких баллов среди людей.
Исследователи также попросили GPT-3 решить ряд вопросов-аналогов SAT, которые, по их мнению, никогда не публиковались в Интернете, а это означает, что вопросы вряд ли были частью обучающих данных GPT-3. В вопросах пользователям предлагается выбрать пары слов, которые имеют одинаковые отношения. (Например, в задаче «Любовь» — это «ненависть», а «богатый» — соответствует какому слову? Решением будет «бедный».)
Они сравнили баллы GPT-3 с опубликованными результатами SAT абитуриентов колледжа и обнаружили, что ИИ работает лучше, чем средний балл для людей.
Затем исследователи попросили GPT-3 и студентов-добровольцев решить аналогии на основе коротких рассказов, предлагая им прочитать один отрывок, а затем определить другой рассказ, который передает то же значение. Технология справилась с этими задачами хуже, чем студенты, хотя GPT-4, последняя версия технологии OpenAI, показала лучшие результаты, чем GPT-3.
Исследователи Калифорнийского университета в Лос-Анджелесе также разработали собственную компьютерную модель, вдохновленную человеческим мышлением, и сравнивают ее возможности с возможностями коммерческого ИИ.
Исследователи заявили, что GPT-3 пока не может решить проблемы, требующие понимания физического пространства. Например, если предоставить описание набора инструментов — скажем, картонной трубки, ножниц и скотча, — которые можно использовать для переноса шариков жевательной резинки из одной миски в другую, GPT-3 предложит причудливые и в большинстве случаев бессмысленные решения.
Модели изучения языка просто пытаются предсказывать слова, поэтому мы удивлены, что они оказались способны рассуждать. За последние два года технология сделала большой скачок по сравнению с предыдущими версиями
— Хунцзин Лу.
Ученые Калифорнийского университета в Лос-Анджелесе надеются выяснить, действительно ли модели изучения языка начинают «думать» как люди или делают что-то совершенно другое, просто имитирующее человеческое мышление.
GPT-3 может думать подобно человеку. Но, с другой стороны, люди не учились, поглощая весь интернет, поэтому метод обучения совершенно другой. Мы хотели бы знать, действительно ли это происходит так, как это делают люди, или это что-то совершенно новое — то, что мы могли бы назвать настоящим искусственным интеллектом
— сказал Холиок.
Чтобы выяснить это, им потребуется определить основные когнитивные процессы, используемые моделями ИИ, для чего потребуется доступ к программному обеспечению и к данным, используемым для обучения программного обеспечения, а затем провести тесты, которые, как они уверены, программное обеспечение еще не проходило. По их мнению, это будет следующим шагом в решении того, как следует воспринимать ИИ на текущем этапе развития.
- Алексей Павлов
- Unsplash/CC0
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Эксперты говорят: изобретение ученых из Перми решает одну из самых серьезных и опасных проблем в современной авиации
Американцы потратили на это десятки лет и миллиарды долларов, но открытие сделали в России...
Активность нечеловеческого разума вблизи ядерных объектов США, СССР и Великобритании впервые получила научные доказательства
Критики не смогли опровергнуть работу шведских ученых о странных искусственных аномалиях на орбите...
ДНК из ниоткуда: 6000-летние останки в Колумбии ни с кем совпадают по генам. Вообще.
Если у этих людей нет ни предков, ни потомков, то кто они такие?...
Египетская «Зона 51»: Почему власти полностью засекретили «четвертую пирамиду»?
С 60-х годов ХХ века на объект Завиет-эль-Эриан не попал ни один ученый. Что скрывают военные за колючей проволокой?...
Ученые наконец-то взломали астрономический код цивилизации майя
700 лет точных предсказаний, 145 солнечных затмений: гениальный способ из древности отлично работает до сих пор...
Нападение акул, считавшихся абсолютно безобидными, вызвало шок у морских биологов
Кто виноват в этой ужасной трагедии? И почему эксперты говорят, что это только начало?...
2700 дней понадобилось ученым, чтобы, наконец, раскрыть главную тайну гигантских скатов
Оказалось, что манты ныряют на 1250-метровую глубину вовсе не за едой и не спасаясь от хищников...
Ученые говорят: вся жизнь подчиняется одному секретному коду
Но почему это древнее ископаемое отказалось следовать ему?...
В ближайшие 100 лет Юпитер «выстрелит» в Землю как минимум 342 раза
Российские ученые рассчитали: ближайшее «прицеливание» состоится уже 2031 году. Что вообще нам ожидать?...
Затонувшие корабли с сокровищами у берегов Китая открывают поразительные факты о Великом морском шелковом пути
Да, это лонгрид! Но после его прочтения ваш взгляд на историю Китая изменится самым коренным образом...
Ученые из Хьюстона рассказали, почему Земля и другие планеты умудрились не сгореть в недрах молодого Солнца
Как оказалось, Солнечную систему в буквальном смысле спас Юпитер, который решительно выступил против гравитационного диктата звезды...
Эксперимент показал, что на самом деле творится под марсианскими дюнами каждую весну
Оказалось, что с наступлением тепла на Красной планете активизируются... ледяные «кроты»...
«Парящие» берлоги: Как треугольные дома помогут России удержать Арктику
Кто победит? Глобальное изменение климата или новые технологии?...