Психологи сообщают, что GPT-3 может рассуждать не хуже студента колледжа
Люди легко решают новые проблемы без какой-либо специальной подготовки или практики, сравнивая их со знакомыми проблемами и распространяя решение на новую проблему. Этот процесс, известный как рассуждение по аналогии, долгое время считался исключительно человеческой способностью. Однако новые данные опровергают это устоявшееся мнение.
Исследования психологов Калифорнийского университета в Лос-Анджелесе показывают, что, как ни удивительно, языковая модель искусственного интеллекта GPT-3 работает примерно так же хорошо, как студенты колледжей, когда их просят решить задачи на рассуждения, которые обычно появляются в тестах на интеллект и стандартизированных тестах, таких как SAT. Исследование опубликовано в Nature Human Behavior.
Авторы статьи считают, что исследование поднимает вопрос о том: является ли подражание GPT-3 человеческому мышлению только побочным продуктом огромного набора данных для обучения языку или он использует принципиально новый тип когнитивного процесса?
Не имея доступа к внутренней работе GPT-3, которая охраняется OpenAI, ученые Калифорнийского университета в Лос-Анджелесе не могут точно определить, как работают его мыслительные способности. Они также пишут, что, хотя GPT-3 работает намного лучше, чем они ожидали, в некоторых задачах на рассуждение, популярный инструмент ИИ по-прежнему регулярно терпит неудачу в других тестах.
— Тейлор Уэбб, исследователь психологии из Калифорнийского университета в Лос-Анджелесе и первый автор исследования.
Уэбб и его коллеги проверили способность GPT-3 решать ряд задач, вдохновленных тестом, известным как «Прогрессивные матрицы Равена», в котором испытуемому предлагается предсказать следующее изображение в сложном расположении фигур. Чтобы позволить GPT-3 «видеть» фигуры, Уэбб преобразовал изображения в текстовый формат, который мог обрабатывать GPT-3; такой подход также гарантировал, что ИИ никогда раньше не сталкивался с подобными вопросами.
Исследователи попросили 40 студентов бакалавриата Калифорнийского университета в Лос-Анджелесе решить те же задачи.
— Хунцзин Лу, профессор психологии Калифорнийского университета в Лос-Анджелесе, старший автор исследования.
GPT-3 правильно решил 80% задач, что намного выше среднего балла испытуемых чуть ниже 60%, но находится в диапазоне самых высоких баллов среди людей.
Исследователи также попросили GPT-3 решить ряд вопросов-аналогов SAT, которые, по их мнению, никогда не публиковались в Интернете, а это означает, что вопросы вряд ли были частью обучающих данных GPT-3. В вопросах пользователям предлагается выбрать пары слов, которые имеют одинаковые отношения. (Например, в задаче «Любовь» — это «ненависть», а «богатый» — соответствует какому слову? Решением будет «бедный».)
Они сравнили баллы GPT-3 с опубликованными результатами SAT абитуриентов колледжа и обнаружили, что ИИ работает лучше, чем средний балл для людей.
Затем исследователи попросили GPT-3 и студентов-добровольцев решить аналогии на основе коротких рассказов, предлагая им прочитать один отрывок, а затем определить другой рассказ, который передает то же значение. Технология справилась с этими задачами хуже, чем студенты, хотя GPT-4, последняя версия технологии OpenAI, показала лучшие результаты, чем GPT-3.
Исследователи Калифорнийского университета в Лос-Анджелесе также разработали собственную компьютерную модель, вдохновленную человеческим мышлением, и сравнивают ее возможности с возможностями коммерческого ИИ.
Исследователи заявили, что GPT-3 пока не может решить проблемы, требующие понимания физического пространства. Например, если предоставить описание набора инструментов — скажем, картонной трубки, ножниц и скотча, — которые можно использовать для переноса шариков жевательной резинки из одной миски в другую, GPT-3 предложит причудливые и в большинстве случаев бессмысленные решения.
— Хунцзин Лу.
Ученые Калифорнийского университета в Лос-Анджелесе надеются выяснить, действительно ли модели изучения языка начинают «думать» как люди или делают что-то совершенно другое, просто имитирующее человеческое мышление.
— сказал Холиок.
Чтобы выяснить это, им потребуется определить основные когнитивные процессы, используемые моделями ИИ, для чего потребуется доступ к программному обеспечению и к данным, используемым для обучения программного обеспечения, а затем провести тесты, которые, как они уверены, программное обеспечение еще не проходило. По их мнению, это будет следующим шагом в решении того, как следует воспринимать ИИ на текущем этапе развития.
Исследования психологов Калифорнийского университета в Лос-Анджелесе показывают, что, как ни удивительно, языковая модель искусственного интеллекта GPT-3 работает примерно так же хорошо, как студенты колледжей, когда их просят решить задачи на рассуждения, которые обычно появляются в тестах на интеллект и стандартизированных тестах, таких как SAT. Исследование опубликовано в Nature Human Behavior.
Авторы статьи считают, что исследование поднимает вопрос о том: является ли подражание GPT-3 человеческому мышлению только побочным продуктом огромного набора данных для обучения языку или он использует принципиально новый тип когнитивного процесса?
Не имея доступа к внутренней работе GPT-3, которая охраняется OpenAI, ученые Калифорнийского университета в Лос-Анджелесе не могут точно определить, как работают его мыслительные способности. Они также пишут, что, хотя GPT-3 работает намного лучше, чем они ожидали, в некоторых задачах на рассуждение, популярный инструмент ИИ по-прежнему регулярно терпит неудачу в других тестах.
Независимо от того, насколько впечатляющими являются наши результаты, важно подчеркнуть, что эта система имеет серьезные ограничения. ИИ может рассуждать по аналогии, но он не может делать то, что очень легко для людей, например, использовать инструменты для решения физической задачи
— Тейлор Уэбб, исследователь психологии из Калифорнийского университета в Лос-Анджелесе и первый автор исследования.
Уэбб и его коллеги проверили способность GPT-3 решать ряд задач, вдохновленных тестом, известным как «Прогрессивные матрицы Равена», в котором испытуемому предлагается предсказать следующее изображение в сложном расположении фигур. Чтобы позволить GPT-3 «видеть» фигуры, Уэбб преобразовал изображения в текстовый формат, который мог обрабатывать GPT-3; такой подход также гарантировал, что ИИ никогда раньше не сталкивался с подобными вопросами.
Исследователи попросили 40 студентов бакалавриата Калифорнийского университета в Лос-Анджелесе решить те же задачи.
Удивительно, но GPT-3 не только работал так же хорошо, как люди, но и совершал аналогичные ошибки
— Хунцзин Лу, профессор психологии Калифорнийского университета в Лос-Анджелесе, старший автор исследования.
GPT-3 правильно решил 80% задач, что намного выше среднего балла испытуемых чуть ниже 60%, но находится в диапазоне самых высоких баллов среди людей.
Исследователи также попросили GPT-3 решить ряд вопросов-аналогов SAT, которые, по их мнению, никогда не публиковались в Интернете, а это означает, что вопросы вряд ли были частью обучающих данных GPT-3. В вопросах пользователям предлагается выбрать пары слов, которые имеют одинаковые отношения. (Например, в задаче «Любовь» — это «ненависть», а «богатый» — соответствует какому слову? Решением будет «бедный».)
Они сравнили баллы GPT-3 с опубликованными результатами SAT абитуриентов колледжа и обнаружили, что ИИ работает лучше, чем средний балл для людей.
Затем исследователи попросили GPT-3 и студентов-добровольцев решить аналогии на основе коротких рассказов, предлагая им прочитать один отрывок, а затем определить другой рассказ, который передает то же значение. Технология справилась с этими задачами хуже, чем студенты, хотя GPT-4, последняя версия технологии OpenAI, показала лучшие результаты, чем GPT-3.
Исследователи Калифорнийского университета в Лос-Анджелесе также разработали собственную компьютерную модель, вдохновленную человеческим мышлением, и сравнивают ее возможности с возможностями коммерческого ИИ.
Исследователи заявили, что GPT-3 пока не может решить проблемы, требующие понимания физического пространства. Например, если предоставить описание набора инструментов — скажем, картонной трубки, ножниц и скотча, — которые можно использовать для переноса шариков жевательной резинки из одной миски в другую, GPT-3 предложит причудливые и в большинстве случаев бессмысленные решения.
Модели изучения языка просто пытаются предсказывать слова, поэтому мы удивлены, что они оказались способны рассуждать. За последние два года технология сделала большой скачок по сравнению с предыдущими версиями
— Хунцзин Лу.
Ученые Калифорнийского университета в Лос-Анджелесе надеются выяснить, действительно ли модели изучения языка начинают «думать» как люди или делают что-то совершенно другое, просто имитирующее человеческое мышление.
GPT-3 может думать подобно человеку. Но, с другой стороны, люди не учились, поглощая весь интернет, поэтому метод обучения совершенно другой. Мы хотели бы знать, действительно ли это происходит так, как это делают люди, или это что-то совершенно новое — то, что мы могли бы назвать настоящим искусственным интеллектом
— сказал Холиок.
Чтобы выяснить это, им потребуется определить основные когнитивные процессы, используемые моделями ИИ, для чего потребуется доступ к программному обеспечению и к данным, используемым для обучения программного обеспечения, а затем провести тесты, которые, как они уверены, программное обеспечение еще не проходило. По их мнению, это будет следующим шагом в решении того, как следует воспринимать ИИ на текущем этапе развития.
- Алексей Павлов
- Unsplash/CC0
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Главная тайна Черного моря разгадана: Ученые рассказали, почему там на дне очень прозрачная пресная вода
Чтобы найти ответ, исследователям пришлось заглянуть на 8 тысяч лет назад...
Секрет 14-го моря России: куда оно пропало и почему о нем снова заговорили?
Эксперты напоминают: Кроме Печорского, у России есть и 15-е «забытое» море, и оно тоже возвращается на карты...
Мегамонстры с 7-го этажа: в древних океанах шла такая война хищников, где у современных косаток не было бы ни единого шанса
Ученые рассказали, куда исчезли «боги» мезозойских морей и почему сейчас их существование было бы невозможно...
Мощнее леса в десятки раз: в ЮАР нашли «живые камни», которые выкачивают CO₂ с бешеной скоростью
Микробиалиты могли бы спасти Землю от потепления, но у этих «каменных насосов» есть один нюанс...
Супертелескоп James Webb только запутал ученых, а планета-«близнец» Земли стала еще загадочнее
Эксперты рассказали, почему самый мощный телескоп в истории не смог разобраться с атмосферой TRAPPIST-1e. Аппарат не виноват. Но тогда кто?...
Грядет научный прорыв: Зачем в последние годы ученые по всему миру создают очень странные компьютеры?
Новые аппараты… не просто живые: они стирают различия между ЭВМ и человеческим мозгом...
Новое исследование показало: если бы не этот «российский ген», древние люди вряд ли бы заселили Америку
Ученые рассказали, почему Алтай в ДНК — это главный секрет феноменального здоровья индейцев...
3500-летние рисунки на камнях российского острова Вайгач грозят переписать древнюю историю Арктики
Ученые рассказали, кем были мореходы из забытой цивилизации Русского Севера...
Золотой колокольчик из Эрмитажа: почему Владимир Путин запретил выставлять этот артефакт за границей?
Сколько сокровищ потеряла Россия в последнее время, пока не поняла, что договоры с Западом не стоят даже бумаги, на которой написаны?...
20-летнее наблюдение со спутников «сломало климат»: Теперь ученым придется полностью менять все теории
Зато теперь понятно, почему в двух близких городах могут быть... разные времена года...
Она нам больше не праматерь! Почему легендарную Люси могут «изгнать» из числа наших предков?
Ведущие антропологи мира схлестнулись в настоящей войне. Кто же окажется победителем?...
Американский авиалайнер резко рухнул на 7000 метров: эксперты считают виновником сбоя космические лучи из глубин Галактики
В этот раз катастрофа не произошла, но под угрозой электроника самолетов, космических аппаратов и даже автомобилей. Почему так происходит?...
Ученые рассказали, какой фрукт подчинил себе весь Китай
Как продукт с очень специфическим запахом стал управлять дипломатией и экономикой Юго-Восточной Азии?...