Тупой, но по-своему: психологические тесты разоблачили изъяны ИИ
За популярными платформами генеративного искусственного интеллекта (ИИ) стоят большие языковые модели (LLM). С целью понять, как работает ИИ, учёные протестировали разные модели так называемых чат-ботов: GPT-4, GPT-3.5, Google Bard, Claude-2, Llama-2-7b, Llama-2-13b и Llama-2-70b. Если кратко, то все эти вариации ИИ давали разные ответы, когда их просили ответить на один и тот же тестовый вопрос. Причём они не давали более корректных ответов при добавлении дополнительных вводных. К такому выводу пришли исследователи из Университетского колледжа Лондона на основании работ своих американских коллег.
В научном журнале Royal Society Open Science («Королевское общество открытой науки») учёные описали, как специалисты тестировали передовые LLM с помощью тестов когнитивной психологии. То есть применили как «пробирный камень» научную дисциплину, ориентированную на эксперимент и математическое моделирование мышления. Целью экспериментов была оценка способности к рассуждению. Учёные стремились понять, как именно разные ИИ «думают», причём не только из чисто научного интереса. Важно уяснить, можно ли доверять искусственному интеллекту ответственные задачи, от которых зависит принятие соответствующих решений.
В последние годы становятся всё сложнее LLM, которые поддерживают генеративное программное обеспечение с ИИ, такие как ChatGPT. Их способность создавать тексты, изображения, аудио и видео даже воспринимаются как угроза для рабочих мест, вызывают опасении в смысле влияния на политические выборы и как вероятные «пособники» в криминале.
Однако всё чаще всплывают факты, роняющие авторитет такого ПО: ИИ регулярно фабрикуют вымыслы, реагируют непоследовательно и даже неправильно решают арифметические задачки.
Например, исследователи из Калифорнийского университета систематически анализировали, способны ли семь разных LLM рассуждать рационально. Они опирались на такое определение краеугольного термина: рассуждает ли кто-то или что-то в соответствии с правилами логики и с учётом вероятностей. Иррациональный интеллект неспособен к подобному.
В LLM «загрузили» набор из 12 распространённых тестов когнитивной психологии для оценки человеческой способности к рассуждениям. В числе контрольных заданий были, например, логическая задача выбора Уэйсона с четырьмя игральными картами; задача на когнитивное искажение, известная как проблема Линды, в которой всего-то две вероятности; связанный с теорией вероятности «парадокс Монти Холла», который по содержанию похож на наше «Поле чудес», только с тремя дверями вместо шкатулок. Кстати, у людей способность решать эти вроде бы незамысловатые задачи низкая, так как только 14% натуральных интеллектов в среднем справляются с проблемой Линды и 16% — с задачей Уэйсона.

LLM тоже «отличились», так как продемонстрировали иррациональность во многих своих ответах. Например, давали разные ответы на один и тот же вопрос десять (!) раз. Чат-боты совершали удивительные ошибки при решении простых задачек, в том числе на сложение. А ещё принимали согласные буквы за гласные, что также приводило к неправильным ответам.
Например, правильные ответы в задаче Уэйсона варьировались от 90% для GPT-4 до 0% для GPT-3.5 и Google Bard. Llama-2-7b, который отвечал правильно в 10% случаев, принял букву К за гласную и поэтому провалился.
Хотя большинство людей также не смогли бы правильно решить задачу Уэйсона, маловероятно, что это произошло бы из-за ошибки с распознаванием гласной буквы.
Оливия Макмиллан-Скотт, первый автор исследования из Калифорнийского университета компьютерных наук, с уверенностью утверждает, что эти модели пока не «думают» как люди. Тем не менее, LLM с самым большим набором данных, GPT-4, показала себя намного лучше, чем другие. Однако трудно сказать, чем можно обосновать конкретные результаты, потому что ПО закрыто для желающих поковыряться в нём.
Некоторые LLM даже отказывались решать задания по этическим соображениям, хотя вопросы были невинными.
Исследователи также предоставили ИИ дополнительные сведения, которые обычно улучшают результаты людей. Однако у тестируемых LLM каких-либо внятных улучшений после подсказок не наступило.
Профессор Мирко Мусолеси, старший автор исследования из Калифорнийского университета, сказал, что на самом деле специалисты пока не понимают, почему большие языковые модели ведут себя определённым образом. И добавил, что совершающим ошибки людям всё-таки хочется, чтобы ИИ был идеальным.
В научном журнале Royal Society Open Science («Королевское общество открытой науки») учёные описали, как специалисты тестировали передовые LLM с помощью тестов когнитивной психологии. То есть применили как «пробирный камень» научную дисциплину, ориентированную на эксперимент и математическое моделирование мышления. Целью экспериментов была оценка способности к рассуждению. Учёные стремились понять, как именно разные ИИ «думают», причём не только из чисто научного интереса. Важно уяснить, можно ли доверять искусственному интеллекту ответственные задачи, от которых зависит принятие соответствующих решений.
В последние годы становятся всё сложнее LLM, которые поддерживают генеративное программное обеспечение с ИИ, такие как ChatGPT. Их способность создавать тексты, изображения, аудио и видео даже воспринимаются как угроза для рабочих мест, вызывают опасении в смысле влияния на политические выборы и как вероятные «пособники» в криминале.
Однако всё чаще всплывают факты, роняющие авторитет такого ПО: ИИ регулярно фабрикуют вымыслы, реагируют непоследовательно и даже неправильно решают арифметические задачки.
Например, исследователи из Калифорнийского университета систематически анализировали, способны ли семь разных LLM рассуждать рационально. Они опирались на такое определение краеугольного термина: рассуждает ли кто-то или что-то в соответствии с правилами логики и с учётом вероятностей. Иррациональный интеллект неспособен к подобному.
В LLM «загрузили» набор из 12 распространённых тестов когнитивной психологии для оценки человеческой способности к рассуждениям. В числе контрольных заданий были, например, логическая задача выбора Уэйсона с четырьмя игральными картами; задача на когнитивное искажение, известная как проблема Линды, в которой всего-то две вероятности; связанный с теорией вероятности «парадокс Монти Холла», который по содержанию похож на наше «Поле чудес», только с тремя дверями вместо шкатулок. Кстати, у людей способность решать эти вроде бы незамысловатые задачи низкая, так как только 14% натуральных интеллектов в среднем справляются с проблемой Линды и 16% — с задачей Уэйсона.

LLM тоже «отличились», так как продемонстрировали иррациональность во многих своих ответах. Например, давали разные ответы на один и тот же вопрос десять (!) раз. Чат-боты совершали удивительные ошибки при решении простых задачек, в том числе на сложение. А ещё принимали согласные буквы за гласные, что также приводило к неправильным ответам.
Например, правильные ответы в задаче Уэйсона варьировались от 90% для GPT-4 до 0% для GPT-3.5 и Google Bard. Llama-2-7b, который отвечал правильно в 10% случаев, принял букву К за гласную и поэтому провалился.
Хотя большинство людей также не смогли бы правильно решить задачу Уэйсона, маловероятно, что это произошло бы из-за ошибки с распознаванием гласной буквы.
Оливия Макмиллан-Скотт, первый автор исследования из Калифорнийского университета компьютерных наук, с уверенностью утверждает, что эти модели пока не «думают» как люди. Тем не менее, LLM с самым большим набором данных, GPT-4, показала себя намного лучше, чем другие. Однако трудно сказать, чем можно обосновать конкретные результаты, потому что ПО закрыто для желающих поковыряться в нём.
Некоторые LLM даже отказывались решать задания по этическим соображениям, хотя вопросы были невинными.
Исследователи также предоставили ИИ дополнительные сведения, которые обычно улучшают результаты людей. Однако у тестируемых LLM каких-либо внятных улучшений после подсказок не наступило.
Профессор Мирко Мусолеси, старший автор исследования из Калифорнийского университета, сказал, что на самом деле специалисты пока не понимают, почему большие языковые модели ведут себя определённым образом. И добавил, что совершающим ошибки людям всё-таки хочется, чтобы ИИ был идеальным.
- Дмитрий Ладыгин
- pixabay.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Битва под Каневом: почему на 350 лет замолчали сокрушительную победу России?
Неудобная победа, предательство и идеология. Мы бы могли вообще не узнать об этом триумфе русского оружия...
Бомбы с орбиты: почему советская технология, воскрешенная Китаем, встревожила США?
Американцы слишком долго считали свои системы раннего предупреждения лучшими на планете. Теперь......
С Ноева ковчега сняли запрет: что покажут радары на Арарате?
История, которую больше всего высмеивали ученые, неожиданно становится все более реальной...
Дикий народ чучуна: Кто наводил ужас на коренное население Сибири?
Йети? Люди-изгои? Древнее племя? Пока что вопросов больше, чем ответов...
Почему их ДНК не меняется уже 42 000 лет: определен самый древний народ на планете
Три раза предки жителей Океании встречались с исчезнувшими видами людей, и это в корне изменило их гены...
Тайна «косого глаза» Венеры раскрыта: что увидела нейросеть на картинах Боттичелли?
Художник нарисовал пять портретов прекрасной Симонетты Веспуччи. И каждое полотно еще больше подтверждает страшный диагноз...
Мрачный прогноз для США из 1995 года сбылся: в чем великий ученый Саган оказался прав?
Исследователь говорил: все плохо, но еще не все потеряно. Его советы могут реально помочь всему человечеству...
Новая вселенная внутри звезды: почему Эйнштейн мог ошибаться насчет черных дыр
Больше 20 лет эта гипотеза в буквальном смысле раздирает мир науки. Но, возможно, именно она выведет ученых из тупика сингулярности...
Прорыв в астрономии: найти жизнь в космосе будет гораздо проще
Ученых не пугает даже погрешность в 20%. Зато будут просканированы тысячи планет...
Марс под вопросом: что может обнулить иммунитет у космонавтов?
И почему защита организма перестает видеть микробы, выжившие в космосе?...
Снегопады в Антарктиде становятся все аномальнее: и ученые, наконец-то, знают почему?
Ученым придется пересмотреть все климатические модели Шестого континента. Кстати, снега там будет выпадать с каждым годом все больше...
43 — проклятый возраст Рюриковичей: почему многие князья не переживали этот роковой рубеж?
Генетики говорят: русская династия слишком поздно поняла, что попала в ловушку «чистой» крови...
Тайный Еще одна тайна майя: археологи секрет алтаря в заброшенном городе
Выяснилось, что индейцы долгие столетия продолжали исповедовать, казалось бы, давно забытый древний культ...
Доказана жизнь на спутнике Юпитера: как же бактериям удалось добраться с Земли на Европу?
За 3,5 миллиарда лет земные бактерии могли долететь до 105 звездных систем. Так что у Европы есть все шансы на «заражение»...
Сначала Стоунхендж был... не каменным: найден прототип легендарного святилища
Доисторическая религия оказалась старше на 500 лет, чем считали ученые. И она играла огромную роль в жизни древних людей...
Бельгийскую разведку снова взломали: хакеры целый год качали оттуда секретные данные
Эксперты говорят: проникновение было замечено совершенно случайно. И это пугает...