Сингапурцы создали чат-бота для взлома систем с ИИ
Исследователи из Наньянского технологического университета (NTU) в Сингапуре создали чат-бота с искусственным интеллектом (ИИ), который может обходить защиту чат-ботов, таких как ChatGPT и Google Bard. То есть побуждает их генерировать запрещённый контент.
Генеративный ИИ, те же базовые для популярных чат-ботов большие языковые модели (LLM), обучается на огромных объёмах данных. И такие массивы информации непременно содержат какие-либо опасные сведения, нежелательные или прямо запрещённые в открытом доступе. Например, при обучении чат-ботов в их багаже знаний могут оказаться сведения о технологии производства взрывчатки или о синтезе наркотиков. Поэтому в существующие коммерчески доступные чат-боты непременно встраивают защиту пользователей от такой информации.
Но вот специалисты из NTU разработали программу под названием Masterkey. Понятие «хозяйский ключ» в физическом смысле — часть индустрии гостеприимства: таким ключом администрация отелей может открыть любые номера, если, например, постоялец потерял выданный ему ключ или гость не реагирует на заказанный им же звонок побудки, рискуя опоздать на самолёт. А разработанный в Сингапуре Masterkey позволяет создателям обходить информационную защиту и получать доступ к сведениям не для публичного просмотра.
Команда исследовательского проекта начала работу с обратного проектирования средств защиты, которые были у чат-ботов, намеченных как цели. Применили методы, которые позволяют обойти ключевые слова в фильтрах. Подход учитывает и дополнительные пробелы меж букв, и просьбы к чат-ботам уступить хакеру или научному сотруднику, который якобы имеет право видеть информацию в полном объёме. Так Masterkey подбирает запросы, которые помогают другим чат-ботам вырваться из тюрьмы ограничений.
Получив «хозяйский ключ» к сторонним системам с ИИ, исследователи во главе с профессором Лю Янгом обучили на их примерах свою LLM, условно говоря, уговаривать на полную откровенность сторонние целевые чат-боты. В итоге Masterkey может обойти любые новые средства защиты, которые внедряются для ограничения той или иной информации.
Янг с коллегами утверждают, что Masterkey втрое эффективнее проникает сквозь защиту чат-бота, чем хитроумный человек с теми же намерениями, который пытается использовать подсказки и запросы, сгенерированные LLM. И не просто успешнее в смысле достижения целей, но и в 25 раз быстрее.
Но зачем создавать ИИ-взломщика, а затем трубить об этом в научных изданиях? В беседе с журналистами Scientific American соавтор исследования Соруш Пур сказал, что они с товарищами по проекту стремились представить мировому сообществу угрозы для безопасности. Кстати, по совместительству Соруш Пур — основатель Harmony Intelligence, компании в сфере безопасности систем с ИИ.
Итак, цель провокационного исследования — помочь другим разработчикам LLM побороть слабые стороны ради профилактики взломов.
Генеративный ИИ, те же базовые для популярных чат-ботов большие языковые модели (LLM), обучается на огромных объёмах данных. И такие массивы информации непременно содержат какие-либо опасные сведения, нежелательные или прямо запрещённые в открытом доступе. Например, при обучении чат-ботов в их багаже знаний могут оказаться сведения о технологии производства взрывчатки или о синтезе наркотиков. Поэтому в существующие коммерчески доступные чат-боты непременно встраивают защиту пользователей от такой информации.
Но вот специалисты из NTU разработали программу под названием Masterkey. Понятие «хозяйский ключ» в физическом смысле — часть индустрии гостеприимства: таким ключом администрация отелей может открыть любые номера, если, например, постоялец потерял выданный ему ключ или гость не реагирует на заказанный им же звонок побудки, рискуя опоздать на самолёт. А разработанный в Сингапуре Masterkey позволяет создателям обходить информационную защиту и получать доступ к сведениям не для публичного просмотра.
Команда исследовательского проекта начала работу с обратного проектирования средств защиты, которые были у чат-ботов, намеченных как цели. Применили методы, которые позволяют обойти ключевые слова в фильтрах. Подход учитывает и дополнительные пробелы меж букв, и просьбы к чат-ботам уступить хакеру или научному сотруднику, который якобы имеет право видеть информацию в полном объёме. Так Masterkey подбирает запросы, которые помогают другим чат-ботам вырваться из тюрьмы ограничений.
Получив «хозяйский ключ» к сторонним системам с ИИ, исследователи во главе с профессором Лю Янгом обучили на их примерах свою LLM, условно говоря, уговаривать на полную откровенность сторонние целевые чат-боты. В итоге Masterkey может обойти любые новые средства защиты, которые внедряются для ограничения той или иной информации.
Янг с коллегами утверждают, что Masterkey втрое эффективнее проникает сквозь защиту чат-бота, чем хитроумный человек с теми же намерениями, который пытается использовать подсказки и запросы, сгенерированные LLM. И не просто успешнее в смысле достижения целей, но и в 25 раз быстрее.
Но зачем создавать ИИ-взломщика, а затем трубить об этом в научных изданиях? В беседе с журналистами Scientific American соавтор исследования Соруш Пур сказал, что они с товарищами по проекту стремились представить мировому сообществу угрозы для безопасности. Кстати, по совместительству Соруш Пур — основатель Harmony Intelligence, компании в сфере безопасности систем с ИИ.
Итак, цель провокационного исследования — помочь другим разработчикам LLM побороть слабые стороны ради профилактики взломов.
- Дмитрий Ладыгин
- pixabay.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Битва под Каневом: почему на 350 лет замолчали сокрушительную победу России?
Неудобная победа, предательство и идеология. Мы бы могли вообще не узнать об этом триумфе русского оружия...
Бомбы с орбиты: почему советская технология, воскрешенная Китаем, встревожила США?
Американцы слишком долго считали свои системы раннего предупреждения лучшими на планете. Теперь......
С Ноева ковчега сняли запрет: что покажут радары на Арарате?
История, которую больше всего высмеивали ученые, неожиданно становится все более реальной...
Дикий народ чучуна: Кто наводил ужас на коренное население Сибири?
Йети? Люди-изгои? Древнее племя? Пока что вопросов больше, чем ответов...
Почему их ДНК не меняется уже 42 000 лет: определен самый древний народ на планете
Три раза предки жителей Океании встречались с исчезнувшими видами людей, и это в корне изменило их гены...
Тайна «косого глаза» Венеры раскрыта: что увидела нейросеть на картинах Боттичелли?
Художник нарисовал пять портретов прекрасной Симонетты Веспуччи. И каждое полотно еще больше подтверждает страшный диагноз...
Мрачный прогноз для США из 1995 года сбылся: в чем великий ученый Саган оказался прав?
Исследователь говорил: все плохо, но еще не все потеряно. Его советы могут реально помочь всему человечеству...
Новая вселенная внутри звезды: почему Эйнштейн мог ошибаться насчет черных дыр
Больше 20 лет эта гипотеза в буквальном смысле раздирает мир науки. Но, возможно, именно она выведет ученых из тупика сингулярности...
Прорыв в астрономии: найти жизнь в космосе будет гораздо проще
Ученых не пугает даже погрешность в 20%. Зато будут просканированы тысячи планет...
Снегопады в Антарктиде становятся все аномальнее: и ученые, наконец-то, знают почему?
Ученым придется пересмотреть все климатические модели Шестого континента. Кстати, снега там будет выпадать с каждым годом все больше...
Марс под вопросом: что может обнулить иммунитет у космонавтов?
И почему защита организма перестает видеть микробы, выжившие в космосе?...
Тайный Еще одна тайна майя: археологи секрет алтаря в заброшенном городе
Выяснилось, что индейцы долгие столетия продолжали исповедовать, казалось бы, давно забытый древний культ...
43 — проклятый возраст Рюриковичей: почему многие князья не переживали этот роковой рубеж?
Генетики говорят: русская династия слишком поздно поняла, что попала в ловушку «чистой» крови...
Доказана жизнь на спутнике Юпитера: как же бактериям удалось добраться с Земли на Европу?
За 3,5 миллиарда лет земные бактерии могли долететь до 105 звездных систем. Так что у Европы есть все шансы на «заражение»...
Сначала Стоунхендж был... не каменным: найден прототип легендарного святилища
Доисторическая религия оказалась старше на 500 лет, чем считали ученые. И она играла огромную роль в жизни древних людей...
Бельгийскую разведку снова взломали: хакеры целый год качали оттуда секретные данные
Эксперты говорят: проникновение было замечено совершенно случайно. И это пугает...