
Сингапурцы создали чат-бота для взлома систем с ИИ
Исследователи из Наньянского технологического университета (NTU) в Сингапуре создали чат-бота с искусственным интеллектом (ИИ), который может обходить защиту чат-ботов, таких как ChatGPT и Google Bard. То есть побуждает их генерировать запрещённый контент.
Генеративный ИИ, те же базовые для популярных чат-ботов большие языковые модели (LLM), обучается на огромных объёмах данных. И такие массивы информации непременно содержат какие-либо опасные сведения, нежелательные или прямо запрещённые в открытом доступе. Например, при обучении чат-ботов в их багаже знаний могут оказаться сведения о технологии производства взрывчатки или о синтезе наркотиков. Поэтому в существующие коммерчески доступные чат-боты непременно встраивают защиту пользователей от такой информации.
Но вот специалисты из NTU разработали программу под названием Masterkey. Понятие «хозяйский ключ» в физическом смысле — часть индустрии гостеприимства: таким ключом администрация отелей может открыть любые номера, если, например, постоялец потерял выданный ему ключ или гость не реагирует на заказанный им же звонок побудки, рискуя опоздать на самолёт. А разработанный в Сингапуре Masterkey позволяет создателям обходить информационную защиту и получать доступ к сведениям не для публичного просмотра.
Команда исследовательского проекта начала работу с обратного проектирования средств защиты, которые были у чат-ботов, намеченных как цели. Применили методы, которые позволяют обойти ключевые слова в фильтрах. Подход учитывает и дополнительные пробелы меж букв, и просьбы к чат-ботам уступить хакеру или научному сотруднику, который якобы имеет право видеть информацию в полном объёме. Так Masterkey подбирает запросы, которые помогают другим чат-ботам вырваться из тюрьмы ограничений.
Получив «хозяйский ключ» к сторонним системам с ИИ, исследователи во главе с профессором Лю Янгом обучили на их примерах свою LLM, условно говоря, уговаривать на полную откровенность сторонние целевые чат-боты. В итоге Masterkey может обойти любые новые средства защиты, которые внедряются для ограничения той или иной информации.
Янг с коллегами утверждают, что Masterkey втрое эффективнее проникает сквозь защиту чат-бота, чем хитроумный человек с теми же намерениями, который пытается использовать подсказки и запросы, сгенерированные LLM. И не просто успешнее в смысле достижения целей, но и в 25 раз быстрее.
Но зачем создавать ИИ-взломщика, а затем трубить об этом в научных изданиях? В беседе с журналистами Scientific American соавтор исследования Соруш Пур сказал, что они с товарищами по проекту стремились представить мировому сообществу угрозы для безопасности. Кстати, по совместительству Соруш Пур — основатель Harmony Intelligence, компании в сфере безопасности систем с ИИ.
Итак, цель провокационного исследования — помочь другим разработчикам LLM побороть слабые стороны ради профилактики взломов.
Генеративный ИИ, те же базовые для популярных чат-ботов большие языковые модели (LLM), обучается на огромных объёмах данных. И такие массивы информации непременно содержат какие-либо опасные сведения, нежелательные или прямо запрещённые в открытом доступе. Например, при обучении чат-ботов в их багаже знаний могут оказаться сведения о технологии производства взрывчатки или о синтезе наркотиков. Поэтому в существующие коммерчески доступные чат-боты непременно встраивают защиту пользователей от такой информации.
Но вот специалисты из NTU разработали программу под названием Masterkey. Понятие «хозяйский ключ» в физическом смысле — часть индустрии гостеприимства: таким ключом администрация отелей может открыть любые номера, если, например, постоялец потерял выданный ему ключ или гость не реагирует на заказанный им же звонок побудки, рискуя опоздать на самолёт. А разработанный в Сингапуре Masterkey позволяет создателям обходить информационную защиту и получать доступ к сведениям не для публичного просмотра.
Команда исследовательского проекта начала работу с обратного проектирования средств защиты, которые были у чат-ботов, намеченных как цели. Применили методы, которые позволяют обойти ключевые слова в фильтрах. Подход учитывает и дополнительные пробелы меж букв, и просьбы к чат-ботам уступить хакеру или научному сотруднику, который якобы имеет право видеть информацию в полном объёме. Так Masterkey подбирает запросы, которые помогают другим чат-ботам вырваться из тюрьмы ограничений.
Получив «хозяйский ключ» к сторонним системам с ИИ, исследователи во главе с профессором Лю Янгом обучили на их примерах свою LLM, условно говоря, уговаривать на полную откровенность сторонние целевые чат-боты. В итоге Masterkey может обойти любые новые средства защиты, которые внедряются для ограничения той или иной информации.
Янг с коллегами утверждают, что Masterkey втрое эффективнее проникает сквозь защиту чат-бота, чем хитроумный человек с теми же намерениями, который пытается использовать подсказки и запросы, сгенерированные LLM. И не просто успешнее в смысле достижения целей, но и в 25 раз быстрее.
Но зачем создавать ИИ-взломщика, а затем трубить об этом в научных изданиях? В беседе с журналистами Scientific American соавтор исследования Соруш Пур сказал, что они с товарищами по проекту стремились представить мировому сообществу угрозы для безопасности. Кстати, по совместительству Соруш Пур — основатель Harmony Intelligence, компании в сфере безопасности систем с ИИ.
Итак, цель провокационного исследования — помочь другим разработчикам LLM побороть слабые стороны ради профилактики взломов.
- Дмитрий Ладыгин
- pixabay.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Вот уже 17 лет власти Египта запрещают археологам исследовать легендарный Лабиринт
Что скрывает Египет: библиотеку Атлантиды или доказательства переписывания истории?...

Тайна пиратского корабля за 138 миллионов долларов раскрыта у берегов Мадагаскара
Шторм, предательство, тонны золота: Как капитан Стервятник похитил сокровища португальской короны....

Третий гость из бездны: NASA официально подтвердило межзвездное происхождение объекта 3I/ATLAS
Скорость в 245 000 км/ч! Астрофизики говорят, гость «прострелит» Солнечную систему как пуля....

Воскрешение монстра: Colossal возвращает к жизни 3,6-метровую птицу-убийцу моа!
Сможет ли 230-килограммовый гигант из Новой Зеландии выжить среди людей?...

Эксперты бьют тревогу: Таяние ледников разбудит вулканы по всему миру
Цепная реакция извержений прокатится от Антарктиды до Камчатки. Выбросы пепла и CO2 сделают климат невыносимым....

«Богатые тоже плачут»: США открыли «новую эру энергетики» — 800 часов в год без света!
Штаты хвастались ИИ, а электросети «горят» даже от чат-ботов… Россия тем временем запускает термояд....

Череп ребенка-«пришельца» из Аргентины оказался вполне земным
Эксперты рассказали в подробностях, как могла появиться «инопланетная» форма головы....