Сингапурцы создали чат-бота для взлома систем с ИИ
Исследователи из Наньянского технологического университета (NTU) в Сингапуре создали чат-бота с искусственным интеллектом (ИИ), который может обходить защиту чат-ботов, таких как ChatGPT и Google Bard. То есть побуждает их генерировать запрещённый контент.
Генеративный ИИ, те же базовые для популярных чат-ботов большие языковые модели (LLM), обучается на огромных объёмах данных. И такие массивы информации непременно содержат какие-либо опасные сведения, нежелательные или прямо запрещённые в открытом доступе. Например, при обучении чат-ботов в их багаже знаний могут оказаться сведения о технологии производства взрывчатки или о синтезе наркотиков. Поэтому в существующие коммерчески доступные чат-боты непременно встраивают защиту пользователей от такой информации.
Но вот специалисты из NTU разработали программу под названием Masterkey. Понятие «хозяйский ключ» в физическом смысле — часть индустрии гостеприимства: таким ключом администрация отелей может открыть любые номера, если, например, постоялец потерял выданный ему ключ или гость не реагирует на заказанный им же звонок побудки, рискуя опоздать на самолёт. А разработанный в Сингапуре Masterkey позволяет создателям обходить информационную защиту и получать доступ к сведениям не для публичного просмотра.
Команда исследовательского проекта начала работу с обратного проектирования средств защиты, которые были у чат-ботов, намеченных как цели. Применили методы, которые позволяют обойти ключевые слова в фильтрах. Подход учитывает и дополнительные пробелы меж букв, и просьбы к чат-ботам уступить хакеру или научному сотруднику, который якобы имеет право видеть информацию в полном объёме. Так Masterkey подбирает запросы, которые помогают другим чат-ботам вырваться из тюрьмы ограничений.
Получив «хозяйский ключ» к сторонним системам с ИИ, исследователи во главе с профессором Лю Янгом обучили на их примерах свою LLM, условно говоря, уговаривать на полную откровенность сторонние целевые чат-боты. В итоге Masterkey может обойти любые новые средства защиты, которые внедряются для ограничения той или иной информации.
Янг с коллегами утверждают, что Masterkey втрое эффективнее проникает сквозь защиту чат-бота, чем хитроумный человек с теми же намерениями, который пытается использовать подсказки и запросы, сгенерированные LLM. И не просто успешнее в смысле достижения целей, но и в 25 раз быстрее.
Но зачем создавать ИИ-взломщика, а затем трубить об этом в научных изданиях? В беседе с журналистами Scientific American соавтор исследования Соруш Пур сказал, что они с товарищами по проекту стремились представить мировому сообществу угрозы для безопасности. Кстати, по совместительству Соруш Пур — основатель Harmony Intelligence, компании в сфере безопасности систем с ИИ.
Итак, цель провокационного исследования — помочь другим разработчикам LLM побороть слабые стороны ради профилактики взломов.
Генеративный ИИ, те же базовые для популярных чат-ботов большие языковые модели (LLM), обучается на огромных объёмах данных. И такие массивы информации непременно содержат какие-либо опасные сведения, нежелательные или прямо запрещённые в открытом доступе. Например, при обучении чат-ботов в их багаже знаний могут оказаться сведения о технологии производства взрывчатки или о синтезе наркотиков. Поэтому в существующие коммерчески доступные чат-боты непременно встраивают защиту пользователей от такой информации.
Но вот специалисты из NTU разработали программу под названием Masterkey. Понятие «хозяйский ключ» в физическом смысле — часть индустрии гостеприимства: таким ключом администрация отелей может открыть любые номера, если, например, постоялец потерял выданный ему ключ или гость не реагирует на заказанный им же звонок побудки, рискуя опоздать на самолёт. А разработанный в Сингапуре Masterkey позволяет создателям обходить информационную защиту и получать доступ к сведениям не для публичного просмотра.
Команда исследовательского проекта начала работу с обратного проектирования средств защиты, которые были у чат-ботов, намеченных как цели. Применили методы, которые позволяют обойти ключевые слова в фильтрах. Подход учитывает и дополнительные пробелы меж букв, и просьбы к чат-ботам уступить хакеру или научному сотруднику, который якобы имеет право видеть информацию в полном объёме. Так Masterkey подбирает запросы, которые помогают другим чат-ботам вырваться из тюрьмы ограничений.
Получив «хозяйский ключ» к сторонним системам с ИИ, исследователи во главе с профессором Лю Янгом обучили на их примерах свою LLM, условно говоря, уговаривать на полную откровенность сторонние целевые чат-боты. В итоге Masterkey может обойти любые новые средства защиты, которые внедряются для ограничения той или иной информации.
Янг с коллегами утверждают, что Masterkey втрое эффективнее проникает сквозь защиту чат-бота, чем хитроумный человек с теми же намерениями, который пытается использовать подсказки и запросы, сгенерированные LLM. И не просто успешнее в смысле достижения целей, но и в 25 раз быстрее.
Но зачем создавать ИИ-взломщика, а затем трубить об этом в научных изданиях? В беседе с журналистами Scientific American соавтор исследования Соруш Пур сказал, что они с товарищами по проекту стремились представить мировому сообществу угрозы для безопасности. Кстати, по совместительству Соруш Пур — основатель Harmony Intelligence, компании в сфере безопасности систем с ИИ.
Итак, цель провокационного исследования — помочь другим разработчикам LLM побороть слабые стороны ради профилактики взломов.
- Дмитрий Ладыгин
- pixabay.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Эксперты говорят: изобретение ученых из Перми решает одну из самых серьезных и опасных проблем в современной авиации
Американцы потратили на это десятки лет и миллиарды долларов, но открытие сделали в России...
ДНК из ниоткуда: 6000-летние останки в Колумбии ни с кем совпадают по генам. Вообще.
Если у этих людей нет ни предков, ни потомков, то кто они такие?...
Египетская «Зона 51»: Почему власти полностью засекретили «четвертую пирамиду»?
С 60-х годов ХХ века на объект Завиет-эль-Эриан не попал ни один ученый. Что скрывают военные за колючей проволокой?...
Секретные спутники Илона Маска заподозрили в использовании запрещенных сигналов
Что это значит для России и чем могут ответить наши военные?...
Активность нечеловеческого разума вблизи ядерных объектов США, СССР и Великобритании впервые получила научные доказательства
Критики не смогли опровергнуть работу шведских ученых о странных искусственных аномалиях на орбите...
Ученые обнаружили на Кавказе «ужасного» хищника, способного дробить черепа с одного укуса
Почему же 400-килограммовый монстр, побеждавший медведей и саблезубых тигров, все-таки исчез с лица планеты?...
Нападение акул, считавшихся абсолютно безобидными, вызвало шок у морских биологов
Кто виноват в этой ужасной трагедии? И почему эксперты говорят, что это только начало?...
2700 дней понадобилось ученым, чтобы, наконец, раскрыть главную тайну гигантских скатов
Оказалось, что манты ныряют на 1250-метровую глубину вовсе не за едой и не спасаясь от хищников...
В ближайшие 100 лет Юпитер «выстрелит» в Землю как минимум 342 раза
Российские ученые рассчитали: ближайшее «прицеливание» состоится уже 2031 году. Что вообще нам ожидать?...
Ученые говорят: вся жизнь подчиняется одному секретному коду
Но почему это древнее ископаемое отказалось следовать ему?...
Мог ли великий художник Клод Моне видеть в ультрафиолетовом спектре, как пчела?
Историки уверены: после операции на глазах с французским живописцем стали происходит очень странные вещи...
Затонувшие корабли с сокровищами у берегов Китая открывают поразительные факты о Великом морском шелковом пути
Да, это лонгрид! Но после его прочтения ваш взгляд на историю Китая изменится самым коренным образом...
Ученые наконец-то взломали астрономический код цивилизации майя
700 лет точных предсказаний, 145 солнечных затмений: гениальный способ из древности отлично работает до сих пор...