Сингапурцы создали чат-бота для взлома систем с ИИ
Исследователи из Наньянского технологического университета (NTU) в Сингапуре создали чат-бота с искусственным интеллектом (ИИ), который может обходить защиту чат-ботов, таких как ChatGPT и Google Bard. То есть побуждает их генерировать запрещённый контент.
Генеративный ИИ, те же базовые для популярных чат-ботов большие языковые модели (LLM), обучается на огромных объёмах данных. И такие массивы информации непременно содержат какие-либо опасные сведения, нежелательные или прямо запрещённые в открытом доступе. Например, при обучении чат-ботов в их багаже знаний могут оказаться сведения о технологии производства взрывчатки или о синтезе наркотиков. Поэтому в существующие коммерчески доступные чат-боты непременно встраивают защиту пользователей от такой информации.
Но вот специалисты из NTU разработали программу под названием Masterkey. Понятие «хозяйский ключ» в физическом смысле — часть индустрии гостеприимства: таким ключом администрация отелей может открыть любые номера, если, например, постоялец потерял выданный ему ключ или гость не реагирует на заказанный им же звонок побудки, рискуя опоздать на самолёт. А разработанный в Сингапуре Masterkey позволяет создателям обходить информационную защиту и получать доступ к сведениям не для публичного просмотра.
Команда исследовательского проекта начала работу с обратного проектирования средств защиты, которые были у чат-ботов, намеченных как цели. Применили методы, которые позволяют обойти ключевые слова в фильтрах. Подход учитывает и дополнительные пробелы меж букв, и просьбы к чат-ботам уступить хакеру или научному сотруднику, который якобы имеет право видеть информацию в полном объёме. Так Masterkey подбирает запросы, которые помогают другим чат-ботам вырваться из тюрьмы ограничений.
Получив «хозяйский ключ» к сторонним системам с ИИ, исследователи во главе с профессором Лю Янгом обучили на их примерах свою LLM, условно говоря, уговаривать на полную откровенность сторонние целевые чат-боты. В итоге Masterkey может обойти любые новые средства защиты, которые внедряются для ограничения той или иной информации.
Янг с коллегами утверждают, что Masterkey втрое эффективнее проникает сквозь защиту чат-бота, чем хитроумный человек с теми же намерениями, который пытается использовать подсказки и запросы, сгенерированные LLM. И не просто успешнее в смысле достижения целей, но и в 25 раз быстрее.
Но зачем создавать ИИ-взломщика, а затем трубить об этом в научных изданиях? В беседе с журналистами Scientific American соавтор исследования Соруш Пур сказал, что они с товарищами по проекту стремились представить мировому сообществу угрозы для безопасности. Кстати, по совместительству Соруш Пур — основатель Harmony Intelligence, компании в сфере безопасности систем с ИИ.
Итак, цель провокационного исследования — помочь другим разработчикам LLM побороть слабые стороны ради профилактики взломов.
Генеративный ИИ, те же базовые для популярных чат-ботов большие языковые модели (LLM), обучается на огромных объёмах данных. И такие массивы информации непременно содержат какие-либо опасные сведения, нежелательные или прямо запрещённые в открытом доступе. Например, при обучении чат-ботов в их багаже знаний могут оказаться сведения о технологии производства взрывчатки или о синтезе наркотиков. Поэтому в существующие коммерчески доступные чат-боты непременно встраивают защиту пользователей от такой информации.
Но вот специалисты из NTU разработали программу под названием Masterkey. Понятие «хозяйский ключ» в физическом смысле — часть индустрии гостеприимства: таким ключом администрация отелей может открыть любые номера, если, например, постоялец потерял выданный ему ключ или гость не реагирует на заказанный им же звонок побудки, рискуя опоздать на самолёт. А разработанный в Сингапуре Masterkey позволяет создателям обходить информационную защиту и получать доступ к сведениям не для публичного просмотра.
Команда исследовательского проекта начала работу с обратного проектирования средств защиты, которые были у чат-ботов, намеченных как цели. Применили методы, которые позволяют обойти ключевые слова в фильтрах. Подход учитывает и дополнительные пробелы меж букв, и просьбы к чат-ботам уступить хакеру или научному сотруднику, который якобы имеет право видеть информацию в полном объёме. Так Masterkey подбирает запросы, которые помогают другим чат-ботам вырваться из тюрьмы ограничений.
Получив «хозяйский ключ» к сторонним системам с ИИ, исследователи во главе с профессором Лю Янгом обучили на их примерах свою LLM, условно говоря, уговаривать на полную откровенность сторонние целевые чат-боты. В итоге Masterkey может обойти любые новые средства защиты, которые внедряются для ограничения той или иной информации.
Янг с коллегами утверждают, что Masterkey втрое эффективнее проникает сквозь защиту чат-бота, чем хитроумный человек с теми же намерениями, который пытается использовать подсказки и запросы, сгенерированные LLM. И не просто успешнее в смысле достижения целей, но и в 25 раз быстрее.
Но зачем создавать ИИ-взломщика, а затем трубить об этом в научных изданиях? В беседе с журналистами Scientific American соавтор исследования Соруш Пур сказал, что они с товарищами по проекту стремились представить мировому сообществу угрозы для безопасности. Кстати, по совместительству Соруш Пур — основатель Harmony Intelligence, компании в сфере безопасности систем с ИИ.
Итак, цель провокационного исследования — помочь другим разработчикам LLM побороть слабые стороны ради профилактики взломов.
- Дмитрий Ладыгин
- pixabay.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Еще раз об убийстве Андрея Боголюбского: что рассказали кости погибшего князя?
Профессор судебной медицины поправил историков и выявил неточности древних летописей...
Древнеримский артефакт переписывает историю Америки: Колумб был не первым?
Почему находка из индейской могилы почти 100 лет вызывает ожесточенные споры среди археологов и историков?...
ФСБ рассекретило часть архивов Александра Вадиса, генерала «Смерш»: как советская контрразведка переиграла немцев на Курской дуге. И не только
Историки говорят: по биографии этого смершевца можно запросто снять несколько остросюжетных боевиков...
Почему загадочные отметины на камнях в Помпеях десятилетиями ставили в тупик военных экспертов?
Итальянские ученые неожиданно решили одну из самых запутанных загадок римской военной истории. Оказывается, уже тогда стреляли из «пулеметов»...
Жители Анд переписали свою ДНК: почему горные индейцы пьют ядовитую воду, но чувствуют себя при этом хорошо?
По словам ученых, эволюция сделала красивый и хитрый ход. И это не иммунитет к токсинам, а нечто другое, более интересное...
У группы Дятлова все-таки был шанс: ИИ вычислил единственный вариант, когда люди могли спастись
Оказалось, что судьба туристов была решена уже в первые три минуты трагедии. И нейросеть нашла как именно...
Почему загадочный объект на Марсе — «копия» древнеегипетской пирамиды?
Что стоит за самой таинственной структурой на Красной планете? Эксперты дают объяснения, но стоит ли им верить?...
Ядерный взрыв на Луне: для чего советские ученые хотели провести такой грандиозный эксперимент?
Зачем России атомный реактор на Луне и как он поможет нам добраться до Венеры?...
Почему эти меры не спасут Антарктиду: пять проектов по спасению ледников оказались провалом
Эксперт жестко проанализировал самые популярные программы по сохранению льда на Шестом континенте. Увы, они оказались невыполнимой фантастикой, причем опасно...
Колумба могут оправдать… древние детские кости из Юго-Восточной Азии?
Что рассказали 309 скелетов во Вьетнаме? И почему история сифилиса — это очень непростая тема?...
Украина вообще не имеет шансов: французский историк, предсказавший распад СССР, не сомневается, что Россия победит
По словам эксперта, Запад исчерпал себя как цивилизация, а потому обречен на неизбежное поражение. Это необратимый процесс...