4 янв 2024 346

Сингапурцы создали чат-бота для взлома систем с ИИ

Исследователи из Наньянского технологического университета (NTU) в Сингапуре создали чат-бота с искусственным интеллектом (ИИ), который может обходить защиту чат-ботов, таких как ChatGPT и Google Bard. То есть побуждает их генерировать запрещённый контент.

Генеративный ИИ, те же базовые для популярных чат-ботов большие языковые модели (LLM), обучается на огромных объёмах данных. И такие массивы информации непременно содержат какие-либо опасные сведения, нежелательные или прямо запрещённые в открытом доступе. Например, при обучении чат-ботов в их багаже знаний могут оказаться сведения о технологии производства взрывчатки или о синтезе наркотиков. Поэтому в существующие коммерчески доступные чат-боты непременно встраивают защиту пользователей от такой информации.

Но вот специалисты из NTU разработали программу под названием Masterkey. Понятие «хозяйский ключ» в физическом смысле — часть индустрии гостеприимства: таким ключом администрация отелей может открыть любые номера, если, например, постоялец потерял выданный ему ключ или гость не реагирует на заказанный им же звонок побудки, рискуя опоздать на самолёт. А разработанный в Сингапуре Masterkey позволяет создателям обходить информационную защиту и получать доступ к сведениям не для публичного просмотра.

Команда исследовательского проекта начала работу с обратного проектирования средств защиты, которые были у чат-ботов, намеченных как цели. Применили методы, которые позволяют обойти ключевые слова в фильтрах. Подход учитывает и дополнительные пробелы меж букв, и просьбы к чат-ботам уступить хакеру или научному сотруднику, который якобы имеет право видеть информацию в полном объёме. Так Masterkey подбирает запросы, которые помогают другим чат-ботам вырваться из тюрьмы ограничений.

Получив «хозяйский ключ» к сторонним системам с ИИ, исследователи во главе с профессором Лю Янгом обучили на их примерах свою LLM, условно говоря, уговаривать на полную откровенность сторонние целевые чат-боты. В итоге Masterkey может обойти любые новые средства защиты, которые внедряются для ограничения той или иной информации.

Янг с коллегами утверждают, что Masterkey втрое эффективнее проникает сквозь защиту чат-бота, чем хитроумный человек с теми же намерениями, который пытается использовать подсказки и запросы, сгенерированные LLM. И не просто успешнее в смысле достижения целей, но и в 25 раз быстрее.

Но зачем создавать ИИ-взломщика, а затем трубить об этом в научных изданиях? В беседе с журналистами Scientific American соавтор исследования Соруш Пур сказал, что они с товарищами по проекту стремились представить мировому сообществу угрозы для безопасности. Кстати, по совместительству Соруш Пур — основатель Harmony Intelligence, компании в сфере безопасности систем с ИИ.

Итак, цель провокационного исследования — помочь другим разработчикам LLM побороть слабые стороны ради профилактики взломов.

Дмитрий Ладыгин
pixabay.com

Наши новостные каналы

Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.

ВКонтакте Дзен Одноклассники

Эксперты говорят: изобретение ученых из Перми решает одну из самых серьезных и опасных проблем в современной авиации

Американцы потратили на это десятки лет и миллиарды долларов, но открытие сделали в России...

21 окт 2025 15 249

ДНК из ниоткуда: 6000-летние останки в Колумбии ни с кем совпадают по генам. Вообще.

Если у этих людей нет ни предков, ни потомков, то кто они такие?...

22 окт 2025 9 590

Египетская «Зона 51»: Почему власти полностью засекретили «четвертую пирамиду»?

С 60-х годов ХХ века на объект Завиет-эль-Эриан не попал ни один ученый. Что скрывают военные за колючей проволокой?...

23 окт 2025 6 459

Секретные спутники Илона Маска заподозрили в использовании запрещенных сигналов

Что это значит для России и чем могут ответить наши военные?...

20 окт 2025 4 790

Активность нечеловеческого разума вблизи ядерных объектов США, СССР и Великобритании впервые получила научные доказательства

Критики не смогли опровергнуть работу шведских ученых о странных искусственных аномалиях на орбите...

Вчера, 14:17 4 604

Ученые обнаружили на Кавказе «ужасного» хищника, способного дробить черепа с одного укуса

Почему же 400-килограммовый монстр, побеждавший медведей и саблезубых тигров, все-таки исчез с лица планеты?...

20 окт 2025 3 657

Нападение акул, считавшихся абсолютно безобидными, вызвало шок у морских биологов

Кто виноват в этой ужасной трагедии? И почему эксперты говорят, что это только начало?...

23 окт 2025 2 679

2700 дней понадобилось ученым, чтобы, наконец, раскрыть главную тайну гигантских скатов

Оказалось, что манты ныряют на 1250-метровую глубину вовсе не за едой и не спасаясь от хищников...

21 окт 2025 2 534

В ближайшие 100 лет Юпитер «выстрелит» в Землю как минимум 342 раза

Российские ученые рассчитали: ближайшее «прицеливание» состоится уже 2031 году. Что вообще нам ожидать?...

22 окт 2025 1 873

Ученые говорят: вся жизнь подчиняется одному секретному коду

Но почему это древнее ископаемое отказалось следовать ему?...

24 окт 2025 1 559

Мог ли великий художник Клод Моне видеть в ультрафиолетовом спектре, как пчела?

Историки уверены: после операции на глазах с французским живописцем стали происходит очень странные вещи...

19 окт 2025 1 312

Затонувшие корабли с сокровищами у берегов Китая открывают поразительные факты о Великом морском шелковом пути

Да, это лонгрид! Но после его прочтения ваш взгляд на историю Китая изменится самым коренным образом...

24 окт 2025 1 154

Ученые наконец-то взломали астрономический код цивилизации майя

700 лет точных предсказаний, 145 солнечных затмений: гениальный способ из древности отлично работает до сих пор...

Вчера, 20:30 725