22 мар 2024 324

Специалисты научились распознавать созданные ИИ короткие тексты

Специалисты из Колумбийского университета в городе Нью-Йорк (Columbia Engineering) научились отличать сгенерированные искусственным интеллектом (ИИ) тексты, даже очень короткие.

Профессора компьютерных наук Цзюньфэн Янг и Карл Вондрик назвали программный продукт Raidar, сократив таким образом словосочетание geneRative AI Detection viA Rewriting, что можно перевести как «Генеративное обнаружение искусственного интеллекта посредством переписывания». Разработка претендует на инновационный подход к различению написанного человеком и сгенерированным ИИ или большой языковой моделью (LLM), такими как ChatGPT. Важная оговорка: для этого Raidar не нужен доступ к архитектуре, алгоритмам или обучающим данным ИИ.

Исследователи использовали уникальную характеристику LLM, которую они называют «упрямством». Дело в том, что LLM свойственно изменять написанный человеком текст гораздо активнее, чем сгенерированный ИИ. Это происходит потому, что LLM часто воспринимают сгенерированное ИИ как нечто близкое к совершенству, а потому вносят в порождение нечеловеческого «разума» очень мало правок.

Raidar использует языковую модель, чтобы перефразировать проверяемый текст. А затем программе остаётся подсчитать, сколько в него внесено правок. Raidar, предлагает LLM переписать, например, сообщение из соцсетей, обзор товара или блогерскую запись. LLM выдаёт результат, и Raidar сравнивает исходный текст с обработанным компьютером. Множество правок означает высокую вероятность того, что оригинал был написан человеком. А вот если в исходный текст внесено мало изменений, то это даёт уверенность — его создавала машина.

Точность Raidar очень высока, так как превосходит предыдущие методы на 29%. Прорыв в производительности достигнут благодаря передовым LLM. Причём Raidar отличается высокой точностью даже при анализе коротких текстов. Разработчики считают достигнутое значительным прорывом, поскольку прежним технологиям требовались для сверки куда более длинные тексты.

Точность крайне важна для разоблачения созданных ИИ коротких текстов. Очень важно определять подлинность, например, сообщений и комментариев в соцсетях, так как они могут повлиять на широкую общественность.

Разработчики намерены продолжить свой исследовательский проект, чтобы охватить им контент на разных языках, включая языки программирования. В сферу их интересов также входит распознавание созданных ИИ изображений, видео и аудио, причём на самых разных носителях.