
Блокировки побоку: компании, занимающиеся искусственным интеллектом, по-прежнему крадут контент из сети
В последнее время в центре внимания оказалась компания Perplexity, описывающая свой продукт как «бесплатный поисковый движок на основе искусственного интеллекта». Forbes обвинил ее в краже и повторной публикации своей статьи на нескольких платформах, а издание Wired сообщило, что Perplexity игнорирует протокол исключения роботов (robots.txt) и сканирует сайт и другие публикации Condé Nast.
Посвященный технологиям ресурс The Shortcut также обвинил компанию в сканировании своих статей. По информации Reuters, Perplexity — не единственная компания, обходящая файлы robots.txt и сканирующая веб-сайты для получения контента, который затем используется для обучения нейросетей.
Reuters ссылается на письмо, адресованное издателям от стартапа TollBit — посредника с фирмами по искусственному интеллекту, в котором говорится о заключении лицензионных сделок. В письме предупреждается, что агенты ИИ из нескольких источников (не только одной компании) обходят протокол robots.txt, чтобы получить контент с сайтов. Файл robots.txt содержит инструкции для поисковых роботов о том, какие страницы они могут посещать. Веб-разработчики используют этот протокол с 1994 года, но его соблюдение остается абсолютно добровольным.
В письме TollBit не названа ни одна компания, но Business Insider утверждает, что узнал, что OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходят сигналы robots.txt. Обе компании ранее заявляли, что уважают инструкции «не сканировать» в файлах robots.txt веб-сайтов.
В ходе расследования Wired обнаружили, что машина на сервере Amazon, управляемая Perplexity, обходила инструкции robots.txt на их веб-сайте. Чтобы подтвердить сканирование контента, Wired предоставил инструмент компании, заголовки своих статей или краткие описания своих историй. Инструмент, по сообщению Wired, давал результаты, близко перефразировавшие его статьи «с минимальной атрибуцией». И иногда он даже создавал неточные резюме для своих историй — Wired утверждает, что чат-бот ложно утверждал, что в одном случае он сообщал о том, что конкретный полицейский из Калифорнии совершил преступление.
— Аравинд Сринивас, генеральный директор Perplexity.
В защиту своей компании Сринивас напомнил, что протокол исключения роботов не является правовой рамкой, и предполагает, что издатели и компании, подобные его собственной, могут быть вынуждены установить новый вид отношений.
Посвященный технологиям ресурс The Shortcut также обвинил компанию в сканировании своих статей. По информации Reuters, Perplexity — не единственная компания, обходящая файлы robots.txt и сканирующая веб-сайты для получения контента, который затем используется для обучения нейросетей.
Reuters ссылается на письмо, адресованное издателям от стартапа TollBit — посредника с фирмами по искусственному интеллекту, в котором говорится о заключении лицензионных сделок. В письме предупреждается, что агенты ИИ из нескольких источников (не только одной компании) обходят протокол robots.txt, чтобы получить контент с сайтов. Файл robots.txt содержит инструкции для поисковых роботов о том, какие страницы они могут посещать. Веб-разработчики используют этот протокол с 1994 года, но его соблюдение остается абсолютно добровольным.
В письме TollBit не названа ни одна компания, но Business Insider утверждает, что узнал, что OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходят сигналы robots.txt. Обе компании ранее заявляли, что уважают инструкции «не сканировать» в файлах robots.txt веб-сайтов.
В ходе расследования Wired обнаружили, что машина на сервере Amazon, управляемая Perplexity, обходила инструкции robots.txt на их веб-сайте. Чтобы подтвердить сканирование контента, Wired предоставил инструмент компании, заголовки своих статей или краткие описания своих историй. Инструмент, по сообщению Wired, давал результаты, близко перефразировавшие его статьи «с минимальной атрибуцией». И иногда он даже создавал неточные резюме для своих историй — Wired утверждает, что чат-бот ложно утверждал, что в одном случае он сообщал о том, что конкретный полицейский из Калифорнии совершил преступление.
Наша компания не игнорирует протокол исключения роботов и не лжет об этом. Однако, мы никогда не утверждали, что у наших поисковых ботов не бывает галлюцинаций
— Аравинд Сринивас, генеральный директор Perplexity.
В защиту своей компании Сринивас напомнил, что протокол исключения роботов не является правовой рамкой, и предполагает, что издатели и компании, подобные его собственной, могут быть вынуждены установить новый вид отношений.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Еще раз о ядерной войне на Марсе
Гипотетический конфликт на Красной планете не дает покоя некоторым ученым....

В мозгах спецназовцев обнаружились скрытые аномалии
Новейшее исследование показало, что обычный МРТ вообще не видит некоторые травмы головы....

Причина необъяснимых нападений морских львов на людей наконец-то раскрыта
Все дело в редком токсине, который заполонил прибрежные воды Калифорнии....

Ужасное наводнение создало Средиземное море всего за несколько месяцев
Потоп мчался со скоростью 115 километров в час....

Властелины огня: как древние люди поддерживали пламя в самые холодные времена
Основным топливом была древесина ели....

Выяснилось, что суша вокруг Аральского моря... стремительно поднимается
И ученые сумели разгадать эту удивительную загадку природы....

Термоядерный двигатель доставит людей до Марса всего за три месяца
Новая эра космических исследований вот-вот начнется?...

А фиолетовый-то, говорят… ненастоящий!
Ученые доказали, что этот цвет — иллюзия, существующая лишь у нас в голове....

Общий наркоз стирает уникальность головного мозга
Открытие поможет выводить пациентов из комы....

Археологи обнаружили в Египте 3400-летний затерянный город
Самое поразительное: он скрывался… под руинами древнегреческого некрополя....

Стало известно, как Земля «выкачала» воду с обратной стороны Луны
Сенсацию принес аппарат китайской миссии «Чанъэ-6»....

Новое исследование показало: мягкие игрушки — самые опасные вещи в доме
Микробов в этих предметах оказалось вдвое больше, чем на сиденье унитаза....

Ещё одна бесценная находка: челюсть с берегов Тайваня принадлежала денисовцу
Загадка не давала покоя несколько лет....

Раскрыт секрет: почему самые древние метеориты не долетают до Земли
Против само Солнце, но это не единственная причина....

В каменных гробницах древней Ирландии похоронены вовсе не те, о ком думали ученые
Генетический анализ переписывает историю неолита....

Зачем археологи измерили и сравнили размеры 50 000 древних домов
Общественное расслоение нельзя считать неизбежным....