Блокировки побоку: компании, занимающиеся искусственным интеллектом, по-прежнему крадут контент из сети
В последнее время в центре внимания оказалась компания Perplexity, описывающая свой продукт как «бесплатный поисковый движок на основе искусственного интеллекта». Forbes обвинил ее в краже и повторной публикации своей статьи на нескольких платформах, а издание Wired сообщило, что Perplexity игнорирует протокол исключения роботов (robots.txt) и сканирует сайт и другие публикации Condé Nast.
Посвященный технологиям ресурс The Shortcut также обвинил компанию в сканировании своих статей. По информации Reuters, Perplexity — не единственная компания, обходящая файлы robots.txt и сканирующая веб-сайты для получения контента, который затем используется для обучения нейросетей.
Reuters ссылается на письмо, адресованное издателям от стартапа TollBit — посредника с фирмами по искусственному интеллекту, в котором говорится о заключении лицензионных сделок. В письме предупреждается, что агенты ИИ из нескольких источников (не только одной компании) обходят протокол robots.txt, чтобы получить контент с сайтов. Файл robots.txt содержит инструкции для поисковых роботов о том, какие страницы они могут посещать. Веб-разработчики используют этот протокол с 1994 года, но его соблюдение остается абсолютно добровольным.
В письме TollBit не названа ни одна компания, но Business Insider утверждает, что узнал, что OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходят сигналы robots.txt. Обе компании ранее заявляли, что уважают инструкции «не сканировать» в файлах robots.txt веб-сайтов.
В ходе расследования Wired обнаружили, что машина на сервере Amazon, управляемая Perplexity, обходила инструкции robots.txt на их веб-сайте. Чтобы подтвердить сканирование контента, Wired предоставил инструмент компании, заголовки своих статей или краткие описания своих историй. Инструмент, по сообщению Wired, давал результаты, близко перефразировавшие его статьи «с минимальной атрибуцией». И иногда он даже создавал неточные резюме для своих историй — Wired утверждает, что чат-бот ложно утверждал, что в одном случае он сообщал о том, что конкретный полицейский из Калифорнии совершил преступление.
— Аравинд Сринивас, генеральный директор Perplexity.
В защиту своей компании Сринивас напомнил, что протокол исключения роботов не является правовой рамкой, и предполагает, что издатели и компании, подобные его собственной, могут быть вынуждены установить новый вид отношений.
Посвященный технологиям ресурс The Shortcut также обвинил компанию в сканировании своих статей. По информации Reuters, Perplexity — не единственная компания, обходящая файлы robots.txt и сканирующая веб-сайты для получения контента, который затем используется для обучения нейросетей.
Reuters ссылается на письмо, адресованное издателям от стартапа TollBit — посредника с фирмами по искусственному интеллекту, в котором говорится о заключении лицензионных сделок. В письме предупреждается, что агенты ИИ из нескольких источников (не только одной компании) обходят протокол robots.txt, чтобы получить контент с сайтов. Файл robots.txt содержит инструкции для поисковых роботов о том, какие страницы они могут посещать. Веб-разработчики используют этот протокол с 1994 года, но его соблюдение остается абсолютно добровольным.
В письме TollBit не названа ни одна компания, но Business Insider утверждает, что узнал, что OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходят сигналы robots.txt. Обе компании ранее заявляли, что уважают инструкции «не сканировать» в файлах robots.txt веб-сайтов.
В ходе расследования Wired обнаружили, что машина на сервере Amazon, управляемая Perplexity, обходила инструкции robots.txt на их веб-сайте. Чтобы подтвердить сканирование контента, Wired предоставил инструмент компании, заголовки своих статей или краткие описания своих историй. Инструмент, по сообщению Wired, давал результаты, близко перефразировавшие его статьи «с минимальной атрибуцией». И иногда он даже создавал неточные резюме для своих историй — Wired утверждает, что чат-бот ложно утверждал, что в одном случае он сообщал о том, что конкретный полицейский из Калифорнии совершил преступление.
Наша компания не игнорирует протокол исключения роботов и не лжет об этом. Однако, мы никогда не утверждали, что у наших поисковых ботов не бывает галлюцинаций
— Аравинд Сринивас, генеральный директор Perplexity.
В защиту своей компании Сринивас напомнил, что протокол исключения роботов не является правовой рамкой, и предполагает, что издатели и компании, подобные его собственной, могут быть вынуждены установить новый вид отношений.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Раскрыта правда о поединке Пересвета с Челубеем: дуэли не было, но был другой, куда более важный подвиг
Российский историк нашел данные, что легендарный монах фактически спас русское войско и определил дальнейший ход всей нашей истории...
40 брошенных ядерных бомбардировщиков: в 1994 году наши летчики спасли дальнюю авиацию России
Военные эксперты говорят: только русские были способны на такую дерзкую операцию...
Загадочный 1000-летний артефакт, найденный в древней могиле под Курском, противоречит всем историческим теориям
Почему ученые говорят, что этого предмета не должно было быть в захоронении маленькой славянской девочки?...
Найдена древнейшая в истории письменность: она на десятки тысяч лет старше Шумера и Древнего Египта
Самое поразительное в этой истории то, что загадочные знаки были обнаружены еще в 60-х годах XIX века. Представляете, сколько еще сенсаций спрятано в архивах?...
Почему таинственные всплески в «сердцебиении» Земли почувствовали сразу миллионы людей по всей планете?
Давящий «писк» в ушах, мышечное напряжение, непроходящая усталость и состояние «тумана» в голове… Сможет ли человечество защитить себя от ударов солнечной...
Тотальное оглупление в США: программа за 30 миллиардов долларов значительно снизила умственные способности и успеваемость у зумеров
Новое американское поколение впервые в истории оказалось глупее своих родителей...
Тайный код колокольного набата: ученый рассказал, как выживала Сибирь сотни лет назад
Эксперты подтверждают: уникальные русские технологии отлично работают даже в XXI веке...
Природный катаклизм, случившийся в момент распятия Христа, оказался чистой правдой
Ученые говорят, что нашли просто отличный метод датировки. И в будущем он должен принести еще больше поразительных открытий...
Самый большой архив НЛО был стерт сразу же после того, как в США разразился скандал о «пришельцах»
Эксперты говорят: история выглядит как серия из «Секретных материалов». Истина где-то рядом, злоумышленники не найдены......
Загадка скелетов из Золотого города раскрыта: российские антропологи уверены, что раскопали сенсацию в пустынном Вавилоне
Это был настоящий исторический детектив: золотая лихорадка, гены Древнего Египта, крепкие мужчины и изящные женщины, объединенные одной страстью......
Секрет истуканов острова Пасхи наконец-то разгадан: ученые считают, что от них зависело… выживание древнего народа
Удивительно, но разгадка была найдена вовсе не в камне статуй, а в почве, которой они стоят...
Главная страсть писателя Гоголя: вы бы никогда не узнали классика, встретив его при жизни
В свое время Иван Бунин был настолько потрясен этой информацией, что даже написал о Николае Васильевиче целый рассказ...
На политических картах не значится: как живет самое непризнанное государство на планете?
Почему ООН жестоко игнорирует страну с населением 4 000 000 человек?...