
Блокировки побоку: компании, занимающиеся искусственным интеллектом, по-прежнему крадут контент из сети
В последнее время в центре внимания оказалась компания Perplexity, описывающая свой продукт как «бесплатный поисковый движок на основе искусственного интеллекта». Forbes обвинил ее в краже и повторной публикации своей статьи на нескольких платформах, а издание Wired сообщило, что Perplexity игнорирует протокол исключения роботов (robots.txt) и сканирует сайт и другие публикации Condé Nast.
Посвященный технологиям ресурс The Shortcut также обвинил компанию в сканировании своих статей. По информации Reuters, Perplexity — не единственная компания, обходящая файлы robots.txt и сканирующая веб-сайты для получения контента, который затем используется для обучения нейросетей.
Reuters ссылается на письмо, адресованное издателям от стартапа TollBit — посредника с фирмами по искусственному интеллекту, в котором говорится о заключении лицензионных сделок. В письме предупреждается, что агенты ИИ из нескольких источников (не только одной компании) обходят протокол robots.txt, чтобы получить контент с сайтов. Файл robots.txt содержит инструкции для поисковых роботов о том, какие страницы они могут посещать. Веб-разработчики используют этот протокол с 1994 года, но его соблюдение остается абсолютно добровольным.
В письме TollBit не названа ни одна компания, но Business Insider утверждает, что узнал, что OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходят сигналы robots.txt. Обе компании ранее заявляли, что уважают инструкции «не сканировать» в файлах robots.txt веб-сайтов.
В ходе расследования Wired обнаружили, что машина на сервере Amazon, управляемая Perplexity, обходила инструкции robots.txt на их веб-сайте. Чтобы подтвердить сканирование контента, Wired предоставил инструмент компании, заголовки своих статей или краткие описания своих историй. Инструмент, по сообщению Wired, давал результаты, близко перефразировавшие его статьи «с минимальной атрибуцией». И иногда он даже создавал неточные резюме для своих историй — Wired утверждает, что чат-бот ложно утверждал, что в одном случае он сообщал о том, что конкретный полицейский из Калифорнии совершил преступление.
— Аравинд Сринивас, генеральный директор Perplexity.
В защиту своей компании Сринивас напомнил, что протокол исключения роботов не является правовой рамкой, и предполагает, что издатели и компании, подобные его собственной, могут быть вынуждены установить новый вид отношений.
Посвященный технологиям ресурс The Shortcut также обвинил компанию в сканировании своих статей. По информации Reuters, Perplexity — не единственная компания, обходящая файлы robots.txt и сканирующая веб-сайты для получения контента, который затем используется для обучения нейросетей.
Reuters ссылается на письмо, адресованное издателям от стартапа TollBit — посредника с фирмами по искусственному интеллекту, в котором говорится о заключении лицензионных сделок. В письме предупреждается, что агенты ИИ из нескольких источников (не только одной компании) обходят протокол robots.txt, чтобы получить контент с сайтов. Файл robots.txt содержит инструкции для поисковых роботов о том, какие страницы они могут посещать. Веб-разработчики используют этот протокол с 1994 года, но его соблюдение остается абсолютно добровольным.
В письме TollBit не названа ни одна компания, но Business Insider утверждает, что узнал, что OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходят сигналы robots.txt. Обе компании ранее заявляли, что уважают инструкции «не сканировать» в файлах robots.txt веб-сайтов.
В ходе расследования Wired обнаружили, что машина на сервере Amazon, управляемая Perplexity, обходила инструкции robots.txt на их веб-сайте. Чтобы подтвердить сканирование контента, Wired предоставил инструмент компании, заголовки своих статей или краткие описания своих историй. Инструмент, по сообщению Wired, давал результаты, близко перефразировавшие его статьи «с минимальной атрибуцией». И иногда он даже создавал неточные резюме для своих историй — Wired утверждает, что чат-бот ложно утверждал, что в одном случае он сообщал о том, что конкретный полицейский из Калифорнии совершил преступление.
Наша компания не игнорирует протокол исключения роботов и не лжет об этом. Однако, мы никогда не утверждали, что у наших поисковых ботов не бывает галлюцинаций
— Аравинд Сринивас, генеральный директор Perplexity.
В защиту своей компании Сринивас напомнил, что протокол исключения роботов не является правовой рамкой, и предполагает, что издатели и компании, подобные его собственной, могут быть вынуждены установить новый вид отношений.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Ученые и режиссеры все время обманывали нас насчет динозавров
Оказалось, древние ящеры бегали в четыре раза медленнее, чем считалось....

Историки задались вопросом, как же пах Древний Рим
Боимся, ответ вам может очень не понравиться....

Третий гость из бездны: NASA официально подтвердило межзвездное происхождение объекта 3I/ATLAS
Скорость в 245 000 км/ч! Астрофизики говорят, гость «прострелит» Солнечную систему как пуля....

Тайна пиратского корабля за 138 миллионов долларов раскрыта у берегов Мадагаскара
Шторм, предательство, тонны золота: Как капитан Стервятник похитил сокровища португальской короны....

Череп ребенка-«пришельца» из Аргентины оказался вполне земным
Эксперты рассказали в подробностях, как могла появиться «инопланетная» форма головы....

Эксперты бьют тревогу: Таяние ледников разбудит вулканы по всему миру
Цепная реакция извержений прокатится от Антарктиды до Камчатки. Выбросы пепла и CO2 сделают климат невыносимым....