Блокировки побоку: компании, занимающиеся искусственным интеллектом, по-прежнему крадут контент из сети
В последнее время в центре внимания оказалась компания Perplexity, описывающая свой продукт как «бесплатный поисковый движок на основе искусственного интеллекта». Forbes обвинил ее в краже и повторной публикации своей статьи на нескольких платформах, а издание Wired сообщило, что Perplexity игнорирует протокол исключения роботов (robots.txt) и сканирует сайт и другие публикации Condé Nast.
Посвященный технологиям ресурс The Shortcut также обвинил компанию в сканировании своих статей. По информации Reuters, Perplexity — не единственная компания, обходящая файлы robots.txt и сканирующая веб-сайты для получения контента, который затем используется для обучения нейросетей.
Reuters ссылается на письмо, адресованное издателям от стартапа TollBit — посредника с фирмами по искусственному интеллекту, в котором говорится о заключении лицензионных сделок. В письме предупреждается, что агенты ИИ из нескольких источников (не только одной компании) обходят протокол robots.txt, чтобы получить контент с сайтов. Файл robots.txt содержит инструкции для поисковых роботов о том, какие страницы они могут посещать. Веб-разработчики используют этот протокол с 1994 года, но его соблюдение остается абсолютно добровольным.
В письме TollBit не названа ни одна компания, но Business Insider утверждает, что узнал, что OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходят сигналы robots.txt. Обе компании ранее заявляли, что уважают инструкции «не сканировать» в файлах robots.txt веб-сайтов.
В ходе расследования Wired обнаружили, что машина на сервере Amazon, управляемая Perplexity, обходила инструкции robots.txt на их веб-сайте. Чтобы подтвердить сканирование контента, Wired предоставил инструмент компании, заголовки своих статей или краткие описания своих историй. Инструмент, по сообщению Wired, давал результаты, близко перефразировавшие его статьи «с минимальной атрибуцией». И иногда он даже создавал неточные резюме для своих историй — Wired утверждает, что чат-бот ложно утверждал, что в одном случае он сообщал о том, что конкретный полицейский из Калифорнии совершил преступление.
— Аравинд Сринивас, генеральный директор Perplexity.
В защиту своей компании Сринивас напомнил, что протокол исключения роботов не является правовой рамкой, и предполагает, что издатели и компании, подобные его собственной, могут быть вынуждены установить новый вид отношений.
Посвященный технологиям ресурс The Shortcut также обвинил компанию в сканировании своих статей. По информации Reuters, Perplexity — не единственная компания, обходящая файлы robots.txt и сканирующая веб-сайты для получения контента, который затем используется для обучения нейросетей.
Reuters ссылается на письмо, адресованное издателям от стартапа TollBit — посредника с фирмами по искусственному интеллекту, в котором говорится о заключении лицензионных сделок. В письме предупреждается, что агенты ИИ из нескольких источников (не только одной компании) обходят протокол robots.txt, чтобы получить контент с сайтов. Файл robots.txt содержит инструкции для поисковых роботов о том, какие страницы они могут посещать. Веб-разработчики используют этот протокол с 1994 года, но его соблюдение остается абсолютно добровольным.
В письме TollBit не названа ни одна компания, но Business Insider утверждает, что узнал, что OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходят сигналы robots.txt. Обе компании ранее заявляли, что уважают инструкции «не сканировать» в файлах robots.txt веб-сайтов.
В ходе расследования Wired обнаружили, что машина на сервере Amazon, управляемая Perplexity, обходила инструкции robots.txt на их веб-сайте. Чтобы подтвердить сканирование контента, Wired предоставил инструмент компании, заголовки своих статей или краткие описания своих историй. Инструмент, по сообщению Wired, давал результаты, близко перефразировавшие его статьи «с минимальной атрибуцией». И иногда он даже создавал неточные резюме для своих историй — Wired утверждает, что чат-бот ложно утверждал, что в одном случае он сообщал о том, что конкретный полицейский из Калифорнии совершил преступление.
Наша компания не игнорирует протокол исключения роботов и не лжет об этом. Однако, мы никогда не утверждали, что у наших поисковых ботов не бывает галлюцинаций
— Аравинд Сринивас, генеральный директор Perplexity.
В защиту своей компании Сринивас напомнил, что протокол исключения роботов не является правовой рамкой, и предполагает, что издатели и компании, подобные его собственной, могут быть вынуждены установить новый вид отношений.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
В России обнаружена рыба, которая 70 лет считалась полностью вымершей
И не единственная такая сенсация в нашей стране за последние годы...
Российские ученые создали уникальный материал будущего: новый металл прочнее любой стали, но дешевле даже алюминия
Мир высоких технологий ждал этого открытия десятилетия. Наша страна получила реальный шанс стать лидером металлургии...
От кабанов до беспилотников: гражданские радары из Китая сделали неожиданную карьеру в российской армии
Почему украинские эксперты жалуются, что россияне ведут войну не по правилам?...
1300 лет назад неизвестные грабители вскрыли гробницу знатного воина, но вообще не тронули сокровищ. Почему?
Венгерские археологи уверены, что разгадали этот мистический детектив. Но так ли это на самом деле?...
Россия снова первая: в космосе вырастили идеальные кристаллы!
Рассказываем, почему проект «Экран-М» может стать началом новой эры полупроводников, где Россия будет ведущей в мире...
«Инопланетный зонд», который преследует Землю, был сделан… в СССР?
Почему известный гарвардский астроном выдвинул именно эту версию?...
Тайна изумрудной мумии, не дававшей покоя ученым 38 лет, наконец-то разгадана!
Ученые признаются: они не ожидали, что им придется раскрыть самый настоящий химический детектив...
Какие тайны скрывает 40 000-летний... карандаш, найденный в одной из пещер Крыма?
И почему ученые уверены, что эта находка заставляет в корне пересмотреть древнейшую историю человечества?...
20-летнее исследование увенчалось полным успехом: ученые научились запускать самовосстановление... в сердце
Эксперты говорят: пробуждение спящих генов опровергает все медицинские догмы и дает надежду миллионам людей по всему миру...
Автомобиль Tesla снова в центре громкой истории: В него на полном ходу, похоже, врезался... метеорит
Эксперты говорят: если все подтвердится, это будет первый такой случай истории...
В октябре 2025 года ураган Халонг на Аляске унес тысячи древних артефактов в океан
Ученые называют случившееся крупнейшей археологической катастрофой за последнее время. Будет ли восстановлено наследие целого народа?...