Блокировки побоку: компании, занимающиеся искусственным интеллектом, по-прежнему крадут контент из сети
В последнее время в центре внимания оказалась компания Perplexity, описывающая свой продукт как «бесплатный поисковый движок на основе искусственного интеллекта». Forbes обвинил ее в краже и повторной публикации своей статьи на нескольких платформах, а издание Wired сообщило, что Perplexity игнорирует протокол исключения роботов (robots.txt) и сканирует сайт и другие публикации Condé Nast.
Посвященный технологиям ресурс The Shortcut также обвинил компанию в сканировании своих статей. По информации Reuters, Perplexity — не единственная компания, обходящая файлы robots.txt и сканирующая веб-сайты для получения контента, который затем используется для обучения нейросетей.
Reuters ссылается на письмо, адресованное издателям от стартапа TollBit — посредника с фирмами по искусственному интеллекту, в котором говорится о заключении лицензионных сделок. В письме предупреждается, что агенты ИИ из нескольких источников (не только одной компании) обходят протокол robots.txt, чтобы получить контент с сайтов. Файл robots.txt содержит инструкции для поисковых роботов о том, какие страницы они могут посещать. Веб-разработчики используют этот протокол с 1994 года, но его соблюдение остается абсолютно добровольным.
В письме TollBit не названа ни одна компания, но Business Insider утверждает, что узнал, что OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходят сигналы robots.txt. Обе компании ранее заявляли, что уважают инструкции «не сканировать» в файлах robots.txt веб-сайтов.
В ходе расследования Wired обнаружили, что машина на сервере Amazon, управляемая Perplexity, обходила инструкции robots.txt на их веб-сайте. Чтобы подтвердить сканирование контента, Wired предоставил инструмент компании, заголовки своих статей или краткие описания своих историй. Инструмент, по сообщению Wired, давал результаты, близко перефразировавшие его статьи «с минимальной атрибуцией». И иногда он даже создавал неточные резюме для своих историй — Wired утверждает, что чат-бот ложно утверждал, что в одном случае он сообщал о том, что конкретный полицейский из Калифорнии совершил преступление.
— Аравинд Сринивас, генеральный директор Perplexity.
В защиту своей компании Сринивас напомнил, что протокол исключения роботов не является правовой рамкой, и предполагает, что издатели и компании, подобные его собственной, могут быть вынуждены установить новый вид отношений.
Посвященный технологиям ресурс The Shortcut также обвинил компанию в сканировании своих статей. По информации Reuters, Perplexity — не единственная компания, обходящая файлы robots.txt и сканирующая веб-сайты для получения контента, который затем используется для обучения нейросетей.
Reuters ссылается на письмо, адресованное издателям от стартапа TollBit — посредника с фирмами по искусственному интеллекту, в котором говорится о заключении лицензионных сделок. В письме предупреждается, что агенты ИИ из нескольких источников (не только одной компании) обходят протокол robots.txt, чтобы получить контент с сайтов. Файл robots.txt содержит инструкции для поисковых роботов о том, какие страницы они могут посещать. Веб-разработчики используют этот протокол с 1994 года, но его соблюдение остается абсолютно добровольным.
В письме TollBit не названа ни одна компания, но Business Insider утверждает, что узнал, что OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходят сигналы robots.txt. Обе компании ранее заявляли, что уважают инструкции «не сканировать» в файлах robots.txt веб-сайтов.
В ходе расследования Wired обнаружили, что машина на сервере Amazon, управляемая Perplexity, обходила инструкции robots.txt на их веб-сайте. Чтобы подтвердить сканирование контента, Wired предоставил инструмент компании, заголовки своих статей или краткие описания своих историй. Инструмент, по сообщению Wired, давал результаты, близко перефразировавшие его статьи «с минимальной атрибуцией». И иногда он даже создавал неточные резюме для своих историй — Wired утверждает, что чат-бот ложно утверждал, что в одном случае он сообщал о том, что конкретный полицейский из Калифорнии совершил преступление.
Наша компания не игнорирует протокол исключения роботов и не лжет об этом. Однако, мы никогда не утверждали, что у наших поисковых ботов не бывает галлюцинаций
— Аравинд Сринивас, генеральный директор Perplexity.
В защиту своей компании Сринивас напомнил, что протокол исключения роботов не является правовой рамкой, и предполагает, что издатели и компании, подобные его собственной, могут быть вынуждены установить новый вид отношений.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Ельцин не должен был победить: кого Горбачев хотел сделать президентом России?
Почему этот план с самого начала был обречен на поражение?...
140 стрел и пепел раскрыли тайну гибели самого загадочного города Руси, Гнездово
Город не зачах, не был расселен из-за политических разборок, его уничтожили быстро и жестоко...
Судьба имперских субмарин решена: почему они останутся на дне Крыма навсегда?
Как военные судна вообще оказались затоплены и кто мешал их изучению долгие десятилетия?...
Еще одна загадка Ивана Сусанина: что не так с ДНК народного героя?
Почему этот исторический детектив длиной 400 лет никак не могут распутать ученые?...
Стало известно о 9000-летней строительной технологии, которую почти невозможно повторить даже сейчас
Древним секретом активно интересуются сразу две ведущие промышленные организации в Израиле. Интересно, почему?...
Почему у самого большого железного метеорита на Земле вообще нет кратера?
Астрофизики говорят: метеорит Хоба в Намибии нарушает все правила природы вот уже 80 000 лет...
Архив ФСБ раскрыл детали одной из самых дерзких диверсионных операций ВОВ
Биография Кирилла Орловского поражает. Две Звезды Героя, друг писателя Хемингуэя, ликвидатор нацистских палачей, председатель лучшего колхоза СССР...
Токийская декларация-1993: какую бомбу заложил Ельцин под Россию?
Эксперты говорят: российский президент хотел переиграть Токио, но в итоге дал японцам мощный рычаг воздействия на нашу страну...
Полтергейстами командует… Солнце? К таким парадоксальным выводам пришел ученый из Иркутска
Странная на первый взгляд гипотеза, как оказалось, основывается на многочисленных фактах...
Удар, который едва не расколол Луну пополам: кратер в 1/10 площади планеты оставил не просто астероид
Столкновение было настолько мощным, что на поверхность выбросило породы с глубины… почти 100 километров!...
Биоинженер провел 100 дней под водой. По его словам, это прибавило ему 10 лет жизни
Почему этот эксперимент вызвал массу критики? Кто победит, официальная теория или опытная практика?...
Правительство США рассекретило почти 200 файлов о неопознанных воздушных явлениях
Американские власти и Пентагон признаются: по большинству фактов нет однозначных решений. Почему?...