Плохие машинные переводы засоряют Интернет
Ближе к концу прошлого века Билл Гейтс увидел перспективу объединения граждан почти 200 стран, говорящих на более чем 7000 языках, для общего диалога через внезапно растущее интернет-сообщество.
Еще в конце прошлого века Гейтс заявил о глобальных перспективах взаимодействия людей в сети. Он предполагал, что интернет будет способен объединить разноязычных пользователей из 200 стран по всему миру для открытого и беспрепятственного диалога.
— одна из ранних цитат Билла Гейтса о еще только развивающейся глобальной сети.
Безусловно, сейчас мы видим, что он оказался прав. Интернет стал самым популярным местом для обмена информацией и остается практически безальтернативной технологией коммуникации для людей по всему миру. Однако недавнее исследование открыло негативную сторону упрощения коммуникации между пользователями.
Ученые из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре изучив более 6 миллиардов предложений в интернете пришли к выводу, что около половины из их количества были переведены единожды или дважды с различных языков. При этом, как правило, качество перевода оставляло желать лучшего, а с каждым последующим только ухудшалось. По данным исследователей некоторые тексты были переведены около восьми или девяти раз, что иногда полностью меняло их изначальный смысл.
Исследование под названием «Шокирующее количество машинных переводов в сети: выводы о многопоточном параллелизме» было опубликовано в открытом доступе на сервисе arXiv 11 января.
— из текста работы.
Работа говорит не только о текстах переводимых при помощи ИИ, но также и о созданных с его помощью. Было отмечено, что уровень генеративных переводов был наиболее высоким при работе с языками с низким ресурсным уровнем, такими как африканские, а также Волоф и Коса.
На практике это означает, что некоторые языки почти не представлены в сети, что создает серьезное препятствие для создания надежных и объемных и грамматически корректных баз данных для языковых моделей. Из-за малого количества грамматически корректных и развернутых текстов на языке оригинала системе приходится полагаться на вторичный испорченный перевод широко распространенный в сети.
— Мехак Даливал, бывший стажер по прикладным наукам в Amazon Web Services.
Также исследователи Amazon выявили некоторую предвзятость в выборе контента используемого в обучении нейросетей.
— исследователи Amazon.
Еще в конце прошлого века Гейтс заявил о глобальных перспективах взаимодействия людей в сети. Он предполагал, что интернет будет способен объединить разноязычных пользователей из 200 стран по всему миру для открытого и беспрепятственного диалога.
Сеть становится основой для создания глобальной коммуникации будущего
— одна из ранних цитат Билла Гейтса о еще только развивающейся глобальной сети.
Безусловно, сейчас мы видим, что он оказался прав. Интернет стал самым популярным местом для обмена информацией и остается практически безальтернативной технологией коммуникации для людей по всему миру. Однако недавнее исследование открыло негативную сторону упрощения коммуникации между пользователями.
Ученые из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре изучив более 6 миллиардов предложений в интернете пришли к выводу, что около половины из их количества были переведены единожды или дважды с различных языков. При этом, как правило, качество перевода оставляло желать лучшего, а с каждым последующим только ухудшалось. По данным исследователей некоторые тексты были переведены около восьми или девяти раз, что иногда полностью меняло их изначальный смысл.
Исследование под названием «Шокирующее количество машинных переводов в сети: выводы о многопоточном параллелизме» было опубликовано в открытом доступе на сервисе arXiv 11 января.
Низкое качество таких переводов явно указывает, что они были созданы с использованием машинного перевода. Наша новая работа демонстрирует опасность текущего подхода к созданию больших многоязычных моделей обучения основанных на данных из сети. Также мы обнаружили, что многосторонний параллельный перевод значительно уступает в качестве двусторонний параллельный метод
— из текста работы.
Работа говорит не только о текстах переводимых при помощи ИИ, но также и о созданных с его помощью. Было отмечено, что уровень генеративных переводов был наиболее высоким при работе с языками с низким ресурсным уровнем, такими как африканские, а также Волоф и Коса.
На практике это означает, что некоторые языки почти не представлены в сети, что создает серьезное препятствие для создания надежных и объемных и грамматически корректных баз данных для языковых моделей. Из-за малого количества грамматически корректных и развернутых текстов на языке оригинала системе приходится полагаться на вторичный испорченный перевод широко распространенный в сети.
Мы заинтересовались данной проблемой, поскольку несколько наших коллег, являющихся носителями языка отметили, что большая часть контента на их языке в интернете создана при помощи машинного перевода. Следует учитывать, что любой контент наблюдаемый вами в сети может быть переведен или создан автоматически
— Мехак Даливал, бывший стажер по прикладным наукам в Amazon Web Services.
Также исследователи Amazon выявили некоторую предвзятость в выборе контента используемого в обучении нейросетей.
Генеративные многосторонние параллельные переводы на данный момент составляют основную долю в переведенном текстовом сетевом контенте. То же относится к большей части веб-контента на этих языках. Судя по всему, в общей статистике мы регистрируем весомую долю коротких и некачественных
— исследователи Amazon.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
40 лет молчания: где «прятался» пропавший советский луноход?
Исчез внезапно, внезапно вернулся ярко. Почему астрофизики были так рады, когда «Луноход-1» наконец-то нашелся?...
Ледник Судного дня угрожает России: эксперт рассказал, какие города затопит первыми
Через 40 лет Крым может стать островом, а Санкт-Петербург — вообще скрыться под водой...
Странные звуки рядом с Кольской сверхглубокой снова беспокоят местных жителей
12 000 метров глубины, Луна под ногами, «совершенно секретно», неожиданное закрытие. Вспоминаем историю самой глубокой скважины на планете...
Груды скелетов в подземельях Кремля: что скрывается за этими находками?
Археологи говорят: московская земля прячет в себе такие тайны, которые лучше не знать никогда...
4600-летний секрет «неубиваемости» Великой пирамиды раскрыт: все дело в специальных камерах
Древние инженеры опередили время на тысячелетия. Строение находится на своей частоте и гасит внешние вибрации...
«Печать Евы»: почему у этих женщин рождаются только девочки
Оказалось, что старые теории вообще не работают. Но есть две мутации, которые могут усилить друг друга...
Снова утечка воздуха в российском секторе МКС: чем это грозит нашим и всей станции?
По словам специалистов: в 2026 году поломка вошла в цикл. Космонавты устраняют проблему, радуются, а через три недели — снова проблемы...
Трехметровые осетры и тайна древнего русского города: историки раскрыли, как появилась Старая Ладога
Ответы на многие вопросы дали… 67 000 костей. Иногда, чтобы распутать исторический детектив, надо заглядывать не в хроники, а в мусорные кучи...
Освобождение от доллара: почему Сталин сделал рубль «золотым»?
Историки говорят: это было очень сильное решение. Теперь западные партнеры не могли ронять цены на советский импорт...
743 странных узора-короны рассказали, почему Венера не стала второй Землей
Оказалось, соседней планете не хватило «смазки», чтобы там зародилась жизнь...
Чернила №1 в мире: как русский купец Луковников создал идеальную формулу для письма
Разгромил иностранных конкурентов, получил множество наград и стал… призраком в истории...
Город-Счастье: древний мегаполис оказался местом без олигархов и бедных
Чем богаче становился Мохенджо-Даро, тем лучше жили все граждане. Похоже, сейчас наша цивилизация движется куда-то не туда...