
Плохие машинные переводы засоряют Интернет
Ближе к концу прошлого века Билл Гейтс увидел перспективу объединения граждан почти 200 стран, говорящих на более чем 7000 языках, для общего диалога через внезапно растущее интернет-сообщество.
Еще в конце прошлого века Гейтс заявил о глобальных перспективах взаимодействия людей в сети. Он предполагал, что интернет будет способен объединить разноязычных пользователей из 200 стран по всему миру для открытого и беспрепятственного диалога.
— одна из ранних цитат Билла Гейтса о еще только развивающейся глобальной сети.
Безусловно, сейчас мы видим, что он оказался прав. Интернет стал самым популярным местом для обмена информацией и остается практически безальтернативной технологией коммуникации для людей по всему миру. Однако недавнее исследование открыло негативную сторону упрощения коммуникации между пользователями.
Ученые из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре изучив более 6 миллиардов предложений в интернете пришли к выводу, что около половины из их количества были переведены единожды или дважды с различных языков. При этом, как правило, качество перевода оставляло желать лучшего, а с каждым последующим только ухудшалось. По данным исследователей некоторые тексты были переведены около восьми или девяти раз, что иногда полностью меняло их изначальный смысл.
Исследование под названием «Шокирующее количество машинных переводов в сети: выводы о многопоточном параллелизме» было опубликовано в открытом доступе на сервисе arXiv 11 января.
— из текста работы.
Работа говорит не только о текстах переводимых при помощи ИИ, но также и о созданных с его помощью. Было отмечено, что уровень генеративных переводов был наиболее высоким при работе с языками с низким ресурсным уровнем, такими как африканские, а также Волоф и Коса.
На практике это означает, что некоторые языки почти не представлены в сети, что создает серьезное препятствие для создания надежных и объемных и грамматически корректных баз данных для языковых моделей. Из-за малого количества грамматически корректных и развернутых текстов на языке оригинала системе приходится полагаться на вторичный испорченный перевод широко распространенный в сети.
— Мехак Даливал, бывший стажер по прикладным наукам в Amazon Web Services.
Также исследователи Amazon выявили некоторую предвзятость в выборе контента используемого в обучении нейросетей.
— исследователи Amazon.
Еще в конце прошлого века Гейтс заявил о глобальных перспективах взаимодействия людей в сети. Он предполагал, что интернет будет способен объединить разноязычных пользователей из 200 стран по всему миру для открытого и беспрепятственного диалога.
Сеть становится основой для создания глобальной коммуникации будущего
— одна из ранних цитат Билла Гейтса о еще только развивающейся глобальной сети.
Безусловно, сейчас мы видим, что он оказался прав. Интернет стал самым популярным местом для обмена информацией и остается практически безальтернативной технологией коммуникации для людей по всему миру. Однако недавнее исследование открыло негативную сторону упрощения коммуникации между пользователями.
Ученые из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре изучив более 6 миллиардов предложений в интернете пришли к выводу, что около половины из их количества были переведены единожды или дважды с различных языков. При этом, как правило, качество перевода оставляло желать лучшего, а с каждым последующим только ухудшалось. По данным исследователей некоторые тексты были переведены около восьми или девяти раз, что иногда полностью меняло их изначальный смысл.
Исследование под названием «Шокирующее количество машинных переводов в сети: выводы о многопоточном параллелизме» было опубликовано в открытом доступе на сервисе arXiv 11 января.
Низкое качество таких переводов явно указывает, что они были созданы с использованием машинного перевода. Наша новая работа демонстрирует опасность текущего подхода к созданию больших многоязычных моделей обучения основанных на данных из сети. Также мы обнаружили, что многосторонний параллельный перевод значительно уступает в качестве двусторонний параллельный метод
— из текста работы.
Работа говорит не только о текстах переводимых при помощи ИИ, но также и о созданных с его помощью. Было отмечено, что уровень генеративных переводов был наиболее высоким при работе с языками с низким ресурсным уровнем, такими как африканские, а также Волоф и Коса.
На практике это означает, что некоторые языки почти не представлены в сети, что создает серьезное препятствие для создания надежных и объемных и грамматически корректных баз данных для языковых моделей. Из-за малого количества грамматически корректных и развернутых текстов на языке оригинала системе приходится полагаться на вторичный испорченный перевод широко распространенный в сети.
Мы заинтересовались данной проблемой, поскольку несколько наших коллег, являющихся носителями языка отметили, что большая часть контента на их языке в интернете создана при помощи машинного перевода. Следует учитывать, что любой контент наблюдаемый вами в сети может быть переведен или создан автоматически
— Мехак Даливал, бывший стажер по прикладным наукам в Amazon Web Services.
Также исследователи Amazon выявили некоторую предвзятость в выборе контента используемого в обучении нейросетей.
Генеративные многосторонние параллельные переводы на данный момент составляют основную долю в переведенном текстовом сетевом контенте. То же относится к большей части веб-контента на этих языках. Судя по всему, в общей статистике мы регистрируем весомую долю коротких и некачественных
— исследователи Amazon.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

«Мусор» из глубин Барсучьего логова оказался ценнейшими артефактами таинственного индейского племени
Археологи говорят: в горах Герреро будет еще масса сенсационных открытий....

Ученые бьют тревогу: Мировой океан стремительно темнеет
Почему эти изменения опасны для всей планеты?...

Раскрыта тайна поразительной живучести чумной бактерии
Быть слабым, чтобы убивать больше — такого парадокса ученые и представить не могли....

Казнь «ведьмы» в средневековом Лондоне продолжалась... две недели
Мох, тростник и сломанные кости поведали один из самых жутких эпизодов в истории Британии....

США грозит «астероидная слепота»: NASA не будет видеть особо опасные объекты
Были надежды на новый телескоп, но их в буквальном смысле убил новый президент....

В лунных кратерах нашли «золота и бриллиантов» на триллион долларов
Западные эксперты с сожалением говорят, что открытые сокровища, скорее всего, достанутся России и Китаю....

Космический телескоп показал, как микроскопические камешки создали... один из самых раскаленных миров в Галактике
«Каменные» облака, «металлический» воздух — планета Тилос не устает поражать астрофизиков....

Еще полвека назад у ЦРУ уже был ядерный дрон, способный облететь вокруг Земли на одном заряде
Эксперты рассказали, что почему не взлетел сверхсекретный проект «Аквилайн», на десятилетия опередивший время....