Еще в конце прошлого века Гейтс заявил о глобальных перспективах взаимодействия людей в сети. Он предполагал, что интернет будет способен объединить разноязычных пользователей из 200 стран по всему миру для открытого и беспрепятственного диалога.
Сеть становится основой для создания глобальной коммуникации будущего
— одна из ранних цитат Билла Гейтса о еще только развивающейся глобальной сети.
Безусловно, сейчас мы видим, что он оказался прав. Интернет стал самым популярным местом для обмена информацией и остается практически безальтернативной технологией коммуникации для людей по всему миру. Однако недавнее исследование открыло негативную сторону упрощения коммуникации между пользователями.
Ученые из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре изучив более 6 миллиардов предложений в интернете пришли к выводу, что около половины из их количества были переведены единожды или дважды с различных языков. При этом, как правило, качество перевода оставляло желать лучшего, а с каждым последующим только ухудшалось. По данным исследователей некоторые тексты были переведены около восьми или девяти раз, что иногда полностью меняло их изначальный смысл.
Исследование под названием «Шокирующее количество машинных переводов в сети: выводы о многопоточном параллелизме» было опубликовано в открытом доступе на сервисе arXiv 11 января.
Низкое качество таких переводов явно указывает, что они были созданы с использованием машинного перевода. Наша новая работа демонстрирует опасность текущего подхода к созданию больших многоязычных моделей обучения основанных на данных из сети. Также мы обнаружили, что многосторонний параллельный перевод значительно уступает в качестве двусторонний параллельный метод
— из текста работы.
Работа говорит не только о текстах переводимых при помощи ИИ, но также и о созданных с его помощью. Было отмечено, что уровень генеративных переводов был наиболее высоким при работе с языками с низким ресурсным уровнем, такими как африканские, а также Волоф и Коса.
На практике это означает, что некоторые языки почти не представлены в сети, что создает серьезное препятствие для создания надежных и объемных и грамматически корректных баз данных для языковых моделей. Из-за малого количества грамматически корректных и развернутых текстов на языке оригинала системе приходится полагаться на вторичный испорченный перевод широко распространенный в сети.
Мы заинтересовались данной проблемой, поскольку несколько наших коллег, являющихся носителями языка отметили, что большая часть контента на их языке в интернете создана при помощи машинного перевода. Следует учитывать, что любой контент наблюдаемый вами в сети может быть переведен или создан автоматически
— Мехак Даливал, бывший стажер по прикладным наукам в Amazon Web Services.
Также исследователи Amazon выявили некоторую предвзятость в выборе контента используемого в обучении нейросетей.
Генеративные многосторонние параллельные переводы на данный момент составляют основную долю в переведенном текстовом сетевом контенте. То же относится к большей части веб-контента на этих языках. Судя по всему, в общей статистике мы регистрируем весомую долю коротких и некачественных
— исследователи Amazon.