Плохие машинные переводы засоряют Интернет
Ближе к концу прошлого века Билл Гейтс увидел перспективу объединения граждан почти 200 стран, говорящих на более чем 7000 языках, для общего диалога через внезапно растущее интернет-сообщество.
Еще в конце прошлого века Гейтс заявил о глобальных перспективах взаимодействия людей в сети. Он предполагал, что интернет будет способен объединить разноязычных пользователей из 200 стран по всему миру для открытого и беспрепятственного диалога.
— одна из ранних цитат Билла Гейтса о еще только развивающейся глобальной сети.
Безусловно, сейчас мы видим, что он оказался прав. Интернет стал самым популярным местом для обмена информацией и остается практически безальтернативной технологией коммуникации для людей по всему миру. Однако недавнее исследование открыло негативную сторону упрощения коммуникации между пользователями.
Ученые из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре изучив более 6 миллиардов предложений в интернете пришли к выводу, что около половины из их количества были переведены единожды или дважды с различных языков. При этом, как правило, качество перевода оставляло желать лучшего, а с каждым последующим только ухудшалось. По данным исследователей некоторые тексты были переведены около восьми или девяти раз, что иногда полностью меняло их изначальный смысл.
Исследование под названием «Шокирующее количество машинных переводов в сети: выводы о многопоточном параллелизме» было опубликовано в открытом доступе на сервисе arXiv 11 января.
— из текста работы.
Работа говорит не только о текстах переводимых при помощи ИИ, но также и о созданных с его помощью. Было отмечено, что уровень генеративных переводов был наиболее высоким при работе с языками с низким ресурсным уровнем, такими как африканские, а также Волоф и Коса.
На практике это означает, что некоторые языки почти не представлены в сети, что создает серьезное препятствие для создания надежных и объемных и грамматически корректных баз данных для языковых моделей. Из-за малого количества грамматически корректных и развернутых текстов на языке оригинала системе приходится полагаться на вторичный испорченный перевод широко распространенный в сети.
— Мехак Даливал, бывший стажер по прикладным наукам в Amazon Web Services.
Также исследователи Amazon выявили некоторую предвзятость в выборе контента используемого в обучении нейросетей.
— исследователи Amazon.
Еще в конце прошлого века Гейтс заявил о глобальных перспективах взаимодействия людей в сети. Он предполагал, что интернет будет способен объединить разноязычных пользователей из 200 стран по всему миру для открытого и беспрепятственного диалога.
Сеть становится основой для создания глобальной коммуникации будущего
— одна из ранних цитат Билла Гейтса о еще только развивающейся глобальной сети.
Безусловно, сейчас мы видим, что он оказался прав. Интернет стал самым популярным местом для обмена информацией и остается практически безальтернативной технологией коммуникации для людей по всему миру. Однако недавнее исследование открыло негативную сторону упрощения коммуникации между пользователями.
Ученые из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре изучив более 6 миллиардов предложений в интернете пришли к выводу, что около половины из их количества были переведены единожды или дважды с различных языков. При этом, как правило, качество перевода оставляло желать лучшего, а с каждым последующим только ухудшалось. По данным исследователей некоторые тексты были переведены около восьми или девяти раз, что иногда полностью меняло их изначальный смысл.
Исследование под названием «Шокирующее количество машинных переводов в сети: выводы о многопоточном параллелизме» было опубликовано в открытом доступе на сервисе arXiv 11 января.
Низкое качество таких переводов явно указывает, что они были созданы с использованием машинного перевода. Наша новая работа демонстрирует опасность текущего подхода к созданию больших многоязычных моделей обучения основанных на данных из сети. Также мы обнаружили, что многосторонний параллельный перевод значительно уступает в качестве двусторонний параллельный метод
— из текста работы.
Работа говорит не только о текстах переводимых при помощи ИИ, но также и о созданных с его помощью. Было отмечено, что уровень генеративных переводов был наиболее высоким при работе с языками с низким ресурсным уровнем, такими как африканские, а также Волоф и Коса.
На практике это означает, что некоторые языки почти не представлены в сети, что создает серьезное препятствие для создания надежных и объемных и грамматически корректных баз данных для языковых моделей. Из-за малого количества грамматически корректных и развернутых текстов на языке оригинала системе приходится полагаться на вторичный испорченный перевод широко распространенный в сети.
Мы заинтересовались данной проблемой, поскольку несколько наших коллег, являющихся носителями языка отметили, что большая часть контента на их языке в интернете создана при помощи машинного перевода. Следует учитывать, что любой контент наблюдаемый вами в сети может быть переведен или создан автоматически
— Мехак Даливал, бывший стажер по прикладным наукам в Amazon Web Services.
Также исследователи Amazon выявили некоторую предвзятость в выборе контента используемого в обучении нейросетей.
Генеративные многосторонние параллельные переводы на данный момент составляют основную долю в переведенном текстовом сетевом контенте. То же относится к большей части веб-контента на этих языках. Судя по всему, в общей статистике мы регистрируем весомую долю коротких и некачественных
— исследователи Amazon.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Раскрыта главная тайна антарктического льда: ученые узнали, как и кем была взломана природная защита Шестого континента
Похоже, той Антарктиде, которую мы знаем, приходит конец. Впрочем, это не точно...
Древнеримский артефакт переписывает историю Америки: Колумб был не первым?
Почему находка из индейской могилы почти 100 лет вызывает ожесточенные споры среди археологов и историков?...
Еще раз об убийстве Андрея Боголюбского: что рассказали кости погибшего князя?
Профессор судебной медицины поправил историков и выявил неточности древних летописей...
Тайна гибели сибирского «Титаника»: почему некоторые детали катастрофы 1921 года неизвестны даже сейчас?
Поразительно, но тогда судьи единогласно оправдали капитана парохода. Так кто же тогда был виновником этого страшного происшествия?...
Японец 26 лет ждал, пока раскроют убийство его жены. Часть 2. Расплата
Как наука отменила срок давности у преступления? И какая тайна осталась не раскрытой?...
Японец 26 лет ждал, пока раскроют убийство его жены
Как новейшие технологии помогли сдвинуть с места нераскрываемое дело...
Жители Анд переписали свою ДНК: почему горные индейцы пьют ядовитую воду, но чувствуют себя при этом хорошо?
По словам ученых, эволюция сделала красивый и хитрый ход. И это не иммунитет к токсинам, а нечто другое, более интересное...
Ядерный взрыв на Луне: для чего советские ученые хотели провести такой грандиозный эксперимент?
Зачем России атомный реактор на Луне и как он поможет нам добраться до Венеры?...
ФСБ рассекретило часть архивов Александра Вадиса, генерала «Смерш»: как советская контрразведка переиграла немцев на Курской дуге. И не только
Историки говорят: по биографии этого смершевца можно запросто снять несколько остросюжетных боевиков...
Почему эти меры не спасут Антарктиду: пять проектов по спасению ледников оказались провалом
Эксперт жестко проанализировал самые популярные программы по сохранению льда на Шестом континенте. Увы, они оказались невыполнимой фантастикой, причем опасно...