ВСЛУХ

Как ИИ раскрывает секреты древних клинописных текстов

Как ИИ раскрывает секреты древних клинописных текстов
Клинопись — древняя система письма, которая использовалась для разных языков, таких как шумерский, аккадский и древнеперсидский. Она записана на глиняных табличках, которые сохранились тысячи лет и содержат важную информацию об истории и культуре древних цивилизаций. Но клинопись очень сложна и мало кто умеет ее читать. Большинство табличек повреждены или разбросаны по миру. Собрать их воедино — это как собирать пазл без картинки. Но компьютеры могут помочь в этом процессе.


Почему исследование клинописи настолько важно?


Клинопись была использована в течение 3000 лет, прежде чем тоже вымерла, зафиксировав рождение и смерть древних королевств. Мы знаем это благодаря глине, на которой была начертана клинопись: дешевому, легкодоступному и прочному материалу. Нам повезло, потому что любая табличка, на которой когда-либо было написано, сохранилась, если только ее не выбросили в реку или полностью не разбили.

Сегодня существуют тысячи таких табличек, которые составляют ключевую часть мирового культурного наследия. Это хроники первых великих империй нашей планеты, а также гимны, письма, списки покупок и даже жалобы клиентов.

Предполагается, что первая половина истории человечества записана только на этих клинописных табличках

— Энрике Хименес, исследователь из Университета Людвига Максимилиана в Мюнхене, Германия.

Ученым постоянно открываются новые тайны скрижалей. В 2017 году небольшая 3700-летняя табличка, известная как Плимптон 322, была обнаружена как старейшая в мире тригонометрическая таблица, показывающая, что вавилоняне — аккадскоязычные люди, живущие в центральной и южной Месопотамии, — а не греки, были первыми, кто начал изучать тригонометрию. А в прошлом году новый анализ таблички, раскопанной в Ираке в 1894 году, показал, что вавилоняне производили расчеты с помощью треугольников за столетия до Пифагора.



Настенный рельеф с изображением охоты короля Ашшурбанипала на львов


Одна проблема заключается в том, что клинопись невероятно сложна. «Сценарий очень неоднозначный. Не существует единого способа написать слово», — говорит Хименес. Кроме того, большинство таблеток неполные. Большинство клинописных табличек расколото или разбито на куски. Часто края рушатся, оставляя истории без начала и конца или с пробелами в повествовании.

Так обстоит дело со старейшей в мире сохранившейся королевской библиотекой царя Ашшурбанипала из Ассирийской империи. В городе Ниневия, недалеко от современного Мосула на севере Ирака, Ашшурбанипал собрал обширную библиотеку письменных произведений со всей Месопотамии. Это составило 30 000 табличек, содержащих все, от ритуалов, медицинских энциклопедий, астрономических наблюдений и подвигов королевских особ. Писатель Герберт Уэллс назвал его самым ценным источником исторического материала в мире, но он был превращен в руины и сожжен, когда город был разграблен в 612 г. до н. э.

По словам Хименеса, собирать эти фрагменты воедино — все равно, что собирать сложные пазлы, части которых перемешались, а на коробках нет изображения, которое подсказывало бы, к чему стремиться. Более того, фрагменты одной и той же таблички могут быть разбросаны по всему миру.

Сбор головоломки — кропотливый процесс, который зависит от удачи и памяти. Например, потребовалось более 100 лет, чтобы определить начало «Эпоса о Гильгамеше» в небольшом фрагменте, хранящемся в ящике музея. Но теперь в дело вступают компьютеры, все меняется

— Энрике Хименес.

Электронная библиотека Вавилона


Проект Electronic Babylonian Literature, запущенный Хименесом в 2018 году, включает в себя раздел под названием Fragmentarium, который применяет искусственный интеллект для восстановления библиотеки Ашшурбанипала и других древних коллекций, написанных клинописью. Для этого Хименес использует алгоритмы, разработанные для сравнения разных вариантов генетических последовательностей, основываясь на том факте, что один и тот же текст может иметь несколько копий с небольшими отличиями.

Искусственный интеллект может быть обучен транслитерации этих текстов, то есть переводу клинописных символов в латинские буквы в соответствии с их произношением (по аналогии с тем, как китайские иероглифы могут быть записаны пиньинем, системой обозначения звуков мандаринского диалекта). Затем искусственный интеллект может предложить, какие клинописные знаки могут находиться в пропущенных частях.

Такой подход помог обнаружить несколько утерянных фрагментов эпоса о Гильгамеше в 2019 году, а также раскрыть новый жанр древней литературы: текст, состоящий из пародий (в том числе шуток про ослиный навоз), который использовался учениками для обучения письму. Кроме того, Хименес вместе с Анмаром Фадхилем из Багдадского университета в Ираке работает над воссозданием еще одного ранее неизвестного жанра — гимна городу, в данном случае городу Вавилону, с описанием храмовой жизни и священных проституток.

В прошлом году был достигнут еще один прорыв: с помощью искусственного интеллекта был автономно идентифицирован недостающий фрагмент известной «Поэмы о праведном страдальце» (которая затрагивает вопрос о том, почему хорошим людям случаются несчастья, и является предтечей библейской книги Иова).

Примерно в это же время ученый-компьютерщик Габриэль Становский из Еврейского университета в Иерусалиме и его коллеги разработали способ предсказывать текст по отсутствующим частям фрагментов, подобно тому, как это делается при автоматическом дополнении слов на смартфонах. Они использовали искусственный интеллект с глубоким обучением, подавая ему транслитерации из 10 000 клинописных табличек на аккадском языке, и обнаружили, что он может подбирать слова для заполнения пробелов с точностью до 89%.


Как ИИ раскрывает секреты древних клинописных текстов
Архив всемирной истории

Компьютеры справляются с чтением клинописных знаков, используя те же системы компьютерного зрения, что и для распознавания текста. Например, Проссер и его коллеги обучили систему машинного обучения под названием Deepscribe распознавать знаки на тысячах табличек из Архива укреплений Персеполиса — кладезя административных текстов на эламском языке, написанных около 500 г. до н. э. и найденных в крепостной стене.

Способность компьютера определять предполагаемые границы знака и обводить его рамкой сама по себе является большим достижением. Обычно никто не может точно сказать, где заканчивается один знак и начинается другой

— Сюзанна Паулюс, член исследовательской группы.

Мгновенный перевод


Ученые работают над тем, чтобы в конечном итоге связать системы распознавания знаков с современными системами языкового перевода. Это означало бы, что мы могли бы сфотографировать на телефон планшет в музее и мгновенно прочитать, что там написано.

Ни одно из последних открытий в этом направлении не было бы невозможно без больших цифровых баз данных текстов, предоставляющих большой объем данных для обучения алгоритмов, способных распознать, например, какие слова могут располагаться рядом друг с другом. Тем не менее из полумиллиона клинописных текстов в музеях мира только половина была транслитерирована или переведена, и только около 100 000 доступны в цифровом виде. Новые проекты, такие как создание цифровой библиотеки клинописи и проект электронной вавилонской литературы, в настоящее время создают основу для расширения цифровых архивов.

Наличие инструментов для оцифровки больших объемов текста дает ученым много новой информации и новых связей. Я думаю, что следующий большой прорыв произойдет, когда мы сможем поместить эту информацию в большую сеть связей. Таким образом, мы можем составить портфолио о жизни древних людей

 — Шай Гордин исследователь из Ариэльского университета в Израиле.



Изображение клинописного поэта Энхедуанны


Процесс начинается с кропотливой работы по созданию высококачественных изображений всех планшетов, хранящихся в музеях и частных коллекциях по всему миру. Именно это и происходит за моей спиной в Британском музее, где в рамках проекта «Электронная вавилонская литература» собираются изображения всех 40 000 разбитых фрагментов библиотеки Ашшурбанипала. В специальной настольной фотостудии фотограф Альберто Джаннезе делает шесть снимков каждой клинописной таблички — спереди, сзади, сверху, снизу и сбоку. Текст не всегда останавливается на краях, говорит Джаннезе, и даже отличить переднюю часть от задней и верхнюю от нижней порой может быть сложно.

Затем шесть изображений автоматически сшиваются компьютерной программой, расшифровываются и переводятся экспертами по клинописи, такими как Хименес. К 2023 году вся коллекция изображений станет общедоступной. Не каждый может посетить секретные залы музеев, но скоро мы все сможем увидеть библиотеку Ашшурбанипала и многие другие давно утерянные клинописные тексты, не выходя из дома.

Автор:

Использованы фотографии: Hoberman Publishing/Alamy

Мы в Мы в Яндекс Дзен
Как живые существа могут стать компьютерамиТоп странных, но крутых вопросов современной физики