Второй по наполненности раздел в мире: 6 млн статей для «Википедии» создал бот
166

Второй по наполненности раздел в мире: 6 млн статей для «Википедии» создал бот

Англоязычная версия «Википедии» насчитывает почти 7 миллионов статей и по многим показателям она крупнейшая энциклопедия в мире. А во второй по наполненности версии «Википедии» — чуть более 6 млн статей. И это не французский, не испанский и не китайский сегмент интернет-энциклопедии, создаваемой и редактируемой добровольцами со всего мира.


Это себуано — язык, на котором говорят в основном на юге Филиппин. Себуанский язык (себуа́но) — язык австронезийской семьи. Другие названия: сугбу, сугбуанон, а в англоязычной и латинизированной традициях — Binisaya, Bisayan, Sebuano, Sugbuanon, Sugbuhanon или Visayan.

Но «Википедия» на себуано выросла не с помощью тысяч редакторов-волонтёров, как её английский аналог. Большинство статей «написаны» одним человеком: шведским лингвистом Сверкером Йоханссоном. Тот разработал программу под названием lsjbot, которая сгенерировала миллионы статей на нескольких языках, но особенно крепко пошевелила своими условными «извилинами» над себуано.

Второй по наполненности раздел в мире: 6 млн статей для «Википедии» создал ботСобственной персоной


Это масштабное (на первый взгляд) достижение высветило проблему, с которой «Википедия» сталкивается с момента своего основания и которую искусственный интеллект (ИИ) делает всё более актуальной.

Как lsjbot «пишет» статьи


Программам, автоматизирующим отдельные разделы «Википедии», почти столько же лет, сколько самому многоязычному коллективному интернет-справочнику. Такие боты сканируют странички, исправляя неработающие ссылки. Что касается стряпни отдельных статей, то многие из таких программ генерируют не собственно тексты, а лишь заготовки для них из одного-двух предложений.

Именно с этими «авторами» статей доктор Йоханссон столкнулся в начале 2010-х годов, когда сам писал и редактировал странички для сетевой энциклопедии.

Я начал думать, что могу это сделать лучше

— Йоханссон.

Isjbot генерирует статьи, беря информацию из онлайн-баз данных, в основном по биологии и географии, и втискивая эти сведения в заранее заданный лимит по количеству предложений.

Как объяснил Йоханссон, основная языковая модель для таких целей — это несколько сотен шаблонов предложений. А затем бот проверяет, какая информация есть в открытом доступе. Например, статья о животном может начинаться с фразы «X — это Y, принадлежащее к семейству Z», а lsjbot заполнит пропуски конкретикой, например, «лев», «млекопитающее», «кошка» и тому подобное.

Хотя lsjbot может работать с любым языком, большая часть его результатов была на языке себуано. На данный момент ПО создало пару миллионов статей о растениях и животных, 4 млн статей о географии и некое количество статей о более мелких категориях, таких как химические элементы.

Йоханссон решил сосредоточиться на языке себуано, потому что это родной язык его жены. Она помогла ему составить шаблоны предложений.

Я хотел помочь и решил, что могу сделать это таким путём

— Йоханссон.

Он также запустил бота на варайском языке, ещё одном языке Филиппин, и на своём родном шведском.

Спор вокруг lsjbot


Isjbot вызвал бурную реакцию среди филиппинских энтузиастов «Википедии», и не все из них были положительными. Википедисты, то есть добровольцы, которые создают и поддерживают коллективную энциклопедию, обнаружили, что на многих страницах на языке себуано есть грамматические, а иногда и фактические ошибки из-за несовершенства перевода.



Ещё одной проблемой было огромное количество статей. То есть небольшой численности редакторов было трудно перепроверять или повышать качество текстов.

В 2018 году даже поступали предложения удалить всю «Википедию» на языке себуано, включая небольшую часть статей, созданных людьми. Но филиппинские википедисты в итоге отклонили столь радикальную идею. Ирвин Томас, один из них, сказал, что небольшая группа национальных пользователей «Википедии» пытается улучшить качество страниц на языке себуано, в том числе сотрудничая с Йоханссоном.

К сожалению, нужно сделать так много, что редакторы-волонтёры не справятся в одиночку

— Томас.

Тем временем сообщество редакторов шведской «Википедии» сначала согласилось с ситуацией, а затем отказалось от использования lsjbot.

Родные языки обесценились


Lsjbot практически не используется с 2021 года. Йоханссон сказал, что споры вокруг применения стали одной из причин, по которой он закрыл проект на родном языке.

Ещё одна причина заключалась в том, что он не удавалось достичь одной из целей, на которые надеялся разработчик: Isjbot не привлекал «критическую массу» читателей и редакторов в «Википедию» на языке себуано, способствуя созданию более обширной энциклопедии.

Согласно статистике «Википедии», статьи на себуано ежемесячно просматривают десятки тысяч раз. Тем временем англоязычную версию онлайн-справочника ежемесячно просматривают более 100 млн одних только филиппинцев.

Такое «обесценивание» встречается по всему интернету. Например, в ранней версии Google Translate ряд научных терминов переводился как ругательства на филиппинском языке, очевидно, из-за отсутствия более точных данных.

Глобальные проблемы с ИИ


Трудно сказать, какая именно часть «Википедии» была создана ИИ, хотя исследователи пытались это выяснить. В одной из недавних публикаций на эту тему сообщалось, что сейчас энциклопедия, вероятно, на 1–2% сгенерирована ИИ, а в другой публикации иная цифра — около 5%.

Если эта доля вырастет, есть угроза, что все версии «Википедии» станут слишком большими для перепроверки людьми, как это произошло с себуанским сегментом.

Поскольку «Википедия» используется для обучения больших языковых моделей, то есть ИИ, то добавление в неё материалов, созданных искусственным интеллектом, также может привести к сбою всей системы. Ошибки, допущенные моделями ИИ, будут использоваться для обучения и включаться в будущие модели ИИ, закрепляя ошибки.

Автоматизация — не новая концепция для «Википедии». Но генеративный ИИ создаёт множество и преимуществ, и новых рисков.
Наши новостные каналы

Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.

Рекомендуем для вас