
Второй по наполненности раздел в мире: 6 млн статей для «Википедии» создал бот
Англоязычная версия «Википедии» насчитывает почти 7 миллионов статей и по многим показателям она крупнейшая энциклопедия в мире. А во второй по наполненности версии «Википедии» — чуть более 6 млн статей. И это не французский, не испанский и не китайский сегмент интернет-энциклопедии, создаваемой и редактируемой добровольцами со всего мира.
Это себуано — язык, на котором говорят в основном на юге Филиппин. Себуанский язык (себуа́но) — язык австронезийской семьи. Другие названия: сугбу, сугбуанон, а в англоязычной и латинизированной традициях — Binisaya, Bisayan, Sebuano, Sugbuanon, Sugbuhanon или Visayan.
Но «Википедия» на себуано выросла не с помощью тысяч редакторов-волонтёров, как её английский аналог. Большинство статей «написаны» одним человеком: шведским лингвистом Сверкером Йоханссоном. Тот разработал программу под названием lsjbot, которая сгенерировала миллионы статей на нескольких языках, но особенно крепко пошевелила своими условными «извилинами» над себуано.
Собственной персоной
Это масштабное (на первый взгляд) достижение высветило проблему, с которой «Википедия» сталкивается с момента своего основания и которую искусственный интеллект (ИИ) делает всё более актуальной.
Программам, автоматизирующим отдельные разделы «Википедии», почти столько же лет, сколько самому многоязычному коллективному интернет-справочнику. Такие боты сканируют странички, исправляя неработающие ссылки. Что касается стряпни отдельных статей, то многие из таких программ генерируют не собственно тексты, а лишь заготовки для них из одного-двух предложений.
Именно с этими «авторами» статей доктор Йоханссон столкнулся в начале 2010-х годов, когда сам писал и редактировал странички для сетевой энциклопедии.
— Йоханссон.
Isjbot генерирует статьи, беря информацию из онлайн-баз данных, в основном по биологии и географии, и втискивая эти сведения в заранее заданный лимит по количеству предложений.
Как объяснил Йоханссон, основная языковая модель для таких целей — это несколько сотен шаблонов предложений. А затем бот проверяет, какая информация есть в открытом доступе. Например, статья о животном может начинаться с фразы «X — это Y, принадлежащее к семейству Z», а lsjbot заполнит пропуски конкретикой, например, «лев», «млекопитающее», «кошка» и тому подобное.
Хотя lsjbot может работать с любым языком, большая часть его результатов была на языке себуано. На данный момент ПО создало пару миллионов статей о растениях и животных, 4 млн статей о географии и некое количество статей о более мелких категориях, таких как химические элементы.
Йоханссон решил сосредоточиться на языке себуано, потому что это родной язык его жены. Она помогла ему составить шаблоны предложений.
— Йоханссон.
Он также запустил бота на варайском языке, ещё одном языке Филиппин, и на своём родном шведском.
Isjbot вызвал бурную реакцию среди филиппинских энтузиастов «Википедии», и не все из них были положительными. Википедисты, то есть добровольцы, которые создают и поддерживают коллективную энциклопедию, обнаружили, что на многих страницах на языке себуано есть грамматические, а иногда и фактические ошибки из-за несовершенства перевода.

Ещё одной проблемой было огромное количество статей. То есть небольшой численности редакторов было трудно перепроверять или повышать качество текстов.
В 2018 году даже поступали предложения удалить всю «Википедию» на языке себуано, включая небольшую часть статей, созданных людьми. Но филиппинские википедисты в итоге отклонили столь радикальную идею. Ирвин Томас, один из них, сказал, что небольшая группа национальных пользователей «Википедии» пытается улучшить качество страниц на языке себуано, в том числе сотрудничая с Йоханссоном.
— Томас.
Тем временем сообщество редакторов шведской «Википедии» сначала согласилось с ситуацией, а затем отказалось от использования lsjbot.
Lsjbot практически не используется с 2021 года. Йоханссон сказал, что споры вокруг применения стали одной из причин, по которой он закрыл проект на родном языке.
Ещё одна причина заключалась в том, что он не удавалось достичь одной из целей, на которые надеялся разработчик: Isjbot не привлекал «критическую массу» читателей и редакторов в «Википедию» на языке себуано, способствуя созданию более обширной энциклопедии.
Согласно статистике «Википедии», статьи на себуано ежемесячно просматривают десятки тысяч раз. Тем временем англоязычную версию онлайн-справочника ежемесячно просматривают более 100 млн одних только филиппинцев.
Такое «обесценивание» встречается по всему интернету. Например, в ранней версии Google Translate ряд научных терминов переводился как ругательства на филиппинском языке, очевидно, из-за отсутствия более точных данных.
Трудно сказать, какая именно часть «Википедии» была создана ИИ, хотя исследователи пытались это выяснить. В одной из недавних публикаций на эту тему сообщалось, что сейчас энциклопедия, вероятно, на 1–2% сгенерирована ИИ, а в другой публикации иная цифра — около 5%.
Если эта доля вырастет, есть угроза, что все версии «Википедии» станут слишком большими для перепроверки людьми, как это произошло с себуанским сегментом.
Поскольку «Википедия» используется для обучения больших языковых моделей, то есть ИИ, то добавление в неё материалов, созданных искусственным интеллектом, также может привести к сбою всей системы. Ошибки, допущенные моделями ИИ, будут использоваться для обучения и включаться в будущие модели ИИ, закрепляя ошибки.
Автоматизация — не новая концепция для «Википедии». Но генеративный ИИ создаёт множество и преимуществ, и новых рисков.
Это себуано — язык, на котором говорят в основном на юге Филиппин. Себуанский язык (себуа́но) — язык австронезийской семьи. Другие названия: сугбу, сугбуанон, а в англоязычной и латинизированной традициях — Binisaya, Bisayan, Sebuano, Sugbuanon, Sugbuhanon или Visayan.
Но «Википедия» на себуано выросла не с помощью тысяч редакторов-волонтёров, как её английский аналог. Большинство статей «написаны» одним человеком: шведским лингвистом Сверкером Йоханссоном. Тот разработал программу под названием lsjbot, которая сгенерировала миллионы статей на нескольких языках, но особенно крепко пошевелила своими условными «извилинами» над себуано.

Это масштабное (на первый взгляд) достижение высветило проблему, с которой «Википедия» сталкивается с момента своего основания и которую искусственный интеллект (ИИ) делает всё более актуальной.
Как lsjbot «пишет» статьи
Программам, автоматизирующим отдельные разделы «Википедии», почти столько же лет, сколько самому многоязычному коллективному интернет-справочнику. Такие боты сканируют странички, исправляя неработающие ссылки. Что касается стряпни отдельных статей, то многие из таких программ генерируют не собственно тексты, а лишь заготовки для них из одного-двух предложений.
Именно с этими «авторами» статей доктор Йоханссон столкнулся в начале 2010-х годов, когда сам писал и редактировал странички для сетевой энциклопедии.
Я начал думать, что могу это сделать лучше
— Йоханссон.
Isjbot генерирует статьи, беря информацию из онлайн-баз данных, в основном по биологии и географии, и втискивая эти сведения в заранее заданный лимит по количеству предложений.
Как объяснил Йоханссон, основная языковая модель для таких целей — это несколько сотен шаблонов предложений. А затем бот проверяет, какая информация есть в открытом доступе. Например, статья о животном может начинаться с фразы «X — это Y, принадлежащее к семейству Z», а lsjbot заполнит пропуски конкретикой, например, «лев», «млекопитающее», «кошка» и тому подобное.
Хотя lsjbot может работать с любым языком, большая часть его результатов была на языке себуано. На данный момент ПО создало пару миллионов статей о растениях и животных, 4 млн статей о географии и некое количество статей о более мелких категориях, таких как химические элементы.
Йоханссон решил сосредоточиться на языке себуано, потому что это родной язык его жены. Она помогла ему составить шаблоны предложений.
Я хотел помочь и решил, что могу сделать это таким путём
— Йоханссон.
Он также запустил бота на варайском языке, ещё одном языке Филиппин, и на своём родном шведском.
Спор вокруг lsjbot
Isjbot вызвал бурную реакцию среди филиппинских энтузиастов «Википедии», и не все из них были положительными. Википедисты, то есть добровольцы, которые создают и поддерживают коллективную энциклопедию, обнаружили, что на многих страницах на языке себуано есть грамматические, а иногда и фактические ошибки из-за несовершенства перевода.

Ещё одной проблемой было огромное количество статей. То есть небольшой численности редакторов было трудно перепроверять или повышать качество текстов.
В 2018 году даже поступали предложения удалить всю «Википедию» на языке себуано, включая небольшую часть статей, созданных людьми. Но филиппинские википедисты в итоге отклонили столь радикальную идею. Ирвин Томас, один из них, сказал, что небольшая группа национальных пользователей «Википедии» пытается улучшить качество страниц на языке себуано, в том числе сотрудничая с Йоханссоном.
К сожалению, нужно сделать так много, что редакторы-волонтёры не справятся в одиночку
— Томас.
Тем временем сообщество редакторов шведской «Википедии» сначала согласилось с ситуацией, а затем отказалось от использования lsjbot.
Родные языки обесценились
Lsjbot практически не используется с 2021 года. Йоханссон сказал, что споры вокруг применения стали одной из причин, по которой он закрыл проект на родном языке.
Ещё одна причина заключалась в том, что он не удавалось достичь одной из целей, на которые надеялся разработчик: Isjbot не привлекал «критическую массу» читателей и редакторов в «Википедию» на языке себуано, способствуя созданию более обширной энциклопедии.
Согласно статистике «Википедии», статьи на себуано ежемесячно просматривают десятки тысяч раз. Тем временем англоязычную версию онлайн-справочника ежемесячно просматривают более 100 млн одних только филиппинцев.
Такое «обесценивание» встречается по всему интернету. Например, в ранней версии Google Translate ряд научных терминов переводился как ругательства на филиппинском языке, очевидно, из-за отсутствия более точных данных.
Глобальные проблемы с ИИ
Трудно сказать, какая именно часть «Википедии» была создана ИИ, хотя исследователи пытались это выяснить. В одной из недавних публикаций на эту тему сообщалось, что сейчас энциклопедия, вероятно, на 1–2% сгенерирована ИИ, а в другой публикации иная цифра — около 5%.
Если эта доля вырастет, есть угроза, что все версии «Википедии» станут слишком большими для перепроверки людьми, как это произошло с себуанским сегментом.
Поскольку «Википедия» используется для обучения больших языковых моделей, то есть ИИ, то добавление в неё материалов, созданных искусственным интеллектом, также может привести к сбою всей системы. Ошибки, допущенные моделями ИИ, будут использоваться для обучения и включаться в будущие модели ИИ, закрепляя ошибки.
Автоматизация — не новая концепция для «Википедии». Но генеративный ИИ создаёт множество и преимуществ, и новых рисков.
- Дмитрий Ладыгин
- shedevrum.ai; abc.net.au; ceb.wikipedia.org
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Выяснилось, что суша вокруг Аральского моря... стремительно поднимается
И ученые сумели разгадать эту удивительную загадку природы....

Еще раз о ядерной войне на Марсе
Гипотетический конфликт на Красной планете не дает покоя некоторым ученым....

Причина необъяснимых нападений морских львов на людей наконец-то раскрыта
Все дело в редком токсине, который заполонил прибрежные воды Калифорнии....

В каменных гробницах древней Ирландии похоронены вовсе не те, о ком думали ученые
Генетический анализ переписывает историю неолита....

Ужасное наводнение создало Средиземное море всего за несколько месяцев
Потоп мчался со скоростью 115 километров в час....

Застукали: антарктического гигантского кальмара впервые запечатлели в естественной среде
Прошёл век после открытия вида....

Властелины огня: как древние люди поддерживали пламя в самые холодные времена
Основным топливом была древесина ели....

Термоядерный двигатель доставит людей до Марса всего за три месяца
Новая эра космических исследований вот-вот начнется?...

А фиолетовый-то, говорят… ненастоящий!
Ученые доказали, что этот цвет — иллюзия, существующая лишь у нас в голове....

Ученые заставили человеческий глаз видеть совершенно новый цвет
Он называется оло, и его практически не описать словами....

Новое исследование показало: мягкие игрушки — самые опасные вещи в доме
Микробов в этих предметах оказалось вдвое больше, чем на сиденье унитаза....

Ещё одна бесценная находка: челюсть с берегов Тайваня принадлежала денисовцу
Загадка не давала покоя несколько лет....

Раскрыт секрет: почему самые древние метеориты не долетают до Земли
Против само Солнце, но это не единственная причина....

Зачем археологи измерили и сравнили размеры 50 000 древних домов
Общественное расслоение нельзя считать неизбежным....

Ученые доказали: вода на Земле не из космоса, а своя собственная
Она зародилась «автоматически». И это в корне меняет теорию жизни во Вселенной....

Что рассказал древнегреческий гимнасий на Сицилии
Сохраняли язык при римском владычестве....