
Второй по наполненности раздел в мире: 6 млн статей для «Википедии» создал бот
Англоязычная версия «Википедии» насчитывает почти 7 миллионов статей и по многим показателям она крупнейшая энциклопедия в мире. А во второй по наполненности версии «Википедии» — чуть более 6 млн статей. И это не французский, не испанский и не китайский сегмент интернет-энциклопедии, создаваемой и редактируемой добровольцами со всего мира.
Это себуано — язык, на котором говорят в основном на юге Филиппин. Себуанский язык (себуа́но) — язык австронезийской семьи. Другие названия: сугбу, сугбуанон, а в англоязычной и латинизированной традициях — Binisaya, Bisayan, Sebuano, Sugbuanon, Sugbuhanon или Visayan.
Но «Википедия» на себуано выросла не с помощью тысяч редакторов-волонтёров, как её английский аналог. Большинство статей «написаны» одним человеком: шведским лингвистом Сверкером Йоханссоном. Тот разработал программу под названием lsjbot, которая сгенерировала миллионы статей на нескольких языках, но особенно крепко пошевелила своими условными «извилинами» над себуано.
Собственной персоной
Это масштабное (на первый взгляд) достижение высветило проблему, с которой «Википедия» сталкивается с момента своего основания и которую искусственный интеллект (ИИ) делает всё более актуальной.
Программам, автоматизирующим отдельные разделы «Википедии», почти столько же лет, сколько самому многоязычному коллективному интернет-справочнику. Такие боты сканируют странички, исправляя неработающие ссылки. Что касается стряпни отдельных статей, то многие из таких программ генерируют не собственно тексты, а лишь заготовки для них из одного-двух предложений.
Именно с этими «авторами» статей доктор Йоханссон столкнулся в начале 2010-х годов, когда сам писал и редактировал странички для сетевой энциклопедии.
— Йоханссон.
Isjbot генерирует статьи, беря информацию из онлайн-баз данных, в основном по биологии и географии, и втискивая эти сведения в заранее заданный лимит по количеству предложений.
Как объяснил Йоханссон, основная языковая модель для таких целей — это несколько сотен шаблонов предложений. А затем бот проверяет, какая информация есть в открытом доступе. Например, статья о животном может начинаться с фразы «X — это Y, принадлежащее к семейству Z», а lsjbot заполнит пропуски конкретикой, например, «лев», «млекопитающее», «кошка» и тому подобное.
Хотя lsjbot может работать с любым языком, большая часть его результатов была на языке себуано. На данный момент ПО создало пару миллионов статей о растениях и животных, 4 млн статей о географии и некое количество статей о более мелких категориях, таких как химические элементы.
Йоханссон решил сосредоточиться на языке себуано, потому что это родной язык его жены. Она помогла ему составить шаблоны предложений.
— Йоханссон.
Он также запустил бота на варайском языке, ещё одном языке Филиппин, и на своём родном шведском.
Isjbot вызвал бурную реакцию среди филиппинских энтузиастов «Википедии», и не все из них были положительными. Википедисты, то есть добровольцы, которые создают и поддерживают коллективную энциклопедию, обнаружили, что на многих страницах на языке себуано есть грамматические, а иногда и фактические ошибки из-за несовершенства перевода.

Ещё одной проблемой было огромное количество статей. То есть небольшой численности редакторов было трудно перепроверять или повышать качество текстов.
В 2018 году даже поступали предложения удалить всю «Википедию» на языке себуано, включая небольшую часть статей, созданных людьми. Но филиппинские википедисты в итоге отклонили столь радикальную идею. Ирвин Томас, один из них, сказал, что небольшая группа национальных пользователей «Википедии» пытается улучшить качество страниц на языке себуано, в том числе сотрудничая с Йоханссоном.
— Томас.
Тем временем сообщество редакторов шведской «Википедии» сначала согласилось с ситуацией, а затем отказалось от использования lsjbot.
Lsjbot практически не используется с 2021 года. Йоханссон сказал, что споры вокруг применения стали одной из причин, по которой он закрыл проект на родном языке.
Ещё одна причина заключалась в том, что он не удавалось достичь одной из целей, на которые надеялся разработчик: Isjbot не привлекал «критическую массу» читателей и редакторов в «Википедию» на языке себуано, способствуя созданию более обширной энциклопедии.
Согласно статистике «Википедии», статьи на себуано ежемесячно просматривают десятки тысяч раз. Тем временем англоязычную версию онлайн-справочника ежемесячно просматривают более 100 млн одних только филиппинцев.
Такое «обесценивание» встречается по всему интернету. Например, в ранней версии Google Translate ряд научных терминов переводился как ругательства на филиппинском языке, очевидно, из-за отсутствия более точных данных.
Трудно сказать, какая именно часть «Википедии» была создана ИИ, хотя исследователи пытались это выяснить. В одной из недавних публикаций на эту тему сообщалось, что сейчас энциклопедия, вероятно, на 1–2% сгенерирована ИИ, а в другой публикации иная цифра — около 5%.
Если эта доля вырастет, есть угроза, что все версии «Википедии» станут слишком большими для перепроверки людьми, как это произошло с себуанским сегментом.
Поскольку «Википедия» используется для обучения больших языковых моделей, то есть ИИ, то добавление в неё материалов, созданных искусственным интеллектом, также может привести к сбою всей системы. Ошибки, допущенные моделями ИИ, будут использоваться для обучения и включаться в будущие модели ИИ, закрепляя ошибки.
Автоматизация — не новая концепция для «Википедии». Но генеративный ИИ создаёт множество и преимуществ, и новых рисков.
Это себуано — язык, на котором говорят в основном на юге Филиппин. Себуанский язык (себуа́но) — язык австронезийской семьи. Другие названия: сугбу, сугбуанон, а в англоязычной и латинизированной традициях — Binisaya, Bisayan, Sebuano, Sugbuanon, Sugbuhanon или Visayan.
Но «Википедия» на себуано выросла не с помощью тысяч редакторов-волонтёров, как её английский аналог. Большинство статей «написаны» одним человеком: шведским лингвистом Сверкером Йоханссоном. Тот разработал программу под названием lsjbot, которая сгенерировала миллионы статей на нескольких языках, но особенно крепко пошевелила своими условными «извилинами» над себуано.

Это масштабное (на первый взгляд) достижение высветило проблему, с которой «Википедия» сталкивается с момента своего основания и которую искусственный интеллект (ИИ) делает всё более актуальной.
Как lsjbot «пишет» статьи
Программам, автоматизирующим отдельные разделы «Википедии», почти столько же лет, сколько самому многоязычному коллективному интернет-справочнику. Такие боты сканируют странички, исправляя неработающие ссылки. Что касается стряпни отдельных статей, то многие из таких программ генерируют не собственно тексты, а лишь заготовки для них из одного-двух предложений.
Именно с этими «авторами» статей доктор Йоханссон столкнулся в начале 2010-х годов, когда сам писал и редактировал странички для сетевой энциклопедии.
Я начал думать, что могу это сделать лучше
— Йоханссон.
Isjbot генерирует статьи, беря информацию из онлайн-баз данных, в основном по биологии и географии, и втискивая эти сведения в заранее заданный лимит по количеству предложений.
Как объяснил Йоханссон, основная языковая модель для таких целей — это несколько сотен шаблонов предложений. А затем бот проверяет, какая информация есть в открытом доступе. Например, статья о животном может начинаться с фразы «X — это Y, принадлежащее к семейству Z», а lsjbot заполнит пропуски конкретикой, например, «лев», «млекопитающее», «кошка» и тому подобное.
Хотя lsjbot может работать с любым языком, большая часть его результатов была на языке себуано. На данный момент ПО создало пару миллионов статей о растениях и животных, 4 млн статей о географии и некое количество статей о более мелких категориях, таких как химические элементы.
Йоханссон решил сосредоточиться на языке себуано, потому что это родной язык его жены. Она помогла ему составить шаблоны предложений.
Я хотел помочь и решил, что могу сделать это таким путём
— Йоханссон.
Он также запустил бота на варайском языке, ещё одном языке Филиппин, и на своём родном шведском.
Спор вокруг lsjbot
Isjbot вызвал бурную реакцию среди филиппинских энтузиастов «Википедии», и не все из них были положительными. Википедисты, то есть добровольцы, которые создают и поддерживают коллективную энциклопедию, обнаружили, что на многих страницах на языке себуано есть грамматические, а иногда и фактические ошибки из-за несовершенства перевода.

Ещё одной проблемой было огромное количество статей. То есть небольшой численности редакторов было трудно перепроверять или повышать качество текстов.
В 2018 году даже поступали предложения удалить всю «Википедию» на языке себуано, включая небольшую часть статей, созданных людьми. Но филиппинские википедисты в итоге отклонили столь радикальную идею. Ирвин Томас, один из них, сказал, что небольшая группа национальных пользователей «Википедии» пытается улучшить качество страниц на языке себуано, в том числе сотрудничая с Йоханссоном.
К сожалению, нужно сделать так много, что редакторы-волонтёры не справятся в одиночку
— Томас.
Тем временем сообщество редакторов шведской «Википедии» сначала согласилось с ситуацией, а затем отказалось от использования lsjbot.
Родные языки обесценились
Lsjbot практически не используется с 2021 года. Йоханссон сказал, что споры вокруг применения стали одной из причин, по которой он закрыл проект на родном языке.
Ещё одна причина заключалась в том, что он не удавалось достичь одной из целей, на которые надеялся разработчик: Isjbot не привлекал «критическую массу» читателей и редакторов в «Википедию» на языке себуано, способствуя созданию более обширной энциклопедии.
Согласно статистике «Википедии», статьи на себуано ежемесячно просматривают десятки тысяч раз. Тем временем англоязычную версию онлайн-справочника ежемесячно просматривают более 100 млн одних только филиппинцев.
Такое «обесценивание» встречается по всему интернету. Например, в ранней версии Google Translate ряд научных терминов переводился как ругательства на филиппинском языке, очевидно, из-за отсутствия более точных данных.
Глобальные проблемы с ИИ
Трудно сказать, какая именно часть «Википедии» была создана ИИ, хотя исследователи пытались это выяснить. В одной из недавних публикаций на эту тему сообщалось, что сейчас энциклопедия, вероятно, на 1–2% сгенерирована ИИ, а в другой публикации иная цифра — около 5%.
Если эта доля вырастет, есть угроза, что все версии «Википедии» станут слишком большими для перепроверки людьми, как это произошло с себуанским сегментом.
Поскольку «Википедия» используется для обучения больших языковых моделей, то есть ИИ, то добавление в неё материалов, созданных искусственным интеллектом, также может привести к сбою всей системы. Ошибки, допущенные моделями ИИ, будут использоваться для обучения и включаться в будущие модели ИИ, закрепляя ошибки.
Автоматизация — не новая концепция для «Википедии». Но генеративный ИИ создаёт множество и преимуществ, и новых рисков.
- Дмитрий Ладыгин
- shedevrum.ai; abc.net.au; ceb.wikipedia.org
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Ученые поражены: у растений есть секретный второй набор корней глубоко под землей
Это не только сенсация в ботанике, это вообще переворот в науке....

Найдено идеальное место для жизни на Марсе
По словам ученых, оно похоже… на нашу Сибирь....

Уникальная находка в Нидерландах: археологи обнаружили римский лагерь далеко за пределами Империи
Как лидар и искусственный интеллект нашли объект-«невидимку» II века....

Тайна разгадана: стало известно, почему большинство кошек предпочитают спать строго на одном боку
Оказалось, что это древний защитный механизм, которому миллионы лет....

Эксперты обнаружили существ, переживших прямой удар астероида, который уничтожил динозавров
Почему конец света — это вовсе не повод, чтобы вымирать?...

32 удивительных подарка за последние 20 лет: ученые пытаются понять, за что косатки «балуют» людей
Природная доброта? Любопытство? Желание выйти на контакт?...

Ученые хотят создать хранилище микробов, чтобы те… не вымерли
Звучит кошмарно, но на самом деле от этого зависит судьба всего человечества....