Второй по наполненности раздел в мире: 6 млн статей для «Википедии» создал бот
Англоязычная версия «Википедии» насчитывает почти 7 миллионов статей и по многим показателям она крупнейшая энциклопедия в мире. А во второй по наполненности версии «Википедии» — чуть более 6 млн статей. И это не французский, не испанский и не китайский сегмент интернет-энциклопедии, создаваемой и редактируемой добровольцами со всего мира.
Это себуано — язык, на котором говорят в основном на юге Филиппин. Себуанский язык (себуа́но) — язык австронезийской семьи. Другие названия: сугбу, сугбуанон, а в англоязычной и латинизированной традициях — Binisaya, Bisayan, Sebuano, Sugbuanon, Sugbuhanon или Visayan.
Но «Википедия» на себуано выросла не с помощью тысяч редакторов-волонтёров, как её английский аналог. Большинство статей «написаны» одним человеком: шведским лингвистом Сверкером Йоханссоном. Тот разработал программу под названием lsjbot, которая сгенерировала миллионы статей на нескольких языках, но особенно крепко пошевелила своими условными «извилинами» над себуано.
Собственной персоной
Это масштабное (на первый взгляд) достижение высветило проблему, с которой «Википедия» сталкивается с момента своего основания и которую искусственный интеллект (ИИ) делает всё более актуальной.
Программам, автоматизирующим отдельные разделы «Википедии», почти столько же лет, сколько самому многоязычному коллективному интернет-справочнику. Такие боты сканируют странички, исправляя неработающие ссылки. Что касается стряпни отдельных статей, то многие из таких программ генерируют не собственно тексты, а лишь заготовки для них из одного-двух предложений.
Именно с этими «авторами» статей доктор Йоханссон столкнулся в начале 2010-х годов, когда сам писал и редактировал странички для сетевой энциклопедии.
— Йоханссон.
Isjbot генерирует статьи, беря информацию из онлайн-баз данных, в основном по биологии и географии, и втискивая эти сведения в заранее заданный лимит по количеству предложений.
Как объяснил Йоханссон, основная языковая модель для таких целей — это несколько сотен шаблонов предложений. А затем бот проверяет, какая информация есть в открытом доступе. Например, статья о животном может начинаться с фразы «X — это Y, принадлежащее к семейству Z», а lsjbot заполнит пропуски конкретикой, например, «лев», «млекопитающее», «кошка» и тому подобное.
Хотя lsjbot может работать с любым языком, большая часть его результатов была на языке себуано. На данный момент ПО создало пару миллионов статей о растениях и животных, 4 млн статей о географии и некое количество статей о более мелких категориях, таких как химические элементы.
Йоханссон решил сосредоточиться на языке себуано, потому что это родной язык его жены. Она помогла ему составить шаблоны предложений.
— Йоханссон.
Он также запустил бота на варайском языке, ещё одном языке Филиппин, и на своём родном шведском.
Isjbot вызвал бурную реакцию среди филиппинских энтузиастов «Википедии», и не все из них были положительными. Википедисты, то есть добровольцы, которые создают и поддерживают коллективную энциклопедию, обнаружили, что на многих страницах на языке себуано есть грамматические, а иногда и фактические ошибки из-за несовершенства перевода.

Ещё одной проблемой было огромное количество статей. То есть небольшой численности редакторов было трудно перепроверять или повышать качество текстов.
В 2018 году даже поступали предложения удалить всю «Википедию» на языке себуано, включая небольшую часть статей, созданных людьми. Но филиппинские википедисты в итоге отклонили столь радикальную идею. Ирвин Томас, один из них, сказал, что небольшая группа национальных пользователей «Википедии» пытается улучшить качество страниц на языке себуано, в том числе сотрудничая с Йоханссоном.
— Томас.
Тем временем сообщество редакторов шведской «Википедии» сначала согласилось с ситуацией, а затем отказалось от использования lsjbot.
Lsjbot практически не используется с 2021 года. Йоханссон сказал, что споры вокруг применения стали одной из причин, по которой он закрыл проект на родном языке.
Ещё одна причина заключалась в том, что он не удавалось достичь одной из целей, на которые надеялся разработчик: Isjbot не привлекал «критическую массу» читателей и редакторов в «Википедию» на языке себуано, способствуя созданию более обширной энциклопедии.
Согласно статистике «Википедии», статьи на себуано ежемесячно просматривают десятки тысяч раз. Тем временем англоязычную версию онлайн-справочника ежемесячно просматривают более 100 млн одних только филиппинцев.
Такое «обесценивание» встречается по всему интернету. Например, в ранней версии Google Translate ряд научных терминов переводился как ругательства на филиппинском языке, очевидно, из-за отсутствия более точных данных.
Трудно сказать, какая именно часть «Википедии» была создана ИИ, хотя исследователи пытались это выяснить. В одной из недавних публикаций на эту тему сообщалось, что сейчас энциклопедия, вероятно, на 1–2% сгенерирована ИИ, а в другой публикации иная цифра — около 5%.
Если эта доля вырастет, есть угроза, что все версии «Википедии» станут слишком большими для перепроверки людьми, как это произошло с себуанским сегментом.
Поскольку «Википедия» используется для обучения больших языковых моделей, то есть ИИ, то добавление в неё материалов, созданных искусственным интеллектом, также может привести к сбою всей системы. Ошибки, допущенные моделями ИИ, будут использоваться для обучения и включаться в будущие модели ИИ, закрепляя ошибки.
Автоматизация — не новая концепция для «Википедии». Но генеративный ИИ создаёт множество и преимуществ, и новых рисков.
Это себуано — язык, на котором говорят в основном на юге Филиппин. Себуанский язык (себуа́но) — язык австронезийской семьи. Другие названия: сугбу, сугбуанон, а в англоязычной и латинизированной традициях — Binisaya, Bisayan, Sebuano, Sugbuanon, Sugbuhanon или Visayan.
Но «Википедия» на себуано выросла не с помощью тысяч редакторов-волонтёров, как её английский аналог. Большинство статей «написаны» одним человеком: шведским лингвистом Сверкером Йоханссоном. Тот разработал программу под названием lsjbot, которая сгенерировала миллионы статей на нескольких языках, но особенно крепко пошевелила своими условными «извилинами» над себуано.
Собственной персонойЭто масштабное (на первый взгляд) достижение высветило проблему, с которой «Википедия» сталкивается с момента своего основания и которую искусственный интеллект (ИИ) делает всё более актуальной.
Как lsjbot «пишет» статьи
Программам, автоматизирующим отдельные разделы «Википедии», почти столько же лет, сколько самому многоязычному коллективному интернет-справочнику. Такие боты сканируют странички, исправляя неработающие ссылки. Что касается стряпни отдельных статей, то многие из таких программ генерируют не собственно тексты, а лишь заготовки для них из одного-двух предложений.
Именно с этими «авторами» статей доктор Йоханссон столкнулся в начале 2010-х годов, когда сам писал и редактировал странички для сетевой энциклопедии.
Я начал думать, что могу это сделать лучше
— Йоханссон.
Isjbot генерирует статьи, беря информацию из онлайн-баз данных, в основном по биологии и географии, и втискивая эти сведения в заранее заданный лимит по количеству предложений.
Как объяснил Йоханссон, основная языковая модель для таких целей — это несколько сотен шаблонов предложений. А затем бот проверяет, какая информация есть в открытом доступе. Например, статья о животном может начинаться с фразы «X — это Y, принадлежащее к семейству Z», а lsjbot заполнит пропуски конкретикой, например, «лев», «млекопитающее», «кошка» и тому подобное.
Хотя lsjbot может работать с любым языком, большая часть его результатов была на языке себуано. На данный момент ПО создало пару миллионов статей о растениях и животных, 4 млн статей о географии и некое количество статей о более мелких категориях, таких как химические элементы.
Йоханссон решил сосредоточиться на языке себуано, потому что это родной язык его жены. Она помогла ему составить шаблоны предложений.
Я хотел помочь и решил, что могу сделать это таким путём
— Йоханссон.
Он также запустил бота на варайском языке, ещё одном языке Филиппин, и на своём родном шведском.
Спор вокруг lsjbot
Isjbot вызвал бурную реакцию среди филиппинских энтузиастов «Википедии», и не все из них были положительными. Википедисты, то есть добровольцы, которые создают и поддерживают коллективную энциклопедию, обнаружили, что на многих страницах на языке себуано есть грамматические, а иногда и фактические ошибки из-за несовершенства перевода.

Ещё одной проблемой было огромное количество статей. То есть небольшой численности редакторов было трудно перепроверять или повышать качество текстов.
В 2018 году даже поступали предложения удалить всю «Википедию» на языке себуано, включая небольшую часть статей, созданных людьми. Но филиппинские википедисты в итоге отклонили столь радикальную идею. Ирвин Томас, один из них, сказал, что небольшая группа национальных пользователей «Википедии» пытается улучшить качество страниц на языке себуано, в том числе сотрудничая с Йоханссоном.
К сожалению, нужно сделать так много, что редакторы-волонтёры не справятся в одиночку
— Томас.
Тем временем сообщество редакторов шведской «Википедии» сначала согласилось с ситуацией, а затем отказалось от использования lsjbot.
Родные языки обесценились
Lsjbot практически не используется с 2021 года. Йоханссон сказал, что споры вокруг применения стали одной из причин, по которой он закрыл проект на родном языке.
Ещё одна причина заключалась в том, что он не удавалось достичь одной из целей, на которые надеялся разработчик: Isjbot не привлекал «критическую массу» читателей и редакторов в «Википедию» на языке себуано, способствуя созданию более обширной энциклопедии.
Согласно статистике «Википедии», статьи на себуано ежемесячно просматривают десятки тысяч раз. Тем временем англоязычную версию онлайн-справочника ежемесячно просматривают более 100 млн одних только филиппинцев.
Такое «обесценивание» встречается по всему интернету. Например, в ранней версии Google Translate ряд научных терминов переводился как ругательства на филиппинском языке, очевидно, из-за отсутствия более точных данных.
Глобальные проблемы с ИИ
Трудно сказать, какая именно часть «Википедии» была создана ИИ, хотя исследователи пытались это выяснить. В одной из недавних публикаций на эту тему сообщалось, что сейчас энциклопедия, вероятно, на 1–2% сгенерирована ИИ, а в другой публикации иная цифра — около 5%.
Если эта доля вырастет, есть угроза, что все версии «Википедии» станут слишком большими для перепроверки людьми, как это произошло с себуанским сегментом.
Поскольку «Википедия» используется для обучения больших языковых моделей, то есть ИИ, то добавление в неё материалов, созданных искусственным интеллектом, также может привести к сбою всей системы. Ошибки, допущенные моделями ИИ, будут использоваться для обучения и включаться в будущие модели ИИ, закрепляя ошибки.
Автоматизация — не новая концепция для «Википедии». Но генеративный ИИ создаёт множество и преимуществ, и новых рисков.
- Дмитрий Ладыгин
- shedevrum.ai; abc.net.au; ceb.wikipedia.org
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Еще раз об убийстве Андрея Боголюбского: что рассказали кости погибшего князя?
Профессор судебной медицины поправил историков и выявил неточности древних летописей...
Древнеримский артефакт переписывает историю Америки: Колумб был не первым?
Почему находка из индейской могилы почти 100 лет вызывает ожесточенные споры среди археологов и историков?...
Раскрыта главная тайна антарктического льда: ученые узнали, как и кем была взломана природная защита Шестого континента
Похоже, той Антарктиде, которую мы знаем, приходит конец. Впрочем, это не точно...
Тайна гибели сибирского «Титаника»: почему некоторые детали катастрофы 1921 года неизвестны даже сейчас?
Поразительно, но тогда судьи единогласно оправдали капитана парохода. Так кто же тогда был виновником этого страшного происшествия?...
ФСБ рассекретило часть архивов Александра Вадиса, генерала «Смерш»: как советская контрразведка переиграла немцев на Курской дуге. И не только
Историки говорят: по биографии этого смершевца можно запросто снять несколько остросюжетных боевиков...
Жители Анд переписали свою ДНК: почему горные индейцы пьют ядовитую воду, но чувствуют себя при этом хорошо?
По словам ученых, эволюция сделала красивый и хитрый ход. И это не иммунитет к токсинам, а нечто другое, более интересное...
Ядерный взрыв на Луне: для чего советские ученые хотели провести такой грандиозный эксперимент?
Зачем России атомный реактор на Луне и как он поможет нам добраться до Венеры?...
Почему загадочный объект на Марсе — «копия» древнеегипетской пирамиды?
Что стоит за самой таинственной структурой на Красной планете? Эксперты дают объяснения, но стоит ли им верить?...
Почему эти меры не спасут Антарктиду: пять проектов по спасению ледников оказались провалом
Эксперт жестко проанализировал самые популярные программы по сохранению льда на Шестом континенте. Увы, они оказались невыполнимой фантастикой, причем опасно...
Почему загадочные отметины на камнях в Помпеях десятилетиями ставили в тупик военных экспертов?
Итальянские ученые неожиданно решили одну из самых запутанных загадок римской военной истории. Оказывается, уже тогда стреляли из «пулеметов»...