Масштабная утечка кода Яндекса раскрывает факторы ранжирования российской поисковой системы
Почти 45 ГБ файлов с исходным кодом, предположительно украденных бывшим сотрудником, раскрыли основы многих приложений и сервисов российского технологического гиганта «Яндекс». Он также раскрыл ключевые факторы ранжирования для поисковой системы Яндекса, которые почти никогда не раскрываются публично.
Git-исходники Яндекса были опубликованы в виде торрент-файла 25 января и показывают файлы, якобы снятые в июле 2022 года и относящиеся к февралю 2022 года. Инженер-программист Арсений Шестаков утверждает, что при совместной проверке с нынешними и бывшими сотрудниками Яндекса он убедился, что некоторые архивы содержат современный исходный код для сервисов компании. Яндекс сообщил блогу безопасности BleepingComputer, что Яндекс не был взломан и утечка произошла от бывшего сотрудника. «Яндекс» заявил, что не видит угрозы для пользовательских данных или производительности платформы.
В частности, файлы датируются февралем 2022 года, когда Россия начала СВО на Украине. Бывший руководитель Яндекса сказал BleepingComputer, что утечка была «политически мотивирована», и отметил, что бывший сотрудник не пытался продать код конкурентам Яндекса. Код защиты от спама также не просочился.
Хотя неясно, связаны ли раскрытие исходного кода Яндекса с безопасностью или структурными последствиями, утечка 1922 факторов ранжирования в алгоритме поиска Яндекса, безусловно, наделала много шума. Консультант по SEO Мартин Макдональд описал взлом в Твиттере как «вероятно, самое интересное, что произошло в SEO за последние годы». В ветке, подробно описывающей некоторые из наиболее заметных факторов, исследователь Алекс Буракс предполагает, что в обнародованных данных есть много полезной информации и для SEO отдела Google.
Как подробно рассказал Buraks движок Яндекса отдает предпочтение страницам, которые:
Существует возможность выполнить более подробный поиск по всем параметрам ранжирования в скомпилированном поисковом инструменте Роба Осби. Можно заметить, что почти 1000 факторов имеют тег «TG_DEPRECATED», а более 200 указаны как «TG_UNUSED». Поскольку код датирован февралем 2022 года и был получен в июле 2022 года, с тех пор поиск Яндекса, безусловно, изменился. Но утечка дает редкий взгляд на то, как составляются поисковые рейтинги на сайте, который обслуживает одну из крупнейших стран мира.
Ранее код поисковой системы Яндекса появлялся в 2015 году, когда бывший сотрудник попытался продать его на черном рынке за 28 000 долларов, чтобы профинансировать свой собственный стартап. Удивительно низкая цифра для основного кода главного продукта Яндекса свидетельствовала о том, что мошенник не знал о его реальной ценности. Сотрудник тогда был приговорен к двум годам лишения свободы условно, а упомянутый файл с кодом так никогда и не был опубликован.
Git-исходники Яндекса были опубликованы в виде торрент-файла 25 января и показывают файлы, якобы снятые в июле 2022 года и относящиеся к февралю 2022 года. Инженер-программист Арсений Шестаков утверждает, что при совместной проверке с нынешними и бывшими сотрудниками Яндекса он убедился, что некоторые архивы содержат современный исходный код для сервисов компании. Яндекс сообщил блогу безопасности BleepingComputer, что Яндекс не был взломан и утечка произошла от бывшего сотрудника. «Яндекс» заявил, что не видит угрозы для пользовательских данных или производительности платформы.
В частности, файлы датируются февралем 2022 года, когда Россия начала СВО на Украине. Бывший руководитель Яндекса сказал BleepingComputer, что утечка была «политически мотивирована», и отметил, что бывший сотрудник не пытался продать код конкурентам Яндекса. Код защиты от спама также не просочился.
Хотя неясно, связаны ли раскрытие исходного кода Яндекса с безопасностью или структурными последствиями, утечка 1922 факторов ранжирования в алгоритме поиска Яндекса, безусловно, наделала много шума. Консультант по SEO Мартин Макдональд описал взлом в Твиттере как «вероятно, самое интересное, что произошло в SEO за последние годы». В ветке, подробно описывающей некоторые из наиболее заметных факторов, исследователь Алекс Буракс предполагает, что в обнародованных данных есть много полезной информации и для SEO отдела Google.
Как подробно рассказал Buraks движок Яндекса отдает предпочтение страницам, которые:
- Не слишком старые
- Имеют много пользовательского (состоящего из уникальных посетителей) и меньше поискового трафика
- В URL имеют меньше цифр и косых черт
- Размещаются на надежных серверах
- Являются страницами Википедии или на них ссылается Википедия
- Размещены или связаны со страницами более высокого уровня в домене
- Имеют ключевые слова в своем URL (до трех)
Существует возможность выполнить более подробный поиск по всем параметрам ранжирования в скомпилированном поисковом инструменте Роба Осби. Можно заметить, что почти 1000 факторов имеют тег «TG_DEPRECATED», а более 200 указаны как «TG_UNUSED». Поскольку код датирован февралем 2022 года и был получен в июле 2022 года, с тех пор поиск Яндекса, безусловно, изменился. Но утечка дает редкий взгляд на то, как составляются поисковые рейтинги на сайте, который обслуживает одну из крупнейших стран мира.
Ранее код поисковой системы Яндекса появлялся в 2015 году, когда бывший сотрудник попытался продать его на черном рынке за 28 000 долларов, чтобы профинансировать свой собственный стартап. Удивительно низкая цифра для основного кода главного продукта Яндекса свидетельствовала о том, что мошенник не знал о его реальной ценности. Сотрудник тогда был приговорен к двум годам лишения свободы условно, а упомянутый файл с кодом так никогда и не был опубликован.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Российские ученые «поймали за руку» Илона Маска
Они доказали, что его ракеты пробивают дыры в атмосфере....
«Титаник» разваливается прямо на глазах
Кто же ускоряет гибель легендарного корабля: люди или природа?...
Западная Европа и США готовятся к худшему
Новая угроза ожидается из Латинской Америки....
NASA обнаружило таинственное энергетическое поле вокруг Земли
Оно уникально, и, похоже, благодаря нему на планете… появилась жизнь....
Спасение человечества находится на дне Северного Ледовитого океана
Финские ученые уверены в этом на 100%....
Starliner Boeing снова в новостях: теперь там что-то жутко стучит и лязгает
NASA придумывает объяснения, а бывший командир МКС говорит, что это не к добру....
Космический корабль BepiColombo невероятно близко подлетел к Меркурию
Свежие снимки рябой планеты удалось сделать благодаря возникшим в полёте неполадкам....
Прорыв или кошмар? Искусственный интеллект стал изменять собственный код
Ученые говорят: ничего страшного. Но так ли это на самом деле?...
Форресты Гампы отменяются
Американские ученые «взломали» код аутизма....
Сосуд из найденного в Шотландии клада викингов оказался иранским
Никто не ожидал, что сокровище прибыло из столь отдаленных мест....
Азиаты оккупируют Британию: сначала мигранты, теперь желтоногие шершни
Экологи бьют тревогу и массово рассылают методички населению....
Безглазая смерть чует тьму: как именно грибок превращает мух в зомби-некрофилов
Главное случается ночью....
Новый метод поможет раскрыть секс-преступления во много раз быстрее
Открытие ускорит проверку улик....
Пандемия может повториться: эксперты бьют тревогу
По словам ученых, на зверофермах Китая творятся ужасные вещи....
Оказывается, ковыряние в носу очень опасно для здоровья
Ученые сами были в шоке, когда поняли это....
Роботы и 3D-печать сделали бетон прочнее благодаря особой структуре
Имитируя природу, бетон можно уложить так, чтобы повысить прочность на 63%....