Масштабная утечка кода Яндекса раскрывает факторы ранжирования российской поисковой системы
Почти 45 ГБ файлов с исходным кодом, предположительно украденных бывшим сотрудником, раскрыли основы многих приложений и сервисов российского технологического гиганта «Яндекс». Он также раскрыл ключевые факторы ранжирования для поисковой системы Яндекса, которые почти никогда не раскрываются публично.
Git-исходники Яндекса были опубликованы в виде торрент-файла 25 января и показывают файлы, якобы снятые в июле 2022 года и относящиеся к февралю 2022 года. Инженер-программист Арсений Шестаков утверждает, что при совместной проверке с нынешними и бывшими сотрудниками Яндекса он убедился, что некоторые архивы содержат современный исходный код для сервисов компании. Яндекс сообщил блогу безопасности BleepingComputer, что Яндекс не был взломан и утечка произошла от бывшего сотрудника. «Яндекс» заявил, что не видит угрозы для пользовательских данных или производительности платформы.
В частности, файлы датируются февралем 2022 года, когда Россия начала СВО на Украине. Бывший руководитель Яндекса сказал BleepingComputer, что утечка была «политически мотивирована», и отметил, что бывший сотрудник не пытался продать код конкурентам Яндекса. Код защиты от спама также не просочился.
Хотя неясно, связаны ли раскрытие исходного кода Яндекса с безопасностью или структурными последствиями, утечка 1922 факторов ранжирования в алгоритме поиска Яндекса, безусловно, наделала много шума. Консультант по SEO Мартин Макдональд описал взлом в Твиттере как «вероятно, самое интересное, что произошло в SEO за последние годы». В ветке, подробно описывающей некоторые из наиболее заметных факторов, исследователь Алекс Буракс предполагает, что в обнародованных данных есть много полезной информации и для SEO отдела Google.
Как подробно рассказал Buraks движок Яндекса отдает предпочтение страницам, которые:
Существует возможность выполнить более подробный поиск по всем параметрам ранжирования в скомпилированном поисковом инструменте Роба Осби. Можно заметить, что почти 1000 факторов имеют тег «TG_DEPRECATED», а более 200 указаны как «TG_UNUSED». Поскольку код датирован февралем 2022 года и был получен в июле 2022 года, с тех пор поиск Яндекса, безусловно, изменился. Но утечка дает редкий взгляд на то, как составляются поисковые рейтинги на сайте, который обслуживает одну из крупнейших стран мира.
Ранее код поисковой системы Яндекса появлялся в 2015 году, когда бывший сотрудник попытался продать его на черном рынке за 28 000 долларов, чтобы профинансировать свой собственный стартап. Удивительно низкая цифра для основного кода главного продукта Яндекса свидетельствовала о том, что мошенник не знал о его реальной ценности. Сотрудник тогда был приговорен к двум годам лишения свободы условно, а упомянутый файл с кодом так никогда и не был опубликован.
Git-исходники Яндекса были опубликованы в виде торрент-файла 25 января и показывают файлы, якобы снятые в июле 2022 года и относящиеся к февралю 2022 года. Инженер-программист Арсений Шестаков утверждает, что при совместной проверке с нынешними и бывшими сотрудниками Яндекса он убедился, что некоторые архивы содержат современный исходный код для сервисов компании. Яндекс сообщил блогу безопасности BleepingComputer, что Яндекс не был взломан и утечка произошла от бывшего сотрудника. «Яндекс» заявил, что не видит угрозы для пользовательских данных или производительности платформы.
В частности, файлы датируются февралем 2022 года, когда Россия начала СВО на Украине. Бывший руководитель Яндекса сказал BleepingComputer, что утечка была «политически мотивирована», и отметил, что бывший сотрудник не пытался продать код конкурентам Яндекса. Код защиты от спама также не просочился.
Хотя неясно, связаны ли раскрытие исходного кода Яндекса с безопасностью или структурными последствиями, утечка 1922 факторов ранжирования в алгоритме поиска Яндекса, безусловно, наделала много шума. Консультант по SEO Мартин Макдональд описал взлом в Твиттере как «вероятно, самое интересное, что произошло в SEO за последние годы». В ветке, подробно описывающей некоторые из наиболее заметных факторов, исследователь Алекс Буракс предполагает, что в обнародованных данных есть много полезной информации и для SEO отдела Google.
Как подробно рассказал Buraks движок Яндекса отдает предпочтение страницам, которые:
- Не слишком старые
- Имеют много пользовательского (состоящего из уникальных посетителей) и меньше поискового трафика
- В URL имеют меньше цифр и косых черт
- Размещаются на надежных серверах
- Являются страницами Википедии или на них ссылается Википедия
- Размещены или связаны со страницами более высокого уровня в домене
- Имеют ключевые слова в своем URL (до трех)
Существует возможность выполнить более подробный поиск по всем параметрам ранжирования в скомпилированном поисковом инструменте Роба Осби. Можно заметить, что почти 1000 факторов имеют тег «TG_DEPRECATED», а более 200 указаны как «TG_UNUSED». Поскольку код датирован февралем 2022 года и был получен в июле 2022 года, с тех пор поиск Яндекса, безусловно, изменился. Но утечка дает редкий взгляд на то, как составляются поисковые рейтинги на сайте, который обслуживает одну из крупнейших стран мира.
Ранее код поисковой системы Яндекса появлялся в 2015 году, когда бывший сотрудник попытался продать его на черном рынке за 28 000 долларов, чтобы профинансировать свой собственный стартап. Удивительно низкая цифра для основного кода главного продукта Яндекса свидетельствовала о том, что мошенник не знал о его реальной ценности. Сотрудник тогда был приговорен к двум годам лишения свободы условно, а упомянутый файл с кодом так никогда и не был опубликован.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Подлинная могила Иисуса Христа наконец-то найдена? Итальянские археологи уверены, что их открытие поставит точку в евангельской истории
Под Храмом Гроба Господня обнаружен сад, которому 2000 лет. Именно там, согласно Библии, и был похоронен Сын Божий...
Рассекречены документы об НЛО: что нашли в архиве сотрудника американской ядерной лаборатории?
Сын чиновника передал журналистам папку с документами и фотографиями. Они доказывают, что США десятилетиями изучали неопознанные объекты...
«Титаник» — тайная операция под прикрытием: на самом деле искали вовсе не легендарный корабль
Ученые признаются: это была, пожалуй, самая поразительная история времен Холодной войны...
Засекреченная история первого сбитого южнокорейского «Боинга»: до Сахалина-83 был еще Кольский-78
Как готовили провокацию против СССР, цена дипломатического молчания и горькая расплата...
Секретное климатическое оружие ОАЭ: что же все-таки уничтожил Иран?
Теория заговора или неудобная правда? И можно ли управлять климатом целого региона?...
Снять шляпу — вопрос жизни и смерти: что творилось в Англии XVII века?
В поразительной этой истории смешалось все: король на плахе, домашний арест и даже кодекс разбойников...
Точь-в-точь как группа Дятлова: туристы на Камчатке едва не повторили трагическую историю 1959 года
По словам экспертов, участники похода нарушили правила, написанные кровью, и в итоге расплатились жизнями товарищей...
Q-Day: квантовые компьютеры могут уничтожить современный мир. И этот день уже не за горами
Эксперты рассказали: цифровой апокалипсис способен дотянуться практически до каждого жителя планеты. На весах — существование самой цивилизации...
Секрет древнего мавзолея в Башкирии наконец-то раскрыт: ученые поняли, кто разрушает «вечное» здание
Поразительно, но… это полевые воробьи. Оказалось, что маленькие птички ведут против гробницы Хусейн-бека настоящую химическую войну...
Вместо ездовых собак… полярные медведи: чем закончились эксперименты путешественника Седова?
Животные рванули вперед, и полярник подумал, что у него все получилось. Но радость была недолгой......
Перстень забытого русского героя: о чем рассказал артефакт, 400 лет пролежавший в земле?
Российские ученые «воскресили» россиянина XVII века. Просто поразительно, сколько всего может рассказать одна маленькая вещица...