Масштабная утечка кода Яндекса раскрывает факторы ранжирования российской поисковой системы
Почти 45 ГБ файлов с исходным кодом, предположительно украденных бывшим сотрудником, раскрыли основы многих приложений и сервисов российского технологического гиганта «Яндекс». Он также раскрыл ключевые факторы ранжирования для поисковой системы Яндекса, которые почти никогда не раскрываются публично.
Git-исходники Яндекса были опубликованы в виде торрент-файла 25 января и показывают файлы, якобы снятые в июле 2022 года и относящиеся к февралю 2022 года. Инженер-программист Арсений Шестаков утверждает, что при совместной проверке с нынешними и бывшими сотрудниками Яндекса он убедился, что некоторые архивы содержат современный исходный код для сервисов компании. Яндекс сообщил блогу безопасности BleepingComputer, что Яндекс не был взломан и утечка произошла от бывшего сотрудника. «Яндекс» заявил, что не видит угрозы для пользовательских данных или производительности платформы.
В частности, файлы датируются февралем 2022 года, когда Россия начала СВО на Украине. Бывший руководитель Яндекса сказал BleepingComputer, что утечка была «политически мотивирована», и отметил, что бывший сотрудник не пытался продать код конкурентам Яндекса. Код защиты от спама также не просочился.
Хотя неясно, связаны ли раскрытие исходного кода Яндекса с безопасностью или структурными последствиями, утечка 1922 факторов ранжирования в алгоритме поиска Яндекса, безусловно, наделала много шума. Консультант по SEO Мартин Макдональд описал взлом в Твиттере как «вероятно, самое интересное, что произошло в SEO за последние годы». В ветке, подробно описывающей некоторые из наиболее заметных факторов, исследователь Алекс Буракс предполагает, что в обнародованных данных есть много полезной информации и для SEO отдела Google.
Как подробно рассказал Buraks движок Яндекса отдает предпочтение страницам, которые:
Существует возможность выполнить более подробный поиск по всем параметрам ранжирования в скомпилированном поисковом инструменте Роба Осби. Можно заметить, что почти 1000 факторов имеют тег «TG_DEPRECATED», а более 200 указаны как «TG_UNUSED». Поскольку код датирован февралем 2022 года и был получен в июле 2022 года, с тех пор поиск Яндекса, безусловно, изменился. Но утечка дает редкий взгляд на то, как составляются поисковые рейтинги на сайте, который обслуживает одну из крупнейших стран мира.
Ранее код поисковой системы Яндекса появлялся в 2015 году, когда бывший сотрудник попытался продать его на черном рынке за 28 000 долларов, чтобы профинансировать свой собственный стартап. Удивительно низкая цифра для основного кода главного продукта Яндекса свидетельствовала о том, что мошенник не знал о его реальной ценности. Сотрудник тогда был приговорен к двум годам лишения свободы условно, а упомянутый файл с кодом так никогда и не был опубликован.
Git-исходники Яндекса были опубликованы в виде торрент-файла 25 января и показывают файлы, якобы снятые в июле 2022 года и относящиеся к февралю 2022 года. Инженер-программист Арсений Шестаков утверждает, что при совместной проверке с нынешними и бывшими сотрудниками Яндекса он убедился, что некоторые архивы содержат современный исходный код для сервисов компании. Яндекс сообщил блогу безопасности BleepingComputer, что Яндекс не был взломан и утечка произошла от бывшего сотрудника. «Яндекс» заявил, что не видит угрозы для пользовательских данных или производительности платформы.
В частности, файлы датируются февралем 2022 года, когда Россия начала СВО на Украине. Бывший руководитель Яндекса сказал BleepingComputer, что утечка была «политически мотивирована», и отметил, что бывший сотрудник не пытался продать код конкурентам Яндекса. Код защиты от спама также не просочился.
Хотя неясно, связаны ли раскрытие исходного кода Яндекса с безопасностью или структурными последствиями, утечка 1922 факторов ранжирования в алгоритме поиска Яндекса, безусловно, наделала много шума. Консультант по SEO Мартин Макдональд описал взлом в Твиттере как «вероятно, самое интересное, что произошло в SEO за последние годы». В ветке, подробно описывающей некоторые из наиболее заметных факторов, исследователь Алекс Буракс предполагает, что в обнародованных данных есть много полезной информации и для SEO отдела Google.
Как подробно рассказал Buraks движок Яндекса отдает предпочтение страницам, которые:
- Не слишком старые
- Имеют много пользовательского (состоящего из уникальных посетителей) и меньше поискового трафика
- В URL имеют меньше цифр и косых черт
- Размещаются на надежных серверах
- Являются страницами Википедии или на них ссылается Википедия
- Размещены или связаны со страницами более высокого уровня в домене
- Имеют ключевые слова в своем URL (до трех)
Существует возможность выполнить более подробный поиск по всем параметрам ранжирования в скомпилированном поисковом инструменте Роба Осби. Можно заметить, что почти 1000 факторов имеют тег «TG_DEPRECATED», а более 200 указаны как «TG_UNUSED». Поскольку код датирован февралем 2022 года и был получен в июле 2022 года, с тех пор поиск Яндекса, безусловно, изменился. Но утечка дает редкий взгляд на то, как составляются поисковые рейтинги на сайте, который обслуживает одну из крупнейших стран мира.
Ранее код поисковой системы Яндекса появлялся в 2015 году, когда бывший сотрудник попытался продать его на черном рынке за 28 000 долларов, чтобы профинансировать свой собственный стартап. Удивительно низкая цифра для основного кода главного продукта Яндекса свидетельствовала о том, что мошенник не знал о его реальной ценности. Сотрудник тогда был приговорен к двум годам лишения свободы условно, а упомянутый файл с кодом так никогда и не был опубликован.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Раскрыта главная тайна антарктического льда: ученые узнали, как и кем была взломана природная защита Шестого континента
Похоже, той Антарктиде, которую мы знаем, приходит конец. Впрочем, это не точно...
Древнеримский артефакт переписывает историю Америки: Колумб был не первым?
Почему находка из индейской могилы почти 100 лет вызывает ожесточенные споры среди археологов и историков?...
Тайна гибели сибирского «Титаника»: почему некоторые детали катастрофы 1921 года неизвестны даже сейчас?
Поразительно, но тогда судьи единогласно оправдали капитана парохода. Так кто же тогда был виновником этого страшного происшествия?...
Еще раз об убийстве Андрея Боголюбского: что рассказали кости погибшего князя?
Профессор судебной медицины поправил историков и выявил неточности древних летописей...
Японец 26 лет ждал, пока раскроют убийство его жены. Часть 2. Расплата
Как наука отменила срок давности у преступления? И какая тайна осталась не раскрытой?...
Японец 26 лет ждал, пока раскроют убийство его жены
Как новейшие технологии помогли сдвинуть с места нераскрываемое дело...
Главный секрет человеческого дыхания: ученые рассказали, почему мы дышим «вахтовым методом»
Эксперты предупреждают: из-за особенности организма многие люди не смогут попасть в космос. Но решение все-таки есть...
Жители Анд переписали свою ДНК: почему горные индейцы пьют ядовитую воду, но чувствуют себя при этом хорошо?
По словам ученых, эволюция сделала красивый и хитрый ход. И это не иммунитет к токсинам, а нечто другое, более интересное...
43 000 черепков открыли тысячелетние тайны Древнего Египта
Почему глиняная библиотека Атрибиса потрясла весь археологический мир?...
Ядерный взрыв на Луне: для чего советские ученые хотели провести такой грандиозный эксперимент?
Зачем России атомный реактор на Луне и как он поможет нам добраться до Венеры?...
Почему эти меры не спасут Антарктиду: пять проектов по спасению ледников оказались провалом
Эксперт жестко проанализировал самые популярные программы по сохранению льда на Шестом континенте. Увы, они оказались невыполнимой фантастикой, причем опасно...