Масштабная утечка кода Яндекса раскрывает факторы ранжирования российской поисковой системы
Почти 45 ГБ файлов с исходным кодом, предположительно украденных бывшим сотрудником, раскрыли основы многих приложений и сервисов российского технологического гиганта «Яндекс». Он также раскрыл ключевые факторы ранжирования для поисковой системы Яндекса, которые почти никогда не раскрываются публично.
Git-исходники Яндекса были опубликованы в виде торрент-файла 25 января и показывают файлы, якобы снятые в июле 2022 года и относящиеся к февралю 2022 года. Инженер-программист Арсений Шестаков утверждает, что при совместной проверке с нынешними и бывшими сотрудниками Яндекса он убедился, что некоторые архивы содержат современный исходный код для сервисов компании. Яндекс сообщил блогу безопасности BleepingComputer, что Яндекс не был взломан и утечка произошла от бывшего сотрудника. «Яндекс» заявил, что не видит угрозы для пользовательских данных или производительности платформы.
В частности, файлы датируются февралем 2022 года, когда Россия начала СВО на Украине. Бывший руководитель Яндекса сказал BleepingComputer, что утечка была «политически мотивирована», и отметил, что бывший сотрудник не пытался продать код конкурентам Яндекса. Код защиты от спама также не просочился.
Хотя неясно, связаны ли раскрытие исходного кода Яндекса с безопасностью или структурными последствиями, утечка 1922 факторов ранжирования в алгоритме поиска Яндекса, безусловно, наделала много шума. Консультант по SEO Мартин Макдональд описал взлом в Твиттере как «вероятно, самое интересное, что произошло в SEO за последние годы». В ветке, подробно описывающей некоторые из наиболее заметных факторов, исследователь Алекс Буракс предполагает, что в обнародованных данных есть много полезной информации и для SEO отдела Google.
Как подробно рассказал Buraks движок Яндекса отдает предпочтение страницам, которые:
Существует возможность выполнить более подробный поиск по всем параметрам ранжирования в скомпилированном поисковом инструменте Роба Осби. Можно заметить, что почти 1000 факторов имеют тег «TG_DEPRECATED», а более 200 указаны как «TG_UNUSED». Поскольку код датирован февралем 2022 года и был получен в июле 2022 года, с тех пор поиск Яндекса, безусловно, изменился. Но утечка дает редкий взгляд на то, как составляются поисковые рейтинги на сайте, который обслуживает одну из крупнейших стран мира.
Ранее код поисковой системы Яндекса появлялся в 2015 году, когда бывший сотрудник попытался продать его на черном рынке за 28 000 долларов, чтобы профинансировать свой собственный стартап. Удивительно низкая цифра для основного кода главного продукта Яндекса свидетельствовала о том, что мошенник не знал о его реальной ценности. Сотрудник тогда был приговорен к двум годам лишения свободы условно, а упомянутый файл с кодом так никогда и не был опубликован.
Git-исходники Яндекса были опубликованы в виде торрент-файла 25 января и показывают файлы, якобы снятые в июле 2022 года и относящиеся к февралю 2022 года. Инженер-программист Арсений Шестаков утверждает, что при совместной проверке с нынешними и бывшими сотрудниками Яндекса он убедился, что некоторые архивы содержат современный исходный код для сервисов компании. Яндекс сообщил блогу безопасности BleepingComputer, что Яндекс не был взломан и утечка произошла от бывшего сотрудника. «Яндекс» заявил, что не видит угрозы для пользовательских данных или производительности платформы.
В частности, файлы датируются февралем 2022 года, когда Россия начала СВО на Украине. Бывший руководитель Яндекса сказал BleepingComputer, что утечка была «политически мотивирована», и отметил, что бывший сотрудник не пытался продать код конкурентам Яндекса. Код защиты от спама также не просочился.
Хотя неясно, связаны ли раскрытие исходного кода Яндекса с безопасностью или структурными последствиями, утечка 1922 факторов ранжирования в алгоритме поиска Яндекса, безусловно, наделала много шума. Консультант по SEO Мартин Макдональд описал взлом в Твиттере как «вероятно, самое интересное, что произошло в SEO за последние годы». В ветке, подробно описывающей некоторые из наиболее заметных факторов, исследователь Алекс Буракс предполагает, что в обнародованных данных есть много полезной информации и для SEO отдела Google.
Как подробно рассказал Buraks движок Яндекса отдает предпочтение страницам, которые:
- Не слишком старые
- Имеют много пользовательского (состоящего из уникальных посетителей) и меньше поискового трафика
- В URL имеют меньше цифр и косых черт
- Размещаются на надежных серверах
- Являются страницами Википедии или на них ссылается Википедия
- Размещены или связаны со страницами более высокого уровня в домене
- Имеют ключевые слова в своем URL (до трех)
Существует возможность выполнить более подробный поиск по всем параметрам ранжирования в скомпилированном поисковом инструменте Роба Осби. Можно заметить, что почти 1000 факторов имеют тег «TG_DEPRECATED», а более 200 указаны как «TG_UNUSED». Поскольку код датирован февралем 2022 года и был получен в июле 2022 года, с тех пор поиск Яндекса, безусловно, изменился. Но утечка дает редкий взгляд на то, как составляются поисковые рейтинги на сайте, который обслуживает одну из крупнейших стран мира.
Ранее код поисковой системы Яндекса появлялся в 2015 году, когда бывший сотрудник попытался продать его на черном рынке за 28 000 долларов, чтобы профинансировать свой собственный стартап. Удивительно низкая цифра для основного кода главного продукта Яндекса свидетельствовала о том, что мошенник не знал о его реальной ценности. Сотрудник тогда был приговорен к двум годам лишения свободы условно, а упомянутый файл с кодом так никогда и не был опубликован.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Эксперты говорят: изобретение ученых из Перми решает одну из самых серьезных и опасных проблем в современной авиации
Американцы потратили на это десятки лет и миллиарды долларов, но открытие сделали в России...
ДНК из ниоткуда: 6000-летние останки в Колумбии ни с кем совпадают по генам. Вообще.
Если у этих людей нет ни предков, ни потомков, то кто они такие?...
Египетская «Зона 51»: Почему власти полностью засекретили «четвертую пирамиду»?
С 60-х годов ХХ века на объект Завиет-эль-Эриан не попал ни один ученый. Что скрывают военные за колючей проволокой?...
Секретные спутники Илона Маска заподозрили в использовании запрещенных сигналов
Что это значит для России и чем могут ответить наши военные?...
Активность нечеловеческого разума вблизи ядерных объектов США, СССР и Великобритании впервые получила научные доказательства
Критики не смогли опровергнуть работу шведских ученых о странных искусственных аномалиях на орбите...
Ученые обнаружили на Кавказе «ужасного» хищника, способного дробить черепа с одного укуса
Почему же 400-килограммовый монстр, побеждавший медведей и саблезубых тигров, все-таки исчез с лица планеты?...
Нападение акул, считавшихся абсолютно безобидными, вызвало шок у морских биологов
Кто виноват в этой ужасной трагедии? И почему эксперты говорят, что это только начало?...
2700 дней понадобилось ученым, чтобы, наконец, раскрыть главную тайну гигантских скатов
Оказалось, что манты ныряют на 1250-метровую глубину вовсе не за едой и не спасаясь от хищников...
В ближайшие 100 лет Юпитер «выстрелит» в Землю как минимум 342 раза
Российские ученые рассчитали: ближайшее «прицеливание» состоится уже 2031 году. Что вообще нам ожидать?...
Ученые говорят: вся жизнь подчиняется одному секретному коду
Но почему это древнее ископаемое отказалось следовать ему?...
Мог ли великий художник Клод Моне видеть в ультрафиолетовом спектре, как пчела?
Историки уверены: после операции на глазах с французским живописцем стали происходит очень странные вещи...
Затонувшие корабли с сокровищами у берегов Китая открывают поразительные факты о Великом морском шелковом пути
Да, это лонгрид! Но после его прочтения ваш взгляд на историю Китая изменится самым коренным образом...
Ученые наконец-то взломали астрономический код цивилизации майя
700 лет точных предсказаний, 145 солнечных затмений: гениальный способ из древности отлично работает до сих пор...