Как работи търсенето в Yandex два важни доклада от първа ръка (бележки на полето)
Петър Попов — Търсене от инженерна гледна точка
Ръководител на отдел „Класиране“ е Петър Попов.
- Заобиколете интернет;
- Изграждане на индекс за търсене;
- Публикуване на индекс за търсене;
- Отговор на потребителя.
Yandex познава няколко трилиона URL адреса и заобикаля няколко милиарда от тях на ден. Всичко никога няма да мине. Ние не индексираме всичко, само най-добрите документи.
Това означава, че пълнотата на индекса не ви е гарантирана и трябва да се борите за нея.
В края на 6 минути се показва схематична диаграма, показваща процеса на изграждане на база за търсене. Няма изненади, но е полезно да набиете информацията в главата си.
Ние широко използваме регистрационни файлове на Yandex за изграждане и класиране на индекси. Ако документът се е появил в резултатите от търсенето или освен това потребителят е щракнал върху него, този документ трябва да бъде оставен в базата данни за търсене.
Оттук нататък идеята е незабавно да бутнете периодично летящи страници в индекса - имате нужда от кликвания върху тях от издаването. Това не е измама, която може да съсипе живота на Yandex, така че не трябва да се страхувате твърде много от забрани. Просто натискаме малко везните в нашата посока.
Логично е да се предположи, че връзките от такъв документ водят до добри документи, които би било хубаво да се изтеглят приоритетно.
За да дадем приоритет на обходените документи, ние вземаме цялата графика на връзките и я свързваме с цялото потребителско поведение.
Друга идея: за да ускорим индексирането, поставяме връзки от документи, които събират трафик от търсене. Можете дори да организирате статия с потенциален трафик или няколко на сайта, дори ако няма да има 100% целеви посетители. Методът е в добро съответствие с наблюденията върхупрактика.
Модерната формула на Matrixnet е 100 мегабайта. Опитайте да обърнете!
Отлична причина да не се конкурирате с Yandex по отношение на измама на малки фактори, а да работите на основно ниво. Тоест наистина подобрете сайта и се уверете, че сигналите достигат до търсенето. Няма нищо ужасно в 100 мегабайта - просто трябва да сте по-добри от другите. Напротив, това е добра новина - никаква вътрешна информация няма да помогне на конкурентите.
Любопитен въпрос в 26:23 относно качеството на страницата, решението за включване в индекса или не. Накратко: вземат се много фактори - въз основа на тях се прави прогноза дали изобщо може да влезе в резултатите от търсенето, най-добрите се поставят в базата данни. В същото време се взема предвид размерът на документа - по-обемните е по-вероятно да се появят в резултатите от търсенето поне за някаква заявка.
Основната нишка в презентацията е сложността на цялата система и необходимостта от пестене на ресурси. Затова не си мислете, че търсенето е непосилно умно. Той е умен, но има технически ограничения.
Александър Сафронов - Как да намерим най-добрите отговори
Александър Сафронов - началник на службата за релевантност и лингвистика.
- Оценяване чрез оценка на оценители;
- SERP A/B тестване (онлайн експерименти върху потребители).
Има около 1500 фактора в търсенето (фактор е число, което характеризира документ или заявка, или връзка заявка-документ). Факторите се комбинират в едно число, документите в изхода се сортират по това крайно число.
Видове фактори
- текст (брой срещания, близост на думите, близост до началото ...);
- заявка (брой думи…);
- документални (присъствени ...);
- справка;
- персонализиран;
- лични;
- и т.н.
Машинно обучение
Matrixnet -набор от алгоритми за машинно обучение.
Набор от дървета на решенията, които са избрани така, че чрез сумиране на стойността в листата да получим добра прогноза за резултата за релевантност.
Езикознание
Най-интересните са нещата, свързани с разширяването на заявката:
Първите два параграфа от лингвистиката са повече за разбиране чрез търсене на заявки, които са различни по правопис, но идентични по намерение. Това е "болката" на самото търсене. Но третият е пряко свързан със SEO:
Можем да въвеждаме облак от думи, фрази, други заявки, свързани с тази заявка. Те са свързани с оригиналната заявка с известна тежест. Най-вероятно съответният документ, в допълнение към думите за заявка, ще съдържа тези допълнителни думи (ако наистина отговаря добре на заявката на потребителя).

Какви са тези разширения? Откъде идват?
Хипотезите се оценяват с помощта на машинно обучение.
Интересни цитати от отговори на въпроси:
Кратко обобщение
- За Yandex не само уместността на проблема е важна, но и балансът между уместност и ефективност. Подобряването на ефективността на търсенето е трудна задача (и това е една от причините SEO не умира, а се развива).
- Редовно се въвеждат нови фактори, които са далеч от нулева тежест.
- Важен източник на данни за търсене е поведението на SERP (и това не са само обичайните фактори за кликване!).
- Разширенията на заявките са важна част от оптимизацията на текста. Най-малкото защотоспоред тях документите могат да се различават много, докато основните сигнали (например въвеждане на заглавие) могат да бъдат еднакви за огромен брой страници.