Как работи търсенето в Yandex два важни доклада от първа ръка (бележки на полето)

Петър Попов — Търсене от инженерна гледна точка

Ръководител на отдел „Класиране“ е Петър Попов.

Заобиколете интернет;
Изграждане на индекс за търсене;
Публикуване на индекс за търсене;
Отговор на потребителя.

Yandex познава няколко трилиона URL адреса и заобикаля няколко милиарда от тях на ден. Всичко никога няма да мине. Ние не индексираме всичко, само най-добрите документи.

Това означава, че пълнотата на индекса не ви е гарантирана и трябва да се борите за нея.

В края на 6 минути се показва схематична диаграма, показваща процеса на изграждане на база за търсене. Няма изненади, но е полезно да набиете информацията в главата си.

Ние широко използваме регистрационни файлове на Yandex за изграждане и класиране на индекси. Ако документът се е появил в резултатите от търсенето или освен това потребителят е щракнал върху него, този документ трябва да бъде оставен в базата данни за търсене.

Оттук нататък идеята е незабавно да бутнете периодично летящи страници в индекса - имате нужда от кликвания върху тях от издаването. Това не е измама, която може да съсипе живота на Yandex, така че не трябва да се страхувате твърде много от забрани. Просто натискаме малко везните в нашата посока.

Логично е да се предположи, че връзките от такъв документ водят до добри документи, които би било хубаво да се изтеглят приоритетно.

За да дадем приоритет на обходените документи, ние вземаме цялата графика на връзките и я свързваме с цялото потребителско поведение.

Друга идея: за да ускорим индексирането, поставяме връзки от документи, които събират трафик от търсене. Можете дори да организирате статия с потенциален трафик или няколко на сайта, дори ако няма да има 100% целеви посетители. Методът е в добро съответствие с наблюденията върхупрактика.

Модерната формула на Matrixnet е 100 мегабайта. Опитайте да обърнете!

Отлична причина да не се конкурирате с Yandex по отношение на измама на малки фактори, а да работите на основно ниво. Тоест наистина подобрете сайта и се уверете, че сигналите достигат до търсенето. Няма нищо ужасно в 100 мегабайта - просто трябва да сте по-добри от другите. Напротив, това е добра новина - никаква вътрешна информация няма да помогне на конкурентите.

Любопитен въпрос в 26:23 относно качеството на страницата, решението за включване в индекса или не. Накратко: вземат се много фактори - въз основа на тях се прави прогноза дали изобщо може да влезе в резултатите от търсенето, най-добрите се поставят в базата данни. В същото време се взема предвид размерът на документа - по-обемните е по-вероятно да се появят в резултатите от търсенето поне за някаква заявка.

Основната нишка в презентацията е сложността на цялата система и необходимостта от пестене на ресурси. Затова не си мислете, че търсенето е непосилно умно. Той е умен, но има технически ограничения.

Александър Сафронов - Как да намерим най-добрите отговори

Александър Сафронов - началник на службата за релевантност и лингвистика.

Оценяване чрез оценка на оценители;
SERP A/B тестване (онлайн експерименти върху потребители).

Има около 1500 фактора в търсенето (фактор е число, което характеризира документ или заявка, или връзка заявка-документ). Факторите се комбинират в едно число, документите в изхода се сортират по това крайно число.

Видове фактори

текст (брой срещания, близост на думите, близост до началото ...);
заявка (брой думи…);
документални (присъствени ...);
справка;
персонализиран;
лични;
и т.н.

Машинно обучение

Matrixnet -набор от алгоритми за машинно обучение.

Набор от дървета на решенията, които са избрани така, че чрез сумиране на стойността в листата да получим добра прогноза за резултата за релевантност.

Езикознание

Най-интересните са нещата, свързани с разширяването на заявката:

Първите два параграфа от лингвистиката са повече за разбиране чрез търсене на заявки, които са различни по правопис, но идентични по намерение. Това е "болката" на самото търсене. Но третият е пряко свързан със SEO:

Можем да въвеждаме облак от думи, фрази, други заявки, свързани с тази заявка. Те са свързани с оригиналната заявка с известна тежест. Най-вероятно съответният документ, в допълнение към думите за заявка, ще съдържа тези допълнителни думи (ако наистина отговаря добре на заявката на потребителя).

Тоест: модерният SEO текст, наред с съответствието с класическите фактори за класиране на текст, трябва да съдържа разширения с висока тежест. Висококачественото съдържание без вода ги включва естествено, но за да се увеличи ефектът е необходима допълнителна проверка и включване на различни опции.

Какви са тези разширения? Откъде идват?

Хипотезите се оценяват с помощта на машинно обучение.

Интересни цитати от отговори на въпроси:

Кратко обобщение

За Yandex не само уместността на проблема е важна, но и балансът между уместност и ефективност. Подобряването на ефективността на търсенето е трудна задача (и това е една от причините SEO не умира, а се развива).
Редовно се въвеждат нови фактори, които са далеч от нулева тежест.
Важен източник на данни за търсене е поведението на SERP (и това не са само обичайните фактори за кликване!).
Разширенията на заявките са важна част от оптимизацията на текста. Най-малкото защотоспоред тях документите могат да се различават много, докато основните сигнали (например въвеждане на заглавие) могат да бъдат еднакви за огромен брой страници.