Palekh "- алгоритъм за търсене на Yandex по смисъл

Традиционно, по-близо до Нова година, Yandex зарадва уеб администраторите с нов алгоритъм. И името на новия алгоритъм е красиво - "Palekh", и нещото е полезно само по себе си!

Основната функция на Palekh е да помогне на Yandex да намери страници не само по ключови думи от заявката, но и просто по смисъл. Оказва се умно търсене. Какво означава? Нека да го разберем.

Приказката за Жар птицата

Вече знаете, че всички заявки за търсене могат да бъдат разделени на три групи в зависимост от честотата на използване в търсенето: високочестотни, средночестотни и нискочестотни.

Всеки ден, според самия Yandex, се обработват около 280 000 потребителски заявки за търсене. Приблизително 40% от които са нискочестотни.

Какво става с огнената птица? Всичко ще бъде сега. Вижте, Yandex използва унифицирана система за търсене на отговор на потребителски заявки, без значение каква честота е заявката. Но отговорите на исканията не винаги са еднакво добри. Защо се случва това?

Въз основа на статистиката Yandex стигна до извода, че всички заявки, въведени в лентата за търсене, могат да бъдат представени като огнена птица, която има:

клюн - това са заявки, които се въвеждат често, но самите заявки са кратки и съставляват малка част от общата маса (нашия обичаен HF);
torso - заявки, които се въвеждат по-рядко от заявки от "клюна", те са с поясняващи думи и са повече от тях в общия обем (обичайният ни среден клас);
опашка - редки, богато украсени искания. По принцип те могат да бъдат зададени в търсенето само няколко пъти, но общо има много такива фрази - повече от 40% (любимите ни LF).

Именно за тези много „опашки“ най-често в Yandex има ниско релевантни отговори.

Тъй като ниска честотаима доста заявки в общата маса, около 100 хиляди на ден, проблемът с получаването на най-подходящия отговор, както се казва, се превърна в ръб и изискваше спешно решение. Най-логичното нещо, което може да се преработи в този случай, е алгоритъмът за отговор.

И така възникна Палех. Между другото, той дойде да замени или по-скоро да помогне на машинното обучение на Matrixnet.

Подобно на други алгоритми, Palekh работи за всички видове заявки. Но най-доброто от всичко е, че работата му може да бъде проследена точно по редки нискочестотни заявки.

Защо имаме нужда от Palekh или защо Matrixnet не може да се справи без него?

Преди това, когато човек въведе заявка, резултатите от търсенето се формираха въз основа на ключовите думи, съставляващи фразата. Ако заявката е била с висока честота, тогава потребителят най-често намира необходимата информация лесно и бързо. Е, ако заявката беше с „дълга опашка“, тогава не винаги беше възможно да се намери полезна информация за първи път.

Възниква разумен въпрос: защо?

За да разбере дали потребителят е получил подходящ отговор, Matrixnet използва „мъдростта на тълпата“ и изгражда формула за класиране въз основа на нея. Ако мнозинството харесва отговора, значи е уместен.

Номерът е, че за високочестотните заявки има много повече данни за поведението на потребителите, отколкото за нискочестотните, и машината, сравнявайки ги, просто намира съответния отговор. Системата „обосновава“ нещо подобно: „Хората, които са търсили по тази заявка, са се преместили от търсенето към този сайт. Не се върнаха към търсенето. В сайта е от доста време. Така те намериха това, което търсеха в сайта. Това означава, че ще бъде правилно за всички останали да показват същия сайт в резултатите за тази заявка.

В случая с LF има малко такива данни (добре, каква статистика, ако заявката е само веднъж aживоти бяха въведени в лентата за търсене), поради което Yandex прекара много време, за да определи уместността на отговора на заявката и лицето, за да намери правилния отговор.

Тъй като не е необходимо да се чака помощ от данни за поведенчески фактори, но е необходимо да се разбере коя страница е подходяща за заявката, Yandex се обърна към технологията на невронната мрежа, за да реши този проблем. В резултат на това светът видя новия алгоритъм на Палех.

Как работи Palekh?

Ако по-рано търсенето се извършваше главно по ключове (има думата „домати“ в заявката и думата „домати“ е на сайта, тогава това е), тогава в Палех не всички се решават с едни и същи думи.

Преди търсенето задачата не е да намерите подобни изрази, а да разберете смисъла на искането и да му отговорите точно. В този случай думите може да са различни в заявката и в отговора. Невронните мрежи помагат на Яша да стигне до дъното на истинското значение.

Изкуствените невронни мрежи са един от най-популярните методи за машинно обучение днес. Технологията вече се използва за разпознаване на много видове информация. Да кажем снимки или музика. В нашия случай говорим за разпознаване на текст.

Изводът е, че система, обучена на положителни и отрицателни примери, сравнява заявките на потребителите и заглавията на страниците и намира най-подходящия отговор.

Какво означава примерна система? В нашия случай примерът е двойка „заглавие и заявка“. Те са избрани от информацията, натрупана от търсачката. Хората задават въпроси всеки ден. Невронната система анализира тези примери и се учи от поведението на потребителите, за да разбере как заявките и заглавията на намерените отговори съответстват един на друг по смисъл, а не в едни и същи думи.

За да може системата да съпостави заявките със заглавките, те се превеждат вспециално триста-измерно пространство, където всяка заявка и заглавка съответстват на група от триста числа. Всичко, за което току-що говорихме по много опростен начин и на пръсти, се нарича „семантичен вектор“.

Тогава всичко е елементарно. Човек въвежда подробна заявка в лентата за търсене. Алгоритъмът го поставя в триста-измерно пространство на съответните паралели и произвежда отговор, който е възможно най-близък до това запитване в симулираната координатна система.

Засега системата не обработва целия текст на ресурса в търсене на отговор, но в бъдеще се планира съдържанието да се прехвърли изцяло в семантични вектори. Това ще ви позволи да разберете по-добре дали сайтът отговаря на изискванията на потребителя и да генерирате най-подходящите резултати от търсенето.

Няколко примера или "Палех" в действие

На теория всичко изглежда сложно, но на практика, ако не измъчвате мозъка си и не се опитвате да си представите това много тристаизмерно пространство, всичко е дори много полезно и готино.

Да кажем, че искате да намерите „онази история, в която пеперудата беше смачкана“. Преди това бихте прекарали много време и резултатът би бил разочароващ. Но днес ще бъде много по-лесно да го направите заедно с Палех.

Вкарваме в търсенето „историята, в която пеперудата беше смачкана“ и в отговор получаваме информация за книгата „Гръм дойде“ от Рей Бредбъри, а не сайтове с „леви“ енциклопедии и истории за пеперуди:

Резултат от търсенето. формирана, като се вземе предвид алгоритъмът на Палех

Друг пример. Да приемем, че искате да намерите „филм, в който докторът даде на момичето бонбон за смях“ за вашето дете.

Макар и не на първо място, но в ТОП 10 има верния отговор "Приключенията на жълтия куфар":

Вместо изход

Само техническиднес оптимизацията не е достатъчна. Търсачките все повече се стремят да предоставят подходящи отговори на качествени сайтове. Няма нужда да повтаряте клавишите 10 пъти в текста, просто пишете по интересен за хората начин. И Палех ще се погрижи да разбере смисъла и да покаже подходящ отговор.

Ще забележите ли "Палех"? Все още е трудно да се каже, ще отнеме време на вашите статистически системи да натрупат данни. Въпреки че не наблюдаваме промени, ако се появи нещо - както обикновено, веднага ще го споделим.

Сега в мрежата има опасения, че безскрупулните SEO специалисти ще започнат да умножават страниците и да ги оптимизират за ниски честоти. Но от друга страна, какъв е смисълът? Има толкова много ниски честоти, че не можете да се приспособите към всичко. И тогава, ако има полезна информация на страниците, защо не. =)