Колко важен е API или сравняваме действителния резултат

Винаги съм се чудил дали има разлика между резултатите от търсенето на Yandex и техния API (xml.yandex.ru), който решава същите задачи (официална позиция: Yandex.XML - възможността да правите заявки за търсене към Yandex и да публикувате резултати от търсенето на вашия сайт).

Известно е, че данните в Yandex.Webmaster винаги са много закъснели и не са в съответствие с реалността: информацията, която може да бъде получена чрез издаване (броят на индексираните страници, връзки и т.н.), се появява в JVM само след няколко дни.

Като цяло това е много интересна метрика (например, колкото по-често даден сайт се показва в резултатите от търсенето, толкова по-често антивирусният бот Yandex проверява страницата). Миналата година току-що го получих чрез анализ на 3k заявки от различни групи. Тези данни могат да бъдат обсъдени в отделна статия. И за първи път чух този термин на Yet Another Conference 2013, в отдела за сигурност.

Но обратно към XML.

1. Взети са 2778 заявки от 4 групи (търговия, теми за жените, туризъм, заявки за информация) 2. Анализът на резултатите от търсенето беше стартиран почти по същото време (анализът на xml отнема повече време поради вътрешни ограничения) 3. За достъп до Y.XML взехме собствени лимити от Y.Webmaster, за анализиране на издаването - затворена прокси услуга. В името на чистотата на експеримента беше посочен регион lr=1 (географията на IP прокси услугата е RU (от Huiz), Москва е посочена в полето за адрес).

Малко за минусите на XML:

Повечето несъответствия са плюс или минус 1 позиция. Малко по-малко - плюс или минус 5 позиции Много малко - други сайтове на позиции.

Съвпадение на позиции - 75% Не съвпадение - 25%

Ще се радвам да посоча възможните грешки и най-вече да сравня с резултатите от подобни експерименти.

  • случаенизбор с подчертани данни: yadi.sk/i/i4imHJ8qmvgTd
  • Всички резултати в csv: yadi.sk/d/X5SYWxl7mvgUe
  • Основен дъмп: yadi.sk/d/O5viMlrRmvgKD
Числата в резултатите са честотата на заявките според wordstat (общо и точно), те всъщност не играят роля, но просто съществуват

И тук можете да получите грант за тестов период на Yandex.Cloud. Необходимо е само да въведете "Habr" в полето "секретна парола".