Как филтрирахме ботовете и намалихме степента на отпадане от 90% на 42%
Преди няколко месеца имахме огромна степен на отпадане в Google Анализ. Направихме стандартен набор от действия, които се препоръчва да се извършват в мрежата: създадохме изглед „без паяци и ботове“ в анализа (настройката „Филтриране на роботи“ в изгледа), проверихме качеството на настройките на кода на Анализ, проверихме и конфигурирахме продължителността на сесията и т.н. Всичко това отне време, но не даде резултат. Степента на отпадане в някои дни надхвърля 90%. Въпреки това, качеството на съдържанието на нашия сайт или структурата на входящия трафик не се промени по никакъв очевиден начин. Просто "се случи за една нощ" и това е. Тъй като не намерих нищо подобно описано в мрежата, реших да опиша как намерихме и коригирахме проблема и намалихме степента на отпадане до приемливите 42-55%.
Ето екранна снимка, която илюстрира първоначалния проблем:
В резултат на това просто филтрирах посещения с продължителност 0:00 в Webvisor и реших да опитам да намеря модел. Ето какво получих:

Всеки „посетител“ е влизал от собствената си подмрежа, с изрично посочен User Agent, резолюция на екрана и операционна система, тоест за Metrica и Analytics той по никакъв начин не се е възприемал като бот.


има IP адрес за 4:56, сега ще проверя други обаждания inetnum: 193.150.7.0 - 193.150.7.255 netname: LIGA-UA-NET2 забележки: LIGA ZAKON
Не намерихме нищо интересно в RIPE, незабележими IP адреси от обикновени подмрежи. В допълнение към факта, че ботовете вървяха с интервал от 1:01, нямаше нищо друго явно общо в тях.
Блокирахме целия намерен списък в iptables.
През деня хванахме и няколко нови IP адреса, очертахме алгоритъм за автоматично филтриране на такъв трафик от ботове, в случай че след блокиране на някои ботове те бъдат заменени с нови.Никой друг обаче не е намерен. Имаше само няколко любопитни потребителски агента, но нито един на интервали от 1:01.
След ден степента на отпадане на Google Анализ започна да се възстановява и спадна от 89% на 42,75%.
Днес, почти седмица след описаните събития, степента на отпадане се поддържа в приемлив диапазон от 42-55%, общата динамика може да се види на графиката. Там, където има рязък спад, филтрирахме ботовете.
Имаме само две хипотези за „какво беше“.
Първо, един от нас е конфигурирал неправилно някои мониторни ботове. По едно време си играехме с различен софтуер за проверка на състоянието на сървъра. Те могат да включат нещо и да го забравят. Недостатъкът на тази теория е, че не си спомням нито една услуга, която да декларира, че изпраща заявки от различни подмрежи до различни страници на сайта от различни потребителски агенти. Така че това най-вероятно не е така.
Втората хипотеза: това е някаква форма на бот атака, неизвестна на широката публика, вероятно насочена точно към увеличаване на степента на отпадане и в резултат на това песимизация в резултатите от търсенето с Google.