SEO Най-честите грешки, които пречат на един сайт да се класира добре в търсачките
Често сайтовете със страхотно уникално съдържание са трудни за достъп за потребителите на търсачки само защото техните разработчици в един момент не са се погрижили колко правилно тези сайтове могат да бъдат индексирани и класирани от търсачките. По-долу ще разгледаме най-типичните грешки и недостатъци, които пречат на правилното индексиране и класиране на сайтове в търсачките. Тези грешки могат да бъдат разделени на 3 големи групи:
1. Използване на структури, които затрудняват правилното индексиране на документи 2. Запушване на индексите на търсачките с дублирани страници 3. Грешки, които пречат на най-пълното и бързо индексиране и повторно индексиране на сайта
Нека ги разгледаме по-подробно.
1. Използване на структури, които затрудняват правилното индексиране на документи.
Тези грешки могат да накарат търсачките да не могат да индексират някои страници от сайта изцяло или частично, както и да не могат да вземат предвид някои връзки между страниците на сайта.
Точно като скриптовете, Flash не беше индексиран от търсачките доскоро и цялата тази "красота" не попадна в базите данни на търсачките. Наскоро обаче някои търсачки (по-специално Rambler и Yandex) обявиха индексирането на Flash. Въпреки това, не бих препоръчал широкото използване на тази технология, ако искате вашите сайтове да се класират добре в търсачките.
Пренасочване, т.е. пренасочване на потребителя без неговите активни действия към друга страница, има два вида: изпълними от страна на сървъра и от страна на клиента. Пренасочването на клиента е много опасно нещо като цяло,даден сайт може да бъде забранен само за използването му. Факт е, че пренасочването от страна на клиента обикновено се използва за спам на търсачките, използвайки вратички. Роботът индексира, така да се каже, обикновена страница, оптимизирана за всякакви заявки, но когато потребителят влезе в страницата, той се пренасочва към друга страница.
2. Задръстване на индексите на търсачките с дублирани страници.
Неправилни отговори на сървъра.
Друга причина за замърсяване на базата данни на търсачката и прилагане на последващи санкции могат да бъдат неправилни настройки за реакция на сървъра или по-скоро неправилно заглавие на страница, върнато от сървъра.
3. Управление на пълнотата на повторното индексиране на сайта.
Често разработчиците на сайтове не мислят как да осигурят най-бързото и пълно индексиране и повторно индексиране на страниците на сайта. И ако за сравнително малки сайтове с размер от няколко десетки страници това може да не е много уместно, тогава пренебрежителното отношение към този вид неща в случай на сайтове, съдържащи голям брой документи, измерени в стотици и хиляди, може да доведе до факта, че роботите на търсачките постоянно ще индексират отново същите непроменени, неинформативни документи, заобикаляйки основното съдържание на сайта. Има редица техники, които ви позволяват да постигнете по-бързо и пълно индексиране и повторно индексиране на страниците на сайта.
Разделяне на сайта на поддомейни.
Настройка на заглавката на отговора на сървъра за GET и HEAD с поле If-Modified-Since
При повторно индексиране роботите на търсачките изискват документи с поле If-Modified-Since, което съдържа датата на последното повторно индексиране. За статични документи сървърът самостоятелно генерира правилен отговор на такава заявка - 200 OK,ако документът е бил променен след датата, посочена в заявката, или 304 Not Modified, ако не е променен. Във втория случай роботът няма да изтегли документа и да го актуализира в своята база данни.
Въпреки това, за динамични документи, събрани в движение, сървърът може да издаде само 200 OK. Следователно всеки динамичен документ ще бъде изтеглен и индексиран повторно, включително тези, чието съдържание не се е променило наистина след последното повторно индексиране. Понякога такива документи могат да заемат цялата квота, разпределена за индексиране. Тоест търсачката няма да получи никаква нова информация за сайта. Следователно е желателно да се принуди отговор 304 Not Modified в заглавката на отговора за заявки GET и HEAD с поле If-Modified-Since за документи, чиято последна дата на промяна е известна, ако последната дата на промяна е по-ранна от датата в заявката. По този начин роботът ще получи информация, че документът не е променен и, без да го изтегля, ще премине към следващия документ в опашката. Ако роботът има ограничение за броя документи, изтеглени в едно изпълнение, тогава той ще изтегли по-голям брой документи в едно изпълнение, които действително са променени или все още не са индексирани.
Забрана за индексиране на неинформативни или дублиращи се страници на сайта.
Сайтът може да съдържа редица страници, чието съдържание е напълно неинформативно (например страници със фотогалерия, съдържащи само изображения) или дублира съдържанието на други страници (например различни режими на сортиране на информация в таблици). Препоръчително е да забраните такива страници да бъдат индексирани с цел по-бързо и пълно повторно индексиране на други страници от сайта.
Има два начина да предотвратите индексирането на страница от търсачка: използване на мета тагове или файл robots.txtМета тагът "роботи" се използва за забрана:
Следните директиви могат да се използват в атрибута content:
Файлът трябва да съдържа един или повече записи, разделени с един или повече празни реда. Всеки запис се състои от редове във формата:
Записът трябва да започва с един или повече реда на User-Agent, последвани от един или повече реда Disallow. Неразпознатите редове се игнорират.
Редът User-Agent указва името на робота на търсачката, за който страницата не може да бъде индексирана. Yandex има yandex, Rambler има StackRambler, Aport има aport, а Google има googlebot. Ако има няколко робота, за които искате да наложите една и съща забрана, тогава трябва да поставите няколко реда User-Agent в записа един след друг, като във всеки посочвате името на съответния робот. Ако трябва да попречите на страниците да бъдат индексирани от всички роботи, тогава трябва да използвате символа *. Може да има само един такъв запис с полето "User-agent: *" във файла robots.txt.
Всеки запис също трябва да има поне едно поле за забрана. Показва частичния или пълния път (URL) на забранените страници. В редовете с полето Disallow се изписват не абсолютни, а относителни префикси, т.е. това поле не трябва да съдържа името на домейна на сайта - www.site.ru Ако стойността Disallow не е посочена, това означава, че всичко може да бъде индексирано.
Потребителски агент: * Disallow: /script/
Този запис не позволява на всички роботи да индексират файлове, чиито връзки съдържат пътя към директорията /sript/. Символът / се използва за пълно деактивиране на индексирането. Нека попречим на Yandex да индексира сайта:
Потребителски агент: * Disallow: /page3.php;phpessionid
Страницата3.php ще бъде индексирана нормално и всички нейни копия, започващи сpage3.php;phpessionid ще бъде забранено за индексиране.
Наличието на robots.txt на сървъра не е задължително, липсата му, както и празен или неправилно компилиран файл robots.txt ще се интерпретират от робота като разрешение за пълно индексиране на сайта.
Пълната документация за файловия протокол robots.txt е достъпна тук: http://www.robotstxt.org/wc/robots.html.
В заключениеИскам да отбележа, че компетентното решение на всички разгледани проблеми е изключително важна и неразделна част от работата по популяризиране на сайт в търсачките, тъй като пренебрегването на тези проблеми може значително да намали или дори да анулира ефекта от мерките за позициониране на сайта.