Какво представлява и как се работи с него
Много често в мрежата можете да забележите пълно неразбиране на правилата на уеб администратора за работа с инструменти катоrobots.txt, META тагове и REL = NoFollow. Всичко по-горе засяга индексирането, обхождането на съдържанието и разпространението на PageRank (PR) на страниците на сайта и в резултат на това всички грешки при работа с тези инструменти влияят значително на позицията на сайта в резултатите от търсенето, както и на ефективността на сайта. Намирането и отстраняването на причината за такова влияние не е лесно и изисква задълбочени познания от уеб администратора. . В нашата нова поредица от статии ще се опитаме да обясним на нашите читатели какво представляват тези инструменти, защо са създадени, каква е тяхната разлика и как да работят с тях. Нека започнем поредица от статии с файлаRobots.txt.
Всеки уеб администратор и оптимизатор знае, че има такъв файл и къде да го търси. Мнозина са намерили готови шаблони за този файл в Интернет, но почти никой не разбира защо е необходимо всичко това и каква роля играе файлът в живота на сайта.
Robots.txt е специален текстов файл, който се намира в основната папка на уебсайт (например: www.example.com/robots.txt). Използва се от уебмастъри, за да дават инструкции за техния сайт на паяци и роботи на търсачки (това са специални програми за обхождане на сайтове в мрежата и намиране на нова информация). Този файл съдържа информация за това кои страници не трябва да бъдат обхождани и кои трябва да бъдат, можете да посочите максималната възможна скорост за обхождане на сайта (тази опция се използва, ако имате ограничени ресурси), можете да посочите къде се намира Sitemap, XML файла на сайта и т.н.
Една обща употреба наrobots.txt е да каже на роботите кои файлове и папки да сканират и кои да не сканират. Тези процедури иповечето уеб администратори знаят синтаксиса и ние няма да го докосваме. В статията ще се опитаме да отговорим на най-популярните и проблемни въпроси.
Блокирах страница/папка/цял сайт от индексиране с помощта на файла robots.txt. Yandex/Google/Bing/Yahoo ще обхождат ли данните на страницата?
Не, няма да ги сканират. Всички основни търсачки разбират езика на файлаrobots.txt и следват указанията. Но тези манипулации няма да ви предпазят от спам и копиране на материали, тъй като те не зачитат и не следват тези стандарти!
Използвах файл robots.txt, за да блокирам страница/папка/уебсайт. Ще се показва ли в резултатите от търсенето?
ДА! Блокирането на определена страница или част от уебсайт с файлrobots.txt не означава, че той няма да се появи в резултатите от търсенето. Самата страница няма да бъде индексирана, но ако търсачката намери информация за тази страница на други страници на сайта или на други сайтове, тогава блокираната страница ще се появи в търсенето! Информацията за тази страница ще бъде формирана според информация от други страници.
Блокирах вътрешни страници с robots.txt, ще получи ли PageRank?
ДА! PR алгоритъмът не взема под внимание правилата и инструкциите във файлаrobots.txt,, така че входящите връзки, които сочат към блокирана страница, ще й придадат тежест и PR. Освен това, тъй като тези блокирани страници не могат да бъдат обходени от търсачките, външните връзки от такива страници няма да бъдат намерени и обработени. Следователно тези страници ще бъдат маркирани като „незавършени". Това означава, че PageRank, който получават, ще изчезне с времето.