Контрол върху търсачките

Контрол върху търсачките

В този урок ще говорим за:

Най-често срещаните указания за ботове
Изключване на параметри в Инструменти за уеб администратори

Robots.txt

Еднакво важно е както да бъдете сигурни, че търсещите машини имат достъп до съдържанието ви, така и да се уверите, че сте ограничили техния достъп до съдържание, което не искате да обхождат или да индексират.

Всички етични търсачки са съгласни със стандарта за изключване на роботи – http://en.wikipedia.org/wiki/Robots_exclusion_standard, което означава, че обхождат файла robots.txt, за да видят кои части от един уеб сайт им е разрешено да индексират. За да направите уверен избор относно инструментите, описани по-долу, трябва добре да разбирате каква е разликата между обхождане (crawling ) и индексиране (indexing).

Ако не сте сигурни за различните варианти, ви съветваме, преди да продължите с този урок, да прегледате подробното представяне на Google “Как работи търсенето”, достъпно на български език: http://www.google.bg/intl/bg/insidesearch/howsearchworks/

Meta name=”robots”

Index,follow (Индексирай, следвай)

По подразбиране при всички страници на един уеб сайт се следва указанието “index,follow”, освен ако не е зададено друго. Това по същество означава “Добави или запази тази страница в индекса на мрежата и следвай връзките, освен ако те не са обозначени (маркирани) с “nofollow”.
Не е необходимо да имате този мета таг на уеб страницата, но все още можете да го видите по подразбиране на някои страници, в зависимост от системата за управление на съдържание (CMS).

HTML вариант на описаното по-горе:

<META NAME="ROBOTS" CONTENT="INDEX, FOLLOW">

Изброеното се поставя в частта <head> </head> на страницата по следния начин:
<html>
<head>
<title>Заглавие на страницата</title>
<META NAME="ROBOTS" CONTENT="INDEX, FOLLOW">
</head>

Noindex,Follow (Не индексирай, следвай)

Както подсказва името на това указание, частта “noindex” указва на търсещите машини да не индексират страницата (забележете, че това не означава да не я обхождат). Частта, наречена “follow”, показва на търсачките, че искате от тях да следват връзките на страницата. Това е полезно ако на вашия сайт имате страници, които не искате да класирате, но имате нужда търсачките да могат да ги обхождат и да намират страници, към които има връзки само от същите тези страници. Страницирането (pagination) е типичен пример за това кога бихте могли да използвате описания подход. Пример в HTML вариант:

<meta name="robots" content="NOINDEX, FOLLOW">

Noindex,NoFollow (Не индексирай, не следвай)

Това указание трябва да бъде използвано пестеливо. Обикновено се нуждаете от това всички връзки на страницата да бъдат следвани, дори и да не искате да бъдат индексирани. Помнете, че дори и една страница да има “noindex” указание, тя все още може да предава тежест. Има случаи все пак, в които бихте използвали “noindex, nofollow”. Например, ако всички връзки на съответната страница сочат към дублирано съдържание, или ако съдържанието изцяло е генерирано от потребителите и е възможно да съдържа спам, тъй като не е било прегледано. В изброените случаи вероятно ще искате да ползвате noindex,nofollow на страниците.

И една последна бележка относно ползването на указания за роботи. По подразбиране, meta name=”robots” означава, че указанията важат за всички роботи.

Ако искате да забраните (disallow) само на определени роботи да индексират страниците ви, бихте могли да замените “robots” с името на търсачките, които искате да таргетирате. Например, ако искате да кажете единствено на Googlebot да не индексира и да следва връзките на страницата, бихте използвали следното:

<meta name="Googlebot" content="INDEX, FOLLOW">

Тук е достъпен списък с търсещи ботовe: robotstxt.org

Настройки на Инструменти за уеб администратори

Инструментите на Bing и Google вече също дават възможност да се каже на търсещите машини как да се отнасят към страници с параметри, които биха могли да се окажат объркващи за търсачките. По-долу ви представяме инструкции за това как да използвате тези възможности.
Инструменти за уеб администратори на Google

Влезте в Инструменти за уеб администратори на Google, след това кликнете последователно (показано на изображението) на “Configuration” -> “URL Parameters”:

Google Webmaster tools

Правейки това, вие подсказвате на Google как да се справят с параметрите, които открият. От Google не гарантират, че ще използват тези настройки. Примерът по-долу показва страницата с параметри за акаунта на Distilled в Инструментите за уеб администратори:

url parameters

Инструменти за уеб администратори на Bing

Инструментите за уеб администратори на Bing правят процеса по изключване на параметри лесен. Под “Index” кликнете върху “URL Normalization tab”. След това ще ви бъдат представени различни параметри, които са били открити, както е показано на снимката по-долу.
Накрая изберете параметъра, който искате да промените, и кликнете “Enable”, както е показано по-горе. В последствие Bingbot ще се отнася към всеки URL с тези параметри, като към същия URL.

Robots.txt

Файлът robots.txt е обикновен текстов файл, който се намира в “root folder”, така че да е достъпен за търсачките на следния адрес: http://www.domain.com/robots.txt.

Файлът robots.txt се основава на регулярни изрази (RegEx) и се използва, за да спира търсещите машини да обхождат и индексират определени част от вашия сайт.

Последното изречение е толкова важно, че си заслужава да се повтори още веднъж. Ако блокирате URL, подпапка, или определен параметър в robots.txt, търсачките няма да обхождат тези страници въобще и всякакви връзки от тях няма да бъдат считани за част от вътрешната свързаност на сайта ви. В частност, всякакви инструкции за роботи ще бъдат игнорирани, тъй като няма да бъдат видими за търсещите машини.

Основен формат на Robots.txt

Основният формат на файл robots.txt е:

User-agent: *
Disallow: *
Sitemap:

Главните части са:

User-Agent: С това можете да укажете името на робота, който искате да ограничите. Ако искате да приложите всички ваши настройки за всички ботове, използвайте “*”. Редът би изглеждал така: “User-Agent: *”

Allow: Тук можете да укажете кои страници искате да бъдат индексирани. Ако искате всички части на вашия сайт да бъдат индексирани, можете просто да сложите “/”. Редът би изглеждал така: “Allow: /”. Или можете просто да оставите този ред (препоръчително).

Disallow: С това определяте части от вашия сайт, до които искате изцяло да ограничите достъпа. Например, ако искате да се ограничите обхождането и индексирането на частта Admin от сайта ви, добавете “/admin”. Това изцяло ще забрани достъпа до всички файлове в папката Admin. Забраната ще включва и раздели като “http://www.examplesite.com/admin/login” или “http://www.examplesite.com/admin/secretfile”.

Помнете, че всеки забранен URL адрес или папка трябва да бъде сложен на отделен ред.

Sitemap: С това указвате пътя към sitemap.xml. Редът с кода би изглеждал така: “http://www.examplesite.com/sitemap.xml”
Можете също така да укажете множество карти на сайтове, като например карти за новини или видео. Разгледайте файла robots.txt на CNN (http://edition.cnn.com/robots.txt), където са посочени множество карти на сайта, като например такива за новини и видео.

Тестване на файла robots.txt в Инструменти за уеб администратори

Можете да тествате вашия файл robots.txt директно в Инструментите за уеб администратори, за да сте сигурни, че няма да блокирате важни страници, като например началната ви страница.

За да направите това, отидете в “Health” > “Blocked URLs” в Инструменти за уеб администратори:

blocked url

С помощта на двете полета под изброените карти на сайта имате възможност да редактирате файла robots.txt преди да го пуснете, за да се уверите, че няма да блокира важни страници.

Упражнения след урока:

Какви са разликите между обхождането и индексирането?
Кога би било подходящо да се ограничи обхождането?

В тази статия са използвани материали от ресурси на Distilled и Moz

Google+ коментари

Коментари