Индексиране в търсачки

Водещите търсачки на Google, Yahoo! и Microsoft използват паяци (spider, bot) за намиране на страници за алгоритъма, изчисляващ резултатите от търсенето. Страници, към които има връзки в индекса на другите търсачки нямат нужда от представяне, защото биват откривани автоматично.

Google предлага Google Webmaster Tools, с които безплатно се създава и добавя XML Sitemap, за да бъде сигурно, че всички страници ще бъдат открити, особено страниците, които нямат линкове към себе си.

Предотвратяване на индексирането

За да се избегне нежелано съдържание при индексирането от търсачките, уебмастърите могат да инструктират паяците да не обхождат определени файлове чрез стандарен robots.txt файл в главната директория на домейна. Освен това страницата може да бъде изключена пряко от базата данни на търсачката чрез използване на специфичен meta tag (noindex), предназначен за роботите. Когато търсачката посещава даден уеб-сайт, първия файл, който обхождат нейните роботи в главната директория е robots.txt. Robots.txt файлът се анализира и чрез него ботовете получават инструкции кои страници да не обхождат. Поради това, че паякът може да е кеширал такъв файл, той може и да обходи страници, които уебмастърът не иска да бъдат индексирани. Страниците, обикновено забранени за индексиране са специфичните страници с данни на потребителите, съдържащи имена, пароли и друга лична информация, като потребителски кошници и специфично съдържание на потребителя – като резултати от търсене във външни източници.

През март 2007 Google предупреди уебмастърите, че те трябва да предотвратят индексирането на историята на търсене във външни източници и тези данни ще се приемат за search spam.

Google+ коментари