|
|
Модератор форума: chocopie |
Форум » uCoz » Уроки по ucoz » Правильный Robots.txt для uCoz |
Правильный Robots.txt для uCoz |
off-line Добавлено: 2013-Мар-14 - 22:55 | Сообщение #1
Здравствуйте ребята. Сегодня речь пойдет об особенностях индексации сайта поисковыми роботами, а именно о всем известном файле robots.txt. Разработчики ucoz избавили нас от ковыряния в системе и ручного составления этого файла. За что им огромное спасибо.
Автоматически созданный роботс представляет собой: Код User-agent: * Disallow: /a/ Disallow: /stat/ Disallow: /index/1 Disallow: /index/2 Disallow: /index/3 Disallow: /index/5 Disallow: /index/7 Disallow: /index/8 Disallow: /index/9 Disallow: /panel/ Disallow: /admin/ Disallow: /secure/ Disallow: /informer/ Disallow: /mchat Disallow: /search Disallow: /shop/order/ Sitemap: http://site.ru/sitemap.xml Придраться тут не к чему, весь мусор сайта запрещен для индексации. Вроде бы мы можем быть спокойны, ведь поисковые роботы, попав на ресурс, обязательно заглянут и в роботс, чтобы случайно не скушать, запрещенные страницы. Однако среди компании ботов есть один необычный. Он как и все бегает по сайтам, индексирует страницы, даже в тот самый текстовый файл с правилами заглядывает, но не всегда эти правила соблюдает. Многие уже наверное догадались, что речь идет о боте Гугла. Среди вебмастеров, гуглбот известен своим наплевательским отношением к запретам, индексирует все, что попадается на пути. По этому поводу создается огромное количество тем на SEO форумах. Но мы не будем ныть и жаловаться какой гугл плохой, не слушается совсем, а попробуем разобраться, почему алгоритм бота так работает. Информацию будем искать не на бложигах «сеогуру», а непосредственно в справке поисковика. На странице http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449 описаны тонкости работы с файлом robots.txt. Дабы не заставлять Вас читать всю справку, выделю самые интересные моменты: Цитата Файл robots.txt позволяет ограничить доступ к сайту для роботов поисковых систем, сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл robots.txt, который запрещает им доступ к определенным страницам Цитата Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google. Согласно информации из второй выдержки, google может игнорировать директивы роботса. Как показывает практика не только «URL, обнаруженные на других страницах в Интернете» приводят к индексации запрещенных страниц, но и внутренние ссылки сайта дают тот же результат. Как же теперь быть? Смериться с большим количеством мусора в индексе? Хм… попробуем дальше покопаться в справке. Цитата Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex или x-robots-tag. По мере сканирования страниц, робот Googlebot обнаружит метатег noindex и не станет отображать страницу в индексе. Вот! Это именно то, что нужно. Теперь осталось только добавить необходимый метатег на «мусорные» страницы. Но перед тем как мы отправимся в редактор шаблона, нужно разобраться в одном нюансе. Цитата Обратите внимание: чтобы увидеть тег noindex, мы должны просканировать вашу страницу, поэтому существует небольшая вероятность, что поисковый робот Googlebot не увидит метатег noindex и не отреагирует на него. Если ваша страница продолжает появляться в результатах, вероятно, мы еще не просканировали ваш сайт после добавления тега. (Кроме того, если вы заблокировали эту страницу с помощью файла robots.txt, мы также не сможем увидеть этот тег.) То есть в robots.txt не должны, присутствовать директивы запрещающие страницы с метатегом noindex. Правильный Robots.txt для uCoz Исходя из вышеописанного, я убрал лишние строчки. И вот что получилось: Код User-agent: * Disallow: /a/ Disallow: /stat/ Disallow: /index/2 Disallow: /index/5 Disallow: /index/7 Disallow: /index/9 Disallow: /panel/ Disallow: /admin/ Disallow: /secure/ Disallow: /informer/ Disallow: /mchat Disallow: /shop/order/ Host: site.ru Sitemap: http://site.ru/sitemap.xml *site.ru нужно заменить на домен своего сайта. Использование метатега robots Теперь направляемся в редактор. Метатег который нужно будет разместить между <head> и </head> выглядит так: Код <meta name="robots" content="noindex,nofollow" /> Указать его нужно в шаблонах: Цитата Пользователи: Страница входа пользователей Страница регистрации пользователей Персональная страница пользователя Страница редактирования данных пользователя Страница со списком пользователей Страница со списком комментариев пользователя Страница «Доступ запрещен» Каталог статей/файлов: Страница добавления/редактирования материала Поиск по сайту: Страница поиска Будьте внимательны при добавлении тега, и случайно не запретите индексацию страниц с материалами. Ну все, такими нехитрыми манипуляциями, мы сделали сайт чуточку лучше. Возможно у некоторых из Вас появится вопрос: а зачем это вообще было нужно, ведь «мусорные» страницы все равно не участвуют в поиске? Что улучшилось то? 1. Чистота индекса сайта. Это не только приятно выглядит, но и показывает уровень профессионализма вебмастера. 2. Улучшается индексация/переиндексация сайта в целом. Робот не будет тратить время на загрузку закрытых страниц. Кажется, рассказал все что хотел по этой теме, надеюсь, Вам эта информация принесет пользу. Спасибо за внимание. Сообщение отредактировал Stas90 - Четверг, 2013-Мар-14, 23:13
|
off-line Добавлено: 2013-Апр-09 - 07:47 | Сообщение #3
Гугл не знает что такое "Host: site.ru" так что твой роботекст не правильный)))
|
off-line Добавлено: 2013-Апр-09 - 11:35 | Сообщение #4
Да роботс отстой извени если обидел
|
off-line Добавлено: 2013-Апр-09 - 11:38 | Сообщение #5
Цитата (manucoz) Гугл не знает что такое "Host: site.ru" так что твой роботекст не правильный))) Даже если в гугле в бить вы найдете ответ. А так обычно указывают эту строку для яндекса, этой строкой вы даете понять поисковику, что это основной домен сайта. Добавлено (09.04.2013, 11:38:39) Цитата (videtorru) Да роботс отстой извени если обидел Для ucoz он только подойдет и все. Для других cms он не правилен. |
| |||
| |||