Правильный Robots.txt для uCoz - Форум

Новые сообщения

Страница 1 из 1 1
Модератор форума: chocopie

Форум » uCoz » Уроки по ucoz » Правильный Robots.txt для uCoz

Правильный Robots.txt для uCoz

Stas90

пользователь

Сообщений: 425

Репутация:

off-line Добавлено: 2013-Мар-14 - 22:55 | Сообщение #1

Здравствуйте ребята. Сегодня речь пойдет об особенностях индексации сайта поисковыми роботами, а именно о всем известном файле robots.txt. Разработчики ucoz избавили нас от ковыряния в системе и ручного составления этого файла. За что им огромное спасибо.
Автоматически созданный роботс представляет собой:

Код

User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/

Sitemap: http://site.ru/sitemap.xml

Придраться тут не к чему, весь мусор сайта запрещен для индексации. Вроде бы мы можем быть спокойны, ведь поисковые роботы, попав на ресурс, обязательно заглянут и в роботс, чтобы случайно не скушать, запрещенные страницы. Однако среди компании ботов есть один необычный. Он как и все бегает по сайтам, индексирует страницы, даже в тот самый текстовый файл с правилами заглядывает, но не всегда эти правила соблюдает. Многие уже наверное догадались, что речь идет о боте Гугла.

Среди вебмастеров, гуглбот известен своим наплевательским отношением к запретам, индексирует все, что попадается на пути. По этому поводу создается огромное количество тем на SEO форумах. Но мы не будем ныть и жаловаться какой гугл плохой, не слушается совсем, а попробуем разобраться, почему алгоритм бота так работает.

Информацию будем искать не на бложигах «сеогуру», а непосредственно в справке поисковика. На странице http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449 описаны тонкости работы с файлом robots.txt. Дабы не заставлять Вас читать всю справку, выделю самые интересные моменты:

Цитата

Файл robots.txt позволяет ограничить доступ к сайту для роботов поисковых систем, сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл robots.txt, который запрещает им доступ к определенным страницам

Цитата

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Согласно информации из второй выдержки, google может игнорировать директивы роботса. Как показывает практика не только «URL, обнаруженные на других страницах в Интернете» приводят к индексации запрещенных страниц, но и внутренние ссылки сайта дают тот же результат.

Как же теперь быть? Смериться с большим количеством мусора в индексе? Хм… попробуем дальше покопаться в справке.

Цитата

Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex или x-robots-tag. По мере сканирования страниц, робот Googlebot обнаружит метатег noindex и не станет отображать страницу в индексе.

Вот! Это именно то, что нужно. Теперь осталось только добавить необходимый метатег на «мусорные» страницы. Но перед тем как мы отправимся в редактор шаблона, нужно разобраться в одном нюансе.

Цитата

Обратите внимание: чтобы увидеть тег noindex, мы должны просканировать вашу страницу, поэтому существует небольшая вероятность, что поисковый робот Googlebot не увидит метатег noindex и не отреагирует на него. Если ваша страница продолжает появляться в результатах, вероятно, мы еще не просканировали ваш сайт после добавления тега. (Кроме того, если вы заблокировали эту страницу с помощью файла robots.txt, мы также не сможем увидеть этот тег.)

То есть в robots.txt не должны, присутствовать директивы запрещающие страницы с метатегом noindex.

Правильный Robots.txt для uCoz

Исходя из вышеописанного, я убрал лишние строчки. И вот что получилось:

Код

User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/2
Disallow: /index/5
Disallow: /index/7
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /shop/order/

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

*site.ru нужно заменить на домен своего сайта.

Использование метатега robots

Теперь направляемся в редактор. Метатег который нужно будет разместить между <head> и </head> выглядит так:

Код

Указать его нужно в шаблонах:

Цитата

Пользователи:
Страница входа пользователей
Страница регистрации пользователей
Персональная страница пользователя
Страница редактирования данных пользователя
Страница со списком пользователей
Страница со списком комментариев пользователя
Страница «Доступ запрещен»

Каталог статей/файлов:
Страница добавления/редактирования материала

Поиск по сайту:
Страница поиска

Будьте внимательны при добавлении тега, и случайно не запретите индексацию страниц с материалами.

Ну все, такими нехитрыми манипуляциями, мы сделали сайт чуточку лучше.

Возможно у некоторых из Вас появится вопрос: а зачем это вообще было нужно, ведь «мусорные» страницы все равно не участвуют в поиске? Что улучшилось то?

1. Чистота индекса сайта. Это не только приятно выглядит, но и показывает уровень профессионализма вебмастера.
2. Улучшается индексация/переиндексация сайта в целом. Робот не будет тратить время на загрузку закрытых страниц.

Кажется, рассказал все что хотел по этой теме, надеюсь, Вам эта информация принесет пользу.

Спасибо за внимание.

Сообщение отредактировал Stas90 - Четверг, 2013-Мар-14, 23:13

профиль цитировать

winkila

VIP

Сообщений: 1157

Репутация:

off-line Добавлено: 2013-Мар-14 - 23:31 | Сообщение #2

ООО молоток! спасибо!

профиль цитировать

manucoz

пользователь

Сообщений: 41

Репутация:

off-line Добавлено: 2013-Апр-09 - 07:47 | Сообщение #3

Гугл не знает что такое "Host: site.ru" так что твой роботекст не правильный)))

профиль цитировать

videtorru

пользователь

Сообщений: 182

Репутация:

off-line Добавлено: 2013-Апр-09 - 11:35 | Сообщение #4

Да роботс отстой извени если обидел

профиль цитировать

OkJkeee

модератор

Сообщений: 1630

Репутация:

off-line Добавлено: 2013-Апр-09 - 11:38 | Сообщение #5

Цитата (manucoz)

Гугл не знает что такое "Host: site.ru" так что твой роботекст не правильный)))

Даже если в гугле в бить вы найдете ответ. А так обычно указывают эту строку для яндекса, этой строкой вы даете понять поисковику, что это основной домен сайта.

Добавлено (09.04.2013, 11:38:39)
---------------------------------------------

Цитата (videtorru)

Да роботс отстой извени если обидел

Для ucoz он только подойдет и все. Для других cms он не правилен.

профиль цитировать

t3p

пользователь

Сообщений: 90

Репутация:

off-line Добавлено: 2014-Май-31 - 22:22 | Сообщение #6

Спасибо!)

профиль цитировать

Форум » uCoz » Уроки по ucoz » Правильный Robots.txt для uCoz

Страница 1 из 1
1

Вы не авторизованы!

Вакансии