Тег <noindex> для Google
Я хочу сказать Google не индексировать некоторые части страницы, в yandex (русский se) есть очень полезный тег под названием <noindex>
. как это можно сделать с Google?
Ответы
Ответ 1
Вы можете запретить Google просматривать части страницы, помещая эти фрагменты в iframes, которые блокируются с помощью файла robots.txt.
robots.txt
Disallow: /iframes/
index.html
This text is crawlable, but now you'll see
text that search engines can't see:
<iframe src="/iframes/hidden.html" width="100%" height=300 scrolling=no>
/iframes/hidden.html
Search engines cannot see this text.
Вместо использования iframes вы можете загрузить содержимое скрытого файла с помощью AJAX. Вот пример, который использует jquery ajax для этого:
his text is crawlable, but now you'll see
text that search engines can't see:
<div id="hidden"></div>
<script>
$.get(
"/iframes/hidden.html",
function(data){$('#hidden').html(data)},
);
</script>
Ответ 2
Согласно Wikipedia 1 существуют некоторые правила, которыми следуют пауки:
<!--googleoff: all-->
This should not be indexed by Google. Though its main spider, Googlebot,
might ignore that hint.
<!--googleon: all-->
<div class="robots-nocontent">Yahoo bots won't index this.</div>
<noindex>Yandex bots ignore this text.</noindex>
<!--noindex-->They will ignore this, too.<!--/noindex-->
К сожалению, они не могли договориться о едином стандарте, который, кажется, - и, насколько мне известно, там нечего держать всех пауков...
Комментарий googleoff:
, похоже, поддерживает разные параметры, хотя я не уверен, где есть полный список. Там как минимум:
- все: полностью игнорировать блок
- index: содержимое не входит в индекс Google
- anchor: якорный текст для ссылок не будет связан с целевой страницей
- фрагмент: текст не будет использоваться для создания фрагментов результатов поиска
Заметьте также, что (хотя бы для Google) это повлияет только на индекс поиска, а не на рейтинг страницы и т.д. Кроме того, как Стивен Эстермиллер правильно указал в его комментарий ниже, googleon
и googleoff
работают только с Google Search Appliance и не влияют на обычный Googlebot, к сожалению.
Также есть статья о части Yahoo 2 (и статья, описывающая, что Yandex также чтит <noindex>
6). На части googleoff:
также см. этот ответ, и в статье я взял большую часть связанной информации из. 3
Кроме того, Инструменты Google для веб-мастеров рекомендую использовать атрибут rel=nofollow
4 для определенных ссылок (например, объявления или ссылки на страницы, недоступные/полезные для ботов, такие как login/signup). Это означает, что HTML атрибут rel должен выполняться ботами Google - хотя это в основном связано с рангом страницы, а не с самим индексом поиска, К сожалению, кажется, что нет rel=noindex
5,7. Я также не уверен, может ли этот атрибут использоваться и для других элементов (например, <DIV REL="noindex">
); но если сканеры не будут чествовать "noindex", это тоже не имеет смысла.
Дополнительные ссылки:
1Википедия: Noindex
2Какие разделы ваших веб-страниц могут игнорировать поисковые системы?
3Сообщите Google не индексировать некоторые части вашей страницы
4Используйте rel= "nofollow" для определенных ссылок
5Полезно ли использовать <a href="http://name.com" rel="noindex, nofollow">name</a>
?
6Использование тегов HTML - Яндекс.Справочник. Webmaster
7существующие значения REL
Ответ 3
Нет, Google не поддерживает тег <noindex>
. Практически никто не делает.
Ответ 4
Создайте файл robots.txt на своем корневом уровне и вставьте что-то вроде следующего:
Заблокировать Google:
User-agent: Googlebot
Disallow: /myDisallowedDir1/
Disallow: /myDisallowedPage.html
Disallow: /myDisallowedDir2/
Блокировать все боты:
User-agent: *
Disallow: /myDisallowedDir1/
Disallow: /myDisallowedPage.html
Disallow: /myDisallowedDir2/
Удобный генератор robots.txt:
http://www.mcanerin.com/EN/search-engine/robots-txt.asp