Тег <noindex> для Google

Я хочу сказать Google не индексировать некоторые части страницы, в yandex (русский se) есть очень полезный тег под названием <noindex>. как это можно сделать с Google?

Ответы

Ответ 1

Вы можете запретить Google просматривать части страницы, помещая эти фрагменты в iframes, которые блокируются с помощью файла robots.txt.

robots.txt

Disallow: /iframes/

index.html

This text is crawlable, but now you'll see 
text that search engines can't see:
<iframe src="/iframes/hidden.html" width="100%" height=300 scrolling=no>

/iframes/hidden.html

Search engines cannot see this text.

Вместо использования iframes вы можете загрузить содержимое скрытого файла с помощью AJAX. Вот пример, который использует jquery ajax для этого:

his text is crawlable, but now you'll see 
text that search engines can't see:
<div id="hidden"></div>
<script>
    $.get(
        "/iframes/hidden.html",
        function(data){$('#hidden').html(data)},
    );
</script>

Ответ 2

Согласно Wikipedia 1 существуют некоторые правила, которыми следуют пауки:

<!--googleoff: all-->
This should not be indexed by Google. Though its main spider, Googlebot,
might ignore that hint.
<!--googleon: all-->

<div class="robots-nocontent">Yahoo bots won't index this.</div>

<noindex>Yandex bots ignore this text.</noindex>
<!--noindex-->They will ignore this, too.<!--/noindex-->

К сожалению, они не могли договориться о едином стандарте, который, кажется, - и, насколько мне известно, там нечего держать всех пауков...

Комментарий googleoff:, похоже, поддерживает разные параметры, хотя я не уверен, где есть полный список. Там как минимум:

  • все: полностью игнорировать блок
  • index: содержимое не входит в индекс Google
  • anchor: якорный текст для ссылок не будет связан с целевой страницей
  • фрагмент: текст не будет использоваться для создания фрагментов результатов поиска

Заметьте также, что (хотя бы для Google) это повлияет только на индекс поиска, а не на рейтинг страницы и т.д. Кроме того, как Стивен Эстермиллер правильно указал в его комментарий ниже, googleon и googleoff работают только с Google Search Appliance и не влияют на обычный Googlebot, к сожалению.

Также есть статья о части Yahoo 2 (и статья, описывающая, что Yandex также чтит <noindex> 6). На части googleoff: также см. этот ответ, и в статье я взял большую часть связанной информации из. 3


Кроме того, Инструменты Google для веб-мастеров рекомендую использовать атрибут rel=nofollow 4 для определенных ссылок (например, объявления или ссылки на страницы, недоступные/полезные для ботов, такие как login/signup). Это означает, что HTML атрибут rel должен выполняться ботами Google - хотя это в основном связано с рангом страницы, а не с самим индексом поиска, К сожалению, кажется, что нет rel=noindex 5,7. Я также не уверен, может ли этот атрибут использоваться и для других элементов (например, <DIV REL="noindex">); но если сканеры не будут чествовать "noindex", это тоже не имеет смысла.


Дополнительные ссылки:


1Википедия: Noindex
2Какие разделы ваших веб-страниц могут игнорировать поисковые системы?
3Сообщите Google не индексировать некоторые части вашей страницы
4Используйте rel= "nofollow" для определенных ссылок
5Полезно ли использовать <a href="http://name.com" rel="noindex, nofollow">name</a>?
6Использование тегов HTML - Яндекс.Справочник. Webmaster
7существующие значения REL

Ответ 4

Создайте файл robots.txt на своем корневом уровне и вставьте что-то вроде следующего:

Заблокировать Google:

User-agent: Googlebot
Disallow: /myDisallowedDir1/
Disallow: /myDisallowedPage.html
Disallow: /myDisallowedDir2/

Блокировать все боты:

User-agent: *
Disallow: /myDisallowedDir1/
Disallow: /myDisallowedPage.html
Disallow: /myDisallowedDir2/

Удобный генератор robots.txt:

http://www.mcanerin.com/EN/search-engine/robots-txt.asp