Ответ 1
Это будет работать для всех поисковых систем, поддерживающих поведение, просто добавьте его в <head>
:
<meta name="robots" content="noindex, nofollow" />
Скажем, у меня есть веб-сайт для размещения контента, созданного сообществом, который предназначен для очень определенного набора пользователей. Теперь, скажем, в интересах создания лучшего сообщества, у меня есть тема вне темы, где члены сообщества могут публиковать или говорить о чем угодно, независимо от главной темы сайта.
Теперь я хочу, чтобы большая часть контента была проиндексирована Google. Заметным исключением является внеконкурсный контент. Каждый поток имеет свою собственную страницу, но все потоки перечислены в одной папке, поэтому я не могу просто исключить поисковые системы из папки. Он должен быть на странице. Традиционный файл robots.txt станет огромным, так как же я могу это сделать?
Это будет работать для всех поисковых систем, поддерживающих поведение, просто добавьте его в <head>
:
<meta name="robots" content="noindex, nofollow" />
Если вы используете Apache, я бы использовал mod-rewrite для alias robots.txt для script, который мог бы динамически генерировать необходимый контент.
Изменить: если вы используете IIS, вы можете использовать ISAPIrewrite, чтобы сделать то же самое.
Символично предложению @James Marshall - в ASP.NET вы можете использовать HttpHandler для перенаправления вызовов на robots.txt на script, который сгенерировал контент.
Вы можете реализовать его, заменив robots.txt динамическим script, генерирующим вывод. С помощью Apache вы можете сделать простое правило .htaccess, чтобы добиться этого.
RewriteRule ^robots\.txt$ /robots.php [NC,L]
Только для этого потока убедитесь, что ваша голова содержит метатег noindex. Это еще один способ сказать поисковым системам не сканировать вашу страницу, кроме блокировки в файле robots.txt
Просто имейте в виду, что запрет robots.txt НЕ будет препятствовать Google индексировать страницы, на которых есть ссылки с внешних сайтов, все, что он делает, - это предотвращать сканирование внутри страны. См. http://www.webmasterworld.com/google/4490125.htm или http://www.stonetemple.com/articles/interview-matt-cutts.shtml.
Вы можете запретить поисковым системам читать или индексировать ваш контент, ограничивая метатеги роботов. Таким образом, паук рассмотрит ваши инструкции и проиндексирует только те страницы, которые вы хотите.
блокировать динамическую веб-страницу с помощью robots.txt использовать этот код
Пользовательский агент: *
Запретить:/setnewsprefs?
Запретить:/index.html?
Запретить:/?
Разрешить:/? hl =
Запретить:/? hl = * &