Игнорировать URL-адреса в файле robot.txt с определенными параметрами?
Я бы хотел, чтобы Google игнорировал URL-адреса:
http://www.mydomain.com/new-printers?dir=asc&order=price&p=3
Все URL-адреса, которые имеют параметры dir, order и price, должны игнорироваться, но у меня нет опыта с Robots.txt.
Любая идея?
Ответы
Ответ 1
Вот решения, если вы хотите запретить строки запроса:
Disallow: /*?*
или если вы хотите уточнить строку запроса:
Disallow: /*?dir=*&order=*&p=*
Вы также можете добавить в файл robots.txt URL-адрес, чтобы разрешить
Allow: /new-printer$
$
будет проверять только /new-printer
.
Дополнительная информация:
http://code.google.com/web/controlcrawlindex/docs/robots_txt.html
http://sanzon.wordpress.com/2008/04/29/advanced-usage-of-robotstxt-w-querystrings/
Ответ 2
Вы можете заблокировать эти параметры строки запроса со следующими строками
Disallow: /*?*dir=
Disallow: /*?*order=
Disallow: /*?*p=
Итак, если какой-либо URL-адрес содержит dir=
, order=
или p=
в любом месте строки запроса, он будет заблокирован.
Ответ 3
Зарегистрируйте свой сайт с помощью инструментов Google WebMaster. Там вы можете сообщить Google, как работать с вашими параметрами.
Конфигурация сайта → Параметры URL
У вас должны быть страницы, содержащие эти параметры, которые указывают, что они должны быть исключены из индексации с помощью метатега роботов. например