Игнорировать URL-адреса в файле robot.txt с определенными параметрами?

Я бы хотел, чтобы Google игнорировал URL-адреса:

http://www.mydomain.com/new-printers?dir=asc&order=price&p=3

Все URL-адреса, которые имеют параметры dir, order и price, должны игнорироваться, но у меня нет опыта с Robots.txt.

Любая идея?

Ответы

Ответ 1

Вот решения, если вы хотите запретить строки запроса:

Disallow: /*?*

или если вы хотите уточнить строку запроса:

Disallow: /*?dir=*&order=*&p=*

Вы также можете добавить в файл robots.txt URL-адрес, чтобы разрешить

Allow: /new-printer$

$ будет проверять только /new-printer.

Дополнительная информация:

http://code.google.com/web/controlcrawlindex/docs/robots_txt.html

http://sanzon.wordpress.com/2008/04/29/advanced-usage-of-robotstxt-w-querystrings/

Ответ 2

Вы можете заблокировать эти параметры строки запроса со следующими строками

Disallow: /*?*dir=
Disallow: /*?*order=
Disallow: /*?*p=

Итак, если какой-либо URL-адрес содержит dir=, order= или p= в любом месте строки запроса, он будет заблокирован.

Ответ 3

Зарегистрируйте свой сайт с помощью инструментов Google WebMaster. Там вы можете сообщить Google, как работать с вашими параметрами.

Конфигурация сайта → Параметры URL

У вас должны быть страницы, содержащие эти параметры, которые указывают, что они должны быть исключены из индексации с помощью метатега роботов. например