Ответ 1
Google поддерживает подстановочные знаки в файле robots.txt. Следующая директива в robots.txt предотвратит сканирование Googlebot на любой странице с любыми параметрами:
Disallow: /*?
Это не помешает многим другим паукам сканировать эти URL-адреса, потому что подстановочные знаки не являются частью стандартного файла robots.txt.
Google может занять свое время, чтобы удалить заблокированные из индекса поиска URL-адреса. Дополнительные URL-адреса могут по-прежнему индексироваться в течение нескольких месяцев. Вы можете ускорить процесс, используя функцию "Удалить URL-адреса" в инструментах для веб-мастеров после их блокировки. Но это ручной процесс, когда вам нужно вставлять каждый отдельный URL-адрес, который вы хотите удалить.
Это может также повредить вашему сайту рейтинг Google для использования этого правила robots.txt в случае, если Googlbot не находит версию URL без параметров. Если вы обычно ссылаетесь на версии с параметрами, вы, вероятно, не хотите их блокировать в файле robots.txt. Было бы лучше использовать один из других вариантов ниже.
Лучше всего использовать rel канонический метатег на каждой из ваших страниц.
Таким образом, оба примера URL-адреса будут иметь следующий раздел:
<link rel="canonical" href="http://www.site.com/shop/maxi-dress">
Это говорит Googlebot не индексировать так много вариантов страницы, а только индексировать "каноническую" версию URL-адреса, который вы выберете. В отличие от использования robots.txt, Googlebot все равно сможет сканировать все ваши страницы и присвоить им значение, даже если они используют различные параметры URL.
Другой вариант - войти в Инструменты Google для веб-мастеров и использовать функцию "Параметры URL", которая находится в разделе "Сканирование".
После этого нажмите "Добавить параметр". Вы можете установить "product_type" на "Не влияет на содержимое страницы", чтобы Google не сканировал и не индексировал страницы с этим параметром.
Сделайте то же самое для каждого из параметров, которые вы используете, которые не меняют страницу.