Ответ 1
Этот файл позволит всем искателям получить доступ к
User-agent: *
Allow: /
В основном это позволяет всем пользовательским агентам (*) ко всем частям сайта (/).
Мой robots.txt
в Инструментах Google для веб-мастеров отображает следующие значения:
User-agent: *
Allow: /
Что это значит? У меня недостаточно знаний об этом, поэтому я ищу вашу помощь. Я хочу разрешить всем роботам сканировать мой сайт, это правильная конфигурация?
Этот файл позволит всем искателям получить доступ к
User-agent: *
Allow: /
В основном это позволяет всем пользовательским агентам (*) ко всем частям сайта (/).
Если вы хотите разрешить каждому боту сканировать все, это лучший способ указать его в файле robots.txt:
User-agent: *
Disallow:
Обратите внимание, что поле Disallow
имеет пустое значение, что означает в соответствии со спецификацией:
Любое пустое значение указывает, что все URL-адреса могут быть получены.
Твой путь (с Allow: /
вместо Disallow:
) тоже работает, но Allow
не является частью оригинальной спецификации robots.txt, поэтому он не поддерживается всеми ботами (многие из них поддерживают его, однако как Googlebot). При этом нераспознанные поля следует игнорировать, а для ботов, которые не распознают Allow
, результат в любом случае будет таким же: если ничто не запрещено обходить (с помощью Disallow
), все разрешено пополз.
Однако формально (по оригинальной спецификации) его недопустимая запись, потому что требуется хотя бы одно поле Disallow
:
По крайней мере одно поле Disallow должно присутствовать в записи.
Я понимаю, что это довольно старый вопрос и на него есть довольно хорошие ответы. Но вот мои два цента ради полноты.
Согласно официальной документации, есть четыре способа, которыми вы можете предоставить полный доступ для роботов для доступа к вашему сайту.
Укажите глобальное сопоставление с запрещенным сегментом, как упомянуто @unor. Итак, ваш /robots.txt
выглядит следующим образом.
User-agent: *
Disallow:
Создайте файл /robots.txt
без содержимого. Который по умолчанию будет разрешать все для всех типов Bots
.
Не создавайте /robots.txt
в целом. Который должен давать те же результаты, что и два предыдущих.
Из документации роботов для метатегов вы можете использовать следующий метатег на всех своих страницах своего сайта, чтобы сообщить Bots
, что эти страницы не должны быть проиндексированы.
<META NAME="ROBOTS" CONTENT="NOINDEX">
Чтобы это применилось ко всему сайту, вам нужно добавить этот метатег для всех своих страниц. И этот тег должен быть строго размещен под вашим тегом HEAD
на странице. Подробнее об этом метатеге здесь.
Это означает, что вы разрешаете каждому (*
) user-agent/crawler получить доступ к корневому каталогу (/
) вашего сайта. Вы в порядке.