Как настроить robots.txt, чтобы разрешить все?

Мой robots.txt в Инструментах Google для веб-мастеров отображает следующие значения:

User-agent: *
Allow: /

Что это значит? У меня недостаточно знаний об этом, поэтому я ищу вашу помощь. Я хочу разрешить всем роботам сканировать мой сайт, это правильная конфигурация?

Ответы

Ответ 1

Этот файл позволит всем искателям получить доступ к

User-agent: *
Allow: /

В основном это позволяет всем пользовательским агентам (*) ко всем частям сайта (/).

Ответ 2

Если вы хотите разрешить каждому боту сканировать все, это лучший способ указать его в файле robots.txt:

User-agent: *
Disallow:

Обратите внимание, что поле Disallow имеет пустое значение, что означает в соответствии со спецификацией:

Любое пустое значение указывает, что все URL-адреса могут быть получены.

Твой путь (с Allow: / вместо Disallow:) тоже работает, но Allow не является частью оригинальной спецификации robots.txt, поэтому он не поддерживается всеми ботами (многие из них поддерживают его, однако как Googlebot). При этом нераспознанные поля следует игнорировать, а для ботов, которые не распознают Allow, результат в любом случае будет таким же: если ничто не запрещено обходить (с помощью Disallow), все разрешено пополз.
Однако формально (по оригинальной спецификации) его недопустимая запись, потому что требуется хотя бы одно поле Disallow:

По крайней мере одно поле Disallow должно присутствовать в записи.

Ответ 3

Я понимаю, что это довольно старый вопрос и на него есть довольно хорошие ответы. Но вот мои два цента ради полноты.

Согласно официальной документации, есть четыре способа, которыми вы можете предоставить полный доступ для роботов для доступа к вашему сайту.

Чистота:

Укажите глобальное сопоставление с запрещенным сегментом, как упомянуто @unor. Итак, ваш /robots.txt выглядит следующим образом.

User-agent: *
Disallow:

Взломать:

Создайте файл /robots.txt без содержимого. Который по умолчанию будет разрешать все для всех типов Bots.

Мне все равно:

Не создавайте /robots.txt в целом. Который должен давать те же результаты, что и два предыдущих.

Уродливый:

Из документации роботов для метатегов вы можете использовать следующий метатег на всех своих страницах своего сайта, чтобы сообщить Bots, что эти страницы не должны быть проиндексированы.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Чтобы это применилось ко всему сайту, вам нужно добавить этот метатег для всех своих страниц. И этот тег должен быть строго размещен под вашим тегом HEAD на странице. Подробнее об этом метатеге здесь.

Ответ 4

Это означает, что вы разрешаете каждому (*) user-agent/crawler получить доступ к корневому каталогу (/) вашего сайта. Вы в порядке.