Как остановить поисковые системы от сканирования всего веб-сайта?

Я хочу остановить поисковые системы от сканирования всего моего сайта.

У меня есть веб-приложение для использования членами компании. Это размещается на веб-сервере, чтобы сотрудники компании могли получить к нему доступ. Никто другой (общественность) не нуждается в нем или не считает это полезным.

Итак, я хочу добавить еще один уровень безопасности (в теории), чтобы попытаться предотвратить несанкционированный доступ, полностью удалив доступ к нему всеми поисковыми роботами/искателями. Благодаря индексу Google наш сайт, чтобы сделать его доступным для поиска, бессмысленно с точки зрения бизнеса и просто добавляет другой способ для хакера найти веб-сайт в первую очередь, чтобы попытаться его взломать.

Я знаю, что в robots.txt вы можете указать поисковым системам не сканировать определенные каталоги.

Можно ли сказать ботам, чтобы они не сканировали весь сайт без необходимости перечислять все каталоги, которые не сканируются?

Это лучше всего сделать с помощью robots.txt или лучше сделать это с помощью .htaccess или другого?

Ответы

Ответ 1

Лучше всего обрабатывать файл robots.txt, только для ботов, которые уважают файл.

Чтобы заблокировать весь сайт, добавьте его в robots.txt в корневой каталог вашего сайта:

User-agent: *
Disallow: /

Чтобы ограничить доступ к вашему сайту для всех остальных, .htaccess лучше, но вам нужно будет определить правила доступа, например, по IP-адресу.

Ниже приведены правила .htaccess, позволяющие ограничить всех, кроме ваших людей, от вашей компании IP:

Order allow,deny
# Enter your companies IP address here
Allow from 255.1.1.1
Deny from all 

Ответ 2

Использование robots.txt для сохранения сайта вне индексов поисковой системы одна незначительная и малоизвестная проблема: если кто-либо ссылается на ваш сайт с любой страницы, проиндексированной Google (что должно было случиться для Google, чтобы найти ваш сайт в любом случае, robots.txt или нет), Google может по-прежнему индексировать ссылку и покажите его как часть результатов поиска, даже если вы не позволите им получить страницу, на которую указывает ссылка.

Если это может быть проблемой для вас, решение состоит в том, чтобы не использовать robots.txt, а вместо этого включать метатег robots со значением noindex,nofollow на каждой странице вашего сайта. Вы даже можете сделать это в файле .htaccess, используя mod_headers и заголовок HTTP X-Robots-Tag:

Header set X-Robots-Tag noindex,nofollow

Эта директива добавит заголовок X-Robots-Tag: noindex,nofollow к каждой странице, к которой он относится, включая страницы, отличные от HTML, такие как изображения. Конечно, вы можете также включить соответствующий метатег HTML, на всякий случай (это более старый стандарт и, предположительно, более широко поддерживается):

<meta name="robots" content="noindex,nofollow" />

Обратите внимание, что если вы это сделаете, Googlebot все равно попытается выполнить обход любых ссылок, которые он находит на вашем сайте, так как он должен получить страницу, прежде чем она увидит заголовок/метатег. Конечно, некоторые из них вполне могут рассмотреть эту функцию вместо ошибки, поскольку она позволяет вам просматривать журналы доступа, чтобы узнать, нашли ли Google какие-либо ссылки на ваш сайт.

В любом случае, что бы вы ни делали, имейте в виду, что очень сложно хранить секретную секрету сайта очень долго. По прошествии времени вероятность того, что один из ваших пользователей случайно пропустит ссылку на сайт, приблизится к 100%, и если есть основания предполагать, что кто-то будет заинтересован в поиске сайта, вы должны предположить, что они это сделают. Таким образом, убедитесь, что вы также размещаете надлежащие элементы управления доступом на своем сайте, обновляете программное обеспечение и выполняете регулярные проверки безопасности на нем.

Ответ 3

Если ваша безопасность связана с безопасностью, а блокировка IP-адресов нежизнеспособна, вы должны задуматься о том, чтобы ваши пользователи могли каким-то образом пройти аутентификацию для доступа к вашему сайту.

Это означает, что никто (google, bot, person-who-stumbled-on-a-link), не прошедший проверку подлинности, не сможет получить доступ к вашим страницам.

Вы можете испечь его на свой веб-сайт или использовать базовую аутентификацию HTTP.

https://www.httpwatch.com/httpgallery/authentication/