Предотвращать сканирование и удаление данных сайта

Я изучаю создание сайта контента, возможно, тысячи разных записей, доступных по индексу и поиску.

Какие меры я могу предпринять для предотвращения вредоносных сканеров от копирования всех данных с моего сайта? Я меньше беспокоюсь о SEO, хотя я бы не хотел блокировать законных сканеров все вместе.

Например, я думал о случайном изменении небольших битов структуры HTML, используемых для отображения моих данных, но я думаю, что это было бы неэффективно.

Ответы

Ответ 1

Любой сайт, видимый человеческим глазом, теоретически потенциально может быть вытеснен. Если вы даже попытаетесь быть доступными, то это, по определению, будет must (как иначе говорящие браузеры смогут доставлять ваш контент, если он не является машиносчитываемым).

Лучше всего смотреть на водяной знак вашего контента, чтобы, по крайней мере, если он разорвался, вы можете указать на водяные знаки и претендовать на право собственности.

Ответ 2

Между этим:

Какие меры я могу предпринять, чтобы предотвратить распространение вредоносных сканеров

и это:

Я бы не хотел блокировать законных поисковых роботов.

вы много просите. Факт в том, что если вы собираетесь блокировать вредоносные скребки, вы также можете заблокировать всех "хороших" сканеров.

Вы должны помнить, что если люди захотят очистить ваш контент, они собираются приложить гораздо больше усилий вручную, чем бот с поисковой системой... Итак, правильно ваши приоритеты. У вас есть два варианта:

Пусть крестьяне интернета украдут ваш контент. Следите за ней (поиск Google для некоторых ваших уникальных фраз) и отправка запросов на отправку для интернет-провайдеров. Этот выбор практически не влияет на вас независимо от времени.
Используйте AJAX и скользящее шифрование для запроса всего вашего контента с сервера. Вам нужно будет оставить метод измененным или даже случайным, чтобы каждый pageload имел другую схему шифрования. Но даже этот будет разбит, если кто-то захочет его взломать. Вы также можете отказаться от лица поисковых систем и, следовательно, получить удар в трафике реальных пользователей.

Ответ 3

Хорошие сканеры будут следовать правилам, указанным в вашем файле robots.txt, а вредоносные - не будут. Вы можете настроить "ловушку" для плохих роботов, как это объясняется здесь: http://www.fleiner.com/bots/.
Но опять же, если вы разместите свой контент в Интернете, я думаю, что это лучше для всех, если это будет настолько безболезненно, насколько это возможно, чтобы найти (фактически, вы публикуете здесь, а не на каком-то хромом форуме, на котором эксперты обмениваются мнениями)

Ответ 4

Даже не пытайтесь устанавливать ограничения в Интернете!

Это действительно так просто, как это.

Каждая потенциальная мера, препятствующая разрыву (кроме очень строгого robots.txt), наносит вред вашим пользователям. Капча больше болит, чем выигрывает. Проверка агента пользователя отключает неожиданные браузеры. То же самое верно для "умных" трюков с javascript.

Сохраните веб-сайт. Если вы не хотите, чтобы что-то было взято с вашего сайта, не публикуйте его там. Водяные знаки могут помочь вам заявить право собственности, но это помогает, когда вы хотите подать в суд после того, как нанесен вред.

Ответ 5

Реально вы не можете остановить вредоносные сканеры - и любые меры, которые вы ставите для предотвращения их, могут нанести вред вашим законным пользователям (кроме возможности добавления записей в файл robots.txt, чтобы разрешить обнаружение)

Итак, вам нужно запланировать украденный контент - это более чем вероятно произойдет в той или иной форме - и понять, как вы будете заниматься несанкционированным копированием.

Профилактика невозможна - и это будет пустой тратой времени, пытаясь сделать это.

Единственный верный способ убедиться, что контент на веб-сайте не уязвим для копирования, - отключить сетевой кабель...

Чтобы обнаружить это, используйте что-то вроде http://www.copyscape.com/.

Ответ 6

Единственный способ остановить сайт, который был разорван машиной, - заставить пользователя доказать, что он человек.

Вы можете заставить пользователей выполнить задачу, которая легко для людей и трудна для машин, например: CAPTCHA. Когда пользователь сначала доберется до вашего сайта, отправьте CAPTCHA и разрешите им только после его завершения. Если пользователь переводит страницы со страницы на страницу слишком быстро, повторите проверку.

Это не на 100% эффективнее, и хакеры всегда пытаются их сломать.

В качестве альтернативы вы можете делать медленные ответы. Вам не нужно заставлять их сканировать, но выберите скорость, разумную для людей (это будет очень медленно для машины). Это просто заставляет их занимать больше времени, чтобы очистить ваш сайт, но не невозможно.

OK. Из идей.

Ответ 7

Если вы создаете публичный сайт, то это очень сложно. Существуют методы, которые включают скрипты на стороне сервера для создания контента или использования нетекстовых (Flash и т.д.), Чтобы минимизировать вероятность копирования.

Но если честно, если вы считаете, что ваш контент настолько хорош, просто защитите его паролем и удалите его с общественной арены.

Мое мнение таково, что весь смысл Интернета - распространять полезный контент как можно большему количеству людей.

Ответ 8

Короче: вы не можете предотвратить разрыв. Вредоносные боты обычно используют пользовательские агенты IE и в настоящее время довольно интеллектуальны. Если вы хотите, чтобы ваш сайт был доступен с максимальным номером (например, программами чтения прошивок и т.д.), Вы не можете использовать javascript или один из популярных плагинов (flash) просто потому, что они могут препятствовать законному доступу пользователей.

Возможно, у вас может быть задание cron, которое выберет случайный фрагмент из вашей базы данных и отправит его в систему для проверки совпадений. Затем вы можете попытаться завладеть злоумышленным сайтом и потребовать, чтобы контент был снижен.

Вы также можете отслеживать количество запросов от данного IP-адреса и блокировать его, если он прошел порог, хотя вам может потребоваться "белый список" законных ботов и не будет использоваться против бот-сети (но если вы против бот-сети, возможно, разрывание не является вашей самой большой проблемой).

Ответ 9

Если контент является общедоступным и доступным, даже при дросселе просмотра страниц и т.д., вы ничего не можете сделать. Если вам требуется регистрация и/или оплата доступа к данным, вы можете немного ограничить их, и, по крайней мере, вы можете увидеть, кто читает и идентифицирует пользователей, которые, кажется, очищают всю вашу базу данных.

Однако я думаю, что вам следует скорее взглянуть на то, что так работает сеть, не так много способов помешать машине читать то, что может сделать человек. Вывод всего вашего контента в виде изображений, конечно, будет препятствовать большинству, но тогда сайт больше не доступен, не говоря уже о том, что даже не-отключенные пользователи не смогут копировать-вставлять что-либо, что может быть очень раздражающим.

В целом, это звучит как системы защиты DRM/игр - мочатся от ваших законных пользователей только для предотвращения какого-либо плохого поведения, которое вы вообще не можете предотвратить.

Ответ 10

Используйте везде, где это возможно, человеческие валидаторы и попробуйте использовать некоторые рамки (MVC). Программное обеспечение для разрастания сайтов иногда не может разорвать эту страницу. Также обнаружите пользовательский агент, по крайней мере, он уменьшит количество возможных рыхлителей.

Ответ 11

Вы можете попробовать использовать Flash/Silverlight/Java для отображения всех ваших страниц. Это, вероятно, остановило бы большинство искателей на их пути.

Ответ 12

У меня была система, которая блокировала бы или позволяла бы на основе заголовка User-Agent. Он полагается на искателя, устанавливающего свой User-Agent, но, похоже, большинство из них делают.

Это не сработает, если они используют поддельный заголовок для эмуляции популярного браузера, конечно.