Разрешается ли веб-очистка?

Прошу прощения, если этот вопрос задан на неправильном сайте, но я не мог решить, на каком другом сайте задать этот вопрос.

Итак, я работаю над проектом, который требует определенных статистических данных с другого сайта, и я создал скребок HTML, который получает эти данные каждые 15 минут, автоматически. Тем не менее, я остановил бота сейчас, как и в их условиях использования, они упоминают, что они этого не позволяют.

Я действительно хочу уважать это, и особенно если есть закон, запрещающий мне принимать эти данные, но я связывался с ними по электронной почте несколько раз без единого ответа, поэтому теперь я пришел к выводу, что я 'просто возьмите данные, если это законно.

На некоторых форумах я читал, что это законно, но я бы предпочел получить более "точный" ответ здесь, на StackOverflow.

И пусть говорят, что это на самом деле не является незаконным, будет ли у них какое-либо программное обеспечение, чтобы определить, как мой бот делает несколько соединений каждые 15 минут?

Кроме того, говоря о взятии своих данных, мы говорим об одном числе для каждой "команды", и это число, я перейду на наш собственный номер.

Ответы

Ответ 1

Я приведу Пабло Хоффмана (соучредителя Scrapinghub) ответ на вопрос "Что такое законность веб-соскабливания?", я нашел на другом сайте:

Прежде всего: я не юрист, и эти комментарии исключительно основанный на моем опыте работы Scrapinghub, пожалуйста, соответственно.

Вот несколько вещей, которые следует учитывать при очистке общедоступных данных с веб-сайтов (обратите внимание, что следующие адреса соответствуют только американскому законодательству):

  • Пока они не сканируются с понижательной скоростью, скребки не нарушают какой-либо договор (в форме условий использования) или совершают преступление (как определено в Законе о борьбе с компьютерным мошенничеством и злоупотреблениями).
  • Пользовательское соглашение с веб-сайтом не может быть исполнено в качестве соглашения о браузерах, поскольку компании не предоставляют достаточного условия для посетителей сайта.
  • Скреперы получают доступ к данным веб-сайта в качестве посетителя, и путем следующих путей, похожих на поисковую систему. Это можно сделать без регистрации в качестве пользователя (и явно принимающего какие-либо условия).
  • В Nguyen v. Barnes and Noble, Inc. судами правил, что просто ссылка на условия использования в нижней части веб-страницы недостаточна для "порождают конструктивное уведомление". Другими словами, нет ничего на публичной странице, которая подразумевала бы, что доступ к информация подлежит каким-либо договорным условиям. Скребки дают ни явное, ни скрытое согласие на какое-либо соглашение, поэтому не нарушает никаких контрактов.
  • Социальные сети, например, присваивают значение становления пользователем (на основе вызова к действию на общедоступной странице) в качестве возможности: i) получать доступ к полным профилям; ii) определять общих друзей/соединений, iii) Познакомиться с другими, и iv) напрямую связаться с членами. Пока скребки не предпринимают никаких попыток выполнить какое-либо из этих действий, они не получают "несанкционированный доступ" к своим услугам и, таким образом, не нарушают CFAA
  • Подробную оценку юридических проблем можно найти здесь: http://www.bna.com/legal-issues-raised-by-the-use-of-web-crawling-and-scraping-tools-for-analytics-purposes

Ответ 2

В корневой папке этого сайта должен быть файл robots.txt.

Указаны пути, которые forbidden преследуют с помощью скребок, а те, которые имеют allowed (с допустимыми тайм-аутами).

Если этот файл не существует - все разрешено, и вы не берете на себя ответственность за то, что владельцы веб-сайтов не предоставили эту информацию.


Кроме того, здесь вы можете найти некоторое объяснение о robots exclusion standard.

Ответ 3

Некоторые веб-сайты блокируют боты от обхода и извлечения их данных. Некоторые другие утверждают, что они не хотят, чтобы их просканировали ботами на странице TOS. Если у них нет ни одного из них, сканирование в Интернете не должно вызывать никаких проблем. Двойная проверка всегда хорошая идея.