Ответ 1
Google в конечном итоге заблокирует ваш IP-адрес, если вы превысите определенное количество запросов.
Я хотел бы получить результаты от Google, используя curl для обнаружения потенциального дублированного контента. Существует ли высокий риск быть заблокированным Google?
Google в конечном итоге заблокирует ваш IP-адрес, если вы превысите определенное количество запросов.
Google запрещает автоматический доступ к своим TOS, поэтому, если вы согласны с их условиями, вы можете их разбить.
Тем не менее, я не знаю никаких иска от Google против скребка. Даже Microsoft соскоблила Google, они использовали свою поисковую систему Bing. Они попали в 2011 году в красный цвет:)
Есть два варианта очистки результатов Google:
1) Используйте API
Вы можете выпустить около 40 запросов в час. Вы ограничены тем, что они вам дают, это не очень полезно, если вы хотите отслеживать рейтинг позиции или то, что увидит настоящий пользователь. Что-то вы не разрешено собирать.
Если вам требуется большее количество запросов API, которые вам нужно заплатить.
2) Очистите страницы с нормальным результатом
3) Альтернативно используйте службу очистки (обновлено)
Google процветает на соскабливании веб-сайтов мира... так что, если это было "настолько незаконно", то даже Google не выживет. Конечно, в других ответах упоминаются способы смягчения IP-блоков Google. Еще один способ исследовать, избегая капчей, можно соскабливать в случайные моменты времени (попытка dint). Более того, у меня есть ощущение, что если мы обеспечим новизну или какую-то значительную обработку данных, тогда это звучит, по крайней мере, для меня... если мы просто копируют веб-сайт.. или каким-то образом мешают его бизнесу/бренду... тогда это плохо, и его следует избегать... в верхней части всего этого... если вы стартап, тогда никто не будет сражаться с вами, как там не приносит пользы. Но если ваше помещение полностью очищается, даже когда вы финансируетесь, тогда вам следует подумать о более сложных способах... альтернативных API.... В то же время Google продолжает выпускать (или лишать) поля для своего API, так что вы хотите сейчас отказаться, может быть в "дорожной карте" новых выпусков Google API.