Ответ 1
Вот некоторые из них:
- Содержимое, загруженное через AJAX в виде onclicks или бесконечной прокрутки
- комментарии на такой странице
Это китайская товарная страница, и ее комментарии загружаются AJAX, который запускается путем прокрутки полосы прокрутки в браузере или в зависимости от высоты вашего браузера. Я должен использовать PhantomJS и xvfb для запуска таких действий.
- Антискользящие меры (но не запрещение сканеров через robots.txt)
- amazon next page
Я просканировал сайт Amazon в Китае, и когда я хочу просканировать страницу next на таких страницах, это может изменить запросы, в результате чего вы не сможете получить real next страница - stackoverflow
Он имеет предел частоты посещения. Несколько дней назад я хотел получить все теги в stackoverflow и установить частоту посещения паука до 10, но я был предупрежден с помощью stackoverflow...... Здесь снимок экрана. После этого я должен использовать прокси для обхода stackoverflow.
- amazon next page
- и все остальное, что обычно сканирует сайт на головную боль
- yihaodian
Это китайский сайт электронной коммерции, и когда вы посещаете его в браузере, он покажет ваше местоположение и предложит некоторые товары в соответствии с вашим местоположением. - и т.д..
Существует много сайтов, как указано выше, которые будут предлагать различные материалы в соответствии с вашим местоположением. Когда вы просматриваете такие сайты, то, что вы получаете, не совпадает с тем, что вы видите в браузере. Часто при настройке запроса через паук часто требуется настроить cookie.
- yihaodian
В прошлом году я столкнулся с сайтом, который требовал заголовков http-запросов и некоторых файлов cookie при отправке запросов, но я не помню этот сайт....