Скремблирование ajax-страниц с использованием python
Я уже видел этот вопрос об очистке ajax, но питон здесь не упоминается. Я рассмотрел использование scrapy, я считаю, что у них есть несколько документов по этому вопросу, но, как вы видите, сайт не работает. Поэтому я не знаю, что делать. Я хочу сделать следующее:
У меня есть только один url, example.com, который вы переходите со страницы на страницу, нажав кнопку submit, URL-адрес не изменяется, так как они используют ajax для отображения содержимого. Я хочу очистить содержимое каждой страницы, как это сделать?
Давайте скажем, что я хочу очистить только цифры, есть ли что-то другое, кроме scrapy, которое это сделает? Если нет, не могли бы вы дать мне фрагмент о том, как это сделать, только потому, что их веб-сайт недоступен, поэтому я не могу связаться с документами.
Ответы
Ответ 1
Прежде всего, документация по плагированию доступна в https://scrapy.readthedocs.org/en/latest/.
Говоря об обработке ajax при веб-очистке. В принципе, идея довольно проста:
- открыть инструменты разработчика, вкладку сети
- перейти на целевой сайт
- нажмите кнопку отправки и посмотрите, что
XHR
request отправляется на сервер
- смоделируйте этот запрос
XHR
в вашем пауке
Также смотрите:
Надеюсь, что это поможет.
Ответ 2
Я нашел ответ очень полезным, но я хотел бы сделать его более простым.
response = requests.post(request_url, data=payload, headers=request_headers)
request.post принимает три параметра url, data и headers. Значения для этих трех атрибутов можно найти в запросе XHR.
Скопируйте весь заголовок запроса и данные формы, чтобы загрузить в вышеуказанные переменные, и вы можете пойти