Прокси-IP для инфраструктуры Scrapy
Я разрабатываю проект веб-обхода, используя Python и Scrapy. Он просматривает веб-страницы 10k с веб-сайтов для торговли электронной коммерцией. весь проект работает нормально, но перед тем, как переместить код с сервера тестирования на рабочий сервер, я хочу выбрать лучшую службу прокси-сервера ip, поэтому мне не нужно беспокоиться о моем Блокировании IP-адресов или Запрет доступа к веб-сайтам мои пауки.
До сих пор я использую промежуточное ПО в Scrapy для ручного вращения ip из бесплатного списка прокси-сервера, доступного на различных сайтах как это
Теперь я запутался в параметрах, которые я должен делать
Ответы
Ответ 1
Вот варианты, которые я использую в настоящее время (в зависимости от моих потребностей):
- proxymesh.com - разумные цены для небольших проектов. Никогда не было проблем с услугой, поскольку она работает из коробки с помощью scrapy (я не связан с ними).
- самостоятельная сборка script, которая запускает несколько экземпляров EC2 на Amazon. Затем я SSH в машины и создаю прокси-соединение SOCKS, эти соединения затем передаются через делегированные для создания обычных HTTP-прокси, которые можно использовать с помощью scrapy. HTTP-прокси можно либо балансировать с помощью чего-то вроде haproxy, либо создавать собственное промежуточное программное обеспечение, которое вращает прокси-серверы.
Последнее решение - это то, что в настоящее время работает лучше всего для меня и без проблем создает около 20-30 ГБ в день трафика.
Ответ 2
Crawlera создан специально для проектов веб-сканирования. Например, он реализует интеллектуальные алгоритмы, чтобы избежать запрета, и используется для сканирования очень больших и высокопрофильных веб-сайтов.
Отказ от ответственности: я работаю для материнской компании Scrapinghub, которые также являются основными разработчиками Scrapy.