Scrapy Vs Nutch
Я планирую использовать webcrawling в приложении, над которым я сейчас работаю. Я провел некоторое исследование на Nutch и провел предварительный тест, используя его. Но потом я наткнулся на ревность. Но когда я сделал некоторые предварительные исследования и просмотрел документацию о scrapy, я обнаружил, что он может захватывать только структурированные данные (вы должны указать имя div, из которого вы хотите захватить данные). Бэкэнд приложения, который я разрабатываю, основан на Python, и я понимаю, что scrapy основано на Python, и некоторые предположили, что scrapy лучше, чем Nutch.
Мое требование состоит в том, чтобы захватить данные из более чем 1000 различных веб-страниц и запустить поиск релевантных ключевых слов в этой информации. Там какой-либо способ лечения может удовлетворить одно и то же требование.
1) Если да, то можете ли вы указать пример того, как это можно сделать?
2) Или Nutch + Solr лучше всего подходит для моего требования
Ответы
Ответ 1
Scrapy
будет отлично работать в вашем случае.
Вы не обязаны указывать имена divs - вы можете получить все, что хотите:
Scrapy поставляется с собственным механизмом для извлечения данных. Theyre называемые селекторами XPath (или просто "селекторами", для краткости), поскольку они "выберите" определенные части документа HTML, указанные в XPath выражения.
Кроме того, вы можете использовать BeautifulSoup
и lxml
для извлечения данных из содержимого страницы.
Кроме того, Scrapy
основан на скрученной и полностью асинхронной и быстрой.
Здесь много примеров спаривающих пауков - просто просмотрите scrapy. Если у вас есть более конкретный вопрос - просто спросите.
Надеюсь, что это поможет.
Ответ 2
Scrapy раздувается и переполняет многие задачи. Удивительно медленно.
Его код является хрупким, существуют постоянные изменения, которые ломают ретросовместимость.
Если вы используете Scrapy, вы будете тратить больше времени на то, чтобы понять, что происходит с помощью Scrapy.