Выполняет ли solr сканирование в Интернете?

Мне интересно делать сканирование в Интернете. Я смотрел на solr.

Выполняет ли solr сканирование в Интернете или какие шаги выполняет сканирование в Интернете?

Ответы

Ответ 1

Solr 5+ НАДЕЕТСЯ на самом деле теперь сканирование в Интернете! http://lucene.apache.org/solr/

Старые версии Solr не выполняют сканирование в одиночку, поскольку исторически это поисковый сервер, который предоставляет возможности полнотекстового поиска. Он строится на вершине Луцен.

Если вам нужно сканировать веб-страницы с помощью другого проекта Solr, у вас есть ряд опций, включая:

Nutch - http://lucene.apache.org/nutch/
Websphinx - http://www.cs.cmu.edu/~rcm/websphinx/
JSpider - http://j-spider.sourceforge.net/
Heritrix - http://crawler.archive.org/

Если вы хотите использовать средства поиска, предоставленные Lucene или SOLR, вам нужно будет создавать индексы из результатов поиска в Интернете.

Ответ 2

Solr сам по себе не имеет функции сканирования в Интернете.

Nutch - это искатель "de facto" (а затем некоторый) для Solr.

Ответ 3

Solr 5 начал поддерживать простой веб-интерфейс (Java Doc). Если хотите поискать, Solr - это инструмент, если вы хотите ползать, Nutch/Scrapy лучше:)

Чтобы запустить его, вы можете подробно рассмотреть здесь. Однако, вот как это сделать и запустить в одной строке:

java 
-classpath <pathtosolr>/dist/solr-core-5.4.1.jar 
-Dauto=yes 
-Dc=gettingstarted     -> collection: gettingstarted
-Ddata=web             -> web crawling and indexing
-Drecursive=3          -> go 3 levels deep
-Ddelay=0              -> for the impatient use 10+ for production
org.apache.solr.util.SimplePostTool   -> SimplePostTool
http://datafireball.com/      -> a testing wordpress blog

Искатель здесь очень "наивный", где вы можете найти весь код из this Apache Solr github repo.

Вот как выглядит ответ:

SimplePostTool version 5.0.0
Posting web pages to Solr url http://localhost:8983/solr/gettingstarted/update/extract
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
SimplePostTool: WARNING: Never crawl an external web site faster than every 10 seconds, your IP will probably be blocked
Entering recursive mode, depth=3, delay=0s
Entering crawl at level 0 (1 links total, 1 new)
POSTed web resource http://datafireball.com (depth: 0)
Entering crawl at level 1 (52 links total, 51 new)
POSTed web resource http://datafireball.com/2015/06 (depth: 1)
...
Entering crawl at level 2 (266 links total, 215 new)
...
POSTed web resource http://datafireball.com/2015/08/18/a-few-functions-about-python-path (depth: 2)
...
Entering crawl at level 3 (846 links total, 656 new)
POSTed web resource http://datafireball.com/2014/09/06/node-js-web-scraping-using-cheerio (depth: 3)
SimplePostTool: WARNING: The URL http://datafireball.com/2014/09/06/r-lattice-trellis-another-framework-for-data-visualization/?share=twitter returned a HTTP result status of 302
423 web pages indexed.
COMMITting Solr index changes to http://localhost:8983/solr/gettingstarted/update/extract...
Time spent: 0:05:55.059

В конце вы увидите, что все данные проиндексированы правильно.

Ответ 4

Вы также можете взглянуть на

http://www.crawl-anywhere.com/

Очень мощный искатель, совместимый с Solr.

Ответ 5

Я использую Nutch с Solr в своем последнем проекте, и, похоже, он работает очень хорошо.

Если вы используете машину Windows, я бы настоятельно рекомендовал следовать инструкциям 'No cygwin, которые дал Джейсон Риффел!

Ответ 6

Да, я согласен с другими сообщениями здесь, используйте Apache Nutch

bin/nutl crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

Хотя ваша версия solr имеет совпадение с правильной версией Nutch, поскольку более старые версии solr сохраняют индексы в другом формате

Его учебник: http://wiki.apache.org/nutch/NutchTutorial

Ответ 7

Я знаю, что это было какое-то время, но если кто-то ищет искателя Solr, подобного мне, есть новый искатель с открытым исходным кодом, называемый Norconex HTTP Коллекционер

Ответ 8

Дефть! У Nutch также есть базовый веб-интерфейс, который позволит вам запросить результаты поиска. Возможно, вам даже не придется беспокоиться о SOLR в зависимости от ваших требований. Если вы сделаете комбинацию Nutch/SOLR, вы сможете воспользоваться недавней работой по интеграции SOLR и Nutch... http://issues.apache.org/jira/browse/NUTCH-442