Выполняет ли solr сканирование в Интернете?
Мне интересно делать сканирование в Интернете. Я смотрел на solr
.
Выполняет ли solr
сканирование в Интернете или какие шаги выполняет сканирование в Интернете?
Ответы
Ответ 1
Solr 5+ НАДЕЕТСЯ на самом деле теперь сканирование в Интернете!
http://lucene.apache.org/solr/
Старые версии Solr не выполняют сканирование в одиночку, поскольку исторически это поисковый сервер, который предоставляет возможности полнотекстового поиска. Он строится на вершине Луцен.
Если вам нужно сканировать веб-страницы с помощью другого проекта Solr, у вас есть ряд опций, включая:
Если вы хотите использовать средства поиска, предоставленные Lucene или SOLR, вам нужно будет создавать индексы из результатов поиска в Интернете.
Смотрите также:
Гусеница Lucene (нужно построить индекс lucene)
Ответ 2
Solr сам по себе не имеет функции сканирования в Интернете.
Nutch - это искатель "de facto" (а затем некоторый) для Solr.
Ответ 3
Solr 5 начал поддерживать простой веб-интерфейс (Java Doc). Если хотите поискать, Solr - это инструмент, если вы хотите ползать, Nutch/Scrapy лучше:)
Чтобы запустить его, вы можете подробно рассмотреть здесь. Однако, вот как это сделать и запустить в одной строке:
java
-classpath <pathtosolr>/dist/solr-core-5.4.1.jar
-Dauto=yes
-Dc=gettingstarted -> collection: gettingstarted
-Ddata=web -> web crawling and indexing
-Drecursive=3 -> go 3 levels deep
-Ddelay=0 -> for the impatient use 10+ for production
org.apache.solr.util.SimplePostTool -> SimplePostTool
http://datafireball.com/ -> a testing wordpress blog
Искатель здесь очень "наивный", где вы можете найти весь код из this Apache Solr github repo.
Вот как выглядит ответ:
SimplePostTool version 5.0.0
Posting web pages to Solr url http://localhost:8983/solr/gettingstarted/update/extract
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
SimplePostTool: WARNING: Never crawl an external web site faster than every 10 seconds, your IP will probably be blocked
Entering recursive mode, depth=3, delay=0s
Entering crawl at level 0 (1 links total, 1 new)
POSTed web resource http://datafireball.com (depth: 0)
Entering crawl at level 1 (52 links total, 51 new)
POSTed web resource http://datafireball.com/2015/06 (depth: 1)
...
Entering crawl at level 2 (266 links total, 215 new)
...
POSTed web resource http://datafireball.com/2015/08/18/a-few-functions-about-python-path (depth: 2)
...
Entering crawl at level 3 (846 links total, 656 new)
POSTed web resource http://datafireball.com/2014/09/06/node-js-web-scraping-using-cheerio (depth: 3)
SimplePostTool: WARNING: The URL http://datafireball.com/2014/09/06/r-lattice-trellis-another-framework-for-data-visualization/?share=twitter returned a HTTP result status of 302
423 web pages indexed.
COMMITting Solr index changes to http://localhost:8983/solr/gettingstarted/update/extract...
Time spent: 0:05:55.059
В конце вы увидите, что все данные проиндексированы правильно.
![введите описание изображения здесь]()
Ответ 4
Вы также можете взглянуть на
http://www.crawl-anywhere.com/
Очень мощный искатель, совместимый с Solr.
Ответ 5
Я использую Nutch с Solr в своем последнем проекте, и, похоже, он работает очень хорошо.
Если вы используете машину Windows, я бы настоятельно рекомендовал следовать инструкциям 'No cygwin, которые дал Джейсон Риффел!
Ответ 6
Да, я согласен с другими сообщениями здесь, используйте Apache Nutch
bin/nutl crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
Хотя ваша версия solr имеет совпадение с правильной версией Nutch, поскольку более старые версии solr сохраняют индексы в другом формате
Его учебник:
http://wiki.apache.org/nutch/NutchTutorial
Ответ 7
Я знаю, что это было какое-то время, но если кто-то ищет искателя Solr, подобного мне, есть новый искатель с открытым исходным кодом, называемый Norconex HTTP Коллекционер
Ответ 8
Дефть!
У Nutch также есть базовый веб-интерфейс, который позволит вам запросить результаты поиска. Возможно, вам даже не придется беспокоиться о SOLR в зависимости от ваших требований. Если вы сделаете комбинацию Nutch/SOLR, вы сможете воспользоваться недавней работой по интеграции SOLR и Nutch... http://issues.apache.org/jira/browse/NUTCH-442