Nutch vs solr indexing
Недавно я начал работать над nutch, и я пытаюсь понять, как это работает. Насколько я знаю, Nutch в основном используется для сканирования в Интернете, а solr/Lucene используется для индексации и поиска. Но когда я читаю документацию по ореху, он говорит, что nutch также инвертирует индексирование. Использует ли Lucene внутренне для индексирования или имеет ли какую-то другую библиотеку для индексирования? Если для индексирования используется solr/lucene, то зачем нужно настраивать solr с помощью nutch, как говорится в учебнике nutch?
Выполняется ли индексирование по умолчанию. Я имею в виду, что я запускаю эту команду, чтобы начать сканирование. Здесь индексируется?
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
Или индексирование происходит только в этом случае. (Согласно руководству: если у вас уже установлено ядро Solr и вы хотите его индексировать, вам необходимо добавить параметр -solr в команду обхода, например.)
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
Ответы
Ответ 1
Взгляд здесь может оказаться полезным.
Когда вы запускаете первую команду:
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
вы сканируете, что означает, что nutch создаст свои собственные внутренние данные, состоящие из:
- crawldb
- linkdb
- набор сегментов
вы можете увидеть их в следующих каталогах, которые создаются при запуске команды обхода:
- ползать /crawldb
- ползать /linkdb
- ползать/сегменты
Вы можете думать об этих данных как о какой-то базе данных, где nutch хранит данные обхода. Это не имеет ничего общего с инвертированным индексом.
После процесса обхода вы можете индексировать свои данные в экземпляре Solr. Вы можете сканировать, а затем индексировать одну команду, которая является второй командой из вашего вопроса:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
В противном случае вы можете запустить вторую команду после команды crawl, специфичной для индексирования в Solr, но вы должны указать путь к crawldb, linkdb и сегментам:
bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*
Ответ 2
Возможно, вас путают устаревшие версии Nutch и связанная онлайн-документация. Первоначально он создал свой собственный индекс и имел свой собственный интерфейс веб-поиска. Использование Solr стало вариантом, требующим дополнительной настройки и возиться. Начиная с 1.3 части индексации и сервера были удалены, и теперь он предположил, что Nutch будет использовать Solr.