Получить ссылки от nutch - программирование

Я использую nutch 1.3 для сканирования веб-сайта. Я хочу получить список просканированных URL-адресов и URL-адреса, исходящие из страницы.

Я получаю список обследований URL-адресов, используя команду readdb.

Есть ли способ узнать URL-адреса, которые находятся на странице, путем чтения crawldb или linkdb?

в org.apache.nutch.parse.html.HtmlParser Я вижу массив исходящих ссылок, мне интересно, есть ли у него быстрый доступ к нему из командной строки.

Ответы

Из командной строки вы можете видеть исходящие ссылки, используя readseg с параметром -dump или -get. Например,

bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext

less outputdir2/dump

Вы можете легко сделать это с помощью команды readlinkdb. Он предоставляет вам все ссылки и исходящие ссылки на URL-адрес и из него.

bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)

linkdb: Это каталог linkdb, который мы хотим прочитать и получить информацию.

out_dir: этот параметр выгружает весь linkdb в текстовый файл в любом out_dir, который мы хотим указать.

url: аргумент -url предоставляет нам информацию об определенном URL-адресе. Это записывается в System.out.

e.g. 

bin/nutch readlinkdb crawl/linkdb -dump myoutput/out1

Для получения дополнительной информации см. http://wiki.apache.org/nutch/bin/nutch%20readlinkdb