Получить ссылки от nutch
Я использую nutch 1.3 для сканирования веб-сайта. Я хочу получить список просканированных URL-адресов и URL-адреса, исходящие из страницы.
Я получаю список обследований URL-адресов, используя команду readdb.
bin/nutch readdb crawl/crawldb -dump file
Есть ли способ узнать URL-адреса, которые находятся на странице, путем чтения crawldb или linkdb?
в org.apache.nutch.parse.html.HtmlParser
Я вижу массив исходящих ссылок, мне интересно, есть ли у него быстрый доступ к нему из командной строки.
Ответы
Ответ 1
Из командной строки вы можете видеть исходящие ссылки, используя readseg с параметром -dump или -get. Например,
bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext
less outputdir2/dump
Ответ 2
Вы можете легко сделать это с помощью команды readlinkdb. Он предоставляет вам все ссылки и исходящие ссылки на URL-адрес и из него.
bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)
linkdb: Это каталог linkdb, который мы хотим прочитать и получить информацию.
out_dir: этот параметр выгружает весь linkdb в текстовый файл в любом out_dir, который мы хотим указать.
url: аргумент -url предоставляет нам информацию об определенном URL-адресе. Это записывается в System.out.
e.g.
bin/nutch readlinkdb crawl/linkdb -dump myoutput/out1
Для получения дополнительной информации см.
http://wiki.apache.org/nutch/bin/nutch%20readlinkdb