Nutch Нет агентов, перечисленных в 'http.agent.name'
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property.
at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166)
at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1068)
at org.apache.nutch.crawl.Crawl.run(Crawl.java:135)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:54)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:616)
at org.apache.hadoop.util.RunJar.main(RunJar.java:156)
Каждый раз, когда я запускаю. /nutch crawl urls -dir crawl -depth 3 -tNN 5. nutch решает выбросить эту ошибку. У меня есть оба файла nutch-site.xml и nutch-default.xml.
<property>
<name>http.agent.name</name>
<value>blah</value>
</property>
Взял описание, чтобы его было легче читать. Но я не вижу, где еще можно указать имя агента. если у кого-нибудь есть какие-то советы, я был бы благодарен.
Ответы
Ответ 1
с использованием 1.3? Если это так, убедитесь, что вы изменили nutch-site.xml(а не по умолчанию) во время выполнения /local/conf
Изменение conf в NUTCH_HOME/conf не будет скопировано в runtime dirs, если вы не восстановите его с помощью ant.
Кстати, почему бы вам не попросить в списке рассылки? Вы, скорее всего, получите какую-то помощь.
Ответ 2
Попробуйте указать имя агента для http.robots.agents. Это сработало для меня. После этого я не получил этого сообщения.