Кто-нибудь знает хороший расширяемый веб-искатель с открытым исходным кодом?

Искатель должен иметь расширяемую архитектуру, позволяющую изменять внутренний процесс, например, выполнять новые шаги (предварительный парсер, парсер и т.д.)

Я нашел проект Heritrix (http://crawler.archive.org/).

Но есть и другие приятные проекты?

Ответы

Ответ 1

Nutch - это лучшее, что вы можете сделать, когда дело доходит до бесплатного искателя. Он построен на основе концепции Lucene (в масштабе предприятия) и поддерживается Hadoop с помощью MapReduce (аналогично Google) для широкомасштабных запросов данных. Отличные продукты! В настоящее время я читаю все о Hadoop в новом (еще не выпущенном) Hadoop в действии от комплектования. Если вы поедете по этому маршруту, я предлагаю получить в свою группу технического обзора, чтобы получить раннюю копию этого названия!

Все они основаны на Java. Если вы парень .net(например, я!!), вас может заинтересовать Lucene.NET, Nutch.NET и Hadoop.NET, которые являются классами класса и api через api порты на С#.

Ответ 2

Вы также можете попробовать Scrapy http://scrapy.org/

Очень просто указать и запустить сканеры.

Ответ 3

Abot - хороший расширяемый веб-гусеничный движок. Каждая часть архитектуры подключается, что дает вам полный контроль над ее поведением. Его открытый источник, бесплатный для коммерческого и личного использования, написан на С#.

https://github.com/sjdirect/abot

Ответ 4

Я недавно открыл один из них - Nutch.

Ответ 5

Если вы не привязаны к платформе, у меня были очень хорошие впечатления от Nutch в прошлом.

Он написан на Java и идет рука об руку с индексом Lucene.