Кто-нибудь знает хороший расширяемый веб-искатель с открытым исходным кодом?
Искатель должен иметь расширяемую архитектуру, позволяющую изменять внутренний процесс, например, выполнять новые шаги (предварительный парсер, парсер и т.д.)
Я нашел проект Heritrix (http://crawler.archive.org/).
Но есть и другие приятные проекты?
Ответы
Ответ 1
Nutch - это лучшее, что вы можете сделать, когда дело доходит до бесплатного искателя. Он построен на основе концепции Lucene (в масштабе предприятия) и поддерживается Hadoop с помощью MapReduce (аналогично Google) для широкомасштабных запросов данных. Отличные продукты! В настоящее время я читаю все о Hadoop в новом (еще не выпущенном) Hadoop в действии от комплектования. Если вы поедете по этому маршруту, я предлагаю получить в свою группу технического обзора, чтобы получить раннюю копию этого названия!
Все они основаны на Java. Если вы парень .net(например, я!!), вас может заинтересовать Lucene.NET, Nutch.NET и Hadoop.NET, которые являются классами класса и api через api порты на С#.
Ответ 2
Вы также можете попробовать Scrapy http://scrapy.org/
Очень просто указать и запустить сканеры.
Ответ 3
Abot - хороший расширяемый веб-гусеничный движок. Каждая часть архитектуры подключается, что дает вам полный контроль над ее поведением. Его открытый источник, бесплатный для коммерческого и личного использования, написан на С#.
https://github.com/sjdirect/abot
Ответ 4
Я недавно открыл один из них - Nutch.
Ответ 5
Если вы не привязаны к платформе, у меня были очень хорошие впечатления от Nutch в прошлом.
Он написан на Java и идет рука об руку с индексом Lucene.