Какой хороший инструмент Web Crawler

Мне нужно индексировать множество веб-страниц, какие хорошие утилиты webcrawler есть? Я предпочитаю после того, что .NET может говорить, но это не шоушоппер.

Мне действительно нужно что-то, что я могу дать URL-адрес сайта, и он будет следовать каждой ссылке и хранить контент для индексирования.

Ответы

Ответ 1

HTTrack - http://www.httrack.com/ - очень хороший копир сайта. Работает очень хорошо. Используете его в течение длительного времени.

Nutch - веб-искатель (искатель - это тип программы, которую вы ищете) - http://lucene.apache.org/nutch/ - который использует первоклассная утилита поиска lucene.

Ответ 2

Crawler4j - это искатель Java с открытым исходным кодом, который предоставляет простой интерфейс для обхода Интернета. Вы можете настроить многопоточный веб-искатель за 5 минут.

Вы можете настроить свой собственный фильтр для посещения страниц или нет (URL-адреса) и определить некоторую операцию для каждой страницы обхода в соответствии с вашей логикой.

Некоторые причины выбора crawler4j;

  • Многопотоковая структура,
  • Вы можете настроить глубину сканирования,
  • Он основан на Java и с открытым исходным кодом,
  • Контроль избыточных ссылок (URL),
  • Вы можете установить количество страниц для обхода,
  • Вы можете настроить сканирование страницы,
  • Достаточная документация

Ответ 3

Searcharoo.NET содержит паук, который сканирует и индексирует контент, и поисковая система, чтобы использовать его. Вы должны найти свой путь вокруг кода Searcharoo.Indexer.EXE, чтобы уловить контент при его загрузке и добавить свой собственный код оттуда...

Это очень простой (весь исходный код включен и объясняется в шести статьях CodeProject, последний из которых находится здесь Searcharoo v6): паук следит за ссылками, изображениями изображений, изображениями, подчиняется директивам ROBOTS, анализирует некоторые типы файлов, отличных от HTML. Он предназначен для отдельных веб-сайтов (не для всей сети).

Nutch/Lucene почти наверняка является более надежным/коммерческим решением, но я не смотрел их код. Не уверен, чего вы хотите достичь, но вы также видели Microsoft Search Server Express?

Отказ от ответственности: я являюсь автором Searcharoo; просто предлагая его здесь как вариант.

Ответ 4

Sphider довольно хорошо. Это PHP, но это может помочь.

Ответ 5

Я использую программное обеспечение Mozene Web Scraping. Вы могли бы легко заставить его обходить все ссылки и получить всю необходимую информацию, и это отлично программное обеспечение за деньги.

Ответ 6

Я еще не использовал это, но этот выглядит интересным. Автор написал это с нуля и опубликовал, как он это сделал. Код для него также доступен для скачивания.