Какой хороший инструмент Web Crawler
Мне нужно индексировать множество веб-страниц, какие хорошие утилиты webcrawler есть? Я предпочитаю после того, что .NET может говорить, но это не шоушоппер.
Мне действительно нужно что-то, что я могу дать URL-адрес сайта, и он будет следовать каждой ссылке и хранить контент для индексирования.
Ответы
Ответ 1
HTTrack - http://www.httrack.com/ - очень хороший копир сайта. Работает очень хорошо. Используете его в течение длительного времени.
Nutch - веб-искатель (искатель - это тип программы, которую вы ищете) - http://lucene.apache.org/nutch/ - который использует первоклассная утилита поиска lucene.
Ответ 2
Crawler4j - это искатель Java с открытым исходным кодом, который предоставляет простой интерфейс для обхода Интернета. Вы можете настроить многопоточный веб-искатель за 5 минут.
Вы можете настроить свой собственный фильтр для посещения страниц или нет (URL-адреса) и определить некоторую операцию для каждой страницы обхода в соответствии с вашей логикой.
Некоторые причины выбора crawler4j;
- Многопотоковая структура,
- Вы можете настроить глубину сканирования,
- Он основан на Java и с открытым исходным кодом,
- Контроль избыточных ссылок (URL),
- Вы можете установить количество страниц для обхода,
- Вы можете настроить сканирование страницы,
- Достаточная документация
Ответ 3
Searcharoo.NET содержит паук, который сканирует и индексирует контент, и поисковая система, чтобы использовать его. Вы должны найти свой путь вокруг кода Searcharoo.Indexer.EXE, чтобы уловить контент при его загрузке и добавить свой собственный код оттуда...
Это очень простой (весь исходный код включен и объясняется в шести статьях CodeProject, последний из которых находится здесь Searcharoo v6): паук следит за ссылками, изображениями изображений, изображениями, подчиняется директивам ROBOTS, анализирует некоторые типы файлов, отличных от HTML. Он предназначен для отдельных веб-сайтов (не для всей сети).
Nutch/Lucene почти наверняка является более надежным/коммерческим решением, но я не смотрел их код. Не уверен, чего вы хотите достичь, но вы также видели Microsoft Search Server Express?
Отказ от ответственности: я являюсь автором Searcharoo; просто предлагая его здесь как вариант.
Ответ 4
Sphider довольно хорошо. Это PHP, но это может помочь.
Ответ 5
Я использую программное обеспечение Mozene Web Scraping. Вы могли бы легко заставить его обходить все ссылки и получить всю необходимую информацию, и это отлично
программное обеспечение за деньги.
Ответ 6
Я еще не использовал это, но этот выглядит интересным. Автор написал это с нуля и опубликовал, как он это сделал. Код для него также доступен для скачивания.