Ответ 1
Я использую http://www.user-agents.org/ обычно как ссылку, надеюсь, что это поможет вам.
Вы также можете попробовать http://www.robotstxt.org/db.html или http://www.botsvsbrowsers.com.
Я пытаюсь получить точные номера загрузок для некоторых файлов на веб-сервере. Я смотрю на пользовательские агенты, а некоторые из них явно боты или веб-сканеры, но многие из них я не уверен, они могут быть или не быть веб-искателем, и они вызывают много загрузок, поэтому мне важно знать.
Есть ли где-нибудь список известных веб-сканеров с некоторой документацией, такой как пользовательский агент, IP-адреса, поведение и т.д.
Меня не интересуют официальные, такие как Google, Yahoo или Microsoft. Обычно они хорошо себя ведут и самоопределяются.
Я использую http://www.user-agents.org/ обычно как ссылку, надеюсь, что это поможет вам.
Вы также можете попробовать http://www.robotstxt.org/db.html или http://www.botsvsbrowsers.com.
http://www.robotstxt.org/db.html - это хорошее место для начала. У них есть автоматическое сырое сырье, если вам это нужно. http://www.botsvsbrowsers.com/ также полезно.
К сожалению, мы обнаружили, что бот-активность слишком многочисленна и разнообразна, чтобы иметь возможность точно фильтровать ее. Если вам нужны точные подсчеты загрузки, лучше всего потребовать, чтобы javascript запускал загрузку. Это в основном единственное, что надежно отфильтровывает ботов. Это также почему все механизмы анализа трафика сайта в наши дни основаны на javascript.
Я поддерживаю список шаблонов пользовательских агентов искателя в https://github.com/monperrus/crawler-user-agents/.
Это совместная работа, вы можете внести свой вклад в нее с запросами на pull.