Ответ 1
Хостинг хостинга SimpleHTTP
Если вы действительно хотите разместить его локально и использовать scrapy, вы можете выполнить его, перейдя в каталог, в котором он хранится, и запустите SimpleHTTPServer (порт 8000, показанный ниже):
python -m SimpleHTTPServer 8000
Затем просто наведите отметку на 127.0.0.1:8000
$ scrapy crawl 127.0.0.1:8000
файл://
Альтернатива заключается в том, чтобы просто вызвать скрининг непосредственно на набор файлов:
$ scrapy crawl file:///home/sagi/html_files # Assuming you're on a *nix system
Обертка
Как только вы настроили свой скребок для scrapy (см. пример dirbot), просто запустите обходчик:
$ scrapy crawl 127.0.0.1:8000
Если ссылки в html файлах являются абсолютными, а не относительными, они могут работать неправильно. Вам нужно будет самостоятельно отредактировать файлы.