Ответ 1
В документации wget
есть этот бит:
Собственно, для загрузки одной страницы и всех ее реквизитов (даже если они существуют на отдельных веб-сайтах), и убедитесь, что отображаются партии правильно локально, этот автор любит использовать несколько опций в дополнение to -p:
wget -E -H -k -K -p http://site/document
Ключ - это параметр -H
, что означает --span-hosts -> go to foreign hosts when recursive
. Я не знаю, соответствует ли это нормальным гиперссылкам или только ресурсам, но вы должны попробовать.
Вы можете рассмотреть альтернативную стратегию. Вам не нужно загружать ресурсы, чтобы проверить, на что они ссылаются из CDN. Вы можете просто получить исходный код для интересующих вас страниц (вы можете использовать wget
, как и вы, или curl
или что-то еще) и либо:
- проанализируйте его с помощью библиотеки, которая зависит от языка, который вы используете для сценариев. Проверьте каждый
<img />
,<link />
и<script />
для ссылок CDN. - используйте регулярные выражения, чтобы проверить, что URL-адреса ресурсов содержат домен CDN. Смотрите это:), хотя в этом ограниченном случае это может быть не слишком сложно.
Вы также должны проверить все файлы CSS для ссылок url()
- они также должны указывать на изображения CDN. В зависимости от логики вашей апликации вам может потребоваться проверить, что код JavaScript не создает никаких изображений, которые не поступают из CDN.