Wget Зеркало только HTML
У меня есть небольшой веб-сайт, который я пытаюсь зеркально отразить на своей локальной машине только с html файлом, без изображений, файлов с прикрепленным изображением... pdf,..etc.
Я никогда раньше не отражал веб-сайт и думаю, что было бы неплохо задать вопрос, прежде чем делать что-либо катастрофическое.
Это команда, которую я хочу запустить, и задаюсь вопросом, нужно ли добавить что-нибудь еще.
wget --mirror <url>
Благодарю!
Ответы
Ответ 1
-R
и -A
используются для отклонения или принятия определенных типов файлов.
Также рассмотрим пропускную способность, используемую для загрузки всего веб-сайта. Возможно, вы захотите добавить параметр --Random-wait
.
Если вы хотите пропустить все изображения и pdf файлы, ваша команда будет выглядеть примерно так:
wget --mirror --random-wait -R gif,jpg,pdf <url>
Примечание: зеркальное отображение веб-сайта может противоречить политике, поэтому я предлагаю вам сначала проверить.
Источники:
Ответ 2
Есть также wget-патчи, которые добавляют параметры фильтрации mimetypes...