Как игнорировать файлы определенного типа для загрузки в wget?
Как игнорировать файлы .jpg
, .png
в wget
, поскольку я хотел включить только файлы .html
.
Я пытаюсь:
wget -R index.html,*tiff,*pdf,*jpg -m http://example.com/
но он не работает.
Ответы
Ответ 1
Используйте
--reject jpg,png --accept html
опции для исключения/включения файлов с определенными расширениями, см. http://www.gnu.org/software/wget/manual/wget.html#Recursive-Accept_002fReject-Options.
Поместите шаблоны с подстановочными символами в кавычки, иначе ваша оболочка расширит их, см. http://www.gnu.org/software/wget/manual/wget.html#Types-of-Files
Ответ 2
# -r : recursive
# -nH : Disable generation of host-prefixed directories
# -nd : all files will get saved to the current directory
# -np : Do not ever ascend to the parent directory when retrieving recursively.
# -R : don't download files with this files pattern
# -A : get only *.html files (for this case)
Например:
wget -r -nH -nd -np -A "*.html" -R "*.gz, *.tar" http://www1.ncdc.noaa.gov/pub/data/noaa/1990/
Ответ 3
Работал пример загрузки всех файлов, кроме архивов:
wget -r -k -l 7 -E -nc \
-R "*.gz, *.tar, *.tgz, *.zip, *.pdf, *.tif, *.bz, *.bz2, *.rar, *.7z" \
-erobots=off \
--user-agent="Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36" \
http://misis.ru/