Как я могу распаковать поток gzip с помощью zlib?
Файлы формата Gzip (например, созданные с помощью программы gzip
) используют алгоритм сжатия с дефлятом, который является тем же алгоритмом сжатия, что и zlib. Однако при использовании zlib для раздувания сжатого файла gzip библиотека возвращает Z_DATA_ERROR
.
Как использовать zlib для распаковки файла gzip?
Ответы
Ответ 1
Чтобы распаковать файл формата gzip с помощью zlib, вызовите inflateInit2
с параметром windowBits
как 16+MAX_WBITS
, например:
inflateInit2(&stream, 16+MAX_WBITS);
Если вы этого не сделаете, zlib будет жаловаться на формат плохого потока. По умолчанию zlib создает потоки с заголовком zlib, а при раздувании не распознает другой заголовок gzip, если вы не скажете об этом. Хотя это задокументировано, начиная с версии 1.2.1 заголовочного файла zlib.h
, оно не находится в zlib manual. Из файла заголовка:
windowBits
также может быть больше 15 для дополнительного декодирования gzip. Добавить 32 до windowBits
, чтобы включить декодирование zlib и gzip с автоматическим заголовком обнаружение или добавление 16 для декодирования только формата gzip (формат zlib будет верните a Z_DATA_ERROR
). Если поток gzip декодируется, strm->adler
crc32 вместо adler32.
Ответ 2
питон
zlib
библиотека поддерживает:
Модуль python zlib
также будет поддерживать их.
выбор windowBits
Но zlib
может распаковать все эти форматы:
- to (de-) compress
deflate
format, используйте wbits = -zlib.MAX_WBITS
- to (de-) сжать формат
zlib
, используйте wbits = zlib.MAX_WBITS
- to (de-) compress
gzip
format, используйте wbits = zlib.MAX_WBITS | 16
См. документацию в http://www.zlib.net/manual.html#Advanced (раздел inflateInit2
)
примеры
тестовые данные:
>>> deflate_compress = zlib.compressobj(9, zlib.DEFLATED, -zlib.MAX_WBITS)
>>> zlib_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS)
>>> gzip_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS | 16)
>>>
>>> text = '''test'''
>>> deflate_data = deflate_compress.compress(text) + deflate_compress.flush()
>>> zlib_data = zlib_compress.compress(text) + zlib_compress.flush()
>>> gzip_data = gzip_compress.compress(text) + gzip_compress.flush()
>>>
очевидный тест для zlib
:
>>> zlib.decompress(zlib_data)
'test'
test для deflate
:
>>> zlib.decompress(deflate_data)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(deflate_data, -zlib.MAX_WBITS)
'test'
test для gzip
:
>>> zlib.decompress(gzip_data)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|16)
'test'
данные также совместимы с модулем gzip
:
>>> import gzip
>>> import StringIO
>>> fio = StringIO.StringIO(gzip_data)
>>> f = gzip.GzipFile(fileobj=fio)
>>> f.read()
'test'
>>> f.close()
автоматическое определение заголовка (zlib или gzip)
добавление 32
в windowBits
приведет к обнаружению заголовка
>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|32)
'test'
>>> zlib.decompress(zlib_data, zlib.MAX_WBITS|32)
'test'
вместо gzip
Для gzip
данных с заголовком gzip вы можете напрямую использовать модуль gzip
; но помните, что под капотом, gzip
использует zlib
.
fh = gzip.open('abc.gz', 'rb')
cdata = fh.read()
fh.close()
Ответ 3
Структура zlib и gzip различна. zlib использует RFC 1950 и gzip использует RFC 1952,
поэтому имеют разные заголовки, но остальные имеют одинаковую структуру и следуют RFC 1951.