Поиск соединения gz непредсказуем

У меня возникают проблемы с поиском gzfiles в R. Вот пример:

Это создает m.csv.gz, который R говорит, что он может искать, и справка для seek, похоже, согласна:

Теперь небольшие прыжки, назад и вперед, похоже, работают, но если я попробую большой прыжок, я получаю сообщение об ошибке:

Однако, если я reset соединение и запуск снова, я могу получить 1000, если я сделаю это с шагом в 100 байт:

R имеет несколько резких слов при использовании seek в Windows: "Использование" искать в Windows "не рекомендуется". но это находится в ящике Linux (R 3.1.1, 32 бит). Аналогичный код в python, использующий библиотеку gz, отлично работает, ища все.

Ответы

Ответ 1

Это всего лишь образованное предположение: небольшие скачки обрабатываются только в декодированном буфере, когда вы ищете больше, чем размер буфера, он просто выполняет необработанный поиск, тогда он пытается декодировать gzip в середине куска, ведущего к декодированию ошибка, это, скорее всего, ошибка в библиотеке R. Я предлагаю использовать skip вместо поиска, поскольку базовая библиотека не может ничего сделать и не будет иметь никакого влияния на производительность.

Я только что проверил rfc1952 и rfc1951, в gzip вы можете узнать полный размер файла, прежде чем извлекать его, просто прочитав весь заголовок "members" и суммируйте все поля ISIZE, однако вы не можете знать, насколько велика будет дефлированный блок без его декодирования (размер каждого символа находится в словаре), вы просто не можете действительно искать общий поток gzip.

Если вы действительно хотите найти gzip, вы должны заранее проиндексировать его.

dictzip - это библиотека, которая добавляет дополнительные заголовки для поиска.