Найти результаты, отправленные на zcat, а затем на голову

Я пытаюсь найти определенную строку во множестве gziped csv файлов, строка находится в первой строке, и я думал, чтобы получить первую строку каждого файла, объединив find, zcat и head. Но я не могу заставить их работать вместе.

Хотя я решил проблему, написав bash script, итерацию по файлам и запись в файл temp, было бы здорово узнать, что я сделал не так, как это сделать, и если возможно другие способы сделать это.

Ответы

Ответ 1

Вы должны найти, что это будет работать:

find . -name "*.gz" | while read -r file; do zcat -f "$file" | head -n 1; done

Ответ 2

Он работал, как вы просили.

head выполнил свою работу, распечатал одну строку и вышел. zcat, а затем под эгидой xargs попытался записать в закрытый канал и получил фатальный SIGPIPE для своих усилий. Когда его ребенок умирает, xargs сообщили о причинах.

Чтобы получить желаемое поведение, вам нужно создать конструкцию find -exec ... или пользовательский zhead, чтобы дать xargs.

добавлен код нежелательной почты, который я нашел за холодильником:

#!/usr/bin/python

"""zhead - poor man zcat file... | head -n
   no argument error checking, prefers to continue in the face of
   IO errors, with diagnostic to stderr

   sample usage: find ... | xargs zhead.py -1"""

import gzip
import sys

if sys.argv[1].startswith('-'):
    nlines = int(sys.argv[1][1:])
    start = 2
else:
    nlines = 10
    start = 1

for zfile in sys.argv[start:]:
    try:
        zin = gzip.open(zfile)
        for i in range(nlines):
            line = zin.readline()
            if not line:
                break
            print line,
    except Exception as err:
        print >> sys.stderr, zfile, err
    finally:
        try:
            zin.close()
        except:
            pass

Он обработал 10k файлов в /usr/share/man примерно через минуту.

Ответ 3

Если у вас установлен GNU Parallel http://www.gnu.org/software/parallel/:

find . -name '*.gz' | parallel 'zcat {} | head -n1'

Смотрите видеоролик в GNU Параллельно в http://www.youtube.com/watch?v=OpaiGYxkSuQ

Ответ 4

zcat -r * 2>/dev/null | awk -vRS= -vFS="\n" '{print $1}'