Ответ 1
Вы должны найти, что это будет работать:
find . -name "*.gz" | while read -r file; do zcat -f "$file" | head -n 1; done
Я пытаюсь найти определенную строку во множестве gziped csv файлов, строка находится в первой строке, и я думал, чтобы получить первую строку каждого файла, объединив find, zcat и head. Но я не могу заставить их работать вместе.
$find . -name "*.gz" -print | xargs zcat -f | head -1
20051114083300,1070074.00,0.00000000
xargs: zcat: terminated by signal 13
example file:
$zcat 113.gz | head
20050629171845,1069335.50,-1.00000000
20050629171930,1069315.00,-1.00000000
20050629172015,1069382.50,-1.00000000
.. and 2 milion rows like these ...
Хотя я решил проблему, написав bash script, итерацию по файлам и запись в файл temp, было бы здорово узнать, что я сделал не так, как это сделать, и если возможно другие способы сделать это.
Вы должны найти, что это будет работать:
find . -name "*.gz" | while read -r file; do zcat -f "$file" | head -n 1; done
Он работал, как вы просили.
head
выполнил свою работу, распечатал одну строку и вышел. zcat
, а затем под эгидой xargs
попытался записать в закрытый канал и получил фатальный SIGPIPE для своих усилий. Когда его ребенок умирает, xargs сообщили о причинах.
Чтобы получить желаемое поведение, вам нужно создать конструкцию find -exec ...
или пользовательский zhead
, чтобы дать xargs.
добавлен код нежелательной почты, который я нашел за холодильником:
#!/usr/bin/python
"""zhead - poor man zcat file... | head -n
no argument error checking, prefers to continue in the face of
IO errors, with diagnostic to stderr
sample usage: find ... | xargs zhead.py -1"""
import gzip
import sys
if sys.argv[1].startswith('-'):
nlines = int(sys.argv[1][1:])
start = 2
else:
nlines = 10
start = 1
for zfile in sys.argv[start:]:
try:
zin = gzip.open(zfile)
for i in range(nlines):
line = zin.readline()
if not line:
break
print line,
except Exception as err:
print >> sys.stderr, zfile, err
finally:
try:
zin.close()
except:
pass
Он обработал 10k файлов в /usr/share/man примерно через минуту.
Если у вас установлен GNU Parallel http://www.gnu.org/software/parallel/:
find . -name '*.gz' | parallel 'zcat {} | head -n1'
Смотрите видеоролик в GNU Параллельно в http://www.youtube.com/watch?v=OpaiGYxkSuQ
zcat -r * 2>/dev/null | awk -vRS= -vFS="\n" '{print $1}'