Как разбить файл с помощью числового суффикса
Я использую следующую команду для разделения файла. Он должен разделить каждые 50 000 строк и использовать 4-значный цифровой суффикс. Файл содержит около 140 миллионов строк.
split -d -l -n 4 50000 domains.xml domains_
Но когда я запустил, я получаю эту ошибку:
split: -n: invalid number of lines
Try `split --help' for more information.
Какая правильная команда для этого?
Ответы
Ответ 1
Я бы использовал awk
. Это дает вам более точный контроль над вашими выходными файлами и именами файлов. Нужно просто быстро спросить. Здесь, как разбить 100-строчный файл на 20 строк:
awk 'NR%20==1 { file = FILENAME "_" sprintf("%04d", NR+19) } { print > file }' domains.xml
Это должно создать некоторые файлы, например:
file_0020
file_0040
file_0060
file_0080
file_0100
Отрегулируйте соответствующим образом. НТН.
Ответ 2
Поскольку основная помощь GNU split
говорит:
Usage: /usr/gnu/bin/split [OPTION]... [INPUT [PREFIX]]
Output fixed-size pieces of INPUT to PREFIXaa, PREFIXab, ...; default
size is 1000 lines, and default PREFIX is 'x'. With no INPUT, or when INPUT
is -, read standard input.
Mandatory arguments to long options are mandatory for short options too.
-a, --suffix-length=N generate suffixes of length N (default 2)
--additional-suffix=SUFFIX append an additional SUFFIX to file names.
-b, --bytes=SIZE put SIZE bytes per output file
-C, --line-bytes=SIZE put at most SIZE bytes of lines per output file
-d, --numeric-suffixes[=FROM] use numeric suffixes instead of alphabetic.
FROM changes the start value (default 0).
-e, --elide-empty-files do not generate empty output files with '-n'
--filter=COMMAND write to shell COMMAND; file name is $FILE
-l, --lines=NUMBER put NUMBER lines per output file
-n, --number=CHUNKS generate CHUNKS output files. See below
-u, --unbuffered immediately copy input to output with '-n r/...'
--verbose print a diagnostic just before each
output file is opened
--help display this help and exit
--version output version information and exit
Мне кажется, что вам нужно немного реорганизовать свои варианты:
split -a 4 -d -l 50000 domains.xml domains_
Ответ 3
(Из manpage, GNU coreutils 8.21)
Вам нужно, по-видимому, быть -a/- suffix-length = N (сгенерировать суффиксы длины N (по умолчанию 2)), not -n/- number = CHUNKS (генерировать выходные файлы CHUNKS)
split -d -l 50000 -a 4 domains.xml domains_
и вы должны получить: domains_0000, domains_0001...
Ответ 4
Я не знаю, поможет ли это вам, но если вы добавите 1 в префикс имени файла i.e. outfile1
, вы получите:
outfile101
outfile102
outfile103
Я понимаю, что это может быть не то, что вы ищете, но различные программы не анализируют ведущие нули в массивах заданий и т.д., независимо от того, всегда ли компьютерные учёные "всегда считаются с нуля". По крайней мере, таким образом вы можете анализировать свои файлы с помощью более широкого спектра программ.