Подсчитайте количество вхождений строки с помощью sed?
У меня есть файл, который содержит "заголовок", написанный в нем много раз. Как я могу найти количество раз, когда "название" записывается в этот файл с помощью команды sed при условии, что "title" является первой строкой в строке? например
# title
title
title
должен выводить count = 2, потому что в заголовке первой строки не первая строка.
Обновление
Я использовал awk, чтобы найти общее количество вхождений как:
awk '$1 ~ /title/ {++c} END {print c}' FS=: myFile.txt
Но как я могу сказать awk считать только те строки, у которых title первая строка, как описано в примере выше?
Ответы
Ответ 1
Я не думаю, что sed
будет уместным, если вы не используете его в конвейере для преобразования вашего файла, чтобы нужное слово появилось в отдельных строках, а затем используйте grep -c
для подсчета вхождений.
Мне нравится идея Джонатана использовать tr
для преобразования пробелов в новые строки. Красота этого метода заключается в том, что последовательные пробелы преобразуются в несколько пустых строк, но это не имеет значения, потому что grep
сможет подсчитывать только строки с одним словом "название".
Ответ 2
Никогда не говори никогда. Pure sed
(хотя может потребоваться версия GNU).
#!/bin/sed -nf
# based on a script from the sed info file (info sed)
# section 4.8 Numbering Non-blank Lines (cat -b)
# modified to count lines that begin with "title"
/^title/! be
x
/^$/ s/^.*$/0/
/^9*$/ s/^/0/
s/.9*$/x&/
h
s/^.*x//
y/0123456789/1234567890/
x
s/x.*$//
G
s/\n//
h
:e
$ {x;p}
Пояснение:
#!/bin/sed -nf
# run sed without printing output by default (-n)
# using the following file as the sed script (-f)
/^title/! be # if the current line doesn't begin with "title" branch to label e
x # swap the counter from hold space into pattern space
/^$/ s/^.*$/0/ # if pattern space is empty start the counter at zero
/^9*$/ s/^/0/ # if pattern space starts with a nine, prepend a zero
s/.9*$/x&/ # mark the position of the last digit before a sequence of nines (if any)
h # copy the marked counter to hold space
s/^.*x// # delete everything before the marker
y/0123456789/1234567890/ # increment the digits that were after the mark
x # swap pattern space and hold space
s/x.*$// # delete everything after the marker leaving the leading digits
G # append hold space to pattern space
s/\n// # remove the newline, leaving all the digits concatenated
h # save the counter into hold space
:e # label e
$ {x;p} # if this is the last line of input, swap in the counter and print it
Вот выдержки из трассы script с помощью sedsed:
$ echo -e 'title\ntitle\nfoo\ntitle\nbar\ntitle\ntitle\ntitle\ntitle\ntitle\ntitle\ntitle\ntitle' | sedsed-1.0 -d -f ./counter
PATT:title$
HOLD:$
COMM:/^title/ !b e
COMM:x
PATT:$
HOLD:title$
COMM:/^$/ s/^.*$/0/
PATT:0$
HOLD:title$
COMM:/^9*$/ s/^/0/
PATT:0$
HOLD:title$
COMM:s/.9*$/x&/
PATT:x0$
HOLD:title$
COMM:h
PATT:x0$
HOLD:x0$
COMM:s/^.*x//
PATT:0$
HOLD:x0$
COMM:y/0123456789/1234567890/
PATT:1$
HOLD:x0$
COMM:x
PATT:x0$
HOLD:1$
COMM:s/x.*$//
PATT:$
HOLD:1$
COMM:G
PATT:\n1$
HOLD:1$
COMM:s/\n//
PATT:1$
HOLD:1$
COMM:h
PATT:1$
HOLD:1$
COMM::e
COMM:$ {
PATT:1$
HOLD:1$
PATT:title$
HOLD:1$
COMM:/^title/ !b e
COMM:x
PATT:1$
HOLD:title$
COMM:/^$/ s/^.*$/0/
PATT:1$
HOLD:title$
COMM:/^9*$/ s/^/0/
PATT:1$
HOLD:title$
COMM:s/.9*$/x&/
PATT:x1$
HOLD:title$
COMM:h
PATT:x1$
HOLD:x1$
COMM:s/^.*x//
PATT:1$
HOLD:x1$
COMM:y/0123456789/1234567890/
PATT:2$
HOLD:x1$
COMM:x
PATT:x1$
HOLD:2$
COMM:s/x.*$//
PATT:$
HOLD:2$
COMM:G
PATT:\n2$
HOLD:2$
COMM:s/\n//
PATT:2$
HOLD:2$
COMM:h
PATT:2$
HOLD:2$
COMM::e
COMM:$ {
PATT:2$
HOLD:2$
PATT:foo$
HOLD:2$
COMM:/^title/ !b e
COMM:$ {
PATT:foo$
HOLD:2$
. . .
PATT:10$
HOLD:10$
PATT:title$
HOLD:10$
COMM:/^title/ !b e
COMM:x
PATT:10$
HOLD:title$
COMM:/^$/ s/^.*$/0/
PATT:10$
HOLD:title$
COMM:/^9*$/ s/^/0/
PATT:10$
HOLD:title$
COMM:s/.9*$/x&/
PATT:1x0$
HOLD:title$
COMM:h
PATT:1x0$
HOLD:1x0$
COMM:s/^.*x//
PATT:0$
HOLD:1x0$
COMM:y/0123456789/1234567890/
PATT:1$
HOLD:1x0$
COMM:x
PATT:1x0$
HOLD:1$
COMM:s/x.*$//
PATT:1$
HOLD:1$
COMM:G
PATT:1\n1$
HOLD:1$
COMM:s/\n//
PATT:11$
HOLD:1$
COMM:h
PATT:11$
HOLD:11$
COMM::e
COMM:$ {
COMM:x
PATT:11$
HOLD:11$
COMM:p
11
PATT:11$
HOLD:11$
COMM:}
PATT:11$
HOLD:11$
Эллипсис представляет собой строки вывода, опущенные здесь. Строка с "11" на нем сама по себе - это то, где выводится окончательный счет. Это единственный вывод, который вы получите, когда отладчик sedsed
не используется.
Ответ 3
Пересмотренный ответ
В сжатом виде вы не можете - sed - не правильный инструмент для задания (он не может рассчитывать).
sed -n '/^title/p' file | grep -c
Это ищет строки, начинающиеся с заголовка, и печатает их, подавая вывод в grep для их подсчета. Или, что эквивалентно:
grep -c '^title' file
Оригинальный ответ - до того, как вопрос был отредактирован
В сжатом виде вы не можете - это не правильный инструмент для работы.
grep -c title file
sed -n /title/p file | wc -l
Второй использует sed как суррогат для grep и отправляет вывод в wc для подсчета строк. Оба подсчитывают количество строк, содержащих "title", а не количество вхождений заголовка.
Вы можете исправить это с помощью чего-то вроде:
cat file |
tr ' ' '\n' |
grep -c title
Команда 'tr' преобразует пробелы в новые строки, тем самым помещая каждое слово, разделенное пробелом, в свою собственную строку, и поэтому grep получает только подсчет строк, содержащих название слова. Это работает, если у вас нет таких последовательностей, как "право на титул", где нет места, разделяющего два вхождения заголовка.
Ответ 4
будет выполняться только одна команда gawk. Не используйте grep -c, потому что он учитывает только строку с "заголовком" в ней, независимо от того, сколько "заголовков" есть в строке.
$ more file
# title
# title
one
two
#title
title title
three
title junk title
title
four
fivetitlesixtitle
last
$ awk '!/^#.*title/{m=gsub("title","");total+=m}END{print "total: "total}' file
total: 7
Если вы просто хотите, чтобы "title" в качестве первой строки, используйте "==" вместо ~
awk '$1 == "title"{++c}END{print c}' file
Ответ 5
sed 's/title/title\n/g' file | grep -c title
Ответ 6
Это может сработать для вас:
sed '/^title/!d' file | sed -n '$='