Как суммировать размеры файлов в bash, группируя результаты по дате?

На сервере Linux, с которым я работаю, процесс записывает случайные имена с произвольными интервалами. Вот небольшой пример, показывающий размер файла, дату и время изменения и имя файла:

(Обратите внимание, что иногда размер файла может быть равен нулю.)

Что бы я хотел, это bash script, чтобы суммировать размер файлов, разбитых по дате, и выводить что-то вроде этого (при условии, что моя арифметика верна):

Результаты показывают тенденции активности с течением времени и выделяют исключительно загруженные дни.

Теперь все это, вероятно, довольно легко в Perl или Python, но я бы предпочел bash shell или awk-решение. Мне кажется особенно сложным группировать файлы по дате в bash (особенно, если вы не можете принять определенный формат даты). Полагаю, что размеры могут быть сделаны в цикле, я полагаю, но есть ли более простой, более элегантный подход?

Ответы

Ответ 1

Я часто использую эту идиому Awk:

awk '{sum[$2]+= $1;}END{for (date in sum){print sum[date], date;}}'

Ответ 2

(find... | xargs stat "--printf =% s +"; echo 0) | Ьс

Ответ 3

Следуя советам ашаулей и вартека, следующий "однострочный" делает этот трюк великолепно:

ls -l --time-style=long-iso *log |
    awk '{sum[$6]+= $5;}END{for (s in sum){print sum[s], s;}}' |
    sort -k2 |
    column -t

Ответ 4

Только файлы, рекурсивно, отсортированные по дате и суммированные

find ./ -type f -printf '%TY-%Tm-%Td %s\n'|awk '{sum[$1]+= $2;}END{for (date in sum){print date, sum[date];}}'|sort

Только файлы, только из текущего каталога, отсортированные по дате и суммированные

find ./ -maxdepth 1 -type f -printf '%TY-%Tm-%Td %s\n'|awk '{sum[$1]+= $2;}END{for (date in sum){print date, sum[date];}}'|sort

Ответ 5

Учтите, что на Linux у вас, вероятно, есть GNU awk, поэтому вам не нужны другие команды:

ls -l --time-style=long-iso * | 
  WHINY_USERS=-9 awk 'END {
    for (s in sum)
      printf "%-15s\t%s\n", sum[s], s
      }
  { sum[$6]+= $5 }
  '

Ответ 6

Вот инструмент, который я создал, который позволяет выполнять SQL-подобные запросы против текстовых данных, включая группировку, объединение, условия и другие вещи. Вы можете посмотреть здесь для деталей.