Читать в bash в файле с разделителями табуляции без сброса пустых полей
Я пытаюсь прочитать файл с разделителями разделов с несколькими строками в bash. Формат таков, что ожидаются пустые поля. К сожалению, оболочка сжимает разделители полей, которые находятся рядом друг с другом, так:
# IFS=$'\t'
# read one two three <<<$'one\t\tthree'
# printf '<%s> ' "$one" "$two" "$three"; printf '\n'
<one> <three> <>
... в отличие от желаемого выхода <one> <> <three>
.
Можно ли это решить, не прибегая к использованию отдельного языка (например, awk)?
Ответы
Ответ 1
Здесь подход с некоторыми тонкостями:
- входные данные из везде, где становится псевдо-2D-массив в основном коде (избегая общей проблемы, когда данные доступны только на одном этапе конвейера).
- не использовать awk, tr или другие внешние проги.
- get/put accessor pair, чтобы скрыть более грубый синтаксис
- работает в строках с разделителями табуляции, используя сопоставление параметров вместо IFS =
Код. file_data
и file_input
предназначены только для ввода ввода, как из внешней команды, вызванной из script. data
и cols
могут быть параметризованы для вызовов get
и put
и т.д., но этот script не заходит так далеко.
#!/bin/bash
file_data=( $'\t\t' $'\t\tbC' $'\tcB\t' $'\tdB\tdC' \
$'eA\t\t' $'fA\t\tfC' $'gA\tgB\t' $'hA\thB\thC' )
file_input () { printf '%s\n' "${file_data[@]}" ; } # simulated input file
delim=$'\t'
# the IFS=$'\n' has a side-effect of skipping blank lines; acceptable:
OIFS="$IFS" ; IFS=$'\n' ; oset="$-" ; set -f
lines=($(file_input)) # read the "file"
set -"$oset" ; IFS="$OIFS" ; unset oset # cleanup the environment mods.
# the read-in data has (rows * cols) fields, with cols as the stride:
data=()
cols=0
get () { local r=$1 c=$2 i ; (( i = cols * r + c )) ; echo "${data[$i]}" ; }
put () { local r=$1 c=$2 i ; (( i = cols * r + c )) ; data[$i]="$3" ; }
# convert the lines from input into the pseudo-2D data array:
i=0 ; row=0 ; col=0
for line in "${lines[@]}" ; do
line="$line$delim"
while [ -n "$line" ] ; do
case "$line" in
*${delim}*) data[$i]="${line%%${delim}*}" ; line="${line#*${delim}}" ;;
*) data[$i]="${line}" ; line= ;;
esac
(( ++i ))
done
[ 0 = "$cols" ] && (( cols = i ))
done
rows=${#lines[@]}
# output the data array as a matrix, using the get accessor
for (( row=0 ; row < rows ; ++row )) ; do
printf 'row %2d: ' $row
for (( col=0 ; col < cols ; ++col )) ; do
printf '%5s ' "$(get $row $col)"
done
printf '\n'
done
Вывод:
$ ./tabtest
row 0:
row 1: bC
row 2: cB
row 3: dB dC
row 4: eA
row 5: fA fC
row 6: gA gB
row 7: hA hB hC
Ответ 2
Sure
IFS=,
echo $'one\t\tthree' | tr \\11 , | (
read one two three
printf '<%s> ' "$one" "$two" "$three"; printf '\n'
)
Я немного изменил пример, но только чтобы заставить его работать в любой оболочке Posix.
Обновление: Да, кажется, что пробел является особенным, по крайней мере, если он в IFS. См. Вторую половину этого абзаца из bash (1):
The shell treats each character of IFS as a delimiter, and splits the
results of the other expansions into words on these characters. If IFS
is unset, or its value is exactly <space><tab><newline>, the default,
then any sequence of IFS characters serves to delimit words. If IFS
has a value other than the default, then sequences of the whitespace
characters space and tab are ignored at the beginning and end of the
word, as long as the whitespace character is in the value of IFS (an
IFS whitespace character). Any character in IFS that is not IFS white-
space, along with any adjacent IFS whitespace characters, delimits a
field. A sequence of IFS whitespace characters is also treated as a
delimiter. If the value of IFS is null, no word splitting occurs.
Ответ 3
Не нужно использовать tr
, но необходимо, чтобы IFS
был символом без пробелов (в противном случае кратные будут свернуты в синглы, как вы видели).
$ IFS=, read -r one two three <<<'one,,three'
$ printf '<%s> ' "$one" "$two" "$three"; printf '\n'
<one> <> <three>
$ var=$'one\t\tthree'
$ var=${var//$'\t'/,}
$ IFS=, read -r one two three <<< "$var"
$ printf '<%s> ' "$one" "$two" "$three"; printf '\n'
<one> <> <three>
$ idel=$'\t' odel=','
$ var=$'one\t\tthree'
$ var=${var//$idel/$odel}
$ IFS=$odel read -r one two three <<< "$var"
$ printf '<%s> ' "$one" "$two" "$three"; printf '\n'
<one> <> <three>
Ответ 4
Я написал функцию, которая работает вокруг этой проблемы. Эта конкретная реализация особенно относится к столбцам с разделителями табуляции и строкам, разделенным новой строкой, но это ограничение можно удалить как простое упражнение:
read_tdf_line() {
local default_ifs=$' \t\n'
local n line element at_end old_ifs
old_ifs="${IFS:-${default_ifs}}"
IFS=$'\n'
if ! read -r line ; then
return 1
fi
at_end=0
while read -r element; do
if (( $# > 1 )); then
printf -v "$1" '%s' "$element"
shift
else
if (( at_end )) ; then
# replicate read behavior of assigning all excess content
# to the last variable given on the command line
printf -v "$1" '%s\t%s' "${!1}" "$element"
else
printf -v "$1" '%s' "$element"
at_end=1
fi
fi
done < <(tr '\t' '\n' <<<"$line")
# if other arguments exist on the end of the line after all
# input has been eaten, they need to be blanked
if ! (( at_end )) ; then
while (( $# )) ; do
printf -v "$1" '%s' ''
shift
done
fi
# reset IFS to its original value (or the default, if it was
# formerly unset)
IFS="$old_ifs"
}
Использование следующим образом:
# read_tdf_line one two three rest <<<$'one\t\tthree\tfour\tfive'
# printf '<%s> ' "$one" "$two" "$three" "$rest"; printf '\n'
<one> <> <three> <four five>
Ответ 5
Здесь используется быстрая и простая функция, которая позволяет избежать вызова внешних программ или ограничения диапазона входных символов. Он работает только в bash (я думаю).
Если нужно разрешить больше переменных, чем полей, его нужно изменить по ответам Чарльза Даффи.
# Substitute for `read -r' that doesn't merge adjacent delimiters.
myread() {
local input
IFS= read -r input || return $?
while [[ "$#" -gt 1 ]]; do
IFS= read -r "$1" <<< "${input%%[$IFS]*}"
input="${input#*[$IFS]}"
shift
done
IFS= read -r "$1" <<< "$input"
}