Удаление строк из одного файла, находящегося в другом файле

У меня есть файл f1:

line1
line2
line3
line4
..
..

Я хочу удалить все строки, которые находятся в другом файле f2:

line2
line8
..
..

Я пробовал что-то с cat и sed, которое не было даже близко к тому, что я намеревался. Как я могу это сделать?

Ответы

Ответ 1

grep -v -x -f f2 f1 должен сделать трюк.

Пояснение:

  • -v для выбора несоответствующих линий
  • -x для соответствия только целым строкам
  • -f f2, чтобы получить шаблоны из f2

Вместо этого можно использовать -f f2 для сопоставления фиксированных строк из f2, а не шаблонов (в случае, если вы хотите удалить строки в виде "то, что вы видите, что вы получаете", а не обрабатывать строки в f2 как шаблоны регулярных выражений).

Ответ 2

Попробуйте использовать вместо этого (предполагается, что f1 и f2 уже отсортированы)

comm -2 -3 f1 f2

Ответ 3

Для исключенных файлов, которые не слишком велики, вы можете использовать ассоциативные массивы AWK.

awk 'NR == FNR { list[tolower($0)]=1; next } { if (! list[tolower($0)]) print }' exclude-these.txt from-this.txt 

Вывод будет в том же порядке, что и файл from-this.txt. Функция tolower() делает ее нечувствительной к регистру, если вам это нужно.

Алгоритмическая сложность, вероятно, будет равна O (n) (размер exclude-these.txt) + O (n) (от размера this.txt)

Ответ 4

Как и ответ Денниса Уильямсона (в основном синтаксические изменения, например, задание номера файла явно вместо трюка NR == FNR):

awk '{if (f==1) { r[$0] } else if (! ($0 in r)) { print $0 } } ' f=1 exclude-these.txt f=2 from-this.txt

Доступ к r[$0] создает запись для этой строки, не нужно устанавливать значение.

Предполагая, что awk использует хэш-таблицу с постоянным поиском и (в среднем) постоянным временем обновления, временной сложностью этого будет O (n + m), где n и m - длины файлов. В моем случае n было ~ 25 миллионов и m ~ 14000. Решение awk было намного быстрее, чем сортировка, и я также предпочел сохранить первоначальный заказ.

Ответ 5

если у вас есть Ruby (1.9 +)

#!/usr/bin/env ruby 
b=File.read("file2").split
open("file1").each do |x|
  x.chomp!
  puts x if !b.include?(x)
end

Что имеет сложность O (N ^ 2). Если вы хотите заботиться о производительности, здесь другая версия

b=File.read("file2").split
a=File.read("file1").split
(a-b).each {|x| puts x}

который использует хэш для выполнения вычитания, то есть сложность O (n) (размер a) + O (n) (размер b)

здесь небольшой ориентир, любезно предоставленный user576875, но с линиями 100K, из вышеперечисленного:

$ for i in $(seq 1 100000); do echo "$i"; done|sort --random-sort > file1
$ for i in $(seq 1 2 100000); do echo "$i"; done|sort --random-sort > file2
$ time ruby test.rb > ruby.test

real    0m0.639s
user    0m0.554s
sys     0m0.021s

$time sort file1 file2|uniq -u  > sort.test

real    0m2.311s
user    0m1.959s
sys     0m0.040s

$ diff <(sort -n ruby.test) <(sort -n sort.test)
$

diff использовался, чтобы показать, что нет никаких различий между двумя созданными файлами.

Ответ 6

Кажется, это работа, подходящая для оболочки SQLite:

create table file1(line text);
create index if1 on file1(line ASC);
create table file2(line text);
create index if2 on file2(line ASC);
-- comment: if you have | in your files then specify " .separator ××any_improbable_string×× "
.import 'file1.txt' file1
.import 'file2.txt' file2
.output result.txt
select * from file2 where line not in (select line from file1);
.q

Ответ 7

Некоторые временные сравнения между различными другими ответами:

$ for n in {1..10000}; do echo $RANDOM; done > f1
$ for n in {1..10000}; do echo $RANDOM; done > f2
$ time comm -23 <(sort f1) <(sort f2) > /dev/null

real    0m0.019s
user    0m0.023s
sys     0m0.012s
$ time ruby -e 'puts File.readlines("f1") - File.readlines("f2")' > /dev/null

real    0m0.026s
user    0m0.018s
sys     0m0.007s
$ time grep -xvf f2 f1 > /dev/null

real    0m43.197s
user    0m43.155s
sys     0m0.040s

sort f1 f2 | uniq -u не является даже симметричным различием, поскольку он удаляет строки, которые появляются несколько раз в любом файле.

comm также может использоваться с строками stdin и здесь:

echo $'a\nb' | comm -23 <(sort) <(sort <<< $'c\nb') # a

Ответ 8

Пробовал ли вы это с sed?

sed 's#^#sed -i '"'"'s%#g' f2 > f2.sh

sed -i 's#$#%%g'"'"' f1#g' f2.sh

sed -i '1i#!/bin/bash' f2.sh

sh f2.sh