Как добавить элементы из одного массива Perl, которые еще не находятся в другом массиве?
Дано:
my @mylist1;
push(@mylist1,"A");
push(@mylist1,"B");
push(@mylist1,"C");
my @mylist2;
push(@mylist2,"A");
push(@mylist2,"D");
push(@mylist2,"E");
Какой самый быстрый способ в Perl вставить в mylist2 все элементы, которые находятся в mylist1 и еще не в mylist2 (ABCDE).
Ответы
Ответ 1
my %k;
map { $k{$_} = 1 } @mylist1;
map { $k{$_} = 1 } @mylist2;
@mylist2 = keys %k;
В качестве альтернативы:
my %k;
map { $k{$_} = 1 } @mylist2;
push(@mylist2, grep { !exists $k{$_} } @mylist1);
На самом деле - это может быть неправильно, потому что они не учитывают, могут ли дубликаты существовать в любом из исходных списков.
Вы не сказали в своем вопросе, должны ли списки представлять множества (которые не могут содержать дубликаты) или просто списки. То, что вы действительно хотите @mylist2 = @mylist1 U @mylist2
, предполагает, что вы относитесь к ним как к наборам.
EDIT: изменение инкремента для назначения - сохранение прочитанного хэш-значения
Ответ 2
Вы можете просто использовать List::MoreUtils
module uniq
:
use List::MoreUtils qw(uniq);
my @mylist1;
push( @mylist1, "A" );
push( @mylist1, "B" );
push( @mylist1, "C" );
my @mylist2;
push( @mylist2, "A" );
push( @mylist2, "D" );
push( @mylist2, "E" );
@mylist2 = uniq( @mylist1, @mylist2 );
printf "%s\n", ( join ',', @mylist2 ); # A,B,C,D,E
Ответ 3
[Оригинальный ответ от 2008-11-27 до "С момента вопроса"; анализ оттуда новый - с 2008-11-29.]
Самый быстрый - не уверен. Это работает, хотя это не очень хорошо:
#!/bin/perl -w
use strict;
my @mylist1;
push(@mylist1,"A");
push(@mylist1,"B");
push(@mylist1,"C");
my @mylist2;
push(@mylist2,"A");
push(@mylist2,"D");
push(@mylist2,"E");
sub value_in
{
my($value, @array) = @_;
foreach my $element (@array)
{
return 1 if $value eq $element;
}
return 0;
}
@mylist2 = (@mylist2, grep { ! value_in($_, @mylist2) } @mylist1);
print sort @mylist2, "\n";
Это позволяет избежать преобразования массивов в хэши, но для больших массивов субтитр value_in
может быть медленным.
Поскольку вопрос был "что является самым быстрым методом", я сделал некоторый бенчмаркинг. К моему не слишком большому удивлению, мой метод был самым медленным. Скорее всего, самый быстрый метод был не из списка:: MoreUtils. Здесь тестовый код и результаты - с использованием измененной версии моего первоначального предложения.
#!/bin/perl -w
use strict;
use List::MoreUtils qw(uniq);
use Benchmark::Timer;
my @mylist1;
push(@mylist1,"A");
push(@mylist1,"B");
push(@mylist1,"C");
my @mylist2;
push(@mylist2,"A");
push(@mylist2,"D");
push(@mylist2,"E");
sub value_in
{
my($value) = shift @_;
return grep { $value eq $_ } @_;
}
my @mylist3;
my @mylist4;
my @mylist5;
my @mylist6;
my $t = Benchmark::Timer->new(skip=>1);
my $iterations = 10000;
for my $i (1..$iterations)
{
$t->start('JLv2');
@mylist3 = (@mylist2, grep { ! value_in($_, @mylist2) } @mylist1);
$t->stop('JLv2');
}
print $t->report('JLv2');
for my $i (1..$iterations)
{
$t->start('LMU');
@mylist4 = uniq( @mylist1, @mylist2 );
$t->stop('LMU');
}
print $t->report('LMU');
for my $i (1..$iterations)
{
@mylist5 = @mylist2;
$t->start('HV1');
my %k;
map { $k{$_} = 1 } @mylist5;
push(@mylist5, grep { !exists $k{$_} } @mylist1);
$t->stop('HV1');
}
print $t->report('HV1');
for my $i (1..$iterations)
{
$t->start('HV2');
my %k;
map { $k{$_} = 1 } @mylist1;
map { $k{$_} = 1 } @mylist2;
@mylist6 = keys %k;
$t->stop('HV2');
}
print $t->report('HV2');
print sort(@mylist3), "\n";
print sort(@mylist4), "\n";
print sort(@mylist5), "\n";
print sort(@mylist6), "\n";
Black JL: perl xxx.pl
9999 trials of JLv2 (1.298s total), 129us/trial
9999 trials of LMU (968.176ms total), 96us/trial
9999 trials of HV1 (516.799ms total), 51us/trial
9999 trials of HV2 (768.073ms total), 76us/trial
ABCDE
ABCDE
ABCDE
ABCDE
Black JL:
Это Perl 5.10.0, скомпилированный для 32-разрядного SPARC с множественностью на античном Sun E450, работающем на Solaris 10.
Я считаю, что тестовые установки справедливы; все они генерируют свой ответ в новый массив, отдельно от mylist1 и mylist2 (поэтому mylist1 и mylist2 могут быть повторно использованы для следующего теста). Ответ, назначенный HV1 (хэш-значения 1), имеет начало отсчета времени после назначения в @mylist5, что, по моему мнению, является правильным. Однако, когда я делал время с началом до назначения, он был еще быстрее:
Black JL: perl xxx.pl
9999 trials of JLv2 (1.293s total), 129us/trial
9999 trials of LMU (938.504ms total), 93us/trial
9999 trials of HV1 (505.998ms total), 50us/trial
9999 trials of HV2 (756.722ms total), 75us/trial
ABCDE
ABCDE
ABCDE
ABCDE
9999 trials of HV1A (655.582ms total), 65us/trial
Black JL:
Ответ 4
Из-за вашего комментария "(ABCDE)", я предполагаю, что вы на самом деле означали push на mylist1 те элементы в mylist2, которые не указаны в mylist1. Если это предположение неверно, вам нужно сказать что-то о том, в каком порядке вы хотите, чтобы все закончилось.
Во-первых, сохраните, какие элементы находятся в mylist1 в хеше, а затем нажмите все те из mylist2, которые не найдены в хеше, на mylist1.
my %in_mylist1;
@in_mylist1{@mylist1} = ();
push @mylist1, grep ! exists $in_mylist1{$_}, @mylist2;
Ответ 5
my(%work);
@work{@mylist1, @mylist2} = undef;
@mylist2 = sort keys %work;