Выберите счетчик, используя латунь свиньи
Мне нужна помощь с этой свиньей script. Я просто получаю одну запись. Я выбираю 2 столбца и делаю счет (отдельный) на другом, а также используя предложение where like, чтобы найти конкретное описание (desc).
Вот мой sql со свинью, которую я пытаюсь закодировать.
/*
For example in sql:
select domain, count(distinct(segment)) as segment_cnt
from table
where desc='ABC123'
group by domain
order by segment_count desc;
*/
A = LOAD 'myoutputfile' USING PigStorage('\u0005')
AS (
domain:chararray,
segment:chararray,
desc:chararray
);
B = filter A by (desc=='ABC123');
C = foreach B generate domain, segment;
D = DISTINCT C;
E = group D all;
F = foreach E generate group, COUNT(D) as segment_cnt;
G = order F by segment_cnt DESC;
Ответы
Ответ 1
Вы можете GROUP в каждом домене, а затем подсчитать количество отдельных элементов в каждой группе с помощью синтаксиса вложенного FOREACH:
D = group C by domain;
E = foreach D {
unique_segments = DISTINCT C.segment;
generate group, COUNT(unique_segments) as segment_cnt;
};
Ответ 2
Вы можете лучше определить это как макрос:
DEFINE DISTINCT_COUNT(A, c) RETURNS dist {
temp = FOREACH $A GENERATE $c;
dist = DISTINCT temp;
groupAll = GROUP dist ALL;
$dist = FOREACH groupAll GENERATE COUNT(dist);
}
Использование:
X = LOAD 'data' AS (x: int);
Y = DISTINCT_COUNT(X, x);
Если вам нужно использовать его в FOREACH
, тогда самый простой способ - это что-то вроде:
...GENERATE COUNT(Distinct(x))...
Протестировано на Свинце 12.
Ответ 3
Если вы не хотите рассчитывать на какую-либо группу, вы используете это:
G = FOREACH (GROUP A ALL){
unique = DISTINCT A.field;
GENERATE COUNT(unique) AS ct;
};
Это просто даст вам номер.