Ответ 1
Существует недокументированный агрегат под названием ANY
, который не является допустимым синтаксисом, но может появиться в ваших планах исполнения. Однако это не дает никаких преимуществ в производительности.
Предполагая следующую таблицу и структуру индекса
CREATE TABLE T
(
id int identity primary key,
[group] char(1)
)
CREATE NONCLUSTERED INDEX ix ON T([group])
INSERT INTO T
SELECT TOP 1000000 CHAR( 65 + ROW_NUMBER() OVER (ORDER BY @@SPID) % 3)
FROM sys.all_objects o1, sys.all_objects o2, sys.all_objects o3
Я также заполнил примерными данными, чтобы было много строк на группу.
Ваш исходный запрос
SELECT MAX(id),
[group]
FROM T
GROUP BY [group]
Дает Table 'T'. Scan count 1, logical reads 1367
и план
|--Stream Aggregate(GROUP BY:([[T].[group]) DEFINE:([Expr1003]=MAX([[T].[id])))
|--Index Scan(OBJECT:([[T].[ix]), ORDERED FORWARD)
Переписано, чтобы получить агрегат ANY
...
;WITH cte AS
(
SELECT *,
ROW_NUMBER() OVER (PARTITION BY [group] ORDER BY [group] ) AS RN
FROM T)
SELECT id,
[group]
FROM cte
WHERE RN=1
Дает Table 'T'. Scan count 1, logical reads 1367
и план
|--Stream Aggregate(GROUP BY:([[T].[group]) DEFINE:([[T].[id]=ANY([[T].[id])))
|--Index Scan(OBJECT:([[T].[ix]), ORDERED FORWARD)
Несмотря на то, что потенциально SQL Server может прекратить обработку группы, как только первое значение будет найдено, и перейти к следующему, это не так. Он все еще обрабатывает все строки, и логические чтения одинаковы.
Для этого конкретного примера со многими строками в группе более эффективная версия будет рекурсивной CTE.
WITH RecursiveCTE
AS (
SELECT TOP 1 id, [group]
FROM T
ORDER BY [group]
UNION ALL
SELECT R.id, R.[group]
FROM (
SELECT T.*,
rn = ROW_NUMBER() OVER (ORDER BY (SELECT 0))
FROM T
JOIN RecursiveCTE R
ON R.[group] < T.[group]
) R
WHERE R.rn = 1
)
SELECT *
FROM RecursiveCTE
OPTION (MAXRECURSION 0);
Что дает
Table 'Worktable'. Scan count 2, logical reads 19
Table 'T'. Scan count 4, logical reads 12
Логические чтения намного меньше, поскольку он извлекает первую строку для каждой группы, а затем ищет в следующую группу, а не считывает нагрузку записей, которые не вносят вклад в окончательный результат.