Необычная проблема с производительностью: общие выражения таблицы в встроенной пользовательской функции
Здесь мозг-твистер для парней SQL - может кто-нибудь подумать о причине, почему первая из этих функций отлично работает, а вторая работает с собакой-медленной?
Функция A - Обычно заканчивается в ~ 5 мс
CREATE FUNCTION dbo.GoodFunction
(
@IDs UniqueIntTable READONLY
)
RETURNS TABLE
AS RETURN
SELECT p.ID, p.Node, p.Name, p.Level
FROM
(
SELECT DISTINCT a.Ancestor AS Node
FROM Hierarchy h
CROSS APPLY dbo.GetAncestors(h.Node.GetAncestor(1)) a
WHERE h.ID IN (SELECT Value FROM @IDs)
) np
INNER JOIN Hierarchy p
ON p.Node = np.Node
Функция B - работает очень медленно - я сдался через 5 минут
CREATE FUNCTION dbo.BadFunction
(
@IDs UniqueIntTable READONLY
)
RETURNS TABLE
AS RETURN
WITH Ancestors_CTE AS
(
SELECT DISTINCT a.Ancestor AS Node
FROM Hierarchy c
CROSS APPLY dbo.GetAncestors(c.Node.GetAncestor(1)) a
WHERE c.ID IN (SELECT Value FROM @IDs)
)
SELECT p.ID, p.Node, p.Name, p.Level
FROM Ancestors_CTE ac
INNER JOIN Hierarchy p
ON p.Node = ac.Node
Я объясню ниже, что делает эта функция, но прежде чем я получу в этом, я хочу указать, что я не думаю, что это важно, потому что, насколько я могу судить, эти две функции точно то же самое! Единственное различие заключается в том, что используется CTE, а один использует подзапрос; содержимое подзапроса в и CTE в B идентичны.
В случае, если кто-то решит, что это имеет значение: Цель этой функции - просто выделить всех возможных предков (родителя, дедушку и т.д.) произвольного количества мест в иерархии. Столбец Node
представляет собой hierarchyid
, а dbo.GetAncestors
- это CLR-функция, которая просто поднимается по пути, не выполняет никакого доступа к данным.
UniqueIntTable
- это то, что он подразумевает - это пользовательский тип таблицы с одним столбцом, Value int NOT NULL PRIMARY KEY
. Все здесь, которое должно быть проиндексировано, индексируется - план выполнения функции A по существу - это всего лишь два указателя и хэш-совпадение, как и должно быть с функцией B.
Некоторые даже более странные аспекты этой странной проблемы:
-
Я даже не могу получить оценочный план выполнения для простого запроса с использованием функции B. Почти похоже, что проблема с производительностью связана с компиляцией этой простой функции.
-
Если я выберу "тело" из функции B и просто привяжу его к встроенному запросу, он работает нормально, такая же производительность, как и функция A. Поэтому это только проблема с CTE внутри UDF, или наоборот, только с UDF, который использует CTE.
-
Использование ЦП на одном ядре на тестовом компьютере достигает 100%, когда я пытаюсь запустить B. Там, похоже, не много ввода-вывода.
Я хочу просто отмахиваться от него как ошибка SQL Server и использовать версию A, но я всегда стараюсь сохранить правило №1 ( "SELECT is not Broken" ), и я обеспокоен тем, что хорошие результаты из функции A - это как-то локализованная случайность, что она "провалится" так же, как B на другом сервере.
Любые идеи?
ОБНОВЛЕНИЕ. Теперь я включаю полный автономный script для воспроизведения.
Функция GetAncestors
[SqlFunction(FillRowMethodName = "FillAncestor",
TableDefinition = "Ancestor hierarchyid", IsDeterministic = true,
IsPrecise = true, DataAccess = DataAccessKind.None)]
public static IEnumerable GetAncestors(SqlHierarchyId h)
{
while (!h.IsNull)
{
yield return h;
h = h.GetAncestor(1);
}
}
Создание схемы
BEGIN TRAN
CREATE TABLE Hierarchy
(
ID int NOT NULL IDENTITY(1, 1)
CONSTRAINT PK_Hierarchy PRIMARY KEY CLUSTERED,
Node hierarchyid NOT NULL,
[Level] as Node.GetLevel(),
Name varchar(50) NOT NULL
)
CREATE INDEX IX_Hierarchy_Node
ON Hierarchy (Node)
INCLUDE (Name)
CREATE INDEX IX_Hierarchy_NodeBF
ON Hierarchy ([Level], Node)
GO
INSERT Hierarchy (Node, Name)
SELECT CAST('/1/' AS hierarchyid), 'Alice' UNION ALL
SELECT CAST('/1/1/' AS hierarchyid), 'Bob' UNION ALL
SELECT CAST('/1/1/1/' AS hierarchyid), 'Charles' UNION ALL
SELECT CAST('/1/1/2/' AS hierarchyid), 'Dave' UNION ALL
SELECT CAST('/1/1/3/' AS hierarchyid), 'Ellen' UNION ALL
SELECT CAST('/1/2/' AS hierarchyid), 'Fred' UNION ALL
SELECT CAST('/1/3/' AS hierarchyid), 'Graham' UNION ALL
SELECT CAST('/1/3/1/' AS hierarchyid), 'Harold' UNION ALL
SELECT CAST('/1/3/2/' AS hierarchyid), 'Isabelle' UNION ALL
SELECT CAST('/1/4/' AS hierarchyid), 'John' UNION ALL
SELECT CAST('/2/' AS hierarchyid), 'Karen' UNION ALL
SELECT CAST('/2/1/' AS hierarchyid), 'Liam' UNION ALL
SELECT CAST('/2/2/' AS hierarchyid), 'Mary' UNION ALL
SELECT CAST('/2/2/1/' AS hierarchyid), 'Nigel' UNION ALL
SELECT CAST('/2/2/2/' AS hierarchyid), 'Oliver' UNION ALL
SELECT CAST('/2/3/' AS hierarchyid), 'Peter' UNION ALL
SELECT CAST('/2/3/1/' AS hierarchyid), 'Quinn'
GO
CREATE TYPE UniqueIntTable AS TABLE
(
Value int NOT NULL,
PRIMARY KEY (Value)
)
GO
COMMIT
GO
Вышеприведенный код / script может использоваться для создания схемы CLR/DB; используйте те же скрипты GoodFunction
и BadFunction
в оригинале.
Ответы
Ответ 1
Ха-ха, попробуйте следующее:
IF OBJECT_ID('_HappyFunction' ) IS NOT NULL DROP FUNCTION _HappyFunction
IF OBJECT_ID('_SadFunction' ) IS NOT NULL DROP FUNCTION _SadFunction
IF TYPE_ID ('_UniqueIntTable') IS NOT NULL DROP TYPE _UniqueIntTable
GO
CREATE TYPE _UniqueIntTable AS TABLE (Value int NOT NULL PRIMARY KEY)
GO
CREATE FUNCTION _HappyFunction (@IDs _UniqueIntTable READONLY)
RETURNS TABLE AS RETURN
SELECT Value FROM @IDs
GO
CREATE FUNCTION _SadFunction (@IDs _UniqueIntTable READONLY)
RETURNS TABLE AS RETURN
WITH CTE AS (SELECT Value FROM @IDs)
SELECT Value FROM CTE
GO
-- this will return an empty record set
DECLARE @IDs _UniqueIntTable
SELECT * FROM _HappyFunction(@IDs)
GO
-- this will hang
DECLARE @IDs _UniqueIntTable
SELECT * FROM _SadFunction(@IDs)
GO
Кто бы мог подумать?
Ответ 2
Я воспроизвел поведение на SQL 2008 SP1, заменив SQL UDF для CLF UDF dbo.GetAncestors. Я попробовал как функцию с табличной оценкой, так и встроенную функцию; ни один не сделал разницы.
Я еще не знаю, что происходит, но в пользу других, я включу свои определения ниже.
-- try a recursive inline UDF...
CREATE FUNCTION dbo.GetAncestors(@hierarchyid hierarchyid)
RETURNS TABLE AS RETURN (
WITH recurse AS (
SELECT @hierarchyid AS Ancestor
WHERE @hierarchyid IS NOT NULL
UNION ALL
SELECT Ancestor.GetAncestor(1) FROM recurse
WHERE Ancestor.GetAncestor(1) IS NOT NULL
)
SELECT * FROM recurse
)
-- ...or a table-valued UDF, it makes no difference
CREATE FUNCTION dbo.GetAncestors(@hierarchyid hierarchyid)
RETURNS @return TABLE (Ancestor hierarchyid)
AS BEGIN
WHILE @hierarchyid IS NOT NULL BEGIN
INSERT @return (Ancestor)
VALUES (@hierarchyid)
SET @hierarchyid = @hierarchyid.GetAncestor(1)
END
RETURN
END
Выберите одно из приведенных выше определений, а затем запустите его, чтобы посмотреть, как он зависает:
DECLARE @IDs UniqueIntTable
INSERT @IDs SELECT ID FROM Hierarchy
RAISERROR('we have inserted %i rows.',-1,-1,@@ROWCOUNT) WITH NOWAIT
SELECT * FROM dbo.GoodFunction(@IDs) a
RAISERROR('we have returned %i rows.',-1,-1,@@ROWCOUNT) WITH NOWAIT
GO
DECLARE @IDs UniqueIntTable
INSERT @IDs SELECT ID FROM Hierarchy
RAISERROR('we have inserted %i rows.',-1,-1,@@ROWCOUNT) WITH NOWAIT
SELECT * FROM dbo.BadFunction(@IDs) a
RAISERROR('we have returned %i rows.',-1,-1,@@ROWCOUNT) WITH NOWAIT
GO
Вторая партия никогда не запускается. Он проходит стадию разбора, но, похоже, теряется где-то между привязкой и оптимизацией.
Органы обеих функций компилируются в точно такой же план выполнения, за пределами оболочки функции:
SET SHOWPLAN_TEXT ON
GO
DECLARE @IDs UniqueIntTable
INSERT @IDs SELECT ID FROM Hierarchy
SELECT p.ID, p.Node, p.Name, p.[Level]
FROM
(
SELECT DISTINCT a.Ancestor AS Node
FROM Hierarchy c
CROSS APPLY dbo.GetAncestors_IF(c.Node.GetAncestor(1)) a
WHERE c.ID IN (SELECT Value FROM @IDs)
) np
INNER JOIN Hierarchy p
ON p.Node = np.Node
;WITH Ancestors_CTE AS
(
SELECT DISTINCT a.Ancestor AS Node
FROM Hierarchy c
CROSS APPLY dbo.GetAncestors_IF(c.Node.GetAncestor(1)) a
WHERE c.ID IN (SELECT Value FROM @IDs)
)
SELECT p.ID, p.Node, p.Name, p.[Level]
FROM Ancestors_CTE ac
INNER JOIN Hierarchy p
ON p.Node = ac.Node
-- both return this:
|--Nested Loops(Inner Join, OUTER REFERENCES:([p].[Node]))
|--Compute Scalar(DEFINE:([p].[Level]=[Scratch].[dbo].[Hierarchy].[Level] as [p].[Level]))
| |--Compute Scalar(DEFINE:([p].[Level]=[Scratch].[dbo].[Hierarchy].[Node] as [p].[Node].GetLevel()))
| |--Index Scan(OBJECT:([Scratch].[dbo].[Hierarchy].[IX_Hierarchy_Node] AS [p]))
|--Top(TOP EXPRESSION:((1)))
|--Filter(WHERE:([Recr1005]=[Scratch].[dbo].[Hierarchy].[Node] as [p].[Node]))
|--Nested Loops(Inner Join, OUTER REFERENCES:([c].[Node]))
|--Nested Loops(Inner Join, OUTER REFERENCES:([Value]))
| |--Clustered Index Scan(OBJECT:(@IDs))
| |--Clustered Index Seek(OBJECT:([Scratch].[dbo].[Hierarchy].[PK_Hierarchy] AS [c]), SEEK:([c].[ID]=[Value]) ORDERED FORWARD)
|--Index Spool(WITH STACK)
|--Concatenation
|--Compute Scalar(DEFINE:([Expr1011]=(0)))
| |--Constant Scan(VALUES:(([Scratch].[dbo].[Hierarchy].[Node] as [c].[Node].GetAncestor((1)))))
|--Assert(WHERE:(CASE WHEN [Expr1013]>(100) THEN (0) ELSE NULL END))
|--Nested Loops(Inner Join, OUTER REFERENCES:([Expr1013], [Recr1003]))
|--Compute Scalar(DEFINE:([Expr1013]=[Expr1012]+(1)))
| |--Table Spool(WITH STACK)
|--Compute Scalar(DEFINE:([Expr1004]=[Recr1003].GetAncestor((1))))
|--Filter(WHERE:(STARTUP EXPR([Recr1003].GetAncestor((1)) IS NOT NULL)))
|--Constant Scan
Очень интересно. Отправьте отчет об ошибке в Microsoft Connect, попросите их рассказать вам, что происходит.
Ответ 3
Это догадка и просто предположение, но, возможно, это что-то делать с тем, как оптимизатор делает довольно хорошее предположение в лучшем плане выполнения, но не делает исчерпывающий поиск для него.
Итак, выполнение запроса работает следующим образом:
parse → bind → optimize → выполнить
Деревья синтаксического анализа для ваших двух запросов, безусловно, будут разными. Деревья связывания, вероятно, разные. Я не знаю достаточно о фазе связывания, чтобы сформулировать это окончательно, но при условии, что деревья привязки разные, тогда может потребоваться другое число преобразований, чтобы получить деревья привязки A и B к одному и тому же плану выполнения.
Если для получения запроса B к плану ~ 5 мс требуется два дополнительных преобразования, оптимизатор может сказать "достаточно хорошо", прежде чем открывать его. Если для запроса A план ~ 5 мс может быть только внутри порога стоимости поиска.
Ответ 4
В первом утверждении ваше соединение
np INNER JOIN Hierarchy p
ON p.Node = np.Node
ваш второй оператор
Ancestors_CTE a
INNER JOIN Hierarchy p
ON p.Node = a.Node
Однако a также используется как псевдоним для dbo.GetAncestors(c.Node.GetAncestor(1)) в CT. Попробуйте обменять Ancestors_CTE a
, например. Ancestor_CTE acte
, чтобы оптимизатор не путался с двойным использованием a в качестве псевдонима.
Тем не менее, я не уверен, насколько хороший SQL-сервер применяет правильные индексы при создании CTE. У меня были проблемы с этим раньше, и вместо этого использовались переменные таблицы с большим успехом.
Ответ 5
Как я понимаю, при использовании CTE в пакете вы должны закончить инструкцию с помощью ";". Это как-то связано с интерпретацией предложения WITH. Попробуйте следующее:
IF OBJECT_ID('_HappyFunction' ) IS NOT NULL DROP FUNCTION _HappyFunction
IF OBJECT_ID('_NowHappyFunction') IS NOT NULL DROP FUNCTION _NowHappyFunction
IF TYPE_ID ('_UniqueIntTable') IS NOT NULL DROP TYPE _UniqueIntTable
GO
CREATE TYPE _UniqueIntTable AS TABLE (Value int NOT NULL PRIMARY KEY)
GO
CREATE FUNCTION _HappyFunction (@IDs _UniqueIntTable READONLY)
RETURNS TABLE AS RETURN
SELECT Value FROM @IDs
GO
CREATE FUNCTION _NowHappyFunction (@IDs _UniqueIntTable READONLY)
RETURNS @Table TABLE
(
Value INT
)
BEGIN
;WITH CTE AS (SELECT Value FROM @IDs)
INSERT INTO @Table
SELECT Value FROM CTE
RETURN
END
GO
-- this will return an empty record set
DECLARE @IDs _UniqueIntTable
SELECT * FROM _HappyFunction(@IDs)
GO
-- this will no longer hang and will also return an empty record set
DECLARE @IDs _UniqueIntTable
SELECT * FROM _NowHappyFunction(@IDs)
GO