Предотвращение рекурсивного посещения узлов CTE несколько раз

Рассмотрим следующую простую DAG:

  1->2->3->4

И таблица, #bar, описывающая это (я использую SQL Server 2005):

parent_id   child_id
1           2
2           3
3           4
//... other edges, not connected to the subgraph above

Теперь представьте, что у меня есть другие произвольные критерии, которые выбирают первый и последний ребра, т.е. 1- > 2 и 3- > 4. Я хочу использовать их, чтобы найти остальную часть моего графика.

Я могу написать рекурсивный CTE следующим образом (я использую терминологию из MSDN):

with foo(parent_id,child_id) as (
// anchor member that happens to select first and last edges:
select parent_id,child_id from #bar where parent_id in (1,3)
union all
// recursive member:
select #bar.* from #bar
join foo on #bar.parent_id = foo.child_id
)
select parent_id,child_id from foo

Однако это приводит к выбору края 3- > 4:

parent_id  child_id
1          2
3          4
2          3
3          4    // 2nd appearance!

Как я могу предотвратить повторный запрос запроса на подграфы, которые уже были описаны? Я мог бы добиться этого, если в моей части "рекурсивного члена" запроса я мог бы ссылаться на все данные, которые были получены рекурсивным CTE до сих пор (и предоставить предикат, указывающий в рекурсивном элементе, исключая уже посетившие узлы). Тем не менее, я думаю, что я могу получить доступ к данным, которые были возвращены последней итерацией только рекурсивного члена.

Это не будет хорошо масштабироваться, когда будет много такого повторения. Есть ли способ предотвратить эту ненужную дополнительную рекурсию?

Обратите внимание, что я могу использовать "select distinct" в последней строке моего утверждения для достижения желаемых результатов, но это, кажется, применяется после завершения (повторной) рекурсии, поэтому я не думаю, что это идеальное решение.

Edit - hainstech предлагает остановить рекурсию, добавив предикат, чтобы исключить рекурсивные пустые пути, которые явно были в стартовом наборе, т.е. только рекурсия where foo.child_id not in (1,3). Это работает только для случая, потому что это просто - все повторяющиеся разделы начинаются в наборе узлов привязки. Он не решает общий случай, когда они не могут быть. например, рассмотреть добавление краев 1- > 4 и 4- > 5 в вышеуказанное множество. Edge 4- > 5 будет захватываться дважды, даже с предлагаемым предикатом.: (

Ответы

Ответ 1

CTE являются рекурсивными.

Когда ваш CTE имеет несколько начальных условий, это означает, что у них также есть разные рекурсионные стеки, и нет способа использовать информацию из одного стека в другом стеке.

В вашем примере стеки рекурсии будут выглядеть следующим образом:

(1) - first IN condition
(1, 2)
(1, 2, 3)
(1, 2, 3, 4)
(1, 2, 3) - no more children
(1, 2) - no more children
(1) - no more children, going to second IN condition

(3) - second condition
(3, 4)
(3) - no more children, returning

Как вы можете видеть, эти рекурсионные стеки не пересекаются.

Возможно, вы могли бы записать посещенные значения во временную таблицу, JOIN каждое значение с помощью соблазнительного и не следовать этому значению, если оно найдено, но SQL Server не поддерживает эти вещи.

Итак, вы просто используете SELECT DISTINCT.

Ответ 2

Это подход, который я использовал. Он был протестирован против нескольких методов и был наиболее эффективным. Он объединяет идею temp table, предложенную Quassnoi, и использование как отдельного, так и левого соединения для устранения избыточных путей к рекурсии. Также включен уровень рекурсии.

Я оставил неудачный подход CTE в коде, чтобы вы могли сравнивать результаты.

Если у кого-то есть лучшая идея, я бы с удовольствием это узнал.

create table #bar (unique_id int identity(10,10), parent_id int, child_id int)
insert #bar  (parent_id, child_id)
SELECT 1,2 UNION ALL
SELECT 2,3 UNION ALL
SELECT 3,4 UNION ALL
SELECT 2,5 UNION ALL
SELECT 2,5 UNION ALL
SELECT 5,6

SET NOCOUNT ON

;with foo(unique_id, parent_id,child_id, ord, lvl) as (
    -- anchor member that happens to select first and last edges:
    select unique_id, parent_id, child_id, row_number() over(order by unique_id), 0
    from #bar where parent_id in (1,3)
union all
-- recursive member:
select b.unique_id, b.parent_id, b.child_id, row_number() over(order by b.unique_id), foo.lvl+1
    from #bar b
    join foo on b.parent_id = foo.child_id
)
select unique_id, parent_id,child_id, ord, lvl from foo

/***********************************
    Manual Recursion
***********************************/
Declare @lvl as int
Declare @rows as int
DECLARE @foo as Table(
    unique_id int,
    parent_id int,
    child_id int,
    ord int,
    lvl int)

--Get anchor condition
INSERT @foo (unique_id, parent_id, child_id, ord, lvl)
select unique_id, parent_id, child_id, row_number() over(order by unique_id), 0
    from #bar where parent_id in (1,3)

set @[email protected]@ROWCOUNT
set @lvl=0

--Do recursion
WHILE @rows > 0
BEGIN
    set @lvl = @lvl + 1

    INSERT @foo (unique_id, parent_id, child_id, ord, lvl)
    SELECT DISTINCT b.unique_id, b.parent_id, b.child_id, row_number() over(order by b.unique_id), @lvl
    FROM #bar b
     inner join @foo f on b.parent_id = f.child_id
     --might be multiple paths to this recursion so eliminate duplicates
     left join @foo dup on dup.unique_id = b.unique_id
    WHERE f.lvl = @lvl-1 and dup.child_id is null

    set @[email protected]@ROWCOUNT 
END

SELECT * from @foo

DROP TABLE #bar

Ответ 3

Вам известно, какой из двух ребер находится на более глубоком уровне в дереве? Поскольку в этом случае вы можете сделать ребро 3->4 элементом привязки и начать движение по дереву, пока не найдете край 1->2.

Что-то вроде этого:

with foo(parent_id, child_id)
as
(
    select parent_id, child_id
    from #bar
    where parent_id = 3

    union all

    select parent_id, child_id
    from #bar b
    inner join foo f on b.child_id = f.parent_id
    where b.parent_id <> 1
)
select *
from foo

Ответ 4

Это то, что вы хотите сделать?

create table #bar (parent_id int, child_id int)
insert #bar values (1,2)
insert #bar values (2,3)
insert #bar values (3,4)

declare @start_node table (parent_id int)
insert @start_node values (1)
insert @start_node values (3)

;with foo(parent_id,child_id) as (
    select
        parent_id
        ,child_id
    from #bar where parent_id in (select parent_id from @start_node)

    union all

    select
        #bar.*
    from #bar
        join foo on #bar.parent_id = foo.child_id
    where foo.child_id not in (select parent_id from @start_node)
)
select parent_id,child_id from foo

Изменить - @bacar - Я не думаю, что это предложение временного стола, предложенное Квасьным. Я считаю, что они предлагали в основном дублировать содержимое всех членов рекурсии во время каждой рекурсии и использовать это как соединение для предотвращения повторной обработки (и что это не поддерживается в ss2k5). Мой подход поддерживается, и единственное изменение в вашем оригинале заключается в предикате в элементе рекурсии, чтобы исключить рекурсивные пути, которые были явно указаны в вашем стартовом наборе. Я только добавил переменную таблицы, чтобы вы определяли начальные parent_ids в одном месте, вы могли бы так же легко использовать этот предикат с исходным запросом:

where foo.child_id not in (1,3)

Ответ 5

EDIT - это совсем не работает. Это метод прекращения преследования маршрутов треугольника. Он не делает то, что хотел OP.

Или вы можете использовать рекурсивную строку, разделенную на токены.

Я дома на своем ноутбуке (без сервера sql), так что это может быть не совсем правильно, но здесь идет.....

; WITH NodeNetwork AS (
  -- Anchor Definition
  SELECT
     b.[parent_Id] AS [Parent_ID]
     , b.[child_Id] AS [Child_ID]
     , CAST(b.[Parent_Id] AS VARCHAR(MAX)) AS [NodePath]
  FROM
     #bar AS b

  -- Recursive Definition
  UNION ALL SELECT
     b.[Parent_Id]
     , b.[child_Id]
     , CAST(nn.[NodePath] + '-' + CAST(b.[Parent_Id] AS VARCHAR(MAX)) AS VARCHAR(MAX))
  FROM
     NodeNetwork AS nn
     JOIN #bar AS b ON b.[Parent_Id] = nn.[Child_ID]
  WHERE
     nn.[NodePath] NOT LIKE '%[-]' + CAST(b.[Parent_Id] AS VARCHAR(MAX)) + '%'
  )
  SELECT * FROM NodeNetwork

Или аналогично. Простите, и я не могу это проверить. Я проверю в понедельник утром. Кредит для этого должен пойти к Питеру Ларссону (Песо)

Идея была создана здесь: http://www.sqlteam.com/forums/topic.asp?TOPIC_ID=115290

Ответ 6

(Я не специалист по графикам, просто немного разбираюсь)

DISTINCT гарантирует, что каждая строка отличается, но она не устранит маршруты графа, которые не попадают в ваш последний край. Возьмите этот график:

insert into #bar (parent_id,child_id) values (1,2)
insert into #bar (parent_id,child_id) values (1,5)
insert into #bar (parent_id,child_id) values (2,3)
insert into #bar (parent_id,child_id) values (2,6)
insert into #bar (parent_id,child_id) values (6,4)

Результаты запроса включают в себя (1,5), который не является частью маршрута от первого края (1,2) до последнего ребра (6,4).

Вы можете попробовать что-то вроде этого, чтобы найти только маршруты, начинающиеся с (1,2) и заканчивающиеся на (6,4):

with foo(parent_id, child_id, route) as (
    select parent_id, child_id, 
        cast(cast(parent_id as varchar) + 
        cast(child_id as varchar) as varchar(128))
    from #bar
    union all
    select #bar.parent_id, #bar.child_id, 
        cast(route + cast(#bar.child_id as varchar) as varchar(128)) 
    from #bar
    join foo on #bar.parent_id = foo.child_id
)
select * from foo where route like '12%64'