Почему DFS медленнее в одном дереве и быстрее в другом?

ОБНОВЛЕНИЕ: Оказывается, в парсере произошла ошибка, которая генерировала деревья. Подробнее в Final edit.

Пусть T - двоичное дерево, так что каждый внутренний node имеет ровно два ребенка. Для этого дерева мы хотим закодировать функцию, которая для каждого node v в T находит количество узлов в поддереве, определяемом v.

С красным я указываю числа, которые мы хотим вычислить. Узлы дерева будут храниться в массиве, назовем его TreeArray, выполнив макет предзаказа.

В приведенном выше примере TreeArray будет содержать следующие объекты:

A node дерева описывается следующей структурой:

Функция для вычисления всех значений size такова:

Я хотел бы понять, почему эта функция быстрее, когда T выглядит так (почти как левая цепочка):

и медленнее, когда T выглядит так (почти как правая цепочка):

Следующие эксперименты проводились на процессоре Intel (R) Core (TM) i5-3470 с частотой 3,0 ГГц с 8 ГБ оперативной памяти, кеш-память L1 256 КБ, кеш второго уровня 1 МБ, кеш-память L3 6 МБ.

Каждая точка в графах является результатом следующего для цикла (параметры определяются осью):

n соответствует общему числу узлов, а время измеряется в секундах. Как видно, ясно, что при возрастании n функция намного быстрее, когда дерево выглядит как целая цепь слева, хотя число узлов в обоих случаях одинаково.

Теперь попробуем найти, где узкое место. Я использовал PAPI library для подсчета интересных счетчиков оборудования.

Первый счетчик - это инструкции, сколько инструкций мы фактически тратим? Есть ли разница, когда деревья выглядят иначе?

Разница незначительна. Похоже, что для больших входов левая цепочка требует меньше инструкций, но разница настолько мала, поэтому я думаю, что можно с уверенностью предположить, что оба они требуют одинакового количества инструкций.

Увидев, что мы сохранили дерево в хорошем предваритетном макете внутри TreeArray, имеет смысл увидеть, что происходит в кеше. К сожалению для кеша L1 мой компьютер не предоставляет никаких счетчиков, но у меня есть для L2 и L3.

Посмотрим на доступ к кешу L2. Доступ к кешу L2 происходит, когда мы получаем пропущенную кеш-память L1, так что это косвенный счетчик для пропусков L1.

Как мы видим, правильное дерево требует меньше промахов L1, поэтому кажется, что он эффективно использует кеш.

То же самое для пропусков L2, правильное дерево кажется более эффективным. Все еще ничего не говорит о том, почему правильные деревья растут так медленно. Посмотрите на L3.

В L3 вещи взрываются для правильных деревьев. Таким образом, проблема, похоже, в кэше L3. К сожалению, я не мог объяснить причину такого поведения. Почему в кэше L3 что-то происходит для правильных деревьев?

Скомпилируйте, набрав g++ -O3 -std=c++11 file.cpp Запустите, набрав ./executable tree.txt. В tree.txt мы сохраняем дерево в новом формате.

Время выполнения: ~ 0.07 секунд для левых деревьев ~ 0.12 секунды для правильных деревьев

Я прошу прощения за длинный пост, но, учитывая, насколько сужен, кажется, проблема, я не мог найти лучшего способа описать это.

Это последующее редактирование после ответа MrSmith42. Я понимаю, что местность играет очень большую роль, но я не уверен, что понимаю, что это так.

Для двух приведенных выше деревьев рассмотрим, как мы получаем доступ к памяти с течением времени.

Мне кажется, что в обоих случаях мы имеем локальные шаблоны доступа.

Вот сюжет о количестве неверных предсказаний ветки:

Я хотел бы извиниться за то, что тратил все время, у синтаксического анализатора, который я использовал, был параметр для того, как "осталось" или "право", я хотел бы, чтобы мое дерево выглядело. Это было плавающее число, оно должно было быть близко к 0, чтобы оно оставалось и приближалось к 1, чтобы сделать это правильно. Однако, чтобы сделать его похожим на цепочку, он должен быть очень маленьким, например 0.000000001 или 0.999999999. Для небольших входов дерево выглядело как цепочка даже для значений типа 0.0001. Я думал, что это число было достаточно маленьким и что оно также даст цепь для больших деревьев, однако, как я покажу, это не так. Если вы используете числа типа 0.000000001, синтаксический анализатор перестает работать из-за проблем с плавающей запятой.

Ответ vadikrobot показал, что у нас есть проблемы с локальностью. Вдохновленный его экспериментом, я решил обобщить диаграмму диаграммы доступа выше, чтобы увидеть, как она ведет себя не только в деревьях примера, но и в любых деревьях.

Шаблоны доступа, созданные неправильным парсером

Выглядит очень красиво, как было предсказано на диаграммах выше (я только забыл на приведенных выше диаграммах тот факт, что, когда мы находим размер node, мы также получаем доступ к параметру размера этого node, cur в исходном коде выше).

Выглядит так, как ожидалось. Что насчет 1000 листьев?

Это определенно не ожидается. В верхнем правом углу есть небольшой треугольник. И причина в том, что дерево не похоже на левую цепочку, в конце концов, где-то в конце висит небольшое поддерево. Проблема становится еще больше, когда листья 10 ^ 4.

Посмотрим, что происходит с правильными деревьями. Когда листья составляют 10:

Выглядит хорошо. Вот почему я поставил под сомнение местность правильных деревьев, для меня оба казались, по крайней мере, теорией локальными. Теперь, если вы попытаетесь увеличить размер, произойдет что-то интересное:

Для 10 ^ 4 листьев вещи становятся еще более грязными:

Шаблоны доступа, созданные правильным парсером

Вместо использования этого общего анализатора я создал один для этого конкретного вопроса:

Теперь шаблоны доступа выглядят так, как ожидалось.

в черной части мы переходим от низкого места к высокому месту, но расстояние между предыдущим низким и текущим низким невелико, то же самое для предыдущего максимума и текущего максимума. Следовательно, кеш должен быть достаточно умным, чтобы удерживать два блока: один для низких мест и один для высоких мест, что дает небольшое количество промахов в кеше.

Оригинальные эксперименты снова. На этот раз я мог только попробовать до 10 ^ 5 листьев, потому что, как заметил Mystical, мы получим переполнение стека из-за высоты деревьев, чего не было в предыдущих экспериментах, так как высота была меньше той, ожидается.

Разумеется, они кажутся одинаковыми, однако кеш и ветвь не нужны. Правые деревья били левые деревья в предсказаниях ветвей, левые деревья били правильные деревья в кеше.

Возможно, мое использование PAPI было неправильным, выход из perf:

Возможно, я снова что-то испортил, и я прошу прощения за это. Я включил свою попытку здесь на случай, если кто-то захочет продолжить расследование.

Ответы

Ответ 1

ОБНОВЛЕНИЕ:

Я определяю количество доступного элемента в массиве во времени

void testCache(int cur, FILE *f) {
   if(treeArray[cur].numChildren == 0){
       fprintf (f, "%d\n", cur);
       treeArray[cur].size = 1;
       return;
   }

   fprintf (f, "%d\n", cur);
   testCache(treeArray[cur].lpos, f);
   fprintf (f, "%d\n", cur);
   testCache(treeArray[cur].rpos, f);

   fprintf (f, "%d\n", treeArray[cur].lpos);
   fprintf (f, "%d\n", treeArray[cur].rpos);
   treeArray[cur].size = treeArray[treeArray[cur].lpos].size + treeArray[treeArray[cur].rpos].size + 1;
}

В результате я нарисую 999990 элемент полученного текстового файла:

Вы можете видеть, что для левого дерева все элементы локально доступны, но для правильного существует неравномерность при доступе.

OLD:

Я попытался вычислить количество считываний памяти с помощью valgrind. для правой

valgrind --tool=callgrind --cache-sim ./a.out right
==11493== I   refs:      427,444,674
==11493== I1  misses:          2,288
==11493== LLi misses:          2,068
==11493== I1  miss rate:        0.00%
==11493== LLi miss rate:        0.00%
==11493== 
==11493== D   refs:      213,159,341  (144,095,416 rd + 69,063,925 wr)
==11493== D1  misses:     15,401,346  ( 12,737,497 rd +  2,663,849 wr)
==11493== LLd misses:        329,337  (      7,935 rd +    321,402 wr)
==11493== D1  miss rate:         7.2% (        8.8%   +        3.9%  )
==11493== LLd miss rate:         0.2% (        0.0%   +        0.5%  )
==11493== 
==11493== LL refs:        15,403,634  ( 12,739,785 rd +  2,663,849 wr)
==11493== LL misses:         331,405  (     10,003 rd +    321,402 wr)
==11493== LL miss rate:          0.1% (        0.0%   +        0.5%  )

и для левой

valgrind --tool=callgrind --cache-sim=yes ./a.out left

==11496== I   refs:      418,204,722
==11496== I1  misses:          2,327
==11496== LLi misses:          2,099
==11496== I1  miss rate:        0.00%
==11496== LLi miss rate:        0.00%
==11496== 
==11496== D   refs:      204,114,971  (135,076,947 rd + 69,038,024 wr)
==11496== D1  misses:     19,470,268  ( 12,661,123 rd +  6,809,145 wr)
==11496== LLd misses:        306,948  (      7,935 rd +    299,013 wr)
==11496== D1  miss rate:         9.5% (        9.4%   +        9.9%  )
==11496== LLd miss rate:         0.2% (        0.0%   +        0.4%  )
==11496== 
==11496== LL refs:        19,472,595  ( 12,663,450 rd +  6,809,145 wr)
==11496== LL misses:         309,047  (     10,034 rd +    299,013 wr)
==11496== LL miss rate:          0.0% (        0.0%   +        0.4%  )

Как вы можете видеть, количество памяти читается "rd" в "правильном" случае больше, чем в левом

Ответ 2

Кэш-пропуски различаются из-за расположения узлов в нашей памяти. Если вы обращаетесь к узлам в порядке, в котором они находятся в memmory, вполне вероятно, что кеш уже загрузил их из RAM в кеш (потому что страницы кэша нагрузки (скорее всего, больше одного из ваших узлов)).

Если вы обращаетесь к узлам в случайном порядке (в перспективе в позицию в ОЗУ) или в обратном порядке, становится более вероятным, что кеш еще не загрузил их из ОЗУ.

Таким образом, разница не связана с структурой вашего дерева, а с положением древовидных узлов в вашей ОЗУ по сравнению с порядком, к которому вы хотите получить доступ.

EDIT: (после того, как был добавлен вопрос о доступе):

Как вы можете видеть на графике шаблона доступа:
На "левом дереве" доступ перескакивает с низких до высоких индексов примерно на половину доступа. Таким образом, вторая половина, вероятно, всегда приведет к промахам в кеше, поскольку расстояние растет и растет.
На "правильном дереве" вторая половина имеет как минимум 2 узла рядом друг с другом (в порядке доступа), а также следующие два с удачей иногда на одной странице кеша.