Параллельная структура и избежание ложного обмена

Недавно я ответил на вопрос об оптимизации вероятного параллелизуемого метода для генерации каждой перестановки произвольных базовых чисел. Я опубликовал ответ, подобный списку Параллельный, плохой реализации, и кто-то почти сразу указал на это:

и они были правы, это была медленная смерть. Тем не менее, я исследовал эту тему и нашел интересные материалы и предложения для борьбы с ней. Если я правильно понимаю, когда потоки обращаются к непрерывной памяти (скажем, к массиву, который, вероятно, поддерживает этот ConcurrentStack), вероятно, происходит ложное разделение.

Для кода ниже горизонтального правила a Bytes:

Для моего собственного тестирования я хотел получить параллельную версию этого запуска и быть действительно быстрее, поэтому я создал простой пример, основанный на исходном коде. 6 как limits[0] был ленивым выбором с моей стороны - мой компьютер имеет 6 ядер.

Блок с одним потоком Среднее время выполнения: 10 с0059мс

Параллельная, плохая реализация. Среднее время выполнения: 81s729ms, ~ 8700.

Параллельно,?? реализация Среднее время выполнения: 5s833ms, 92 утверждения

Я рад, что у меня была реализация, которая быстрее, чем однопоточная версия. Я ожидал, что результат приблизится к 10 с /6, или около 1,6 секунды, но это, вероятно, наивное ожидание.

Мой вопрос для параллелизированной реализации, которая на самом деле быстрее, чем однопоточная версия, есть ли дальнейшие оптимизации, которые могут быть применены к операции? Мне интересно об оптимизации, связанные с распараллеливанием, а не усовершенствования алгоритма, используемого для вычисления значений. В частности:

Ответы

Ответ 1

Во-первых, мое первоначальное предположение относительно Parallel.For() и Parallel.ForEach() было неправильным.

Плохая параллельная реализация, скорее всего, имеет 6 потоков, каждый из которых пытается записать один сингл CouncurrentStack() сразу. Хорошая реализация, использующая локаторы потоков (объясняется ниже), только один раз получает доступ к общей переменной за задачу, что почти устраняет любые разногласия.

При использовании Parallel.For() и Parallel.ForEach() вы не можете просто вставить строку в строку for или foreach. Это не означает, что это не может быть слепым улучшением, но, не рассматривая проблему и не применяя ее, использование их бросает многопоточность на проблему, потому что это может ускорить ее работу.

** Parallel.For() и Parallel.ForEach() имеют перегрузки, которые позволяют создавать локальное состояние для Task, которое они в конечном итоге создают, и запускать выражение до и после каждого выполнения итерации.

Если у вас есть операция, которую вы распараллеливаете с помощью Parallel.For() или Parallel.ForEach(), вероятно, рекомендуется использовать эту перегрузку:

public static ParallelLoopResult For<TLocal>(
    int fromInclusive,
    int toExclusive,
    Func<TLocal> localInit,
    Func<int, ParallelLoopState, TLocal, TLocal> body,
    Action<TLocal> localFinally
)

Например, вызывая For() для суммирования всех целых чисел от 1 до 100,

var total = 0;

Parallel.For(0, 101, () => 0,  // <-- localInit
(i, state, localTotal) => { // <-- body
  localTotal += i;
  return localTotal;
}, localTotal => { <-- localFinally
  Interlocked.Add(ref total, localTotal);
});

Console.WriteLine(total);

localInit должен быть lambda, который инициализирует тип локального состояния, который передается в body и localFinally lambdas. Обратите внимание, что я не рекомендую выполнять суммирование с 1 по 100 с использованием распараллеливания, но просто попробуйте простой пример, чтобы сделать пример коротким.