Как я могу сделать этот цикл С# быстрее?

Резюме: Рид-ответ ниже, если вы хотите остаться на С#. Если вы готовы маршалировать на С++ (что я и есть), это более быстрое решение.

У меня есть два массива 55mb ushort в С#. Я объединять их, используя следующий цикл:

Этот код, в соответствии с добавлением вызовов DateTime.Now до и после, занимает 3,5 секунды для запуска. Как я могу сделать это быстрее?

EDIT: Вот какой код, который, я думаю, показывает корень проблемы. Когда следующий код запускается в новом WPF-приложении, я получаю следующие результаты:

Итак, когда массивы идут напрямую, время намного быстрее, чем если массивы находятся внутри другого объекта или контейнера. Этот код показывает, что каким-то образом я использую метод доступа, а не напрямую обращаюсь к массивам. Тем не менее, самый быстрый, который я, похоже, получаю, составляет полсекунды. Когда я запускаю второй список кода на С++ с помощью icc, я получаю:

В этом случае С++ быстрее на 7 раз (с использованием icc, не уверен, что с помощью msvc можно получить такую же производительность). Я не так хорошо знаком с оптимизациями там). Есть ли способ получить С# около этого уровня производительности С++, или мне просто нужно, чтобы С# вызывал мою С++-процедуру?

Листинг 2, эквивалент С++: //looptiming.cpp: Определяет точку входа для консольного приложения. //

EDIT 2: Включение /QxHost во втором примере сокращает время до 0.0662714 секунд. Модифицирование первого цикла в качестве предложения @Reed приводит меня к

Итак, все еще недостаточно быстро для слайдера. Это время через код:

РЕДАКТИРОВАТЬ 3. В соответствии с предложением @Eric Lippert, я перезапустил код на С# в версии и вместо того, чтобы использовать прикрепленный отладчик, просто распечатайте результаты в диалоговом окне. Это:

Итак, параллельное решение, безусловно, быстрее, чем 3,5 секунды, которые я получал раньше, но все еще немного ниже 0.074 секунд, достижимых с использованием процессора non-icc. Похоже, что самое быстрое решение заключается в компиляции в выпуске, а затем на маркер с компилятором icc-скомпилированного С++, что делает возможным использование ползунка.

EDIT 4: Еще три предложения от @Eric Lippert: измените внутреннюю часть цикла for от length до array.length, используйте удвоения и попробуйте небезопасный код.

До сих пор параллельное решение является большим победителем. Хотя, если бы я мог добавить их через шейдер, возможно, я мог видеть, что там есть ускорение...

Ответы

Ответ 1

Это должно быть идеально параллелизуемо. Однако, учитывая небольшой объем работы, выполняемой для каждого элемента, вам нужно будет справиться с этим с особой осторожностью.

Правильный способ сделать это (в .NET 4) - использовать Parallel.ForEach в сочетании с Partitioner:

float b = (float)number / 100.0f;
Parallel.ForEach(Partitioner.Create(0, length), 
(range) =>
{
   for (int i = range.Item1; i < range.Item2; i++)
   {
      image.DataArray[i] = 
          (ushort)(mUIHandler.image1.DataArray[i] + 
          (ushort)(b * (float)mUIHandler.image2.DataArray[i]));
   }
});

Это позволит эффективно разделить работу по доступным ядрам обработки в вашей системе и обеспечить достойное ускорение, если у вас несколько ядер.

Если говорить, это в лучшем случае ускорит эту операцию только по количеству ядер в вашей системе. Если вам нужно ускорить его, вам, скорее всего, придется вернуться к сочетанию распараллеливания и небезопасного кода. В этот момент, возможно, стоит подумать об альтернативах, чтобы попытаться представить это в режиме реального времени.

Ответ 2

Предполагая, что у вас много таких ребят, вы можете попытаться распараллелить операцию (и используете .NET 4):

Parallel.For(0, length, i=>
   {
       image.DataArray[i] = 
      (ushort)(mUIHandler.image1.DataArray[i] + 
      (ushort)(b * (float)mUIHandler.image2.DataArray[i]));
   });

Конечно, все будет зависеть от того, стоит ли это распараллеливать. Это утверждение выглядит довольно коротко вычислительно; доступ к индексам по номеру довольно быстрый, как есть. Вы можете получить прибыль, потому что этот цикл выполняется много раз с таким количеством данных.