Удивительно отличается производительность простой программы на С#

Ниже приведена простая программа, которая с небольшими изменениями оказывает существенное влияние на производительность, и я не понимаю, почему.

То, что делает программа, на самом деле не имеет значения, но она вычисляет PI очень запутанным способом, подсчитывая столкновения между двумя объектами различной массы и стеной. Когда я менял код, я заметил довольно большую разницу в производительности.

Рассматриваемые строки являются закомментированными, которые математически эквивалентны. Использование медленной версии делает всю программу примерно вдвое дольше, чем использование быстрой версии.

Моя интуиция говорит, что поскольку быстрая версия имеет 7 операций по сравнению с 4 операциями медленной, медленная должна быть быстрее, но это не так.

Я разобрал программу с помощью .NET Reflector, который показывает, что они в основном равны, как и ожидалось, за исключением части, показанной ниже. Код до и после одинаковый

Это также показывает, что с быстрой версией выполняется больше кода, что также заставляет меня ожидать, что она будет медленнее.

Единственное предположение, которое у меня есть сейчас, заключается в том, что медленная версия вызывает больше кеш-ошибок, но я не знаю, как это измерить (руководство будет приветствоваться). Кроме этого я в растерянности.

РЕДАКТИРОВАТЬ 1. Согласно запросу @EricLippert здесь разборка из JIT для внутреннего цикла while, где есть разница.

РЕДАКТИРОВАТЬ 2. Решил, как сломать в выпуске программы и обновил разборки, так что теперь, кажется, есть некоторая разница. Я получил эти результаты, запустив релизную версию, остановив программу в той же функции с помощью ReadKey, подключив отладчик, заставив программу продолжить выполнение, разбив следующую строку и войдя в окно разборки (ctrl + alt + d)

РЕДАКТИРОВАТЬ 3. Измените код на обновленный пример базы на все предложения.

Ответы

Ответ 1

Я думаю, что причина в конвейерной обработке команд процессора. Ваше медленное уравнение зависит от vs, то есть сначала нужно вычислить vs, а затем вычислить vl.

но в вашем быстром уравнении может быть передано больше инструкций, так как vs и vl могут быть вычислены одновременно, потому что они не зависят друг от друга.

Пожалуйста, не путайте это с многопоточностью. Конвейерная обработка команд - это нечто, реализованное на очень низком аппаратном уровне и пытающееся использовать как можно больше модулей ЦП одновременно для достижения максимальной пропускной способности команд.

Ответ 2

Вам расчеты не равны

double vL = (2 * ms * us - uL * (ms - mL)) / (ms + mL); //fast
double vL = uL + ms * (us - vs) / mL; //slow

Пример: я скучаю по vs в быстрой версии

Я ожидаю, что ваш цикл while делает больше итераций из-за этого?