Профили gprof vs cachegrind - программирование

При попытке оптимизировать код я немного озадачен различиями в профилях, созданных kcachegrdind и gprof. В частности, если я использую gprof (компиляция с помощью переключателя -pg и т.д.), У меня есть это:

Кажется, что мне кажется, что мне не нужно искать нигде, но ::R_impl(...)

В то же время, если я скомпилирую без коммутатора -pg и запустив valgrind --tool=callgrind ./a.out вместо этого, у меня есть нечто совсем другое: вот скриншот <<27 > вывода

Если я правильно интерпретирую это, кажется, что ::R_impl(...) занимает только около 50% времени, а другая половина - в линейной алгебре (Wrat(...), eigenvalues и лежащих в основе вызовов лакетов), которая была ниже в профиле gprof.

Я понимаю, что gprof и cachegrind используют разные методы, и я бы не стал беспокоиться о том, что их результаты несколько отличались. Но здесь это выглядит совсем по-другому, и я теряю информацию о том, как их интерпретировать. Любые идеи или предложения?

Ответы

Ответ 1

Вы смотрите на неправильный столбец. Вы должны посмотреть на второй столбец вывода kcachegrind, который называется "я". Это время, проведенное конкретной подпрограммой, только без учета его детей. Первый столбец имеет кумулятивное время (оно равно 100% машинного времени для основного), и оно не является информативным (на мой взгляд).

Обратите внимание, что из вывода kcachegrind вы можете видеть, что общее время процесса составляет 53,64 секунды, а время, проведенное в подпрограмме "R_impl", составляет 46,72 секунды, что составляет 87% от общего времени. Таким образом, gprof и kcachegrind полностью согласуются.

Ответ 2

gprof является инструментальным профилировщиком, callgrind является профилировщиком выборки. С помощью инструментального профилировщика вы получаете накладные расходы для каждой функции ввода и выхода, что может исказить профиль, особенно если у вас есть относительно небольшие функции, которые называются много раз. Пробоотборщики пробоотбора имеют тенденцию быть более точными - они замедляют выполнение всей программы немного, но это имеет тенденцию иметь одинаковый относительный эффект для всех функций.

Попробуйте бесплатную 30-дневную оценку Zoom from RotateRight - я подозреваю, что она даст вам профиль, который больше согласен с callgrind, чем с gprof.