Ответ 1
Обновление
У меня нет объяснений для вас, так как я нахожусь на Хасуэлле, но у меня есть код для обмена, который может помочь вам или кому-то еще с оборудованием Broadwell или Skylake изолировать вашу проблему. Если бы вы могли запустить его на своем компьютере и поделиться результатами, мы могли бы получить представление о том, что происходит с вашей машиной.
Введение
В новейших процессорах Intel Core i7 есть 7 счетчиков контроля производительности (PMC), 3 фиксированной функции и 4 универсальных устройства, которые могут использоваться для кода профиля. PMC с фиксированной функцией:
- Инструкции вышли на пенсию
- Неактивные циклы ядра (тики часов, включая эффекты TurboBoost)
- Необработанные опорные циклы (галочки с фиксированной частотой)
Отношение сердечников: опорные тактовые циклы определяют относительное ускорение или замедление от масштабирования динамической частоты.
Хотя программное обеспечение существует (см. комментарии ниже), которое обращается к этим счетчикам, я не знал их и все еще считаю их недостаточно мелкозернистыми.
В течение последних нескольких дней я написал себе модуль ядра Linux perfcount
, чтобы предоставить мне доступ к мониторам производительности Intel, а также тестовый стенд и библиотеку для вашего кода, который обертывает ваш код FMA вокруг звонков на мой LKM. Появятся инструкции по воспроизведению моей установки.
Мой исходный код testbench приведен ниже. Он прогревается, а затем запускает ваш код несколько раз, проверяя его на длинный список показателей. Я изменил количество циклов до 1 миллиарда. Поскольку сразу можно запрограммировать только 4 PMC общего назначения, я выполняю измерения 4 за раз.
perfcountdemo.c
/* Includes */
#include "libperfcount.h"
#include <ctype.h>
#include <stdint.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
/* Function prototypes */
void code1(void);
void code2(void);
void code3(void);
void code4(void);
void code5(void);
/* Global variables */
void ((*FN_TABLE[])(void)) = {
code1,
code2,
code3,
code4,
code5
};
/**
* Code snippets to bench
*/
void code1(void){
asm volatile(
".intel_syntax noprefix\n\t"
"vzeroall\n\t"
"mov rcx, 1000000000\n\t"
"LstartLabel1:\n\t"
"vfmadd231ps %%ymm0, %%ymm0, %%ymm0\n\t"
"vfmadd231ps ymm1, ymm1, ymm1\n\t"
"vfmadd231ps ymm2, ymm2, ymm2\n\t"
"vfmadd231ps ymm3, ymm3, ymm3\n\t"
"vfmadd231ps ymm4, ymm4, ymm4\n\t"
"vfmadd231ps ymm5, ymm5, ymm5\n\t"
"vfmadd231ps ymm6, ymm6, ymm6\n\t"
"vfmadd231ps ymm7, ymm7, ymm7\n\t"
"vfmadd231ps ymm8, ymm8, ymm8\n\t"
"vfmadd231ps ymm9, ymm9, ymm9\n\t"
"vpaddd ymm10, ymm10, ymm10\n\t"
"vpaddd ymm11, ymm11, ymm11\n\t"
"vpaddd ymm12, ymm12, ymm12\n\t"
"vpaddd ymm13, ymm13, ymm13\n\t"
"vpaddd ymm14, ymm14, ymm14\n\t"
"dec rcx\n\t"
"jnz LstartLabel1\n\t"
".att_syntax noprefix\n\t"
: /* No outputs we care about */
: /* No inputs we care about */
: "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6", "xmm7",
"xmm8", "xmm9", "xmm10", "xmm11", "xmm12", "xmm13", "xmm14", "xmm15",
"rcx",
"memory"
);
}
void code2(void){
}
void code3(void){
}
void code4(void){
}
void code5(void){
}
/* Test Schedule */
const char* const SCHEDULE[] = {
/* Batch */
"uops_issued.any",
"uops_issued.any<1",
"uops_issued.any>=1",
"uops_issued.any>=2",
/* Batch */
"uops_issued.any>=3",
"uops_issued.any>=4",
"uops_issued.any>=5",
"uops_issued.any>=6",
/* Batch */
"uops_executed_port.port_0",
"uops_executed_port.port_1",
"uops_executed_port.port_2",
"uops_executed_port.port_3",
/* Batch */
"uops_executed_port.port_4",
"uops_executed_port.port_5",
"uops_executed_port.port_6",
"uops_executed_port.port_7",
/* Batch */
"resource_stalls.any",
"resource_stalls.rs",
"resource_stalls.sb",
"resource_stalls.rob",
/* Batch */
"uops_retired.all",
"uops_retired.all<1",
"uops_retired.all>=1",
"uops_retired.all>=2",
/* Batch */
"uops_retired.all>=3",
"uops_retired.all>=4",
"uops_retired.all>=5",
"uops_retired.all>=6",
/* Batch */
"inst_retired.any_p",
"inst_retired.any_p<1",
"inst_retired.any_p>=1",
"inst_retired.any_p>=2",
/* Batch */
"inst_retired.any_p>=3",
"inst_retired.any_p>=4",
"inst_retired.any_p>=5",
"inst_retired.any_p>=6",
/* Batch */
"idq_uops_not_delivered.core",
"idq_uops_not_delivered.core<1",
"idq_uops_not_delivered.core>=1",
"idq_uops_not_delivered.core>=2",
/* Batch */
"idq_uops_not_delivered.core>=3",
"idq_uops_not_delivered.core>=4",
"rs_events.empty",
"idq.empty",
/* Batch */
"idq.mite_all_uops",
"idq.mite_all_uops<1",
"idq.mite_all_uops>=1",
"idq.mite_all_uops>=2",
/* Batch */
"idq.mite_all_uops>=3",
"idq.mite_all_uops>=4",
"move_elimination.int_not_eliminated",
"move_elimination.simd_not_eliminated",
/* Batch */
"lsd.uops",
"lsd.uops<1",
"lsd.uops>=1",
"lsd.uops>=2",
/* Batch */
"lsd.uops>=3",
"lsd.uops>=4",
"ild_stall.lcp",
"ild_stall.iq_full",
/* Batch */
"br_inst_exec.all_branches",
"br_inst_exec.0x81",
"br_inst_exec.0x82",
"icache.misses",
/* Batch */
"br_misp_exec.all_branches",
"br_misp_exec.0x81",
"br_misp_exec.0x82",
"fp_assist.any",
/* Batch */
"cpu_clk_unhalted.core_clk",
"cpu_clk_unhalted.ref_xclk",
"baclears.any"
};
const int NUMCOUNTS = sizeof(SCHEDULE)/sizeof(*SCHEDULE);
/**
* Main
*/
int main(int argc, char* argv[]){
int i;
/**
* Initialize
*/
pfcInit();
if(argc <= 1){
pfcDumpEvents();
exit(1);
}
pfcPinThread(3);
/**
* Arguments are:
*
* perfcountdemo #codesnippet
*
* There is a schedule of configuration that is followed.
*/
void (*fn)(void) = FN_TABLE[strtoull(argv[1], NULL, 0)];
static const uint64_t ZERO_CNT[7] = {0,0,0,0,0,0,0};
static const uint64_t ZERO_CFG[7] = {0,0,0,0,0,0,0};
uint64_t cnt[7] = {0,0,0,0,0,0,0};
uint64_t cfg[7] = {2,2,2,0,0,0,0};
/* Warmup */
for(i=0;i<10;i++){
fn();
}
/* Run master loop */
for(i=0;i<NUMCOUNTS;i+=4){
/* Configure counters */
const char* sched0 = i+0 < NUMCOUNTS ? SCHEDULE[i+0] : "";
const char* sched1 = i+1 < NUMCOUNTS ? SCHEDULE[i+1] : "";
const char* sched2 = i+2 < NUMCOUNTS ? SCHEDULE[i+2] : "";
const char* sched3 = i+3 < NUMCOUNTS ? SCHEDULE[i+3] : "";
cfg[3] = pfcParseConfig(sched0);
cfg[4] = pfcParseConfig(sched1);
cfg[5] = pfcParseConfig(sched2);
cfg[6] = pfcParseConfig(sched3);
pfcWrConfigCnts(0, 7, cfg);
pfcWrCountsCnts(0, 7, ZERO_CNT);
pfcRdCountsCnts(0, 7, cnt);
/* ^ Should report 0s, and launch the counters. */
/************** Hot section **************/
fn();
/************ End Hot section ************/
pfcRdCountsCnts(0, 7, cnt);
pfcWrConfigCnts(0, 7, ZERO_CFG);
/* ^ Should clear the counter config and disable them. */
/**
* Print the lovely results
*/
printf("Instructions Issued : %20llu\n", cnt[0]);
printf("Unhalted core cycles : %20llu\n", cnt[1]);
printf("Unhalted reference cycles : %20llu\n", cnt[2]);
printf("%-35s: %20llu\n", sched0, cnt[3]);
printf("%-35s: %20llu\n", sched1, cnt[4]);
printf("%-35s: %20llu\n", sched2, cnt[5]);
printf("%-35s: %20llu\n", sched3, cnt[6]);
}
/**
* Close up shop
*/
pfcFini();
}
На моей машине я получил следующие результаты:
Haswell Core i7-4700MQ
> ./perfcountdemo 0
Instructions Issued : 17000001807
Unhalted core cycles : 5305920785
Unhalted reference cycles : 4245764952
uops_issued.any : 16000811079
uops_issued.any<1 : 1311417889
uops_issued.any>=1 : 4000292290
uops_issued.any>=2 : 4000229358
Instructions Issued : 17000001806
Unhalted core cycles : 5303822082
Unhalted reference cycles : 4243345896
uops_issued.any>=3 : 4000156998
uops_issued.any>=4 : 4000110067
uops_issued.any>=5 : 0
uops_issued.any>=6 : 0
Instructions Issued : 17000001811
Unhalted core cycles : 5314227923
Unhalted reference cycles : 4252020624
uops_executed_port.port_0 : 5016261477
uops_executed_port.port_1 : 5036728509
uops_executed_port.port_2 : 5282
uops_executed_port.port_3 : 12481
Instructions Issued : 17000001816
Unhalted core cycles : 5329351248
Unhalted reference cycles : 4265809728
uops_executed_port.port_4 : 7087
uops_executed_port.port_5 : 4946019835
uops_executed_port.port_6 : 1000228324
uops_executed_port.port_7 : 1372
Instructions Issued : 17000001816
Unhalted core cycles : 5325153463
Unhalted reference cycles : 4261060248
resource_stalls.any : 1322734589
resource_stalls.rs : 844250210
resource_stalls.sb : 0
resource_stalls.rob : 0
Instructions Issued : 17000001814
Unhalted core cycles : 5327823817
Unhalted reference cycles : 4262914728
uops_retired.all : 16000445793
uops_retired.all<1 : 687284798
uops_retired.all>=1 : 4646263984
uops_retired.all>=2 : 4452324050
Instructions Issued : 17000001809
Unhalted core cycles : 5311736558
Unhalted reference cycles : 4250015688
uops_retired.all>=3 : 3545695253
uops_retired.all>=4 : 3341664653
uops_retired.all>=5 : 1016
uops_retired.all>=6 : 1
Instructions Issued : 17000001871
Unhalted core cycles : 5477215269
Unhalted reference cycles : 4383891984
inst_retired.any_p : 17000001871
inst_retired.any_p<1 : 891904306
inst_retired.any_p>=1 : 4593972062
inst_retired.any_p>=2 : 4441024510
Instructions Issued : 17000001835
Unhalted core cycles : 5377202052
Unhalted reference cycles : 4302895152
inst_retired.any_p>=3 : 3555852364
inst_retired.any_p>=4 : 3369559466
inst_retired.any_p>=5 : 999980244
inst_retired.any_p>=6 : 0
Instructions Issued : 17000001826
Unhalted core cycles : 5349373678
Unhalted reference cycles : 4280991912
idq_uops_not_delivered.core : 1580573
idq_uops_not_delivered.core<1 : 5354931839
idq_uops_not_delivered.core>=1 : 471248
idq_uops_not_delivered.core>=2 : 418625
Instructions Issued : 17000001808
Unhalted core cycles : 5309687640
Unhalted reference cycles : 4248083976
idq_uops_not_delivered.core>=3 : 280800
idq_uops_not_delivered.core>=4 : 247923
rs_events.empty : 0
idq.empty : 649944
Instructions Issued : 17000001838
Unhalted core cycles : 5392229041
Unhalted reference cycles : 4315704216
idq.mite_all_uops : 2496139
idq.mite_all_uops<1 : 5397877484
idq.mite_all_uops>=1 : 971582
idq.mite_all_uops>=2 : 595973
Instructions Issued : 17000001822
Unhalted core cycles : 5347205506
Unhalted reference cycles : 4278845208
idq.mite_all_uops>=3 : 394011
idq.mite_all_uops>=4 : 335205
move_elimination.int_not_eliminated: 0
move_elimination.simd_not_eliminated: 0
Instructions Issued : 17000001812
Unhalted core cycles : 5320621549
Unhalted reference cycles : 4257095280
lsd.uops : 15999287982
lsd.uops<1 : 1326629729
lsd.uops>=1 : 3999821996
lsd.uops>=2 : 3999821996
Instructions Issued : 17000001813
Unhalted core cycles : 5320533147
Unhalted reference cycles : 4257105096
lsd.uops>=3 : 3999823498
lsd.uops>=4 : 3999823498
ild_stall.lcp : 0
ild_stall.iq_full : 3468
Instructions Issued : 17000001813
Unhalted core cycles : 5323278281
Unhalted reference cycles : 4258969200
br_inst_exec.all_branches : 1000016626
br_inst_exec.0x81 : 1000016616
br_inst_exec.0x82 : 0
icache.misses : 294
Instructions Issued : 17000001812
Unhalted core cycles : 5315098728
Unhalted reference cycles : 4253082504
br_misp_exec.all_branches : 5
br_misp_exec.0x81 : 2
br_misp_exec.0x82 : 0
fp_assist.any : 0
Instructions Issued : 17000001819
Unhalted core cycles : 5338484610
Unhalted reference cycles : 4271432976
cpu_clk_unhalted.core_clk : 5338494250
cpu_clk_unhalted.ref_xclk : 177976806
baclears.any : 1
: 0
Мы можем видеть, что на Хасуэле все хорошо смазано. Я сделаю несколько заметок из приведенных выше характеристик:
- Выданные инструкции невероятно последовательны для меня. Это всегда вокруг
17000001800
, что является хорошим знаком: это означает, что мы можем очень хорошо оценить наши накладные расходы. То же самое для других счетчиков фиксированной функции. Тот факт, что все они соответствуют достаточно хорошо, означает, что тесты в партиях по 4 являются сравнениями яблок и яблок. - При коэффициенте ядра: эталонных циклах около 5305920785/4245764952 мы получаем среднее частотное масштабирование ~ 1,25; Это хорошо объясняет мои наблюдения, что мое ядро увеличилось с 2,4 ГГц до 3,0 ГГц.
cpu_clk_unhalted.core_clk/(10.0*cpu_clk_unhalted.ref_xclk)
также дает менее 3 ГГц. - Соотношение инструкций, выданных для основных циклов, дает IPC, 17000001807/5305920785 ~ 3.20, что также касается права: 2 FMA + 1 VPADDD каждый тактовый цикл для 4 тактов и 2 дополнительных инструкций управления циклом каждые 5 тактов которые идут параллельно.
-
uops_issued.any
: Количество выданных инструкций составляет ~ 17B, но количество выпущенных uops составляет ~ 16B. Это потому, что две команды для управления контуром соединяются друг с другом; Хороший знак. Кроме того, около 1,3 Б тактовых циклов из 5.3B (25% времени), не было выпущено ни одного uops, в то время как почти полная оставшаяся часть времени (тактовые циклы 4B), выдается 4 uops за раз. -
uops_executed_port.port_[0-7]
: насыщенность порта. У нас хорошее здоровье. Из 16-бит пост-фьюжн-портов, порты 0, 1 и 5 потребляли 5 Б, каждый из которых за 5,3 Б циклов (что означает, что они были распределены оптимально: Float, float, int соответственно), порт 6 ate 1B (скомпилированный dec-branch op), а порты 2, 3, 4 и 7 сравнивались с незначительными количествами. -
resource_stalls
: из них произошло 1.3B, 2/3 из которых были связаны с станцией резервирования (RS), а другая треть - с неизвестными причинами. - Из кумулятивного распределения, которое мы построили с нашими сравнениями на
uops_retired.all
иinst_retired.all
, мы знаем, что мы удаляем 4 раза в 60% случаев, 0 - 13% времени и 2 раза в остальное время, с незначительными суммами в противном случае. - (Множество
*idq*
counts): IDQ редко вызывает нас. -
lsd
: работает Loop Stream Detector; С его интерфейсом были подключены почти 16-вольтовые предохранители. -
ild
: Декодирование длины команды не является узким местом, и не встречается ни одного префикса с изменением длины. -
br_inst_exec/br_misp_exec
: неверное предсказание отрасли является незначительной проблемой. -
icache.misses
: Незначительный. -
fp_assist
: Незначительный. Денормалы не встречаются. (Я считаю, что без денормалей DAZ - сброс нуля, им потребуется помощь, которая должна зарегистрироваться здесь).
Итак, на Intel Haswell это плавное плавание. Если бы вы могли запускать мой пакет на своих машинах, это было бы здорово.
Инструкции по воспроизведению
- Правило №1: Осмотрите весь мой код, прежде чем что-либо делать с ним. Никогда не слепо доверять незнакомцам в Интернете.
- Grab perfcountdemo.c, libperfcount.c и libperfcount.h, поместите их в один каталог и скомпилируйте их вместе.
- Grab perfcount.c и Makefile, поместите их в один каталог и
make
модуль ядра. - Перезагрузите компьютер с помощью загрузочных флагов GRUB
nmi_watchdog=0 modprobe.blacklist=iTCO_wdt,iTCO_vendor_support
. Наблюдатель NMI будет вмешиваться в счетчик с неактивным сердечником в противном случае. -
insmod perfcount.ko
модуль.dmesg | tail -n 10
должен сказать, что он успешно загружен и говорит, что есть 3 счетчика Ff и счетчики 4 Gp, или же причина для отказа от этого. - Запустите мое приложение, желательно, пока остальная часть системы не находится под нагрузкой. Попробуйте также изменить в
perfcountdemo.c
ядро, к которому вы ограничиваете свое сродство, изменив аргумент наpfcPinThread()
. - Отредактируйте здесь результаты.