Ответ 1
Мне кажется, что это проблема с псевдонимом кеша.
Тест-тест довольно умный и правильно загружает все в кеш, прежде чем синхронизировать его. Похоже, все вписывается в кеш - хотя и имитировано, я проверил это, посмотрев на результат утилиты valgrind cachegrind, и, как можно было бы ожидать в таком маленьком тестовом случае, существенных промахов в кеше не было:
valgrind --tool=cachegrind --I1=32768,8,64 --D1=32768,8,64 /tmp/so
==11130== Cachegrind, a cache and branch-prediction profiler
==11130== Copyright (C) 2002-2012, and GNU GPL'd, by Nicholas Nethercote et al.
==11130== Using Valgrind-3.8.1 and LibVEX; rerun with -h for copyright info
==11130== Command: /tmp/so
==11130==
--11130-- warning: L3 cache found, using its data for the LL simulation.
a: 6.692648s wall, 6.670000s user + 0.000000s system = 6.670000s CPU (99.7%)
b: 7.306552s wall, 7.280000s user + 0.000000s system = 7.280000s CPU (99.6%)
==11130==
==11130== I refs: 2,484,996,374
==11130== I1 misses: 1,843
==11130== LLi misses: 1,694
==11130== I1 miss rate: 0.00%
==11130== LLi miss rate: 0.00%
==11130==
==11130== D refs: 537,530,151 (470,253,428 rd + 67,276,723 wr)
==11130== D1 misses: 14,477 ( 12,433 rd + 2,044 wr)
==11130== LLd misses: 8,336 ( 6,817 rd + 1,519 wr)
==11130== D1 miss rate: 0.0% ( 0.0% + 0.0% )
==11130== LLd miss rate: 0.0% ( 0.0% + 0.0% )
==11130==
==11130== LL refs: 16,320 ( 14,276 rd + 2,044 wr)
==11130== LL misses: 10,030 ( 8,511 rd + 1,519 wr)
==11130== LL miss rate: 0.0% ( 0.0% + 0.0% )
Я выбрал 32k, 8-way ассоциативный кеш с размером строки в байтах размером 64 байта, чтобы соответствовать общим процессорам Intel, и неоднократно видел одно и то же несоответствие между функциями a и b.
Работа на воображаемой машине с 32k, 128-сторонним ассоциативным кешем с одинаковым размером строки кэша, но эта разница все же не уходит:
valgrind --tool=cachegrind --I1=32768,128,64 --D1=32768,128,64 /tmp/so
==11135== Cachegrind, a cache and branch-prediction profiler
==11135== Copyright (C) 2002-2012, and GNU GPL'd, by Nicholas Nethercote et al.
==11135== Using Valgrind-3.8.1 and LibVEX; rerun with -h for copyright info
==11135== Command: /tmp/so
==11135==
--11135-- warning: L3 cache found, using its data for the LL simulation.
a: 6.754838s wall, 6.730000s user + 0.010000s system = 6.740000s CPU (99.8%)
b: 6.827246s wall, 6.800000s user + 0.000000s system = 6.800000s CPU (99.6%)
==11135==
==11135== I refs: 2,484,996,642
==11135== I1 misses: 1,816
==11135== LLi misses: 1,718
==11135== I1 miss rate: 0.00%
==11135== LLi miss rate: 0.00%
==11135==
==11135== D refs: 537,530,207 (470,253,470 rd + 67,276,737 wr)
==11135== D1 misses: 14,297 ( 12,276 rd + 2,021 wr)
==11135== LLd misses: 8,336 ( 6,817 rd + 1,519 wr)
==11135== D1 miss rate: 0.0% ( 0.0% + 0.0% )
==11135== LLd miss rate: 0.0% ( 0.0% + 0.0% )
==11135==
==11135== LL refs: 16,113 ( 14,092 rd + 2,021 wr)
==11135== LL misses: 10,054 ( 8,535 rd + 1,519 wr)
==11135== LL miss rate: 0.0% ( 0.0% + 0.0% )
Так как в 8-стороннем кеше существует меньше пробелов, где могут скрыть потенциально псевдослучайные функции, вы получаете эквивалент адресации для большего количества хеш-коллизий. С машиной, которая имеет различную ассоциативность кэшей, в этом случае вам повезло с тем, где вещи помещаются в объектный файл, и поэтому, если вы не пропустите кеш, вам также не нужно выполнять какую-либо работу, чтобы разрешить, какую строку кэша вы фактически используете необходимо.
Изменить: больше на ассоциативность кеша: http://en.wikipedia.org/wiki/CPU_cache#Associativity
Другое редактирование: я подтвердил это с помощью проверки аппаратных событий с помощью инструмента perf
.
Я изменил источник для вызова только a() или b() в зависимости от наличия аргумента командной строки. Тайминги такие же, как в исходном тестовом примере.
sudo perf record -e dTLB-loads,dTLB-load-misses,dTLB-stores,dTLB-store-misses,iTLB-loads,iTLB-load-misses /tmp/so
a: 6.317755s wall, 6.300000s user + 0.000000s system = 6.300000s CPU (99.7%)
sudo perf report
4K dTLB-loads
97 dTLB-load-misses
4K dTLB-stores
7 dTLB-store-misses
479 iTLB-loads
142 iTLB-load-misses
тогда
sudo perf record -e dTLB-loads,dTLB-load-misses,dTLB-stores,dTLB-store-misses,iTLB-loads,iTLB-load-misses /tmp/so foobar
b: 4.854249s wall, 4.840000s user + 0.000000s system = 4.840000s CPU (99.7%)
sudo perf report
3K dTLB-loads
87 dTLB-load-misses
3K dTLB-stores
19 dTLB-store-misses
259 iTLB-loads
93 iTLB-load-misses
Показывая, что b имеет меньшее действие TLB, и поэтому кеш не нужно высылать. Учитывая, что функциональность между ними в остальном идентична, ее можно объяснить только с помощью псевдонимов.