Прямой ByteBuffer относительно абсолютной производительности чтения

Пока я тестировал производительность чтения прямого java.nio.ByteBuffer, я заметил, что абсолютное чтение в среднем в 2 раза быстрее, чем относительное чтение. Кроме того, если я сравниваю исходный код относительного vs абсолютного чтения, код почти такой же, за исключением того, что относительное чтение поддерживает и внутренний счетчик. Интересно, почему я вижу такую значительную разницу в скорости?

Тест проводился на MacbookPro (2,2 ГГц Intel Core i7, 16 Гбит DDR3) и JDK 1.8.0_73.

Я запускаю тот же тест с JDK 9-ea b134. Оба теста показывают увеличение скорости на 10%, но разница в скорости между ними остается одинаковой.

Ответы

Ответ 1

JDK 8 действительно создает худший код для цикла с относительным доступом ByteBuffer.

JMH имеет встроенный профилировщик perfasm, который печатает сгенерированный код сборки для самых горячих регионов. Я использовал его для сравнения скомпилированных testReadAbsolute vs. testReadRelative, и вот основные отличия:

Относительно getLong / getInt/ get обновить поле позиции ByteBuffer. VM не оптимизирует эти обновления: на каждой итерации цикла записано 3 записи памяти.
position проверка диапазона не устраняется: условные ветки на каждой итерации цикла остались в скомпилированном коде.
Поскольку избыточные обновления полей и проверки диапазона делают тело цикла более длинным, VM разворачивает только 2 итерации цикла. Скомпилированная версия для цикла с абсолютным доступом имеет 16 итераций, развернутых.

testReadAbsolute скомпилирован очень хорошо: основной цикл просто читает 16 длин, суммирует их и перескакивает на следующую итерацию, если index < 10_000_000 - 16. Состояние directByteBuffer не обновляется. Однако JVM не настолько умна для testReadRelative: кажется, что он не может оптимизировать доступ к полю объекта снаружи.

В JDK 9 было много работы по оптимизации ByteBuffer. Я выполнил тот же тест на JDK 9-ea b134 и подтвердил, что testReadRelative не имеет избыточных записей в памяти и проверки диапазона. Теперь он работает почти так же быстро, как testReadAbsolute.

// JDK 1.8.0_92, VM 25.92-b14

Benchmark                                        Mode  Cnt   Score   Error  Units
DirectByteBufferReadBenchmark.testReadAbsolute  thrpt   10  99,727 ± 0,542  ops/s
DirectByteBufferReadBenchmark.testReadRelative  thrpt   10  47,126 ± 0,289  ops/s

// JDK 9-ea, VM 9-ea+134

Benchmark                                        Mode  Cnt    Score   Error  Units
DirectByteBufferReadBenchmark.testReadAbsolute  thrpt   10  109,369 ± 0,403  ops/s
DirectByteBufferReadBenchmark.testReadRelative  thrpt   10   97,140 ± 0,572  ops/s

UPDATE

Чтобы помочь компилятору JIT с оптимизацией, я ввел локальную переменную

ByteBuffer directByteBuffer = d.directByteBuffer

в обоих тестах. В противном случае уровень косвенности не позволяет компилятору исключить обновления полей ByteBuffer.position.