Описание производительности: код работает быстрее с неиспользуемой переменной

Раньше я выполнял некоторые тесты производительности и не могу объяснить полученные результаты.

При выполнении теста ниже, если я раскомментирую private final List<String> list = new ArrayList<String>();, производительность значительно улучшится. На моей машине тест проходит в течение 70-90 мс, когда это поле присутствует против 650 мс, когда он закомментирован.

Я также заметил, что если я изменил оператор печати на System.out.println((end - start) / 1000000);, тест без переменной пробегает 450-500 мс вместо 650 мс. Он не действует, когда присутствует переменная.

Мои вопросы:

Кто-нибудь может объяснить коэффициент почти 10 с переменной или без нее, учитывая, что я даже не использую эту переменную?
Как этот оператор печати может изменить производительность (особенно, поскольку он появляется после окна измерения производительности)?

ps: при запуске последовательно три сценария (с переменной, без переменной, с другим выражением на печать) занимают около 260 мс.

public class SOTest {

    private static final int ITERATIONS = 10000000;
    private static final int THREADS = 4;

    private volatile long id = 0L;
    //private final List<String> list = new ArrayList<String>();

    public static void main(String[] args) throws Exception {
        ExecutorService executor = Executors.newFixedThreadPool(THREADS);
        final List<SOTest> objects = new ArrayList<SOTest>();
        for (int i = 0; i < THREADS; i++) {
            objects.add(new SOTest());
        }

        //warm up
        for (SOTest t : objects) {
            getRunnable(t).run();
        }

        long start = System.nanoTime();

        for (SOTest t : objects) {
            executor.submit(getRunnable(t));
        }
        executor.shutdown();
        executor.awaitTermination(10, TimeUnit.SECONDS);

        long end = System.nanoTime();
        System.out.println(objects.get(0).id + " " + (end - start) / 1000000);
    }

    public static Runnable getRunnable(final SOTest object) {
        Runnable r = new Runnable() {
            @Override
            public void run() {
                for (int i = 0; i < ITERATIONS; i++) {
                    object.id++;
                }
            }
        };
        return r;
    }
}

EDIT

Ниже приведены результаты 10 запусков с тремя сценариями:

без переменной, используя оператор короткой печати
без переменной, используя оператор long print (печатает один из объектов)
последовательный запуск (1 поток)
с переменной

1   657 473 261 74
2   641 501 261 78
3   651 465 259 86
4   585 462 259 78
5   639 506 259 68
6   659 477 258 72
7   653 479 259 82
8   645 486 259 72
9   650 457 259 78
10  639 487 272 79

Ответы

Ответ 1

Очистить (false) общий доступ

из-за макета в памяти объекты обходят строки кеша... Это объяснялось много раз (даже на этом сайте): вот хороший источник для дальнейшего чтения. Эта проблема применима к С# столько же (или C/С++)

Когда вы накладываете объект, добавляя прокомментированную строку, общий доступ меньше, и вы видите повышение производительности.

Изменить: я пропустил второй вопрос:

Как этот оператор печати может изменить производительность (тем более, что он появляется после окна измерения производительности)?

Я думаю, что недостаточно нагревания, распечатайте журналы GC и компиляции, чтобы вы могли быть уверены, что нет помех, и код действительно скомпилирован. java -server требуется 10k итераций, желательно не всех в основном цикле, чтобы генерировать хороший код.

Ответ 2

Вы получаете тонкий эффект от выполняемого оборудования. Объекты SOTest очень малы в памяти, поэтому все 4 экземпляра могут входить в одну и ту же строку кэша в памяти. Поскольку вы используете volatile, это приведет к сбою кеша между различными ядрами (только одно ядро может иметь грязную линию кэша).

Когда вы комментируете в ArrayList, макет памяти изменяется (ArrayList создается между экземплярами SOTest), а изменчивые поля теперь переходят в разные строки кэша. Проблема для процессора исчезает, поэтому производительность растет.

Доказательство. Прокомментируйте ArrayList и поставьте вместо этого:

long waste1, waste2, waste3, waste4, waste5, waste6, waste7, waste8;

Это увеличивает ваши SOTest-объекты на 64 байта (размер одной строки кэша на процессорах pentium). Производительность теперь такая же, как при использовании ArrayList.

Ответ 3

Это всего лишь идея, и я понятия не имею, как ее проверить, но это может быть связано с кешированием. При наличии ArrayList ваши объекты становятся намного крупнее, поэтому меньшее количество из них вписывается в некоторую заданную область кэшированной памяти, что приводит к большему количеству промахов в кеше.

В действительности вы можете попробовать использовать ArrayLists разного размера, тем самым изменяя размер памяти ваших экземпляров класса и проверяя, влияет ли это на производительность.

Ответ 4

Довольно интересное путешествие. Это скорее "ответ на мои результаты". Я подозреваю/надеюсь, что другие придумают лучшие ответы.

Вы, очевидно, сталкиваетесь с некоторыми интересными точками оптимизации. Я подозреваю, что добавление objects.get(0).id в длинном println выражает удаление некоторых оптимизаций вокруг использования поля id. Помимо ++ нет другого использования id, поэтому оптимизатор оптимизирует некоторое количество обращений к volatile id, что приводит к улучшению скорости. Простое обращение к полю id с long x = objects.get(0).id; приводит к такому же повышению производительности.

Поле List гораздо интереснее. Такое же улучшение производительности происходит, если добавлено поле private String foo = new String("weofjwe");, но не если оно private String foo = "weofjwe";, которое не создает объект, так как "..." выполняется во время компиляции. Я был уверен, что final имеет значение, но, похоже, это не так. Я могу только предположить, что это имеет какое-то отношение к оптимизации конструктора с добавлением new, заставляя оптимизацию останавливаться, хотя я бы хотя бы volatile сделал бы это более эффективно.