Java медленнее с большой кучей, без чрезмерного gc-ing

Я запускаю программу Java, скажем program.jar, с "маленькой" начальной кучей (1gb) и "большой" начальной кучей (16gb). Когда я запускаю его с небольшой начальной кучей, то есть

программа заканчивается через 12 секунд (усредняется по нескольким прогонам). Напротив, когда я запускаю его с большой начальной кучей, то есть

программа заканчивается через 30 секунд (усредняется по нескольким прогонам).

Я понимаю из других вопросов в SO, что, как правило, большие кучи могут привести к чрезмерному сбору мусора, тем самым замедляя работу программы:

Однако, когда я запускаю program.jar с флагом -verbose:gc, никакой gc-активности не сообщается вообще с большой начальной кучей. При небольшой начальной куче, только во время фазы инициализации программы есть только некоторая gc-активность, прежде чем я начну измерять время. Излишняя сборка мусора, по-видимому, не разъясняет мои наблюдения.

Чтобы сделать его более запутанным (для меня как минимум), у меня есть функционально эквивалентная программа, скажем program2.jar, которая имеет такое же поведение ввода-вывода, что и program.jar. Основное различие заключается в том, что program2.jar использует менее эффективные структуры данных, чем program.jar, по крайней мере в терминах памяти (независимо от того, насколько program2.jar также менее эффективен с точки зрения времени, на самом деле это то, что я пытаюсь определить). Но независимо от того, запускаю ли program2.jar небольшую начальную кучу или большую начальную кучу, она всегда заканчивается примерно через 22 секунды (в том числе около 2-3 секунд gc-ing).

Итак, это мой вопрос: (как) могут большие кучи замедлять программы, чрезмерное игнорирование?

(Этот вопрос может показаться похожим на вопрос Георга в Java медленнее с большой кучей, но его проблема оказалась не связанной с кучей. В моем случае, Я чувствую, что это должно иметь какое-то отношение к куче, поскольку это единственное различие между двумя прогонами program.jar.)

Вот некоторые подробности, которые могут иметь значение. Я использую Java 7, OpenJDK:

Моя машина имеет два процессора E5-2690V3 (http://ark.intel.com/products/81713) в двух сокетах (Hyper-Threading и Turbo Boost отключены) и имеет достаточная память (64 ГБ), около половины которой бесплатно перед запуском программы:

Наконец, программа имеет несколько потоков (около 70).

Изменить 1

Я собрал дополнительную статистику. Это для program.jar с небольшой начальной кучей:

(Описанные здесь времена настенных часов отличаются от тех, которые указаны в моем первоначальном сообщении из-за ранее не прошедшей этап инициализации.)

Изменить 2

Я собрал некоторую статистику по кэшам. Это для program.jar с небольшой начальной кучей (усредненной на 30 прогонов):

Это для program.jar с большой начальной кучей (усредненный более 30 прогонов):

Сравнивая абсолютные числа, большая начальная куча приводит к примерно на 50% больше L1-dcache-load-misses и 70% больше dTLB-промахов. Я сделал подсчет конвертов для пропусков dTLB-нагрузки, предполагая 100 циклов/пропусков (источник: Wikipedia) на моей 2,6-гигабайтной машине, что дает 484-секундную задержку для большой начальной кучи по сравнению с 284-секундной задержкой с маленькой. Я не знаю, как перевести это число обратно на затухающую задержку (возможно, не просто делить на количество ядер?), Но порядок величины кажется правдоподобным.

После сбора этих статистических данных я также различал вывод -XX:+PrintFlagsFinal для большой и малой начальной кучи (на основе одного прогона для каждого из этих двух случаев):

Таким образом, никакие другие флаги не отображаются в -Xms. Здесь также вывод -XX:+PrintGCDetails для program.jar с небольшой начальной кучей:

Ответы

Ответ 1

Доступ к памяти требует процессорного времени. Доступ к большему количеству памяти не только приводит к линейному увеличению времени процессора, но и, вероятно, увеличивает давление в кэше и, следовательно, снижает скорость, что требует сверхлинейного увеличения времени CPU.

Запустите программу с помощью perf stat java -jar ..., чтобы увидеть количество промахов в кэше. см. Учебник по Perf

Источник изображения: "Производительность систем: корпоративная и облачная мягкая обложка", Брендан Грегг, ISBN: 978-0133390094

Так как размер начальной кучи также влияет на размер пространства eden, а меньшее пространство с эденом запускает GC, это может привести к более компактной куче, которая может быть более удобной для кэширования (без временных объектов запуска, засоряющих кучу).

Чтобы уменьшить количество различий между обеими тиражами, попробуйте установить начальный и максимальный размер молодого поколения на одно и то же значение для обоих прогонов, чтобы отличаться только размер старого поколения. Это должно, вероятно, привести к той же производительности.

Как и в стороне: вы также можете попробовать запустить JVM с огромными страницами, это может (вам нужно измерить!) получить вам несколько дополнительных% производительности за счет сокращения пропусков TLB.

Примечание для будущих читателей: Ограничение размера нового генератора не обязательно ускоряет работу вашего JVM, он просто запускает GC, который ускоряет тем самым конкретную рабочую нагрузку @Peng.
Вручную запуск GC после запуска будет иметь тот же эффект.

Java медленнее с большой кучей, без чрезмерного gc-ing

Оригинальный вопрос

Изменить 1

Изменить 2

Ответы

Ответ 1