Как оптимизировать сборку мусора для мягкого приложения реального времени в Haskell?

Я написал мягкое приложение реального времени в Haskell, которое занимается имитируемой физикой, обнаружением столкновения, всем этим хорошим материалом. Выполняя все это, я выделяю много памяти, и я мог бы, вероятно, оптимизировать использование памяти, если захочу, но так как я хорошо сижу на 40% -ном процессоре и только в 1% используемой ОЗУ, это не кажется необходимым. То, что я вижу, - это то, что много времени, когда сборщик мусора заходит, рамки пропускаются. Я проверял, что это является причиной проблемы путем профилирования с помощью threadscope: никаких полезных вычислений не происходит иногда до 0,05 секунд, пока сборщик мусора ведет свою деятельность, в результате чего получается до 3 пропущенных кадров, что очень заметно и очень раздражает.

Теперь я попытался решить это, вручную вызвав performMinorGC каждый фрейм, и это, похоже, облегчает проблему, делая ее более гладкой, за исключением того, что общее использование ЦП резко увеличивается примерно до 70%. Ясно, что я предпочел бы избежать этого.

Еще одна вещь, которую я пробовал, заключалась в уменьшении пространства распределения GC до 64k от 512k с -H64k, и я также попытался установить -I0.03, чтобы попытаться собрать его чаще. Обе эти опции изменили структуру сборки мусора, которую я увидел в threadscope, но они все же привели к пропущенным кадрам.

Может ли кто-нибудь с опытом работы с оптимизацией GC помочь мне здесь? Я обречен на ручное вызов performMinorGC и потерю массивной потери производительности?

Я попытался запустить его в течение такого же количества времени в этих тестах, но так как в режиме реального времени нет точки, в которой он "сделан".

Статистика времени выполнения с performMinorGC каждые 4 кадра:

Общая производительность, по-видимому, ниже, чем performMinorGC, чем когда я вчера ее тестировал по-настоящему - до того, как она была всегдa > 90%.

Ответы

Ответ 1

У вас есть большое старое поколение. Это как 100Mb большой.

По умолчанию GHC выполняет основной GC, когда размер кучи достигает 2x его размера после последнего основного GC. Это означает, что в какой-то момент GC пришлось сканировать и копировать 50 Мб данных. Если ваш процессор имеет пропускную способность памяти 10 ГБ, тогда загрузка и копирование 50 Мб займет не менее 0,01 сек (сравните с общей и максимальной паузой).

(Я предполагаю, что вы проверили eventlog, чтобы гарантировать, что GC действительно работает во время паузы 0.05 сек. Поэтому это не проблема с синхронизацией потоков, когда GC ждет других потоков вместо реальной работы.)

Итак, чтобы минимизировать паузы GC, вы должны обеспечить, чтобы старое поколение было небольшим. Если большая часть этого 50Mb представляет собой статические данные, выделенные в самом начале и до конца дожидаясь (например, текстуры или сетки), вы застряли. Единственным обходным решением, которое я знаю, является упаковка данных в, например, сохраняемый вектор и распаковывать его снова, когда вам это нужно.

Если данные распределяются во время выполнения и проживают ограниченное количество времени (но достаточно, чтобы выжить несколько основных поколений), попробуйте переосмыслить свой конвейер. Обычно никакие данные не должны выдерживать один кадр, поэтому вы делаете что-то неправильно. Например. вы сохраняете данные, если не хотите.

Другой плохой знак - gen0 max pause 0.02sec. Это довольно странно. По умолчанию область выделения gen0 равна 0.5Mb, поэтому gen0 GC должен быть быстрым. Вероятно, у вас есть большой запомненный набор. Возможная причина: изменяемые структуры (IORef, изменяемый вектор и т.д.) Или много ленивых обновлений thunk.

И незначительная (возможно, не связанная) проблема: похоже, что вы используете неявный parallelism, но только 1/3 искры преобразуются. Вы выделяете слишком много sparts, 1/2 из них GC'd.