Могут ли потоки Java 8 вызывать уменьшение O (1) памяти на неограниченных данных, чтобы стать памятью O (n) из-за базовой реализации ForkJoin

Я написал реализацию потоков, которая выполняет четыре простых сокращения (+ и <) в строках файла.

Сначала я выполнил четыре потока, но я решил написать свой собственный накопитель и объединитель, чтобы я мог выполнять все четыре сокращения в одном потоке. На небольших наборах данных (10 000 000 строк) это сокращает время выполнения примерно до 1/4, как и ожидалось, и работает через 14 секунд на моем оборудовании.

Results::accumulate и Results::combine корректно объединяют пользователей в результаты и результаты с результатами соответственно, и эта реализация работает отлично подходит для небольших наборов данных.

Я попытался использовать .reduce(), а результаты аналогичны, но я попытался .collect() уменьшить создание короткоживущих объектов.

Проблема в том, что когда я использую данные реального мира с 1 миллиардом строк, я сталкиваюсь с проблемой, которая говорит о том, что потоки Java 8 неспособны выполнить эту задачу. Память кучи наблюдается в JConsole, чтобы подняться до выделенного 12 ГБ примерно линейно, а затем OOM.

У меня создалось впечатление, что сборщик или редуктор обеспечит производительность, сравнимую с итеративным решением, которое должно быть ограничено процессором и IO, но не памятью, потому что шаг восстановления дает результат, который не растет, это сокращение

Когда я беру кучу кучи и помещаю его в jhat, я вижу, что около 7 ГБ заняты строками, и эти строки могут быть четко видны как строки входного файла. Я чувствую, что они не должны быть в памяти, но jhat показывает очень большую связанную с ForkJoin структуру, которая накапливается в памяти:

В ApplicationShutdownHooks, локальных ссылках и системных классах есть другие ссылки, но я показываю суть проблемы, и это заставляет память расти O (n), когда

Реализует ли реализация потоков эту O (1) память O (n) памяти, удерживая все строки в классах ForkJoin? Я люблю потоки, и я не хочу, чтобы это было так: (

Ответы

Ответ 1

Спасибо Марко Топольнику и Хольгеру за то, что он пришел к правильному ответу. Хотя ни один из них не ответил на мой вопрос, поэтому я постараюсь связать это для потомков:)

.skip(1) является очень дорогим в параллельном потоке, потому что он требует упорядочения, чтобы пропустить точно первую запись, в соответствии с Javadoc для Stream.skip( )

Считывая первую строку BufferedReader перед вызовом .lines(), он успешно пропускает первую строку в моей реализации.

Затем удаление .skip() решает проблему памяти, и в JConsole наблюдается хороший отскок и возвращение в < 1 ГБ на каждую сборку мусора, даже если программа обрабатывает 1 миллиард строк. Это желаемое поведение и достаточно близко для памяти O (1) для моих целей.

В отличие от вышеприведенного предложения относительные местоположения .parallel() и .skip(1) не имеют значения, вы не можете переупорядочить их, чтобы сделать .skip(1) "до" .parallel().. Рисунок построителя предполагает, что порядок важен, и он предназначен для других промежуточных операций, но не для этого. Я помню эту тонкость из моих сертификационных материалов OCP, но, похоже, она не находится в Javadoc, поэтому ссылки не упоминаются. Тем не менее, я подтвердил это экспериментально, сделав изолированное изменение и наблюдая регрессию в JConsole и связанный OOM.