Храните самые большие 5000 номеров из потока чисел.

Решением, которое приходит в голову, является двоичное дерево поиска, поддерживающее подсчет количества узлов в дереве и ссылку на наименьший node, когда счет достигает 5000. Когда счетчик достигает 5000, каждый новый номер add можно сравнить с наименьшим элементом в дереве. Если больше, можно добавить новый номер, а затем самый маленький удаленный и новый наименьший расчет (который должен быть очень простым, если иметь предыдущий наименьший).

Моя забота об этом решении заключается в том, что бинарное дерево, естественно, будет искажаться (поскольку я только удаляю одну сторону).

Есть ли способ решить эту проблему, которая не создаст ужасно искаженного дерева?

В случае, если кто-то этого захочет, я включил псевдо-код для моего решения, находящегося ниже:

Ответы

Ответ 1

Простейшим решением для этого является поддержание min heap максимального размера 5000.

Каждый раз, когда приходит новое число - проверяйте, меньше ли куча, тогда 5000, если есть - добавьте его.
Если это не так - проверьте, меньше ли минимальный, чем новый элемент, и если это так, вытащите его и вставьте вместо него новый элемент.
Когда вы закончите - у вас есть куча, содержащая 5000 самых больших элементов.

Это решение O(nlogk) сложность, где n - количество элементов, а k - количество необходимых вам элементов (5000 в вашем случае).

Это можно сделать также в O(n) с помощью алгоритма выбора - сохранить все элементы, а затем найти 5001-й наибольший элемент и вернуться все больше, чем оно. Но его сложнее реализовать и для разумного ввода размера - может быть, не лучше. Кроме того, если поток содержит дубликаты, требуется больше обработки.

Ответ 2

Использовать (минимум) приоритетную очередь. Добавьте каждый входящий элемент в очередь, и когда размер достигает 5000, удалите минимальный (верхний) элемент каждый раз, когда вы добавляете входящий элемент. Очередь будет содержать 5 000 самых больших элементов, и когда вход останавливается, просто удалите содержимое. Этот MinPQ также называется кучей, но это перегруженный термин. Вставки и удаления имеют значение log2 (N). Если N maxes out at 5000, это будет чуть больше 12 [log2 (4096) = 12] раз больше количества обрабатываемых вами элементов.

Отличным источником информации является Алгоритмы, (4-е издание) Роберта Седжуика и Кевина Уэйна. Существует отличный MOOC на coursera.org, основанный на этом тексте.