Почему рекурсивный MergeSort быстрее, чем итеративный MergeSort?

Я только что реализовал два алгоритма, и я был удивлен, когда придумал результаты! Рекурсивная реализация явно быстрее, чем итеративная. После этого я добавил сортировку вставки вместе с обоими из них, и результат был таким же.

В лекциях мы используем, чтобы увидеть, что рекурсивный медленнее, чем итеративный, как в факториальном вычислении, но здесь, похоже, не так. Я почти уверен, что мои коды правильные. Какое объяснение этого поведения? Похоже, что java (10) автоматически реализует многопоточность в режиме рекурсии, когда я показываю маленькую анимацию, сортировка вставки работает параллельно с операциями слияния.

Если этих кодов недостаточно, чтобы понять, вот мой github: Github

EDIT RELOADED Как сказано в комментариях, я должен сравнивать то, что похоже, поэтому теперь метод слияния одинаковый итеративный и рекурсивный.

private void merge(ArrayToSort<T> array, T[] sub_array,
                   int min, int mid, int max) {
    //we make a copy of the array.
    if (max + 1 - min >= 0) System.arraycopy(array.array, min, sub_array, min, max + 1 - min);

    int i = min, j = mid + 1;

    for (var k = min; k <= max; k++) {

        if (i > mid) {
            array.array[k] = sub_array[j++];
        } else if (j > max) {
            array.array[k] = sub_array[i++];
        } else if (sub_array[j].compareTo(sub_array[i]) < 0) {
            array.array[k] = sub_array[j++];
        } else {
            array.array[k] = sub_array[i++];
        }
    }
}

Сортировка рекурсивных:

public void Sort(ArrayToSort<T> array) {
    T sub[] = (T[]) new Comparable[array.Length];
    sort(array, sub, 0, array.Length - 1);
}

private InsertionSort<T> insertionSort = new InsertionSort<>();
private void sort(ArrayToSort<T> array, T[] sub_array, int min, int max) {
    if (max <= min) return;
    if (max <= min + 8 - 1) {
        insertionSort.Sort(array, min, max);
        return;
    }
    var mid = min + (max - min) / 2;
    sort(array, sub_array, min, mid);
    sort(array, sub_array, mid + 1, max);
    merge(array, sub_array, min, mid, max);

}

Сортировка итерации:

private InsertionSort<T> insertionSort = new InsertionSort<>();
public void Sort(ArrayToSort<T> array) {

    int length = array.Length;
    int maxIndex = length - 1;

    T temp[] = (T[]) new Comparable[length];

    for (int i = 0; i < maxIndex; i += 8) {
        insertionSort.Sort(array, i, Integer.min(i + 8 - 1, maxIndex));
    }

    System.arraycopy(array.array, 0, temp, 0, length);

    for (int m = 8; m <= maxIndex; m = 2 * m) {
        for (int i = 0; i < maxIndex; i += 2 * m) {

            merge(array, temp, i, i + m - 1,
                    Integer.min(i + 2 * m - 1, maxIndex));
        }
    }
}

В новом заговоре мы видим, что теперь разница пропорциональна (по умолчанию). Если у кого-то есть еще идеи... Спасибо большое :)
Новый * новый сюжет iterative vs recursive plot

И вот мой (учитель на самом деле) метод построения:

for (int i = 0; i < nbSteps; i++) {
    int N = startingCount + countIncrement * i;
    for (ISortingAlgorithm<Integer> algo : algorithms) {

        long time = 0;
        for (int j = 0; j < folds; j++) {
            ArrayToSort<Integer> toSort = new ArrayToSort<>(
                    ArrayToSort.CreateRandomIntegerArray(N, Integer.MAX_VALUE, (int) System.nanoTime())
            );
            long startTime = System.currentTimeMillis();
            algo.Sort(toSort);
            long endTime = System.currentTimeMillis();
            time += (endTime - startTime);
            assert toSort.isSorted();
        }
        stringBuilder.append(N + ", " + (time / folds) + ", " + algo.Name() + "\n");
        System.out.println(N + ", " + (time / folds) + ", " + algo.Name());
    }

}

Ответы

Ответ 1

Я не думаю, что у меня есть ответ, потому что я не пробовал ваш код. Я дам вам мысли:

а) CPU имеют кэш L1 и предварительную выборку команд. Рекурсивная версия может иметь лучшую локализацию ссылок, когда все сортировки выполнены, и она завершается кучей слияний при извлечении всех кадров (или по другим причинам оптимизации ЦП)

б) Тем временем JIT-компилятор делает сумасшедшие вещи с рекурсией, особенно из-за хвостовой рекурсии и встраивания. Я предлагаю вам попробовать без JIT-компилятора просто для удовольствия. Также может потребоваться изменить пороговые значения для JIT-компиляции, чтобы он быстрее компилировался в JIT для минимизации времени прогрева.

c) system.arraycopy является нативным методом, и, несмотря на его оптимизацию, он должен иметь накладные расходы.

г) итерационная версия, кажется, имеет больше арифметики в циклах.

е) это попытка микро-бенчмаркинга. вам нужно выделить GC и запустить тесты десятки, если не сотни раз. Читайте на JMH. Также попробуйте разные GC и -Xmx.