Время выполнения с process.hrtime() возвращает значительно другой результат

У меня возникли проблемы с объяснением того, почему мой тест производительности возвращает значительно разные результаты по двум различным типам прогона.

practice1.generator должен генерировать файл test-data.json и записывать время выполнения алгоритма поиска в консоль. После этого practice1.performance-test читает из test-data.json и выполняет ту же самую функцию оценки по тем же данным.

Выход на моей машине последовательно похож на этот:

Обратите внимание на разницу во времени выполнения в случае indexOf и binary search по сравнению с другими алгоритмами.

Если я повторно запускаю node practice1.generator или node practice1.performance-test, результат будет довольно непротиворечивым.

Теперь это так беспокоит, я не могу найти способ выяснить, какой результат заслуживает доверия, и почему возникают такие различия. Это вызвано различием между созданной тестовой матрицей и массивом тестов JSON.parse-d; или это вызвано process.hrtime(); или это какая-то неизвестная причина, по которой я даже не мог понять?

Обновление. Я проследил причину indexOf случая из-за JSON.parse. Внутри practice1.generator массив tests - это исходный сгенерированный массив; а в practice1.performance-test массив считывается из json файла и, вероятно, отличается от исходного массива каким-то образом.

Если внутри practice1.generator я вместо JSON.parse() добавлен новый массив из строки:

Время выполнения indexOf теперь согласовано в обоих файлах.

Итак, по крайней мере, я знаю, что indexOf работает лучше на исходном массиве и хуже на массиве JSON.parse -d. Тем не менее, я знаю только причину, не знаю почему.

Время выполнения двоичного поиска остается разным на 2 файла, последовательно занимая ~ 1,7 мс в practice1.generator (даже при использовании объекта JSON.parse -d) и ~ 2,3 мс в practice1.performance-test.

Ниже приведен тот же код, что и в сущности, для будущей справочной цели.

Ответы

Ответ 1

Как вы уже заметили, разница в производительности приводит к сравнению: generated array vs JSON.parse d. Что мы имеем в обоих случаях: одни и те же массивы с одинаковыми номерами? Таким образом, производительность поиска должна быть одинаковой? Нет.

Каждый механизм Javascript имеет различные структуры типов данных для представления одинаковых значений (числа, объекты, массивы и т.д.). В большинстве случаев оптимизатор пытается найти лучший тип данных для использования. А также часто генерирует некоторую дополнительную метаинформацию, такую как hidden clases или tags для массивов.

Есть несколько очень хороших статей о типах данных:

Итак, почему массивы, созданные с помощью JSON.parse, медленны? Парсер при создании значений неправильно оптимизирует структуры данных, и в результате мы получаем массивы untagged с boxed удваиваем. Но мы можем оптимизировать массивы с помощью Array.from, а в вашем случае, так же как сгенерированные массивы, вы получаете массивы smi с номерами smi. Вот пример, основанный на вашем примере.

const fs = require('fs');
const path = require('path');
const outputFilePath = path.join(__dirname, process.argv[2] || 'test-data.json');

let tests = JSON.parse(fs.readFileSync(outputFilePath));

// for this demo we take only the first items array
var arrSlow = tests[0].input;
// `slice` copies array as-is
var arrSlow2 = tests[0].input.slice();
// array is copied and optimized
var arrFast = Array.from(tests[0].input);

console.log(%HasFastSmiElements(arrFast), %HasFastSmiElements(arrSlow), %HasFastSmiElements(arrSlow2));
//> true, false, false
console.log(%HasFastObjectElements(arrFast), %HasFastObjectElements(arrSlow), %HasFastObjectElements(arrSlow2));
//> false, true, true
console.log(%HasFastDoubleElements(arrFast), %HasFastDoubleElements(arrSlow), %HasFastDoubleElements(arrSlow2));
//> false, false, false

// small numbers and unboxed doubles in action
console.log(%HasFastDoubleElements([Math.pow(2, 31)]));
console.log(%HasFastSmiElements([Math.pow(2, 30)]));

Запустите его с помощью node --allow-natives-syntax test.js

Ответ 2

ОК... прежде всего давайте поговорим о стратегии тестирования...

Выполнение этих тестов несколько раз дает невероятные разные результаты, которые много колеблются для каждой точки... см. результаты здесь

https://docs.google.com/spreadsheets/d/1Z95GtT85BljpNda4l-usPjNTA5lJtUmmcY7BVB8fFGQ/edit?usp=sharing

После обновления теста (выполняется 100 тестов в строке и вычисления среднего значения), я считаю, что основное различие во времени выполнения:

indexOf и для циклов работают лучше в сценарии GENERATOR
поиск в бинарном поиске и интерполяции лучше работает в сценарии JSON-parse

Пожалуйста, просмотрите документ google раньше...

ОК.. Великий... Это гораздо проще объяснить... в основном мы оказались в ситуации, когда RANDOM доступ к памяти (двоичный, интерполяционный поиск) и Доступ к памяти CONSECUTIVE (indexOf, for) дают разные результаты

Хммм. Давайте углубимся в модель управления памятью NodeJS

Прежде всего, NodeJS имеет несколько представлений массивов, я действительно знаю только два - numberArray, objectArray (означает массив, который может включать значение любого типа)

Давайте посмотрим на сценарий GENERATOR:

Во время создания начального массива NodeJS ABLE, чтобы обнаружить, что ваш массив содержит только числа, поскольку массив, начинающийся с только чисел, и ничего не добавляется к нему. Это приводит к использованию простой стратегии распределения памяти, только сырой ряд целых чисел, идущих один за другим в память...

Массив представлен как array of raw numbers в памяти, скорее всего, таблица пейджинга памяти имеет здесь эффект

Этот факт ясно объясняет, почему Доступ к памяти CONSECUTIVE работает лучше в этом случае.

Давайте посмотрим на сценарий JSON-parse:

Во время JSON синтаксическая структура JSON непредсказуема (NodeJS использует анализатор потока JSON (доверие 99,99%)), каждое значение трактуется как наиболее удобное для разбора JSON, поэтому...

Массив представлен как array of references to the numbers в памяти, просто потому, что при разборе JSON это решение более эффективно в большинстве случаев (и никто не заботится (devil))

Насколько мы распределяем память в куче маленькими кусками, память заполняется более жидким способом.

Также в этой модели доступ к RANDOM-памяти дает лучшие результаты, потому что у NodeJS-движка нет опций - для оптимизации времени доступа он создает хорошие префиксное дерево или хэш-карта, которая дает постоянное время доступа в сценариях СЛУЧАЙНАЯ память p >

И это довольно хорошее объяснение, почему побеждает сценарий JSON-parse во двоичном, интерполяционном поиске