Node эхо-сервер деградирует 10 раз, когда потоковые каналы используются для буферизации

Я начал со следующей реализации эхо-сервера, которую я буду называть pipe.js или pipe.

И я сравнил его с wrk и следующим lua script (сокращенный для краткости), который отправит небольшое тело в качестве полезной нагрузки.

При 2k запросах в секунду и средней задержке 44 мс производительность невелика.

Итак, я написал другую реализацию, которая использует промежуточные буферы, пока запрос завершен, а затем записывает эти буферы. Я буду называть это buffer.js или buffer.

Производительность резко изменилась с помощью buffer.js, обслуживающего 20 тыс. запросов на второй при 4 мс средней латентности.

Визуально на приведенном ниже графике изображено среднее число запросов, обслуживаемых более чем 5 тиражами и различными процентилями латентности (p50 - медиана).

Таким образом, буфер на порядок лучше во всех категориях. Мой вопрос: почему?

Далее следуют мои заметки о расследовании, надеюсь, они, по крайней мере, образовательны.

Реакция

Обе реализации были созданы так, что они будут давать точные точные ответ, возвращаемый curl -D - --raw. Если дано тело 10 д'ев, то оба будут верните тот же самый ответ (с измененным временем, конечно):

Простой факт буферизации

Семантически, единственное различие между двумя реализациями состоит в том, что pipe.js записывает данные, пока запрос не закончился. Это может сделать один что в buffer.js может быть несколько событий data. Это не правда.

Поскольку будет только один кусок, что произойдет, если мы удалим буферизацию и реализуем трубу бедного человека:

Оказывается, это имеет ужасную производительность, как pipe.js. Я нахожу это Интересно, потому что выполнено столько же вызовов res.write и res.end с теми же параметрами. До сих пор я догадываюсь, что производительность различия связаны с отправкой данных ответа после завершения данных запроса.

Профилирование

Мы видим, что в обеих реализациях С++ доминирует во времени; однако функции которые доминируют, меняются местами. Почти два раза на труба, но только 1% для буфера (простите мое округление). Следующий шаг, который syscalls являются виновниками?

Strace Here We Come

Вызов strace like strace -c node pipe.js даст нам краткое изложение системных вызовов. Вот главные системные вызовы:

Верхний столбец для трубы (epoll_wait) с 44% времени составляет всего 0,6% время для буфера (увеличение 140x). Хотя существует большое время несоответствие, количество раз epoll_wait вызывается менее однообразно с трубкой, вызывающей epoll_wait ~ 8x чаще. Мы можем получить пару бит полезную информацию из этого утверждения, так что pipe вызывает epoll_wait постоянно и в среднем, эти вызовы тяжелее, чем epoll_wait для буфер.

Для буфера верхний syscall - writev, который ожидается с учетом большинства времени должно быть потрачено на запись данных в сокет.

Логически следующий шаг - взглянуть на эти операторы epoll_wait с регулярным strace, который показал буфер всегда содержал epoll_wait с 100 событий (представляющих сто соединений, используемых с wrk) и трубкой было менее 100 в большинстве случаев. Например:

Это объясняет, почему в трубе больше epoll_wait, так как epoll_wait не обслуживает все соединения в одном цикле событий. epoll_wait для нулевые события делают его похожим на то, что цикл событий простаивает! Все это не объясняет почему epoll_wait занимает больше времени для трубы, так как с man-страницы она заявляет что epoll_wait должен немедленно вернуться:

Пока справочная страница говорит, что функция немедленно возвращается, можем ли мы подтвердить это? strace -T на помощь:

Помимо поддержки того, что буфер имеет меньше вызовов, мы также видим, что почти все звонки заняли менее 100 нс. Труба имеет гораздо более интересное распределение показывая, что, хотя большинство вызовов занимает менее 100 нс, дольше и приземляться в микросекунду.

Strace нашел другую странность, а с помощью writev. Возвращаемое значение количество записанных байтов.

Помните, когда я сказал, что оба выхода 128 байтов? Ну, writev вернулся 123 байтов для канала и 128 для буфера. Разница в пяти байтах для трубы сверяется в следующем вызове write для каждого writev.

И если я не ошибаюсь, блокировки write блокируются.

Заключение

Если мне нужно сделать обоснованное предположение, я бы сказал, что трубопровод, когда запрос не завершено вызывает вызовы write. Эти блокирующие вызовы значительно сокращают пропускная способность частично за счет более частых операторов epoll_wait. Зачем write вызывается вместо одного writev, который отображается в буфере, за мной. Может кто-нибудь объяснить, почему все, что я видел, происходит?

Кикер? В официальном Node.js руководство вы можете увидеть, как руководство начинается с реализации буфера, а затем перемещается трубить! Если реализация трубы в официальном руководстве не должна быть такой удар производительности, правильно?

Кроме того: последствия реального мира в этом вопросе должны быть минимальными, поскольку вопрос достаточно надуман, особенно в отношении функциональности и стороны тела, хотя это не означает, что это менее полезный вопрос. Гипотетически, ответ может выглядеть так: "Node.js использует write, чтобы обеспечить лучшую производительность в ситуациях x (где x - более реальный случай использования в мире)"

^{Раскрытие: вопрос скопирован и слегка изменен из мой пост в блоге в надежде, что это лучший способ ответить на этот вопрос}

31 июля 2017 года EDIT

Моя первоначальная гипотеза о том, что запись эхо-объекта после завершения потока запросов завершилась, повышает производительность, была опровергнута @robertklep с его readable.js(или читаемой) реализацией:

Чтение выполняется на том же уровне, что и буфер при записи данных перед событием end. Если что-нибудь, это меня смущает, потому что единственная разница между прочитанной и моей начальной бедной трубой - это разница между событиями data и readable, и все же это привело к увеличению производительности 10 раз. Но мы знаем, что событие data не является по сути медленным, потому что мы использовали его в нашем буферном коде.

Для любознательных, strace на читаемых сообщениях writev выводит все выходные данные из 128 байтов, такие как buffer

Ответы

Ответ 1

Это забавный вопрос!

На самом деле, буферизованный vs piped не является вопросом здесь. У вас небольшой кусок; он обрабатывается в одном событии. Чтобы показать проблему, вы можете написать свой обработчик следующим образом:

let chunk;
req.on('data', (dt) => {
    chunk=dt
});
req.on('end', () => {
    res.write(chunk);
    res.end();
});

или

let chunk;
req.on('data', (dt) => {
    chunk=dt;
    res.write(chunk);
    res.end();
});
req.on('end', () => {
});

или

let chunk;
req.on('data', (dt) => {
    chunk=dt
    res.write(chunk);
});
req.on('end', () => {
    res.end();
});

Если write и end находятся на одном и том же обработчике, латентность в 10 раз меньше.

Если вы проверите write код функции, вокруг этой строки будет

msg.connection.cork();
process.nextTick(connectionCorkNT, msg.connection);

cork и uncork подключение к следующему событию. Это означает, что вы используете кеш для данных, а затем принудительно отправляете данные для следующего события до того, как будут обработаны другие события.

Подводя итог, если у вас есть write и end для разных обработчиков, у вас будет:

пробковое соединение (+ создать галочку для откупоривания)
создать буфер с данными
Отключить соединение от другого события (отправить данные)
процесс завершения вызова (который отправляет другой пакет с последним куском и закрывается)

Если они находятся на одном и том же обработчике, функция end вызывается перед обработкой события uncork, поэтому последний фрагмент будет находиться в кеше.

пробковое соединение
создать буфер с данными
добавить "конец" в буфере
Отключить подключение для отправки всего

Кроме того, функция end выполняет cork/uncork синхронно, что будет немного быстрее.

Теперь почему это имеет значение? Поскольку на стороне TCP, если вы отправляете пакет с данными и хотите отправить больше, процесс будет ожидать подтверждения от клиента, прежде чем отправлять больше:

write + end для разных обработчиков:

0.044961s: POST/= > это запрос
0.045322s: HTTP/1.1 = > 1st chunk: header + "aaaaaaaaa"
0.088522s: подтверждение пакета
0.088567s: Продолжение = > 2-я часть (конечная часть, 0\r\n\r\n)

Время до ~ 100 мс до ack после отправки первого буфера.

write + end в том же обработчике:

Данные завершены в одном пакете, не требуется ack.

Почему 40 мс на ack? Это встроенная функция ОС для повышения производительности в целом. Он описан в разделе раздел 4.2.3.2 IETF RFC 1122: Когда отправлять сегмент ACK '. Red Hat (Fedora/CentOS/RHEL) использует 40ms: это параметр и может быть изменен. В Debian (включен Ubuntu) он, кажется, жестко запрограммирован до 40 мс, поэтому он не модифицируется (кроме случаев, когда вы создаете соединение с опцией TCP_NO_DELAY).

Надеюсь, этого достаточно, чтобы понять немного больше об этом процессе. Этот ответ уже большой, поэтому я остановлюсь здесь, я думаю.

Читаемые

Я проверил ваше примечание о readable. Дикая догадка: если readable обнаруживает пустой вход, он закрывает поток на том же тике.

Изменить: я читаю код для чтения. Как я подозревал:

https://github.com/nodejs/node/blob/master/lib/_stream_readable.js#L371

https://github.com/nodejs/node/blob/master/lib/_stream_readable.js#L1036

Если чтение завершает событие, end немедленно испускается для последующей обработки.

Итак, обработка событий:

readable событие: считывает данные
readable обнаруживает, что он закончил = > создает событие end
Вы записываете данные так, чтобы они создавали событие для откоса
end обработанное событие (отложенный)
uncork обработано (но ничего не делает, поскольку все уже сделано)

Если вы уменьшите буфер:

req.on('readable',()=> {
    let chunk2;
    while (null !== (chunk2 = req.read(5))) {
        res.write(chunk2);
    }
});

Это заставляет две записи. Этот процесс будет:

readable событие: считывает данные. Вы получаете пять a s.
Вы пишете данные, которые создают событие uncork
Вы читаете данные. readable обнаруживает, что он закончил = > создать end событие
Вы записываете данные и добавляются в буферизованные данные
uncork обработано (потому что оно было запущено до end); вы отправляете данные
end обработанное событие (uncork done) = > подождать ack для отправки окончательного фрагмента
Процесс будет медленным (это, я проверил)

Ответ 2

Ключ находится в задержке, задержки - примерно 10 раз. Я думаю, что, поскольку метод буферизации перемещает вызов записи на req.on('end', ...), сервер может оптимизировать ответ. Несмотря на то, что только один буфер из десяти байтов считывается и записывается в любом заданном запросе, выполняется много одновременных запросов.

Грубо оценивая с помощью 2K 10 байтовых запросов в секунду и задержку ~ 50 мс, я полагаю, что время, затрачиваемое на фактическую передачу "данных", незначительно. Это предполагает, что сервер обрабатывает около 100 одновременных запросов в любой момент времени.

1 / .05 = 20.  2000/20 = 100

Теперь переключитесь на задержку ~ 5 мс, и снова, учитывая, что фактическое время tx данных равно 0.

1 / .005 = 200.  20000/200 = 100.

Тем не менее, сервер обрабатывает примерно 100 запросов, поступающих одновременно в любой момент времени.

Я не знаю внутренности сервера, но если ваш сервер бьет и верхний предел подобным образом, вероятно, возникает латентность, чтобы обработчик события "data" также обрабатывал запись данных в ответ.

Буферизацией и возвратом немедленно, обработчик может быть освобожден раньше и, таким образом, резко сократить латентность на стороне чтения. Открытый вопрос, на мой взгляд, должен: должен ли обработчик действительно нуждаться почти в 50 мс для написания ответа? Я бы не подумал, но если 100 запросов конкурируют за ресурсы, чтобы писать свои данные, это может начать складываться. Соедините это с тем фактом, что res.end() еще нужно вызвать (в другом обработчике), и вы потенциально нашли своего латентного свиньи.

В обработке "конец" ответы 20K 10 байт вряд ли могут быть вызваны большой нагрузкой данных, поэтому возникает вопрос об управлении ресурсами, то есть обработчик завершения ответа. Если res.write() и res.end() происходят на одном и том же обработчике, это, по-видимому, более эффективно, чем запись 10 байтов на один и завершение ответа на другой. В любом случае, я не могу представить, что код завершения ответа вводит любое отставание. Скорее всего, он голоден для работы (даже в буферизованном подходе).

ИЗМЕНИТЬ

Вы также можете попробовать res.end(data) в своем методе буферизации вместо вызова res.write(data), а затем res.end(), и посмотреть, добавляет ли это какие-либо уточняющие данные в ваш анализ.

ИЗМЕНИТЬ

Я просто попробовал один и тот же тест на своих системах. Я использовал Ubuntu Linux VM на другой физической машине, как клиент, wrk как тестовый стенд, lua script как ваш, и настройки по умолчанию. Я использовал рабочий стол Windows 8 для запуска nodejs, такой же script, за исключением использования порта 8080. Моя производительность для pipe() и буферизации была намного ниже вашей, но по сравнению друг с другом, буферы были примерно в 9 раз быстрее, чем pipe(). Таким образом, это просто независимое подтверждение.