Почему печать настолько медленная в Python 3.3 и как я могу ее исправить?

Я просто попытался запустить этот script с Python 3.3. К сожалению, это примерно в два раза медленнее, чем с Python 2.7.

Профилирование показывает, что дополнительное время тратится на печать:

Как я могу избежать этих накладных расходов? Это как-то связано с UTF-8?

Ответы

Ответ 1

Python 3 декодирует данные, считанные с stdin, и снова закодирует на stdout; это не столько функция print(), которая здесь медленнее, а как преобразование unicode-to-bytes и наоборот.

В вашем случае вы, вероятно, хотите обойти это и использовать только байты; вы можете получить доступ к базовой реализации BufferedIOBase с помощью атрибута .buffer:

from sys import stdin, stdout

try:
    bytes_stdin, bytes_stdout = stdin.buffer, stdout.buffer
except AttributeError:
    bytes_stdin, bytes_stdout = stdin, stdout

def main():
    for line in bytes_stdin:
        try:
            fields = line.split(b'"', 6)
            bytes_stdout.write(fields[5] + b'\n')
        except IndexError:
            pass

if __name__ == '__main__':
    main()

Теперь вам нужно будет использовать stdout.write(), поскольку print() настаивает на записи в реализацию stdout TextIOBase.

Обратите внимание, что .split() теперь использует литерал байта b'"', и мы также пишем байтовый литерал b'\n' (о котором обычно будет заботиться print()).

Вышеописанное совместимо с Python 2.6 и выше. Python 2.5 не поддерживает префикс b.