Для моего приложения мне нужно прочитать несколько файлов по 15 М строк в каждом, сохранить их в DataFrame и сохранить DataFrame в формате HDFS5.

Я уже пробовал разные подходы, в частности pandas.read_csv со спецификациями chunksize и dtype и dask.dataframe. На обработку одного файла у обоих уходит около 90 секунд, и поэтому я хотел бы знать, есть ли способ эффективно обработать эти файлы описанным способом. Далее я покажу код тестов, которые я сделал.

Вот как выглядят файлы (пробел состоит из буквальной вкладки):

Ответы

Ответ 1

Ну, мои выводы не сильно связаны с пандами, а скорее с некоторыми распространенными ошибками.

Your code: 
(genel_deneme) ➜  derp time python a.py
python a.py  38.62s user 0.69s system 100% cpu 39.008 total

предварительно скомпилируйте свое регулярное выражение

Replace re.sub(r"[^\d.]", "", x) with precompiled version and use it in your lambdas
Result : 
(genel_deneme) ➜  derp time python a.py 
python a.py  26.42s user 0.69s system 100% cpu 26.843 total

Попробуйте найти лучший способ, чем напрямую использовать np.float32, так как он в 6-10 раз медленнее, чем вы ожидаете. Следующее не то, что вы хотите, но я просто хочу показать проблему здесь.

replace np.float32 with float and run your code. 
My Result:  
(genel_deneme) ➜  derp time python a.py
python a.py  14.79s user 0.60s system 102% cpu 15.066 total

Найдите другой способ достичь результата с помощью поплавков. Подробнее по этому вопросу fooobar.com/questions/123837/...

Разделите ваш файл и работу на подпроцессы, если можете. Вы уже работаете с отдельными кусками постоянного размера. Таким образом, в основном вы можете разделить файл и обрабатывать работу в отдельных процессах, используя многопроцессорность или потоки.

Ответ 2

Во-первых, давайте ответим на заголовок вопроса

1- Как эффективно прочитать 15M строк в формате csv, содержащем числа с плавающей точкой

Я предлагаю вам использовать модин:

Генерация образца данных:

import modin.pandas as mpd
import pandas as pd
import numpy as np

frame_data = np.random.randint(0, 10_000_000, size=(15_000_000, 2)) 
pd.DataFrame(frame_data*0.0001).to_csv('15mil.csv', header=False)

!wc 15mil*.csv ; du -h 15mil*.csv

    15000000   15000000  480696661 15mil.csv
    459M    15mil.csv

Теперь к тестам:

%%timeit -r 3 -n 1 -t
global df1
df1 = pd.read_csv('15mil.csv', header=None)
    9.7 s ± 95.1 ms per loop (mean ± std. dev. of 3 runs, 1 loop each)

%%timeit -r 3 -n 1 -t
global df2
df2 = mpd.read_csv('15mil.csv', header=None)
    3.07 s ± 685 ms per loop (mean ± std. dev. of 3 runs, 1 loop each)

(df2.values == df1.values).all()
    True

Итак, как мы видим, модин был примерно в 3 раза быстрее на моей установке.

Теперь, чтобы ответить на вашу конкретную проблему

2- Очистка CSV файла, который содержит не числовые символы, и затем чтение его

Как уже отмечалось, ваше узкое место, вероятно, является конвертером. Вы называете эти лямбды 30 миллионов раз. Даже издержки вызова функции становятся нетривиальными в этом масштабе.

Пусть атакуют эту проблему.

Создание грязного набора данных:

!sed 's/.\{4\}/&)/g' 15mil.csv > 15mil_dirty.csv

подходы

Сначала я попытался использовать модин с аргументом преобразователей. Затем я попробовал другой подход, который вызывает регулярное выражение меньше раз:

Сначала я создам File-like объект, который фильтрует все через ваше регулярное выражение:

class FilterFile():
    def __init__(self, file):
        self.file = file
    def read(self, n):
        return re.sub(r"[^\d.,\n]", "", self.file.read(n))
    def write(self, *a): return self.file.write(*a) # needed to trick pandas
    def __iter__(self, *a): return self.file.__iter__(*a) # needed

Затем мы передаем его пандам в качестве первого аргумента в read_csv:

with open('15mil_dirty.csv') as file:
    df2 = pd.read_csv(FilterFile(file))

тесты:

%%timeit -r 1 -n 1 -t
global df1
df1 = pd.read_csv('15mil_dirty.csv', header=None,
        converters={0: lambda x: np.float32(re.sub(r"[^\d.]", "", x)),
                    1: lambda x: np.float32(re.sub(r"[^\d.]", "", x))}
           )
    2min 28s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

%%timeit -r 1 -n 1 -t
global df2
df2 = mpd.read_csv('15mil_dirty.csv', header=None,
        converters={0: lambda x: np.float32(re.sub(r"[^\d.]", "", x)),
                    1: lambda x: np.float32(re.sub(r"[^\d.]", "", x))}
           )
    38.8 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

%%timeit -r 1 -n 1 -t
global df3
df3 = pd.read_csv(FilterFile(open('15mil_dirty.csv')), header=None,)
    1min ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

Похоже, Модин снова побеждает! К сожалению, modin еще не реализовал чтение из буферов, поэтому я разработал ULTIMATE-подход:

%%timeit -r 1 -n 1 -t
with open('15mil_dirty.csv') as f, open('/dev/shm/tmp_file', 'w') as tmp:
    tmp.write(f.read().translate({ord(i):None for i in '()'}))
df4 = mpd.read_csv('/dev/shm/tmp_file', header=None)
    5.68 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

Это использует translate который значительно быстрее, чем re.sub, а также использует /dev/shm который является файловой системой в памяти, которую обычно предоставляет ubuntu (и другие linux). Любой записанный там файл никогда не попадет на диск, поэтому он быстрый. Наконец, он использует modin для чтения файла, обойдя ограничение буфера modin. Этот подход примерно в 30 раз быстрее, чем ваш, и он также довольно прост.

Эффективный способ прочитать 15 M строк CSV файлов в Python