Как распараллелить многие (нечеткие) сравнения строк, применяя в Pandas?

У меня есть dataframe master, который содержит предложения, такие как

Для каждой строки в Master, я ищу в другом фрейме slave для наилучшего соответствия с помощью fuzzywuzzy. Я использую fuzzywuzzy, потому что согласованные предложения между двумя файлами данных могут немного отличаться (дополнительные символы и т.д.).

Вот полнофункциональный, замечательный, компактный рабочий пример:)

вопрос в 1 миллион долларов: могу ли я распараллелить свой применяемый код выше?

В конце концов, каждая строка в master сравнивается со всеми строками в slave (ведомый - это небольшой набор данных, и я могу хранить много копий данных в ОЗУ).

Я не понимаю, почему я не мог запускать несколько сравнений (т.е. обрабатывать несколько строк одновременно).

Проблема: я не знаю, как это сделать или если это возможно.

Ответы

Ответ 1

Вы можете распараллелить это с помощью Dask.dataframe. Это будет работать почти так же, за исключением того, что вы не можете использовать назначение столбцов и вместо этого использовать метод assign

>>> dmaster = dd.from_pandas(master, npartitions=4)
>>> dmaster = dmaster.assign(my_value=dmaster.original.apply(lambda x: helper(x, slave), name='my_value'))
>>> dmaster.compute()
                  original  my_value
0  this is a nice sentence         2
1      this is another one         3
2    stackoverflow is nice         1

Кроме того, вы должны подумать о компромиссах между использованием потоков и процессов здесь. Ваша нечеткая последовательность строк почти наверняка не освобождает GIL, так что вы не получите никакой пользы от использования нескольких потоков. Однако использование процессов приведет к сериализации и перемещению данных по вашей машине, что может немного замедлить работу.

Вы можете экспериментировать между использованием потоков и процессов или распределенной системой, управляя аргументом ключевого слова get= методу compute().

import dask.multiprocessing
import dask.threaded

>>> dmaster.compute(get=dask.threaded.get)  # this is default for dask.dataframe
>>> dmaster.compute(get=dask.multiprocessing.get)  # try processes instead