TfidfVectorizer в scikit-learn: ValueError: np.nan является недопустимым документом

Я использую TfidfVectorizer из scikit-learn для выполнения некоторых функций из текстовых данных. У меня есть файл CSV со счетом (может быть +1 или -1) и обзор (текст). Я вытащил эти данные в DataFrame, чтобы запустить Vectorizer.

Это трассировка для ошибки, которую я получаю:

Я проверил CSV файл и DataFrame для всего, что читается как NaN, но я ничего не могу найти. Есть 18000 строк, ни один из которых не возвращает isnan как True.

Ответы

Ответ 1

Вам нужно преобразовать строку dtype object в unicode, как это четко указано в трассировке.

x = v.fit_transform(df['Review'].values.astype('U'))  ## Even astype(str) would work

На странице Doc TFIDF Vectorizer:

fit_transform (raw_documents, y = None)

Параметры: raw_documents: iterable
итерабельный, который дает либо str, unicode, либо файловые объекты

Ответ 2

Я нахожу более эффективный способ решения этой проблемы.

x = v.fit_transform(df['Review'].apply(lambda x: np.str_(x)))

Конечно, вы можете использовать df['Review'].values.astype('U') для конвертации всей серии. Но я обнаружил, что использование этой функции будет занимать гораздо больше памяти, если серия, которую вы хотите преобразовать, действительно большая. (Я тестирую это на Series с 80-ю строками данных, и выполнение этого astype('U') будет занимать около 96 ГБ памяти)

Вместо этого, если вы используете лямбда-выражение только для преобразования данных в Серии из str в numpy.str_, результат которого также будет принят функцией fit_transform, это будет быстрее и не увеличит использование памяти.

Я не уверен, почему это будет работать, потому что на странице документа TFIDF Vectorizer:

fit_transform (raw_documents, y = Нет)

Параметры: raw_documents: повторяемые

итерируемый, который дает либо str, unicode или файловые объекты

Но на самом деле эта итерация должна np.str_ вместо str.

Ответ 3

Спасибо, ребята, у меня была похожая проблема