Каков самый простой способ получить tfidf с помощью pandas dataframe?

Я хочу рассчитать tf-idf из приведенных ниже документов. Я использую python и pandas.

Сначала я подумал, что мне нужно будет получить word_count для каждой строки. Поэтому я написал простую функцию:

Но теперь я потерян. Я знаю, что есть простой способ вычисления tf-idf, если я использую Graphlab, но я хочу придерживаться опции с открытым исходным кодом. И Sklearn, и gensim выглядят подавляющими. Какое самое простое решение для получения tf-idf?

Ответы

Ответ 1

Внедрение Scikit-learn очень просто:

from sklearn.feature_extraction.text import TfidfVectorizer
v = TfidfVectorizer()
x = v.fit_transform(df['sent'])

Имеется множество параметров, которые вы можете указать. См. Документацию здесь

Выход fit_transform будет разреженной матрицей, если вы хотите визуализировать его, вы можете сделать x.toarray()

In [44]: x.toarray()
Out[44]: 
array([[ 0.64612892,  0.38161415,  0.        ,  0.38161415,  0.38161415,
         0.        ,  0.38161415],
       [ 0.        ,  0.38161415,  0.64612892,  0.38161415,  0.38161415,
         0.        ,  0.38161415],
       [ 0.        ,  0.38161415,  0.        ,  0.38161415,  0.38161415,
         0.64612892,  0.38161415]])