Ответ 1
Вот сообщение в блоге, которое делает именно это: http://peekaboo-vision.blogspot.com/2012/11/a-wordcloud-in-python.html
Весь код здесь: https://github.com/amueller/word_cloud
Из Создавая подмножество слов из корпуса в R, ответчик легко может легко преобразовать term-document matrix
в облако слов.
Есть ли аналогичная функция из библиотек python, которая в текстовое облако принимает текстовый файл raw text или NLTK
corpus или Gensim
Mmcorpus?
Результат будет выглядеть примерно так:
Вот сообщение в блоге, которое делает именно это: http://peekaboo-vision.blogspot.com/2012/11/a-wordcloud-in-python.html
Весь код здесь: https://github.com/amueller/word_cloud
Если вам нужны эти облака слов для показа их на веб-сайте или веб-приложении, вы можете преобразовать ваши данные в формат json или csv и загрузить его в библиотеку визуализации JavaScript, такую как d3. Word Clouds на d3
Если нет, ответ Марцина - хороший способ сделать то, что вы описываете.
Пример кода amueller в действии
В командной строке/терминале:
sudo pip install wordcloud
Затем запустите python script:
# Simple WordCloud
from os import path
from scipy.misc import imread
import matplotlib.pyplot as plt
import random
from wordcloud import WordCloud, STOPWORDS
text = 'all your base are belong to us all of your base base base'
wordcloud = WordCloud(font_path='/Library/Fonts/Verdana.ttf',
relative_scaling = 1.0,
stopwords = {'to', 'of'} # set or space-separated string
).generate(text)
plt.imshow(wordcloud)
plt.axis("off")
plt.show()