Ответ 1
В соответствии с исходный код для sklearn.feature_extraction.text
, полный список (на самом деле a frozenset
, from stop_words
) ENGLISH_STOP_WORDS
отображается через __all__
. Поэтому, если вы хотите использовать этот список и несколько других элементов, вы можете сделать что-то вроде:
from sklearn.feature_extraction import text
stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)
(где my_additional_stop_words
- любая последовательность строк) и использовать результат как аргумент stop_words
. Этот вход в CountVectorizer.__init__
анализируется _check_stop_list
, который пройдет через frozenset
.