Использование DictVectorizer с помощью sklearn DecisionTreeClassifier

Я пытаюсь запустить дерево решений с помощью python и sklearn. Рабочий подход был следующим:

Теперь я пытаюсь сделать то же самое с DictVectorizer, но мой код не работает:

У меня есть ошибка в последней строке: "ValueError: количество меток = 332448 не соответствует числу образцов = 55". Как я узнал из документации, DictVectorize был разработан для преобразования номинальных функций в числовые. Что я делаю неправильно?

исправлено (спасибо ogrisel за то, что он дал мне полный пример):

Ответы

Ответ 1

То, как вы перечисляете свои образцы, не имеет смысла. Просто распечатайте их, чтобы сделать это очевидным:

>>> import pandas as pd
>>> train = pd.DataFrame({'a' : ['a', 'b', 'a'], 'd' : ['e', 'e', 'f'],
...                       'b' : [0, 1, 1], 'c' : ['b', 'c', 'b']})
>>> samples = [dict(enumerate(sample)) for sample in train]
>>> samples
[{0: 'a'}, {0: 'b'}, {0: 'c'}, {0: 'd'}]

Теперь это синтаксически список dicts, но ничего подобного, чего вы ожидаете. Попробуйте сделать это вместо:

>>> train_as_dicts = [dict(r.iteritems()) for _, r in train.iterrows()]
>>> train_as_dicts
[{'a': 'a', 'c': 'b', 'b': 0, 'd': 'e'},
 {'a': 'b', 'c': 'c', 'b': 1, 'd': 'e'},
 {'a': 'a', 'c': 'b', 'b': 1, 'd': 'f'}]

Это выглядит намного лучше, теперь давайте попробуем векторизовать эти dicts:

>>> from sklearn.feature_extraction import DictVectorizer

>>> vectorizer = DictVectorizer()
>>> vectorized_sparse = vectorizer.fit_transform(train_as_dicts)
>>> vectorized_sparse
<3x7 sparse matrix of type '<type 'numpy.float64'>'
    with 12 stored elements in Compressed Sparse Row format>

>>> vectorized_array = vectorized_sparse.toarray()
>>> vectorized_array
array([[ 1.,  0.,  0.,  1.,  0.,  1.,  0.],
       [ 0.,  1.,  1.,  0.,  1.,  1.,  0.],
       [ 1.,  0.,  1.,  1.,  0.,  0.,  1.]])

Чтобы получить значение каждого столбца, задайте векторизатор:

>>> vectorizer.get_feature_names()
['a=a', 'a=b', 'b', 'c=b', 'c=c', 'd=e', 'd=f']

Ответ 2

vec.fit_transform возвращает разреженный массив. И IIRC DecisionTreeClassifier не очень хорошо работает с этим.

Попробуйте train_fea = train_fea.toarray() перед тем, как передать его в DecisionTreeClassifier.