Nump hstack - "ValueError: все входные массивы должны иметь одинаковое количество измерений", но они делают

Я пытаюсь присоединиться к двум массивам numpy. У меня есть набор столбцов/функций после запуска TF-IDF в одном столбце текста. В другом я имею один столбец/функцию, которая является целым числом. Поэтому я читаю в столбце данных поезда и теста, запускаю TF-IDF на этом, а затем я хочу добавить еще один целочисленный столбец, потому что я думаю, что это поможет моему классификатору более точно узнать, как он должен себя вести.

К сожалению, я получаю ошибку в заголовке, когда я пытаюсь запустить hstack, чтобы добавить этот единственный столбец в другой массив numpy.

Что вызывает здесь мою проблему? Как я могу это исправить? Насколько я вижу, я могу присоединиться к этим колонкам? Что я неправильно понял?

Использование метода в ответе ниже получает следующую ошибку:

Интересно, что я попытался напечатать dtype X, и это сработало нормально:

Однако, пытаясь напечатать dtype AllAlexaAndGoogleInfo следующим образом:

Ответы

Ответ 1

Поскольку X - разреженный массив, вместо numpy.hstack, используйте scipy.sparse.hstack для объединения массивов. По-моему, сообщение об ошибке вводит в заблуждение.

Этот минимальный пример иллюстрирует ситуацию:

import numpy as np
from scipy import sparse

X = sparse.rand(10, 10000)
xt = np.random.random((10, 1))
print 'X shape:', X.shape
print 'xt shape:', xt.shape
print 'Stacked shape:', np.hstack((X,xt)).shape
#print 'Stacked shape:', sparse.hstack((X,xt)).shape #This works

На основе следующего вывода

X shape: (10, 10000)
xt shape: (10, 1)

можно ожидать, что hstack в следующей строке будет работать, но факт заключается в том, что он вызывает эту ошибку:

ValueError: all the input arrays must have same number of dimensions

Итак, используйте scipy.sparse.hstack, когда у вас есть разреженный массив для стека.

Фактически, я ответил на это как комментарий в ваших других вопросах, и вы упомянули, что появляется другое сообщение об ошибке:

TypeError: no supported conversion for types: (dtype('float64'), dtype('O'))

Прежде всего, AllAlexaAndGoogleInfo не имеет dtype, так как это DataFrame. Чтобы получить базовый массив numpy, просто используйте AllAlexaAndGoogleInfo.values. Проверьте его dtype. На основе сообщения об ошибке он имеет dtype из object, что означает, что он может содержать не численные элементы, такие как строки.

Это минимальный пример, который воспроизводит эту ситуацию:

X = sparse.rand(100, 10000)
xt = np.random.random((100, 1))
xt = xt.astype('object') # Comment this to fix the error
print 'X:', X.shape, X.dtype
print 'xt:', xt.shape, xt.dtype
print 'Stacked shape:', sparse.hstack((X,xt)).shape

Сообщение об ошибке:

TypeError: no supported conversion for types: (dtype('float64'), dtype('O'))

Итак, проверьте, нет ли каких-либо нечисловых значений в AllAlexaAndGoogleInfo и исправьте их, прежде чем выполнять стекирование.

Ответ 2

Используйте .column_stack. Например:

X = np.column_stack((X, AllAlexaAndGoogleInfo))

Из docs:

Возьмите последовательность 1-D массивов и соедините их как столбцы, чтобы сделать одиночный 2-мерный массив. 2-D массивы складываются как есть, так же, как и с hstack.

Ответ 3

Try:

X = np.hstack((X, AllAlexaAndGoogleInfo.values))

У меня нет работающего модуля Pandas, поэтому он не может его протестировать. Но документация DataFrame описывает values Numpy representation of NDFrame. np.hstack является функцией numpy и как таковая ничего не знает о внутренней структуре DataFrame.