Как комбинировать элементы с выводом разных размеров с помощью scikit-learn

Я использую scikit-learn с Pipeline и FeatureUnion для извлечения функций из разных источников. Каждый образец (экземпляр) в моем наборе данных относится к документам различной длины. Моя цель состоит в том, чтобы вычислить верхний tfidf для каждого документа независимо, но я продолжаю получать это сообщение об ошибке:

2000 - размер данных обучения. Это основной код:

Я написал два класса для обработки каждой функции конвейера. Моя проблема связана с конвейером book_contents, который в основном касается каждого образца и возвращает матрицу TFidf для каждой книги независимо.

Затем каждый идентификатор будет ссылаться на текстовый файл с фактическим содержимым этих книг

Я попытался toarray и reshape функции, но не повезло. Любая идея, как решить эту проблему. Спасибо

Ответы

Ответ 1

Вы можете использовать Neuraxle Feature Union с пользовательским соединителем, который вам нужно будет написать самостоятельно. Joiner - это класс, переданный Neuraxle FeatureUnion для объединения результатов так, как вы ожидали.

1. Импортируйте классы Neuraxle.

from neuraxle.base import NonFittableMixin, BaseStep
from neuraxle.pipeline import Pipeline
from neuraxle.steps.sklearn import SKLearnWrapper
from neuraxle.union import FeatureUnion

2. Определите свой пользовательский класс, унаследовав его от BaseStep:

class BookContentCount(BaseStep): 

    def transform(self, data_dict, y=None):
        transformed = do_things(...)  # be sure to use SKLearnWrapper if you wrap sklearn items.
        return Xtr

    def fit(self, x, y=None):
        return self

3. Создайте столяра, чтобы присоединиться к результатам объединения функций так, как вы хотите:

class CustomJoiner(NonFittableMixin, BaseStep):
    def __init__(self):
        BaseStep.__init__(self)
        NonFittableMixin.__init__(self)

    # def fit: is inherited from 'NonFittableMixin' and simply returns self.

    def transform(self, data_inputs):
        # TODO: insert your own concatenation method here.
        result = np.concatenate(data_inputs, axis=-1)
        return result

4. Наконец, создайте свой конвейер, передав соединителю в FeatureUnion:

book_summary= Pipeline([
    ('selector', SKLearnWrapper(ItemSelector(key='book'))),
    ('tfidf', SKLearnWrapper(TfidfVectorizer(analyzer='word', ngram_range(1,3), min_df=1, lowercase=True, stop_words=my_stopword_list, sublinear_tf=True)))
])

p = Pipeline([
    ('feats', FeatureUnion([
        ('book_summary', book_summary),
        ('book_contents', BookContentCount())
    ], 
        joiner=CustomJoiner()
    )),
    ('clf', SKLearnWrapper(SVC(kernel='linear', class_weight='balanced')))
])

Примечание: если вы хотите, чтобы ваш конвейер Neuraxle превратился в конвейер scikit-learn, вы можете сделать это p = p.tosklearn().