Ответ 1
Я бы рассмотрел некоторые методы
Я задал вопрос аналогичный этому пару пару недель назад, но я не задал вопрос правильно. Поэтому я снова задаю этот вопрос с более подробной информацией, и я хотел бы получить более ориентированный на ИИ ответ.
У меня есть список, представляющий продукты, которые более или менее одинаковы. Например, в приведенном ниже списке все они являются жесткими дисками Seagate.
Для человека жесткие диски 3 и 5 одинаковы. Мы могли бы пойти немного дальше и предположим, что продукты 1, 3, 4 и 5 одинаковы и помещают в другие категории продукт 2 и 6.
В моем предыдущем вопросе кто-то предложил мне использовать извлечение функции. Он работает очень хорошо, когда у нас есть небольшой набор данных предопределенных описаний (все жесткие диски), но как насчет всего другого описания? Я не хочу начинать писать расширители функций на основе регулярных выражений для всех описаний, с которыми может столкнуться мое приложение, оно не масштабируется. Есть ли какой-либо алгоритм машинного обучения, который мог бы помочь мне достичь этого? Диапазон описания, который я могу получить, очень широк, в строке 1 он может быть холодильником, а затем на следующей строке, жесткий диск. Должен ли я попытаться использовать путь нейронной сети? Что должно быть моим вкладом?
Спасибо за помощь!
Я бы рассмотрел некоторые методы
Вы должны посмотреть на clustering и classification. Ваши категории кажутся открытыми и, следовательно, предполагают, что кластеризация может подойти к проблеме лучше. Что касается входного представления, вы можете испытать удачу с извлечением слова и символа n-grams. Ваша мера сходства может быть подсчетом общих n-граммов, или что-то более сложное. Возможно, вам понадобится вручную пометить полученные кластеры.