Алгоритм классификации списка продуктов? Возьмите 2

Я задал вопрос аналогичный этому пару пару недель назад, но я не задал вопрос правильно. Поэтому я снова задаю этот вопрос с более подробной информацией, и я хотел бы получить более ориентированный на ИИ ответ.

У меня есть список, представляющий продукты, которые более или менее одинаковы. Например, в приведенном ниже списке все они являются жесткими дисками Seagate.

  • Seagate Hard Drive 500Go
  • Seagate Hard Drive 120Go для ноутбуков
  • Seagate Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb/s Жесткий диск
  • Новый и shinny жесткий диск 500Go от Seagate.
  • Seagate Barracuda 7200.12
  • Seagate FreeAgent Desk 500GB Внешний жесткий диск Silver 7200RPM USB2.0 Retail
  • GE Spacemaker Laudry
  • Mazda3 2010
  • Mazda3 2009 2.3L

Для человека жесткие диски 3 и 5 одинаковы. Мы могли бы пойти немного дальше и предположим, что продукты 1, 3, 4 и 5 одинаковы и помещают в другие категории продукт 2 и 6.

В моем предыдущем вопросе кто-то предложил мне использовать извлечение функции. Он работает очень хорошо, когда у нас есть небольшой набор данных предопределенных описаний (все жесткие диски), но как насчет всего другого описания? Я не хочу начинать писать расширители функций на основе регулярных выражений для всех описаний, с которыми может столкнуться мое приложение, оно не масштабируется. Есть ли какой-либо алгоритм машинного обучения, который мог бы помочь мне достичь этого? Диапазон описания, который я могу получить, очень широк, в строке 1 он может быть холодильником, а затем на следующей строке, жесткий диск. Должен ли я попытаться использовать путь нейронной сети? Что должно быть моим вкладом?

Спасибо за помощь!

Ответы

Ответ 1

Я бы рассмотрел некоторые методы

Недостатком этого было бы то, что для этого обычно требуется довольно большое количество учебных материалов, прежде чем он начнет работать хорошо, но вы можете настроить его так, чтобы он продолжал изменять свои проценты во время производства (если вы заметили, что это что-то неправильно), и это в конечном итоге станет очень эффективным.

Байесовские методы используются довольно сильно недавно для , поэтому было бы полезно сделать некоторые чтения о том, как он использовался там.

Ответ 2

Вы должны посмотреть на clustering и classification. Ваши категории кажутся открытыми и, следовательно, предполагают, что кластеризация может подойти к проблеме лучше. Что касается входного представления, вы можете испытать удачу с извлечением слова и символа n-grams. Ваша мера сходства может быть подсчетом общих n-граммов, или что-то более сложное. Возможно, вам понадобится вручную пометить полученные кластеры.