Мониторинг брендов с общими словами
Скажем, вы должны следить за брендом ONE онлайн. Какие алгоритмы можно использовать для разметки страниц о бренде ONE со страниц, содержащих общее слово ONE?
Я думаю, может быть, Байес мог бы работать, но есть ли другие способы сделать это?
Ответы
Ответ 1
Если это не уникальное слово, я бы предложил следующий подход.
Предположим, что наше ключевое слово - это Java. Тогда есть как минимум 2 категории: о программировании и о туризме в Индонезии. Нас интересует первая.
Давайте возьмем небольшой текст о Java (возможно, из книг или из википедии). Затем допустим некоторый порог (например, 0,7). Затем сравните наш текст с разными страницами (один из самых быстрых способов использует алгоритм Classic Vector Space Model, вы можете реализовать его самостоятельно или найти его реализацию в Google). Затем сравнивайте результаты с вашим порогом и фильтруйте слабые результаты.
Об использовании алгоритма Байеса: это неплохой подход к imo. Но вы должны "научить" свой алгоритм очень осторожно, потому что несколько плохих входов могут испортить всю работу.
Позвольте мне объяснить. Вход для вашего алгоритма Байеса - это текст с вашим фирменным словом. Вывод - это вероятность [0.. 1], что ваш текст о вашем бренде, но не о чем-то другом. На практике этот алгоритм очень часто дает результаты около 0 или около 1, и он редко возвращает значения между 0,2 и 0,8. Это означает, что алгоритм очень чувствителен к небольшим вариациям, и 1 или 2 слова в тексте из 100 слов могут серьезно повлиять на результат.
Ответ 2
Возможно, вы захотите связать бренд ONE с его продуктами, его исполнительными должностными лицами или его конкурентами в своем мониторинге.
Ответ 3
Термин, который вы ищете, - это Концепция обучения или Концепция > . Слово Один появляется во многих страницах, но чаще всего оно относится к понятию одного как количества. Реже это относится к концепции ONE бренда. (Еще один часто используемый пример - SUN, как в солнце астрального объекта, или компания под названием Sun).
Я знаю Ari Rappoport имеет много исследований по этой теме. Практически это сводится к чему-то вроде
mouviciel answer, но исследование Ari также касается того, как вы можете автоматически определить, какие связанные слова вам нужно искать, чтобы отличить один-номер от одного-того- бренд.
Ответ 4
Я сделал приблизительные действия, увидев Википедию как гигантскую онтологию (где каждая гиперссылка является отношением между источником node и end node).
EDIT: один очень грубый алгоритм с примером Java:
- Запрос "Java" в википедии. среди
другие, это должно дать вам (при
наименее) остров и программирование
язык.
- Получить узлы ввода/вывода этой базы
страниц (из гиперссылок на базовые страницы).
- Теперь у вас есть небольшие наборы коррелированных слов.
- Вычислите "расстояние" каждого набора на странице и найдите минимум этих расстояний.
Расстояние, которое вы будете использовать, очень субъективно и должно быть немного изменено в соответствии с вашими потребностями. У вас может возникнуть проблема с получением "ядра" каждой страницы, поскольку синтаксический анализ HTML будет серьезной болью.
Ответ 5
Я бы предложил неконтролируемый подход к проблеме:
-
Получите как можно больше документов, которые описывают "ОДИН" в правильном контексте и создают корпус.
-
Найдите статистически невероятные фразы в этом корпусе против стандартного английского тела.
этот сайт дает хороший пример
http://sip.s-anand.net/?url=http://en.wikipedia.org/wiki/Apple_Inc.
Как вы можете видеть специфические для бренда термины, такие как ipod, powerpc и т.д., легко отфильтровываются.
После того, как вы их извлекли, вы можете создать оповещение Google или аналогичный эквивалент (если оповещения Google слишком упрощены) с запросами типа "SIP" и "ОДИН" для мониторинга новых статей.
Конечно, учитывая, что такой подход не контролируется, он может быть не очень эффективным, но должен выполнять работу.
Ответ 6
Другой подход может заключаться в том, чтобы просмотреть страницу в Google Directory, которая имеет "сеть, организованную по темам в категории". Вы можете потенциально использовать информацию о категории для каждой страницы, чтобы решить, о чем она.