Мониторинг брендов с общими словами

Скажем, вы должны следить за брендом ONE онлайн. Какие алгоритмы можно использовать для разметки страниц о бренде ONE со страниц, содержащих общее слово ONE?

Я думаю, может быть, Байес мог бы работать, но есть ли другие способы сделать это?

Ответы

Ответ 1

Если это не уникальное слово, я бы предложил следующий подход.

Предположим, что наше ключевое слово - это Java. Тогда есть как минимум 2 категории: о программировании и о туризме в Индонезии. Нас интересует первая.

Давайте возьмем небольшой текст о Java (возможно, из книг или из википедии). Затем допустим некоторый порог (например, 0,7). Затем сравните наш текст с разными страницами (один из самых быстрых способов использует алгоритм Classic Vector Space Model, вы можете реализовать его самостоятельно или найти его реализацию в Google). Затем сравнивайте результаты с вашим порогом и фильтруйте слабые результаты.

Об использовании алгоритма Байеса: это неплохой подход к imo. Но вы должны "научить" свой алгоритм очень осторожно, потому что несколько плохих входов могут испортить всю работу.

Позвольте мне объяснить. Вход для вашего алгоритма Байеса - это текст с вашим фирменным словом. Вывод - это вероятность [0.. 1], что ваш текст о вашем бренде, но не о чем-то другом. На практике этот алгоритм очень часто дает результаты около 0 или около 1, и он редко возвращает значения между 0,2 и 0,8. Это означает, что алгоритм очень чувствителен к небольшим вариациям, и 1 или 2 слова в тексте из 100 слов могут серьезно повлиять на результат.

Ответ 2

Возможно, вы захотите связать бренд ONE с его продуктами, его исполнительными должностными лицами или его конкурентами в своем мониторинге.

Ответ 3

Термин, который вы ищете, - это Концепция обучения или Концепция > . Слово Один появляется во многих страницах, но чаще всего оно относится к понятию одного как количества. Реже это относится к концепции ONE бренда. (Еще один часто используемый пример - SUN, как в солнце астрального объекта, или компания под названием Sun).

Я знаю Ari Rappoport имеет много исследований по этой теме. Практически это сводится к чему-то вроде mouviciel answer, но исследование Ari также касается того, как вы можете автоматически определить, какие связанные слова вам нужно искать, чтобы отличить один-номер от одного-того- бренд.

Ответ 4

Я сделал приблизительные действия, увидев Википедию как гигантскую онтологию (где каждая гиперссылка является отношением между источником node и end node).

EDIT: один очень грубый алгоритм с примером Java:

Запрос "Java" в википедии. среди другие, это должно дать вам (при наименее) остров и программирование язык.
Получить узлы ввода/вывода этой базы страниц (из гиперссылок на базовые страницы).
Теперь у вас есть небольшие наборы коррелированных слов.
Вычислите "расстояние" каждого набора на странице и найдите минимум этих расстояний.

Расстояние, которое вы будете использовать, очень субъективно и должно быть немного изменено в соответствии с вашими потребностями. У вас может возникнуть проблема с получением "ядра" каждой страницы, поскольку синтаксический анализ HTML будет серьезной болью.

Ответ 5

Я бы предложил неконтролируемый подход к проблеме:

Получите как можно больше документов, которые описывают "ОДИН" в правильном контексте и создают корпус.
Найдите статистически невероятные фразы в этом корпусе против стандартного английского тела.

этот сайт дает хороший пример
http://sip.s-anand.net/?url=http://en.wikipedia.org/wiki/Apple_Inc.

Как вы можете видеть специфические для бренда термины, такие как ipod, powerpc и т.д., легко отфильтровываются.

После того, как вы их извлекли, вы можете создать оповещение Google или аналогичный эквивалент (если оповещения Google слишком упрощены) с запросами типа "SIP" и "ОДИН" для мониторинга новых статей.

Конечно, учитывая, что такой подход не контролируется, он может быть не очень эффективным, но должен выполнять работу.

Ответ 6

Другой подход может заключаться в том, чтобы просмотреть страницу в Google Directory, которая имеет "сеть, организованную по темам в категории". Вы можете потенциально использовать информацию о категории для каждой страницы, чтобы решить, о чем она.