Ответ 1
DBpedia - это фантастический, высококачественный ресурс. Однако, чтобы превратить ваш контент в набор соответствующих концепций DBpedia, вам нужно будет точно идентифицировать их в тексте, который включает в себя как минимум два шага:
-
Определите концепции DBpedia в вашем контенте: это включает в себя распознавание имен концепций (и альтернативных имен) в тексте, а также устранение неоднозначности среди всех возможных значений каждой фразы. Термин "Солнце" может относиться к десяткам возможных концепций в соответствии со своей страницей включая звезду, газеты, имена людей и т.д. Это включает идентификация объекта, классификация и привязка.
-
Определите, какая из этих концепций интересна: например, вы хотите, чтобы концепция "Определенная статья" отображалась, когда текст включает в себя термин "the" (который The перенаправляется)?
Возможно, вам захочется рассмотреть существующую библиотеку или службу текстовой аналитики, которая поддерживает привязку объекта к DBpedia. Одним из замечательных инструментов для индексации темы является Maui, который был разработан Alyona Medelyan во время своего PhD. Еще одно большое решение с открытым исходным кодом - Wikipedia Miner от Дэвида Милна в том же университете.
Две коммерческие службы, которые обеспечивают привязку к концепциям DBpedia, Zemanta и Extractiv (разрешить некоторый уровень бесплатного использования). опция DBpedia spotlight. Другие, которые могут предоставить эти возможности, перечислены по адресу: https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais
Раскрытие: я [использовал] работу в Extractiv (несуществующий), который работает от Language Computer Corporation НЛП.