Результаты opennlp chunker и postag
Java - opennlp
Я новичок в opennlp, и я пытаюсь проанализировать предложение и получить тег post и chunk, но я не мог понять значения значений. Есть ли какая-либо таблица, которая может объяснить значения тега post и chunk result значения полной формы?
Tokens: [My, name, is, Chris, corrale, and, I, live, in, Philadelphia, USA, .]
Post Tags: [PRP$, NN, VBZ, NNP, NN, CC, PRP, VBP, IN, NNP, NNP, .]
chunk Result: [B-NP, I-NP, B-VP, B-NP, I-NP, O, B-NP, B-VP, B-PP, B-NP, I-NP, O]
Ответы
Ответ 1
Теги POS находятся в Penn Treebank tagset. Куски - существительные фразы (NP), глагольные фразы (VP) и предлоги (PP). "B-.." отмечает начало такой фразы: "Я..." означает нечто вроде "внутреннего", т.е. Фраза продолжается здесь (см. OpenNLP).
Ответ 2
S → Простой декларативный пункт, т.е. тот, который не вводится
(возможно пустое) подчинение соединение или wh-слово, и на нем нет объекта-глагола
инверсия.
SBAR → Предложение, введенное (возможно, пустым) подчиняющимся соединением.
SBARQ → Прямой вопрос, введенный wh-словом или wh-фразой. Косвенные вопросы и относительные предложения должны быть заключены в квадратные скобки как
SBAR, а не SBARQ.
SINV → Инвертированное декларативное предложение, т.е. одно, в котором субъект
следует за напряженным глаголом или модальным.
SQ → Перевернутый вопрос да/нет или основное предложение wh-вопроса, следуя
WH-фраза в SBARQ.
ADJP → Фраза прилагательного.
ADVP → Фраза наречия.
CONJP → Конфликтная фраза.
FRAG → Фрагмент.
INTJ → Interjection. Соответствует приблизительно тегу части речи
UH.
LST → Маркер списка. Включает окружную пунктуацию.
NAC → Не является составной частью; используется для отображения объема определенных предварительных
модификаторы в NP.
NP → Существительная фраза.
NX → Используется в некоторых сложных NP, чтобы отметить голову NP.
Соответствует очень грубо N-bar
PP → Предпозиционная фраза.
PRN → Parenthetical.
PRT → Particle. Категория для слов, которые должны быть помечены RP.
QP → Фраза квантора (т.е. сложная фраза/сумма); используется внутри
NP.
RRC → Сокращенное относительное предложение.
UCP → В отличие от координированной фразы.
VP → Фраза слов.
WHADJP → WH-прилагательная фраза. Прилагательная фраза, содержащая wh-наречие, as
насколько горячим.
WHAVP → Фраза Wh-adverb. Вводит предложение с разрывом NP. Может быть null
(содержащий дополнение 0) или лексический, содержащий wh-наречие, например, как и почему.
WHNP → фраза WH-noun. Вводит предложение с разрывом NP. Может быть null
(содержащий дополнение 0) или лексический, содержащий некоторое слово wh, например. кто, какая книга, чья
дочь, ни одна из которых, или как много леопардов.
WHPP → WH-предпозиционная фраза. Предлогическая фраза, содержащая wh-существительное
фраза (например, из которых или по полномочиям), который либо вводит
PP или содержится в WHNP.
X → Неизвестно, неопределенно или неудержимо. X часто используется для брекетинга
опечатки и брекетинг и... в-конструкции.
Кредит: http://mail-archives.apache.org/mod_mbox/opennlp-users/201402.mbox/%[email protected].com%3E
Ответ 3
Пожалуйста, обратитесь к списку POSTag, чтобы получить информацию о тегах.
Теги фрагментов, такие как " B-NP", состоят из двух или трех частей:
Первая часть:
B - marks the beginning of a chunk
I - marks the continuation of a chunk
E - marks the end of a chunk
Как кусок, это может быть только одно слово длиной (например, "Она" в примере выше), это может быть как начало, так и конец куска одновременно.
Вторая часть:
NP - noun chunk
VP - verb chunk
Для получения дополнительной информации вы можете обратиться к OpenNLP Documentation.