Результаты opennlp chunker и postag

Java - opennlp

Я новичок в opennlp, и я пытаюсь проанализировать предложение и получить тег post и chunk, но я не мог понять значения значений. Есть ли какая-либо таблица, которая может объяснить значения тега post и chunk result значения полной формы?

Tokens: [My, name, is, Chris, corrale, and, I, live, in, Philadelphia, USA, .]
Post Tags: [PRP$, NN, VBZ, NNP, NN, CC, PRP, VBP, IN, NNP, NNP, .]
chunk Result: [B-NP, I-NP, B-VP, B-NP, I-NP, O, B-NP, B-VP, B-PP, B-NP, I-NP, O]

Ответы

Ответ 1

Теги POS находятся в Penn Treebank tagset. Куски - существительные фразы (NP), глагольные фразы (VP) и предлоги (PP). "B-.." отмечает начало такой фразы: "Я..." означает нечто вроде "внутреннего", т.е. Фраза продолжается здесь (см. OpenNLP).

Ответ 2

S → Простой декларативный пункт, т.е. тот, который не вводится (возможно пустое) подчинение    соединение или wh-слово, и на нем нет объекта-глагола инверсия.

SBAR → Предложение, введенное (возможно, пустым) подчиняющимся соединением.

SBARQ → Прямой вопрос, введенный wh-словом или wh-фразой.        Косвенные вопросы и относительные предложения должны быть заключены в квадратные скобки как SBAR, а не SBARQ.

SINV → Инвертированное декларативное предложение, т.е. одно, в котором субъект следует за напряженным глаголом или модальным.

SQ → Перевернутый вопрос да/нет или основное предложение wh-вопроса, следуя WH-фраза в SBARQ.

ADJP → Фраза прилагательного.

ADVP → Фраза наречия.

CONJP → Конфликтная фраза.

FRAG → Фрагмент.

INTJ → Interjection. Соответствует приблизительно тегу части речи UH.

LST → Маркер списка. Включает окружную пунктуацию.

NAC → Не является составной частью; используется для отображения объема определенных предварительных модификаторы в NP.

NP → Существительная фраза.

NX → Используется в некоторых сложных NP, чтобы отметить голову NP. Соответствует очень грубо N-bar

PP → Предпозиционная фраза.

PRN → Parenthetical.

PRT → Particle. Категория для слов, которые должны быть помечены RP.

QP → Фраза квантора (т.е. сложная фраза/сумма); используется внутри NP.

RRC → Сокращенное относительное предложение.

UCP → В отличие от координированной фразы.

VP → Фраза слов.

WHADJP → WH-прилагательная фраза. Прилагательная фраза, содержащая wh-наречие, as насколько горячим.

WHAVP → Фраза Wh-adverb. Вводит предложение с разрывом NP. Может быть null (содержащий дополнение 0)        или лексический, содержащий wh-наречие, например, как и почему.

WHNP → фраза WH-noun. Вводит предложение с разрывом NP. Может быть null (содержащий дополнение 0)       или лексический, содержащий некоторое слово wh, например. кто, какая книга, чья дочь, ни одна из которых, или как       много леопардов.

WHPP → WH-предпозиционная фраза. Предлогическая фраза, содержащая wh-существительное фраза       (например, из которых или по полномочиям), который либо вводит PP или содержится в WHNP.

X → Неизвестно, неопределенно или неудержимо. X часто используется для брекетинга опечатки и брекетинг     и... в-конструкции.

Кредит: http://mail-archives.apache.org/mod_mbox/opennlp-users/201402.mbox/%[email protected].com%3E

Ответ 3

Пожалуйста, обратитесь к списку POSTag, чтобы получить информацию о тегах.

Теги фрагментов, такие как " B-NP", состоят из двух или трех частей:
Первая часть:

B - marks the beginning of a chunk
I - marks the continuation of a chunk
E - marks the end of a chunk

Как кусок, это может быть только одно слово длиной (например, "Она" в примере выше), это может быть как начало, так и конец куска одновременно.

Вторая часть:

NP - noun chunk
VP - verb chunk

Для получения дополнительной информации вы можете обратиться к OpenNLP Documentation.