В обработке на естественном языке, какова цель фрагментации?

В обработке на естественном языке, какова цель фрагментации?

Ответы

Ответ 1

Chunking также называется мелким разбором и в основном идентификацией частей речи и коротких фраз (например, именных фраз). Часть речевых тегов рассказывает вам, являются ли слова существительными, глаголами, прилагательными и т.д., но это не дает вам никаких сведений о структуре предложение или фразы в предложении. Иногда полезно иметь больше информации, чем просто части речи слов, но вам не нужно полное дерево разбора, которое вы получите от разбора.

Примером предпочтительного размещения может быть Именованное распознавание сущностей. В NER ваша цель - найти именованные объекты, которые, как правило, являются существительными (хотя и не всегда), поэтому вы хотели бы знать, что Президент Барак Обама находится в следующем предложении:

Президент Барак Обама критиковал страховые компании и банки, поскольку он призвал сторонников оказать давление на Конгресс, чтобы поддержать его шаги по обновлению системы здравоохранения и пересмотру финансовых правил. (источник)

Но вам не обязательно будет заботиться о том, чтобы он был предметом предложения.

Chunking также довольно часто используется в качестве этапа предварительной обработки для других задач, таких как машинный перевод на основе примеров, понимание естественного языка, генерация речи и другие.

Ответ 2

Для "текстового chunking" в обработке естественного языка см. здесь (вы, вероятно, хотите, чтобы все лекции в этой серии были своего рода "NLP 101"...): он охватывает ряд задач, таких как поиск существительных групп, поиск групп глаголов и полное предложение разбиения → куски нескольких типов. Лекция, URL-адрес которой я цитирую, более подробно описывается!

Ответ 3

Группирование слов в синтаксически коррелированные фразы (куски). NB: Маркировка IOB может использоваться для указания границ блоков.