Как определить границы предложения с помощью OpenNLP и stringi?

Я хочу разбить следующий string на предложения:

Я хочу продемонстрировать два разных способа. Один из пакетов openNLP:

После этого второго пути мне нужно подготовить предложения, чтобы удалить лишние пробелы или снова разбить новую строку на предложения. Могу ли я отрегулировать функцию stringi для улучшения качества результата?

Когда речь идет о больших данных, openNLP (очень) медленнее, чем stringi.
Есть ли способ объединить stringi (- > fast) и openNLP (- > качество)?

Ответы

Ответ 1

Анализ границы текста (в данном случае, граница предложения) в ICU (и, следовательно, в stringi) регулируется правилами, описанными в Unicode UAX29, см. также Руководство пользователя ICU по теме. Мы читаем:

[Правила Unicode] не могут обнаружить такие случаи, как "... Mr. Jones..."; для обнаружения таких случаев потребуется более сложный пошив.

Другими словами, это невозможно сделать без специального словаря без остановок, который фактически реализован в openNLP. Таким образом, несколько возможных сценариев включения stringi для выполнения этой задачи включают:

Используйте stri_split_boundaries, а затем напишите функцию, определяющую, к чему должны быть присоединены неправильно разделенные маркеры.
Вручную вводить неразрывные пробелы в текст (возможно, после точек, следующих и т.д., г-н, т.е. и т.д. (обратите внимание, что это действительно необходимо при подготовке документов в LaTeX - иначе вы получите слишком большие пробелы между словами).
Включите пользовательский список без остановок в регулярное выражение и примените stri_split_regex.

и т.д.

Ответ 2

Это может быть жизнеспособным регулярным выражением:

string <- "Mr. Brown comes. He says hello. i give him coffee."
stringi::stri_split_regex(string, "(?<!\\w\\.\\w.)(?<![A-Z][a-z]\\.)(?<=\\.|\\?|\\!)\\s")

## [[1]]
## [1] "Mr. Brown comes."   "He says hello."     "i give him coffee."

Выполняется менее эффективно:

string <- "Mr. Brown comes! He says hello. i give him coffee.  i will got at 5 p. m. eastern time.  Or somewhere in between"