Как использовать токенизатор по умолчанию для NLTK, чтобы получить пробелы вместо строк?

По умолчанию токенизатор NLTK, nltk.word_tokenizer, объединяет два токенизатора, токенизатор предложения, а затем слово токенизатор, который работает с предложениями. Он делает довольно хорошую работу из коробки.

Я хотел бы использовать этот же алгоритм, за исключением того, что он возвращает кортежи смещений в исходную строку вместо строковых токенов.

Посредством offset я подразумеваю 2-ples, которые могут служить индексами в исходной строке. Например, у меня было бы

Есть ли один вызов NLTK, который делает это, или мне нужно написать свою собственную арифметику смещения?

Ответы

Ответ 1

Да, большинство Tokenizers в nltk имеют метод под названием span_tokenize, но, к сожалению, используемый вами токенизатор не работает.

По умолчанию функция word_tokenize использует TreebankWordTokenizer. Реализация TreebankWordTokenizer имеет довольно надежную реализацию, но в настоящее время ей не хватает реализации для одного важного метода span_tokenize.

Я не вижу реализации span_tokenize для TreebankWordTokenizer, поэтому считаю, что вам нужно будет реализовать свои собственные. Подкласс TokenizerI может сделать этот процесс немного менее сложным.

Вы можете найти способ span_tokenize PunktWordTokenizer полезен как начальная точка .

Я надеюсь, что эта информация поможет.