Разбор нескольких предложений с помощью MaltParser с использованием NLTK

Было много вопросов, связанных с MaltParser и/или NLTK:

Теперь существует более стабилизированная версия API MaltParser в NLTK: https://github.com/nltk/nltk/pull/944, но есть проблемы, когда дело доходит до разбора нескольких предложений в то же время.

Разбор одного предложения за один раз кажется прекрасным:

_path_to_maltparser = '/home/alvas/maltparser-1.8/dist/maltparser-1.8/' _path_to_model= '/home/alvas/engmalt.linear-1.7.mco' >>> mp = MaltParser(path_to_maltparser=_path_to_maltparser, model=_path_to_model) >>> sent = 'I shot an elephant in my pajamas'.split() >>> sent2 = 'Time flies like banana'.split() >>> print(mp.parse_one(sent).tree()) (pajamas (shot I) an elephant in my)

Но разбор списка предложений не возвращает объект DependencyGraph:

_path_to_maltparser = '/home/alvas/maltparser-1.8/dist/maltparser-1.8/' _path_to_model= '/home/alvas/engmalt.linear-1.7.mco' >>> mp = MaltParser(path_to_maltparser=_path_to_maltparser, model=_path_to_model) >>> sent = 'I shot an elephant in my pajamas'.split() >>> sent2 = 'Time flies like banana'.split() >>> print(mp.parse_one(sent).tree()) (pajamas (shot I) an elephant in my) >>> print(next(mp.parse_sents([sent,sent2]))) <listiterator object at 0x7f0a2e4d3d90> >>> print(next(next(mp.parse_sents([sent,sent2])))) [{u'address': 0, u'ctag': u'TOP', u'deps': [2], u'feats': None, u'lemma': None, u'rel': u'TOP', u'tag': u'TOP', u'word': None}, {u'address': 1, u'ctag': u'NN', u'deps': [], u'feats': u'_', u'head': 2, u'lemma': u'_', u'rel': u'nn', u'tag': u'NN', u'word': u'I'}, {u'address': 2, u'ctag': u'NN', u'deps': [1, 11], u'feats': u'_', u'head': 0, u'lemma': u'_', u'rel': u'null', u'tag': u'NN', u'word': u'shot'}, {u'address': 3, u'ctag': u'AT', u'deps': [], u'feats': u'_', u'head': 11, u'lemma': u'_', u'rel': u'nn', u'tag': u'AT', u'word': u'an'}, {u'address': 4, u'ctag': u'NN', u'deps': [], u'feats': u'_', u'head': 11, u'lemma': u'_', u'rel': u'nn', u'tag': u'NN', u'word': u'elephant'}, {u'address': 5, u'ctag': u'NN', u'deps': [], u'feats': u'_', u'head': 11, u'lemma': u'_', u'rel': u'nn', u'tag': u'NN', u'word': u'in'}, {u'address': 6, u'ctag': u'NN', u'deps': [], u'feats': u'_', u'head': 11, u'lemma': u'_', u'rel': u'nn', u'tag': u'NN', u'word': u'my'}, {u'address': 7, u'ctag': u'NNS', u'deps': [], u'feats': u'_', u'head': 11, u'lemma': u'_', u'rel': u'nn', u'tag': u'NNS', u'word': u'pajamas'}, {u'address': 8, u'ctag': u'NN', u'deps': [], u'feats': u'_', u'head': 11, u'lemma': u'_', u'rel': u'nn', u'tag': u'NN', u'word': u'Time'}, {u'address': 9, u'ctag': u'NNS', u'deps': [], u'feats': u'_', u'head': 11, u'lemma': u'_', u'rel': u'nn', u'tag': u'NNS', u'word': u'flies'}, {u'address': 10, u'ctag': u'NN', u'deps': [], u'feats': u'_', u'head': 11, u'lemma': u'_', u'rel': u'nn', u'tag': u'NN', u'word': u'like'}, {u'address': 11, u'ctag': u'NN', u'deps': [3, 4, 5, 6, 7, 8, 9, 10], u'feats': u'_', u'head': 2, u'lemma': u'_', u'rel': u'dep', u'tag': u'NN', u'word': u'banana'}]

Почему использование parse_sents() не возвращает итерабельность parse_one?

_path_to_maltparser = '/home/alvas/maltparser-1.8/dist/maltparser-1.8/' _path_to_model= '/home/alvas/engmalt.linear-1.7.mco' >>> mp = MaltParser(path_to_maltparser=_path_to_maltparser, model=_path_to_model) >>> sent1 = 'I shot an elephant in my pajamas'.split() >>> sent2 = 'Time flies like banana'.split() >>> sentences = [sent1, sent2] >>> for sent in sentences: >>> ... print(mp.parse_one(sent).tree())

Но это не то решение, которое я ищу. Мой вопрос заключается в том, как ответить, почему parse_sent() не возвращает итерабельность parse_one(). и как это можно было бы зафиксировать в коде NLTK?

После того, как @NikitaAstrahantsev ответил, я попробовал, что он выводит дерево разбора сейчас, но кажется, что он запутан и помещает оба предложения в один, прежде чем разбирать его.

# Initialize a MaltParser object with a pre-trained model. mp = MaltParser(path_to_maltparser=path_to_maltparser, model=path_to_model) sent = 'I shot an elephant in my pajamas'.split() sent2 = 'Time flies like banana'.split() # Parse a single sentence. print(mp.parse_one(sent).tree()) print(next(next(mp.parse_sents([sent,sent2]))).tree())

Почему абстрактный класс парсера в NLTK использует два предложения в одном перед парсингом? Я неправильно вызываю parse_sents()? Если да, то каков правильный способ вызова parse_sents()?

Ответы

Ответ 1

Как я вижу в ваших примерах кода, вы не вызываете tree() в этой строке

>>> print(next(next(mp.parse_sents([sent,sent2]))))

когда вы вызываете tree() во всех случаях с помощью parse_one().

В противном случае я не вижу причины, почему это может произойти: parse_one() метод ParserI не переопределяется в MaltParser, и все, что он делает, просто вызывает parse_sents() из MaltParser, см. код.

Обновление: Строка, о которой вы говорите не вызывается, потому что parse_sents() переопределяется в MaltParser и непосредственно вызывается.

Единственное, что у меня есть, это то, что java lib maltparser работает неправильно с входным файлом, содержащим несколько предложений (я имею в виду этот блок - где java запущен). Возможно, исходный анализатор солода изменил формат, и теперь это не '\n\n'. К сожалению, я не могу запустить этот код самостоятельно, потому что maltparser.org не работает на второй день. Я проверил, что входной файл имеет ожидаемый формат (предложения разделены двойной конечной точкой), поэтому очень маловероятно, что оболочка python объединяет предложения.