Как сопоставить текст node, затем следуйте за родительскими узлами, используя XPath

Я пытаюсь разобрать HTML-код с XPath. Следуя упрощенному XML-примеру ниже, я хочу сопоставить строку "Текст 1", а затем захватить содержимое соответствующего content node.

<doc> <block> <title>Text 1</title> <content>Stuff I want</content> </block> <block> <title>Text 2</title> <content>Stuff I don't want</content> </block> </doc>

Мой код Python бросает шаткий:

>>> from lxml import etree >>> >>> tree = etree.XML("<doc><block><title>Text 1</title><content>Stuff I want</content></block><block><title>Text 2</title><content>Stuff I d on't want</content></block></doc>") >>> >>> # get all titles ... tree.xpath('//title/text()') ['Text 1', 'Text 2'] >>> >>> # match 'Text 1' ... tree.xpath('//title/text()="Text 1"') True >>> >>> # Follow parent from selected nodes ... tree.xpath('//title/text()/../..//text()') ['Text 1', 'Stuff I want', 'Text 2', "Stuff I don't want"] >>> >>> # Follow parent from selected node ... tree.xpath('//title/text()="Text 1"/../..//text()') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "lxml.etree.pyx", line 1330, in lxml.etree._Element.xpath (src/ lxml/lxml.etree.c:14542) File "xpath.pxi", line 287, in lxml.etree.XPathElementEvaluator.__ca ll__ (src/lxml/lxml.etree.c:90093) File "xpath.pxi", line 209, in lxml.etree._XPathEvaluatorBase._handl e_result (src/lxml/lxml.etree.c:89446) File "xpath.pxi", line 194, in lxml.etree._XPathEvaluatorBase._raise _eval_error (src/lxml/lxml.etree.c:89281) lxml.etree.XPathEvalError: Invalid type

Возможно ли это в XPath? Нужно ли мне выражать то, что я хочу сделать по-другому?

Ответы

Ответ 1

Вы хотите это?

//title[text()='Text 1']/../content/text()

Ответ 2

Использование

string(/*/*/title[. = 'Text 1']/following-sibling::content)

Это означает как минимум два улучшения по сравнению с принятым в настоящее время решением Johannes Weiß:

Очень дорогая аббревиатура "//" (обычно вызывающая сканирование всего документа XML) избегается, как и должно быть, когда структура Документ XML известен заранее.
Возврат назад к родительскому не выполняется (исключается шаг местоположения "/.." )