Доступ к атрибуту XMLNS с помощью Python Elementree?

Как можно получить доступ к атрибутам NS через ElementTree?

Когда я пытаюсь root.get('xmlns'), я возвращаюсь назад. Нет, категория и дата в порядке, любая помощь приветствуется.

Ответы

Ответ 1

Я думаю, что element.tag - это то, что вы ищете. Обратите внимание, что в вашем примере отсутствует конечная косая черта, поэтому она не сбалансирована и не будет анализироваться. Я добавил один в моем примере.

>>> from xml.etree import ElementTree as ET
>>> data = '''<data xmlns="http://www.foo.net/a"
...                 xmlns:a="http://www.foo.net/a"
...                 book="1" category="ABS" date="2009-12-22"/>'''
>>> element = ET.fromstring(data)
>>> element
<Element {http://www.foo.net/a}data at 1013b74d0>
>>> element.tag
'{http://www.foo.net/a}data'
>>> element.attrib
{'category': 'ABS', 'date': '2009-12-22', 'book': '1'}

Если вы просто хотите узнать URI xmlns, вы можете разделить его на такую функцию, как:

def tag_uri_and_name(elem):
    if elem.tag[0] == "{":
        uri, ignore, tag = elem.tag[1:].partition("}")
    else:
        uri = None
        tag = elem.tag
    return uri, tag

Более подробно о пространствах имен и квалифицированных именах в ElementTree см. примеры effbot.

Ответ 2

Посмотрите на документацию/примеры документа пространственных имен effbot; в частности функцию parse_map. Он показывает вам, как добавить атрибут * ns_map * к каждому элементу, который содержит отображение префикса /URI, относящееся к этому конкретному элементу.

Тем не менее, это добавляет атрибут ns_map ко всем элементам. Для моих нужд я нашел, что мне нужна глобальная карта всех пространств имен, используемых для упрощения поиска элемента, а не жесткого кодирования.

Вот что я придумал:

import elementtree.ElementTree as ET

def parse_and_get_ns(file):
    events = "start", "start-ns"
    root = None
    ns = {}
    for event, elem in ET.iterparse(file, events):
        if event == "start-ns":
            if elem[0] in ns and ns[elem[0]] != elem[1]:
                # NOTE: It is perfectly valid to have the same prefix refer
                #     to different URI namespaces in different parts of the
                #     document. This exception serves as a reminder that this
                #     solution is not robust.    Use at your own peril.
                raise KeyError("Duplicate prefix with different URI found.")
            ns[elem[0]] = "{%s}" % elem[1]
        elif event == "start":
            if root is None:
                root = elem
    return ET.ElementTree(root), ns

С помощью этого вы можете проанализировать XML файл и получить dict с сопоставлениями пространства имен. Итак, если у вас есть xml файл, например следующий ( "my.xml" ):

<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:dc="http://purl.org/dc/elements/1.1/"\
>
<feed>
  <item>
    <title>Foo</title>
    <dc:creator>Joe McGroin</dc:creator>
    <description>etc...</description>
  </item>
</feed>
</rss>

Вы сможете использовать xml namespaces и получить информацию для таких элементов, как dc: creator:

>>> tree, ns = parse_and_get_ns("my.xml")
>>> ns
{u'content': '{http://purl.org/rss/1.0/modules/content/}',
u'dc': '{http://purl.org/dc/elements/1.1/}'}
>>> item = tree.find("/feed/item")
>>> item.findtext(ns['dc']+"creator")
'Joe McGroin'