Python: обновляйте XML файл с помощью ElementTree, сохраняя при этом максимально возможный макет
У меня есть документ, который использует пространство имен XML, для которого я хочу увеличить /group/house/dogs
на один: (файл называется houses.xml
)
<?xml version="1.0"?>
<group xmlns="http://dogs.house.local">
<house>
<id>2821</id>
<dogs>2</dogs>
</house>
</group>
Мой текущий результат, используя следующий код: (созданный файл называется houses2.xml
)
<ns0:group xmlns:ns0="http://dogs.house.local">
<ns0:house>
<ns0:id>2821</ns0:id>
<ns0:dogs>3</ns0:dogs>
</ns0:house>
</ns0:group>
Я хотел бы исправить две вещи (если это возможно, используя ElementTree.Если это не так, я буду благодарен за предложение относительно того, что я должен использовать вместо этого):
- Я хочу сохранить строку
<?xml version="1.0"?>
.
- Я не хочу префикс всех тегов, я хотел бы сохранить его как есть.
В заключение, Я не хочу связываться с документом больше, чем я должен.
Мой текущий код (который работает, кроме вышеупомянутых недостатков), генерирует приведенный выше результат.
Я сделал функцию утилиты, которая загружает XML файл с помощью ElementTree и возвращает elementTree и пространство имен (так как я не хочу жестко кодировать пространство имен и готов принять на себя риск):
def elementTreeRootAndNamespace(xml_file):
from xml.etree import ElementTree
import re
element_tree = ElementTree.parse(xml_file)
# Search for a namespace on the root tag
namespace_search = re.search('^({\S+})', element_tree.getroot().tag)
# Keep the namespace empty if none exists, if a namespace exists set
# namespace to {namespacename}
namespace = ''
if namespace_search:
namespace = namespace_search.group(1)
return element_tree, namespace
Это мой код для обновления количества собак и сохранения его в новом файле houses2.xml
:
elementTree, namespace = elementTreeRootAndNamespace('houses.xml')
# Insert the namespace before each tag when when finding current number of dogs,
# as ElementTree requires the namespace to be prefixed within {...} when a
# namespace is used in the document.
dogs = elementTree.find('{ns}house/{ns}dogs'.format(ns = namespace))
# Increase the number of dogs by one
dogs.text = str(int(dogs.text) + 1)
# Write the result to the new file houses2.xml.
elementTree.write('houses2.xml')
Ответы
Ответ 1
Круговое отключение, к сожалению, не является тривиальной проблемой. В XML обычно невозможно сохранить исходный документ, если вы не используете специальный парсер (например, DecentXML, но для Java).
В зависимости от ваших потребностей у вас есть следующие возможности:
-
Если вы контролируете источник, и вы можете защитить свой код с помощью модульных тестов, вы можете написать свой собственный простой синтаксический анализатор. Этот анализатор не принимает XML, а только ограниченное подмножество. Вы можете, например, прочитать весь документ в виде строки, а затем использовать операции строки Python для поиска <dogs>
и заменить что-либо до следующего <
. Hack? Да.
-
Вы можете отфильтровать вывод. XML допускает строку <ns0:
только в одном месте, поэтому вы можете искать и заменять ее на <
, а затем то же самое с <group xmlns:ns0="
→ <group xmlns="
. Это довольно безопасно, если вы не можете CDATA в своем XML.
-
Вы можете написать собственный простой XML-синтаксический анализатор. Прочитайте ввод как строку, а затем создайте Элементы для каждой пары <>
плюс их позиции на входе. Это позволяет быстро принимать входные данные, но работает только для небольших входов.
Ответ 2
Решение на основе XML для этой проблемы заключается в написании вспомогательного класса для ElementTree, который:
- Захватывает строку объявления XML перед синтаксическим анализом, поскольку ElementTree на момент написания не может написать строку декларации XML, не записывая также атрибут кодирования (я проверил источник).
- Разбирает входной файл один раз, захватывает пространство имен корневого элемента. Регистрирует это пространство имен с ElementTree как имеющее пустую строку в качестве префикса. Когда это будет сделано, исходный файл снова будет проанализирован с помощью ElementTree с этой новой настройкой.
У него есть один главный недостаток:
- XML-комментарии потеряны. Я узнал, что это неприемлемо для этой ситуации (изначально я не думал, что входные данные имеют какие-либо комментарии, но, оказывается, это так).
Мой класс-помощник с примером:
from xml.etree import ElementTree as ET
import re
class ElementTreeHelper():
def __init__(self, xml_file_name):
xml_file = open(xml_file_name, "rb")
self.__parse_xml_declaration(xml_file)
self.element_tree = ET.parse(xml_file)
xml_file.seek(0)
root_tag_namespace = self.__root_tag_namespace(self.element_tree)
self.namespace = None
if root_tag_namespace is not None:
self.namespace = '{' + root_tag_namespace + '}'
# Register the root tag namespace as having an empty prefix, as
# this has to be done before parsing xml_file we re-parse.
ET.register_namespace('', root_tag_namespace)
self.element_tree = ET.parse(xml_file)
def find(self, xpath_query):
return self.element_tree.find(xpath_query)
def write(self, xml_file_name):
xml_file = open(xml_file_name, "wb")
if self.xml_declaration_line is not None:
xml_file.write(self.xml_declaration_line + '\n')
return self.element_tree.write(xml_file)
def __parse_xml_declaration(self, xml_file):
first_line = xml_file.readline().strip()
if first_line.startswith('<?xml') and first_line.endswith('?>'):
self.xml_declaration_line = first_line
else:
self.xml_declaration_line = None
xml_file.seek(0)
def __root_tag_namespace(self, element_tree):
namespace_search = re.search('^{(\S+)}', element_tree.getroot().tag)
if namespace_search is not None:
return namespace_search.group(1)
else:
return None
def __main():
el_tree_hlp = ElementTreeHelper('houses.xml')
dogs_tag = el_tree_hlp.element_tree.getroot().find(
'{ns}house/{ns}dogs'.format(
ns=el_tree_hlp.namespace))
one_dog_added = int(dogs_tag.text.strip()) + 1
dogs_tag.text = str(one_dog_added)
el_tree_hlp.write('hejsan.xml')
if __name__ == '__main__':
__main()
Выход:
<?xml version="1.0"?>
<group xmlns="http://dogs.house.local">
<house>
<id>2821</id>
<dogs>3</dogs>
</house>
</group>
Если у кого-то есть улучшение этого решения, не стесняйтесь хватать код и улучшать его.
Ответ 3
когда Save xml добавляет аргумент default_namespace, легко избежать ns0, в моем коде
key code: xmltree.write(xmlfiile, "utf-8", default_namespace = xmlnamespace)
if os.path.isfile(xmlfiile):
xmltree = ET.parse(xmlfiile)
root = xmltree.getroot()
xmlnamespace = root.tag.split('{')[1].split('}')[0] //get namespace
initwin=xmltree.find("./{"+ xmlnamespace +"}test")
initwin.find("./{"+ xmlnamespace +"}content").text = "aaa"
xmltree.write(xmlfiile,"utf-8",default_namespace=xmlnamespace)
Ответ 4
etree из lxml предоставляет эту функцию.
-
elementTree.write('houses2.xml',encoding = "UTF-8",xml_declaration = True)
помогает вам не пропускать декларацию
-
При записи в файл он не меняет пространства имен.
http://lxml.de/parsing.html является ссылкой для его учебника.
P.S: lxml следует устанавливать отдельно.