Случайные запросы в большом XML файле

У меня есть большой xml файл (1Gb). Мне нужно сделать много запросов в этом XML файле (например, с помощью xpath). Результатом являются небольшие части xml. Я хочу, чтобы запросы были как можно быстрее, но файл 1Gb, вероятно, слишком велик для рабочей памяти.

Мне нужен произвольный доступ, выбрав записи, используя, например, ключ. (Идентификатор является самым важным, но другие поля также могут использоваться в качестве ключа). Я не знаю запросы заранее, они приходят и должны выполняться как можно скорее, без пакетного исполнения, но в режиме реального времени. SAX выглядит не очень многообещающим, потому что я не хочу перечитывать весь файл для каждого запроса. Но DOM тоже не выглядит очень многообещающим, потому что файл очень большой, и добавление дополнительных служебных накладных расходов почти наверняка означает, что он не будет вписываться в рабочую память.

Какую java-библиотеку/подход я мог бы использовать лучше всего для решения этой проблемы?

Ответы

Ответ 1

vtd-xml является наилучшим вариантом для вашего использования. http://vtd-xml.sourceforge.net/

Ответ 2

При обработке XML у вас обычно есть два подхода: потоковая передача (SAX) или загрузка всего документа в память (различные реализации DOM).

Если вы можете предварительно установить набор запросов для обработки массовыми, вы можете написать программу для использования SAX для потоковой передачи файла, поиска совпадений. Если запросы поступают в случайные интервалы (т.е. Типичное приложение базы данных), вам необходимо либо загрузить весь документ в память, либо предварительно обработать документ XML в какую-либо базу данных.

Лучшее описание того, что вы пытаетесь выполнить, может помочь получить более качественные ответы.

Ответ 3

Piccolo - небольшой, чрезвычайно быстрый XML-парсер для Java. Он реализует интерфейсы SAX 1, SAX 2.0.1, and JAXP 1.1 (SAX parsing only) как не прошедший проверку парсер. Это доступно на Apache License

Ответ 4

в зависимости от приложения с использованием ориентированной на xml базы данных, такой http://exist.sourceforge.net/ может быть интересным.