Как обрабатывать большие (50 ГБ) XML файлы в Java

В настоящее время я пытаюсь использовать SAX Parser, но около 3/4 через файл, который он полностью замораживает, я попытался выделить больше памяти и т.д., но не получал никаких улучшений.

Разделил его на голые кости, поэтому теперь у меня есть следующий код, и при запуске в командной строке все равно не происходит так быстро, как хотелось бы.

Запустив его с помощью "java -Xms-4096m -Xmx8192m -jar reader.jar", я получил превышение верхнего предела GC вокруг статьи 700000

Ответы

Ответ 1

Ваш код синтаксического анализа, скорее всего, работает нормально, но объем данных, которые вы загружаете, вероятно, слишком велик для хранения в памяти ArrayList.

Вам нужен какой-то конвейер для передачи данных в его фактическое место назначения немедленно сохраните все в памяти.

То, что я иногда делал для такого рода ситуаций, похоже на следующее.

Создайте интерфейс для обработки одного элемента:

public interface PageProcessor {
    void process(Page page);
}

Поставить реализацию этого в PageHandler через конструктор:

public class Read  {
    public static void main(String[] args) {

        XMLManager.load(new PageProcessor() {
            @Override
            public void process(Page page) {
                // Obviously you want to do something other than just printing, 
                // but I don't know what that is...
                System.out.println(page);
           }
        }) ;
    }

}


public class XMLManager {

    public static void load(PageProcessor processor) {
        SAXParserFactory factory = SAXParserFactory.newInstance();

        try {

            SAXParser parser = factory.newSAXParser();
            File file = new File("pages-articles.xml");
            PageHandler pageHandler = new PageHandler(processor);

            parser.parse(file, pageHandler);

        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }

    }
}

Отправлять данные на этот процессор вместо того, чтобы помещать его в список:

public class PageHandler extends DefaultHandler {

    private final PageProcessor processor;
    private Page page;
    private StringBuilder stringBuilder;
    private boolean idSet = false;

    public PageHandler(PageProcessor processor) {
        this.processor = processor;
    }

    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
         //Unchanged from your implementation
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
         //Unchanged from your implementation
    }

    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
            //  Elide code not needing change

            } else if (qName.equals("page")){

                processor.process(page);
                page = null;

            }
        } else {
            page = null;
        }
    }

}

Конечно, вы можете заставить свой интерфейс обрабатывать фрагменты нескольких записей, а не только один, и локально собирать страницы PageHandler в меньшем списке и периодически отсылать список для обработки и очищать список.

Или (возможно, лучше) вы можете реализовать интерфейс PageProcessor, как определено здесь, и построить там логику, которая буферизует данные и отправляет их для дальнейшей обработки в кусках.

Ответ 2

Это действительно проблема: pages.add(page);. На самом деле SAX очень дружелюбен к памяти, а использование памяти не зависит от размера входного файла.

Мы разработали генератор кода, который генерирует код на основе XSD (если у вас есть его, вы можете сгенерировать его из исходного документа). Этот продукт основан на SAX и без видимости обрабатывает файлы с несколькими ГБ (самое большое, что мы использовали, - 22 ГБ). Это похоже на подход, описанный доном Роба здесь. Единственное, что вам нужно сделать, это реализовать интерфейс процессора.

В процессоре runtime (java) используется файл конфигурации (файл свойств java), который позволяет вам подписаться на типы схем, которые вам интересны. Если вам нравится больше информации об этом, посмотрите здесь: http://www.xml2java.net/xml-to-java-data-binding-for-big-data/