Серьезный утечка памяти при итеративном анализе XML файлов

При повторном запуске по набору файлов Rdata (каждый из которых содержит вектор символов HTML-кода), которые анализируются (через XML), а затем снова удалили из памяти, я ощущаю увеличение значительного R "(в конечном итоге уничтожает процесс).

не имеют никаких эффектов, поэтому потребление памяти накапливается до тех пор, пока не останется больше памяти.

EDIT 2012-02-13 23:30:00

Благодаря ценной информации, предоставленной автором и сторонником пакета XML, Duncan Temple Lang (снова: я очень ценю это!), проблема, похоже, тесно связана с тем, как внешние указатели освобождаются и как сбор мусора обрабатывается в пакете XML. Duncan выпустил исправленную версию пакета (3.92-0), в которой были объединены определенные аспекты анализа XML и HTML, а также улучшена сборка мусора, где уже не требуется явно освобождать объект, содержащий внешний указатель, через free(). Вы найдете исходный код и двоичный файл Windows в Duncan веб-сайт Omegahat.

EDIT 2012-02-13 23:34:00

К сожалению, новая версия пакета по-прежнему не исправляет проблемы, с которыми я сталкиваюсь в маленьком примере, который я собрал. Я последовал некоторому предложению и немного упростил этот пример, упростив понимание и найти соответствующие функции, в которых, кажется, что-то не так (проверьте функции ./lib/exampleRun.R и .lib/scrape.R).

EDIT 2012-02-14 15:00:00

Дункан предложил попытаться принудительно освободить проанализированный документ через .Call("RS_XML_forceFreeDoc", html). Я включил логический переключатель в примере (do.forcefree в script ./scripts/memory.R), который, если установлен в TRUE, сделает именно это. К сожалению, это привело к краху консоли R. Было бы здорово, если бы кто-то мог проверить это на своей машине! Фактически, документ должен автоматически освобождаться при использовании последней версии XML (см. Выше). Тот факт, что это не кажется ошибкой (по словам Дункана).

EDIT 2012-02-14 23:12:00

Дункан нажал еще одну версию XML (3.92-1) на свой веб-сайт Omegahat веб-сайт Omegahat. Это должно решить проблему в целом. Тем не менее, мне кажется, что мне не повезло с моим примером, поскольку я все еще испытываю те же утечки памяти.

EDIT 2012-02-17 20:39:00 > РЕШЕНИЕ!

ДА! Дункан нашел и исправил ошибку! Это была небольшая опечатка в Windows-only script, которая объясняла, почему ошибка не отображалась в Linux, Mac OS и т.д. Проверьте последнюю версию 3.92 -2.! Потребление памяти теперь столь же постоянное, как и при итеративном синтаксическом анализе и обработке XML файлов!

Особая благодарность Дункану Храм Лангу и спасибо всем, кто ответил на этот вопрос!

→ > ЗАКОНОМЕРНЫЕ ЧАСТИ ОРИГИНАЛЬНОГО ВОПРОСА < <

Примеры инструкций (отредактировано 2012-02-14 15:00:00)

Что я делал в отношении управления памятью

EDIT 2012-02-13 23:42:00: Как я уже указывал выше, явные вызовы free(), а затем rm() больше не нужны, поэтому я прокомментировал эти вызовы.

Информация о системе

Первоначальные результаты с 2012-02-09 01:00:00

Вопросы

Выводы по состоянию на 2012-02-013 23:44:00

Запуск примера в ./scripts/memory.R на нескольких машинах (см. раздел "Сведения о системе" выше) по-прежнему разрушает потребление памяти моего процесса R примерно после 180 - 350 итераций (в зависимости от ОС и ОЗУ).

По-прежнему наблюдается очевидное увеличение потребления памяти, и хотя это может показаться не таким уж большим, просто глядя на цифры, мои R-процессы всегда умирают в какой-то момент из-за этого.

Ниже я опубликовал пару временных рядов, которые появились в результате запуска моего примера в битве WinXP 32 бит с 2 ГБ оперативной памяти:

TS_1 (XML 3.9-4, 2012-02-09)

29.07 33,32 30,55 35,32 30,76 30,94 31,13 31,33 35,44 32,34 33,21 32,18 35,46 35,73 35,76 35,68 35,84 35,6 33,49 33,58 33,71 33,82 33,91 34,04 34,15 34,23 37,85 34,68 34,88 35,05 35,2 35,4 35,52 35,66 35,81 35,91 38,08 36.2

TS_2 (XML 3.9-4, 2012-02-09)

28.54 30,13 32,95 30,33 30,43 30,54 35,81 30,99 32,78 31,37 31,56 35,22 31,99 32,22 32,55 32,66 32,84 35,32 33,59 33,32 33,47 33,58 33,69 33,76 33,87 35,5 35,52 34,24 37,67 34,75 34,92 35,1 37,97 35,43 35,57 35,7 38,12 35.98

Сообщение об ошибке, связанное с TS_2

TS_3 (XML 3.92-0, 2012-02-13)

20,1 24,14 24,47 22,03 25,21 25,54 23,15 +23,5 26,71 24,6 27,39 24,93 28,06 25,64 28,74 26,36 29,3 27,07 30,01 27,77 28,13 31,13 28,84 31,79 29,54 32,4 30,25 33,07 30,96 33,76 31,66 34,4 32,37 35,1 33,07 35,77 38,23 34,16 34,51 34,87 35,22 35,58 35,93 40,54 40,9 41,33 41.6

Сообщение об ошибке, связанное с TS_3

Редактировать 2012-02-17: пожалуйста, помогите мне проверить значение счетчика

Вы сделали бы мне огромную услугу, если бы вы могли запустить следующий код. Это займет не более 2 минут вашего времени. Все, что вам нужно сделать, это

Меня особенно интересуют значения counter.1 и counter.2, которые должны быть 1 в обоих вызовах. Фактически, это на всех машинах, которые Duncan проверил на этом. Однако, как оказалось, counter.2 имеет значение 259 на всех моих машинах (см. Подробности выше) и точно, что вызывает мою проблему.

Ответы

Ответ 1

На веб-странице пакета XML кажется, что автор Duncan Temple Lang довольно подробно описал некоторые проблемы управления памятью. См. Эту страницу: Управление памятью в пакете XML.

Честно говоря, я не разбираюсь в деталях того, что происходит здесь с вашим кодом и пакетом, но я думаю, что вы найдете либо ответ на этой странице, особенно в разделе "Проблемы" или в прямом сообщении с Duncan Temple Lang.

Обновление 1. Идея, которая может работать, заключается в использовании пакетов multicore и foreach (т.е. listResults = foreach(ix = 1:N) %dopar% {your processing;return(listElement)}. Я думаю, что для Windows вам понадобится doSMP или, возможно, doRedis; под Linux, Я использую doMC. В любом случае, распараллеливая загрузку, вы получите более высокую пропускную способность. Причина, по которой я думаю, что вы можете извлечь выгоду из использования памяти, заключается в том, что это может быть то, что forking R может привести к различной очистке памяти, так как каждый порожденный процесс убивается, когда он завершен. Это не гарантирует работу, но может решить проблемы с памятью и скоростью.

Обратите внимание, что: doSMP имеет свои собственные особенности (т.е. у вас могут быть проблемы с памятью). Там были другие вопросы и ответы. Как и в случае с SO, которые упомянули некоторые проблемы, но я все равно даю ему шанс.

Ответ 2

@Rappster My R не сбой при первом проверке и убедитесь, что XML-документ существует, а затем вызывает функцию C для реализации памяти.

 for (i in 1:1000) {

  pXML<-xmlParse(file)

if(exists("pXML")){
  .Call("RS_XML_forceFreeDoc", pXML)
                  }
}