Как улучшить производительность, повторяя DOMDocument?

Я использую cURL, чтобы вытащить веб-страницу с сервера. Я передаю его в Tidy и выдаю вывод в DOMDocument. Затем начинается проблема.

Веб-страница содержит около трех тысяч (yikes) табличных тегов, и я извлекаю данные из них. Существует два типа таблиц, в которых один или несколько типов B соответствуют типу A.

Я профилировал свой script с помощью вызовов microtome(true). Я размещал вызовы до и после каждого этапа моего script и вычитал время друг от друга. Итак, если вы последуете за мной через мой код, я объясню это, поделись результатами профиля и укажу, где проблема. Может быть, вы даже можете помочь мне решить проблему. Здесь мы идем:

Во-первых, я включаю два файла. Один обрабатывает некоторый синтаксический анализ, а другой определяет два класса структуры данных.

Включая, как мне известно, несущественны, поэтому давайте перейдем к импорту cURL.

Я сконфигурировал cURL, чтобы не выходить из игры, и публиковать некоторые данные заголовка, необходимые для получения значимого ответа. Затем я очищаю данные, чтобы подготовить их к DOMDocument.

До сих пор код занял около девяти секунд. Учитывая, что это работа cron, работающая нечасто, я в порядке с этим. Тем не менее, следующая часть кода действительно закрывается. Здесь, где я беру то, что хочу от HTML, и вставляю его в свои пользовательские классы. (Я планирую использовать это в базе данных MySQL, но это первый шаг.)

Для справки, здесь функции утилиты, которые я вызываю:

Этот код занимает 63 секунды. Это за минуту для PHP script для вывода данных с веб-страницы. Sheesh!

Мне было рекомендовано разделить нагрузку на мой основной рабочий цикл, но, учитывая однородность моих данных, я не совсем уверен, как это сделать. Любые предложения по улучшению этого кода приветствуются.

Что я могу сделать, чтобы улучшить время выполнения кода?

Ответы

Ответ 1

Оказывается, моя петля ужасно неэффективна.

Использование времени foreach сокращает время от половины до примерно 31 секунды. Но это было недостаточно быстро. Таким образом, я сформулировал несколько сплайнов и провел мозговой штурм примерно с половиной программистов, которые я знаю, как тыкать онлайн. Здесь мы обнаружили:

Использование DOMNodeList item() accessor является линейным, производя экспоненциально медленное время обработки в циклах. Таким образом, удаление первого элемента после каждой итерации делает цикл более быстрым. Теперь мы всегда получаем доступ к первому элементу списка. Это привело меня к 8 секундам.

После того, как я сыграл еще несколько, я понял, что свойство ->length DOMNodeList так же плохо, как item(), так как оно также несет линейную стоимость. Поэтому я изменил цикл for на следующее:

    $table = $tables->item(0);

while ($table != NULL) {

    $table = $tables->item(0);

    if ($table === NULL) {
        break;
    }

    //
    //  We've found a section table, parse it.
    //

    if (elementIsACourseSectionTable($table)) {

        $course = addSectionsToCourseUsingTable($course, $table);           
    }

    //
    //  Skip the last table if it not a course section
    //

    else if(elementIsCourseHeaderTable($table)){
        $course = courseFromTable($table);
        $courses[] = $course;
    }

    //
    //  Remove the first item from the list
    //

    $first = $tables->item(0);
    $first->parentNode->removeChild($first);

    //
    //  Get the next table to parse
    //

    $table = $tables->item(0);
}

Обратите внимание, что я сделал некоторые другие оптимизации с точки зрения таргетинга на данные, которые я хочу, но важная часть - это то, как я обрабатываю переход от одного элемента к другому.