Есть ли быстрый способ разбора большого файла с регулярным выражением?

Проблема: Очень большой, большой файл Мне нужно разбирать строки за строкой, чтобы получить 3 значения из каждой строки. Все работает, но для анализа всего файла требуется много времени. Можно ли сделать это за считанные секунды? Типичное время его приема составляет от 1 минуты до 2 минут.

Размер файла примера 148,208KB

Я использую регулярное выражение для синтаксического анализа каждой строки:

Вот мой код С#:

private static void ReadTheLines(int max, Responder rp, string inputFile)
{
    List<int> rate = new List<int>();
    double counter = 1;
    try
    {
        using (var sr = new StreamReader(inputFile, Encoding.UTF8, true, 1024))
        {
            string line;
            Console.WriteLine("Reading....");
            while ((line = sr.ReadLine()) != null)
            {
                if (counter <= max)
                {
                    counter++;
                    rate = rp.GetRateLine(line);
                }
                else if (max == 0)
                {
                    counter++;
                    rate = rp.GetRateLine(line);
                }
            }
            rp.GetRate(rate);
            Console.ReadLine();
        }
    }
    catch (Exception e)
    {
        Console.WriteLine("The file could not be read:");
        Console.WriteLine(e.Message);
    }
}

Вот мое регулярное выражение:

public List<int> GetRateLine(string justALine)
{
    const string reg = @"^\d{1,}.+\[(.*)\s[\-]\d{1,}].+GET.*HTTP.*\d{3}[\s](\d{1,})[\s](\d{1,})$";
    Match match = Regex.Match(justALine, reg,
                                RegexOptions.IgnoreCase);

    // Here we check the Match instance.
    if (match.Success)
    {
        // Finally, we get the Group value and display it.

        string theRate = match.Groups[3].Value;
        Ratestorage.Add(Convert.ToInt32(theRate));
    }
    else
    {
        Ratestorage.Add(0);
    }
    return Ratestorage;
}

Вот пример строки для разбора, обычно около 200 000 строк:

10.10.10.10 - - [27/ноябрь/2002: 16: 46: 20 -0500] "GET/solr/HTTP/1.1" 200 4926 789

Ответы

Ответ 1

Файлы с памятью и Задача параллельной библиотеки для справки.

Создать постоянный MMF с несколькими видами произвольного доступа. Каждый вид соответствует определенной части файла
Определите метод синтаксического анализа с параметром типа IEnumerable<string>, в основном для абстрактного набора не проанализированных строк
Создайте и запустите одну задачу TPL в одном представлении MMF с помощью Parse(IEnumerable<string>) в качестве действия задачи
Каждый из рабочих задач добавляет анализируемые данные в общую очередь BlockingCollection
Другая задача прослушивает BC (GetConsumingEnumerable()) и обрабатывает все данные, которые уже обрабатываются рабочими задачами

См. шаблон трубопроводов в MSDN

Надо сказать, что это решение для .NET Framework >=4

Ответ 2

В настоящий момент вы воссоздаете Regex каждый раз при вызове GetRateLine, который возникает каждый раз, когда вы читаете строку.

Если вы создаете экземпляр Regex один раз заранее, а затем используйте нестатический Match, вы сэкономите время на компиляцию регулярных выражений, что потенциально может дать вам прирост скорости.

Говоря, это, скорее всего, не займет у вас минуты от нескольких секунд...

Ответ 3

Вместо повторного создания регулярного выражения для каждого вызова GetRateLine создайте его заранее, передав RegexOptions.Compiled вариант Regex(String,RegexOptions) конструктор.

Вы также можете попробовать прочитать весь файл в памяти, но я сомневаюсь, что ваше узкое место. Это не займет минуту, чтобы прочитать в ~ 100 МБ с диска.

Ответ 4

С кратким взглядом я бы попробовал несколько вещей...

Во-первых, увеличьте свой буфер потока файлов до 64kb:

using (var sr = new StreamReader(inputFile, Encoding.UTF8, true, 65536))

Во-вторых, создайте Regex один раз вместо использования строки внутри цикла:

static readonly Regex rateExpression = new Regex(@"^\d{1,}.+\[(.*)\s[\-]\d{1,}].+GET.*HTTP.*\d{3}[\s](\d{1,})[\s](\d{1,})$", RegexOptions.IgnoreCase);
//In GetRateLine() change to:
Match match = rateExpression.Match(justALine);

В-третьих, используйте экземпляр одного экземпляра, если Responder.GetRate() возвращает список или массив.

// replace: 'rp.GetRate(rate)', with:
rate = rp.GetRate();

Я бы перераспределял список на "разумный" предел:

List<int> rate = new List<int>(10000);

Вы также можете рассмотреть возможность изменения кодировки с UTF-8 на ASCII, если она доступна и применима к вашим конкретным потребностям.

Комментарии

В общем случае, если это действительно будет требовать, чтобы время синтаксического анализа сократилось, вам захочется создать токенизатор и полностью пропустить Regex. Так как ваш формат ввода выглядит полностью ascii и довольно прост, это должно быть достаточно легко сделать, но, вероятно, немного более хрупкое, чем регулярное выражение. В итоге вам нужно будет взвешивать и балансировать потребность в скорости и надежности и ремонтопригодности кода.

Если вам нужен пример синтаксического анализа на стороне ответа на этот вопрос