Самый быстрый способ чтения и записи больших файлов по линиям в Java

Я много искал для быстрого и быстрого чтения и записи больших файлов (0,5 - 1 ГБ) в Java с ограниченной памятью (около 64 МБ). Каждая строка в файле представляет собой запись, поэтому мне нужно получить их по строкам. Файл является обычным текстовым файлом.

Я попробовал BufferedReader и BufferedWriter, но это не лучший вариант. Требуется около 35 секунд для чтения и записи файла размером 0,5 ГБ, только чтение записи без обработки. Я думаю, что узкое место здесь написано, поскольку чтение только занимает около 10 секунд.

Я попытался прочитать массив байтов, но затем поиск строк в каждом массиве, который был прочитан, занимает больше времени.

Любые предложения, пожалуйста? Благодаря

Ответы

Ответ 1

Я подозреваю, что ваша настоящая проблема в том, что у вас ограниченное оборудование, и что вы делаете, это не будет иметь большого значения. Если у вас много памяти и процессора, более сложные трюки могут помочь, но если вы просто ждете на своем жестком диске, потому что файл не кэшируется, это не будет иметь большого значения.

BTW: 500 МБ за 10 секунд или 50 МБ/с - типичная скорость чтения для жесткого диска.

Попробуйте запустить следующее, чтобы узнать, в какой момент ваша система не сможет эффективно кэшировать файл.

public static void main(String... args) throws IOException {
    for (int mb : new int[]{50, 100, 250, 500, 1000, 2000})
        testFileSize(mb);
}

private static void testFileSize(int mb) throws IOException {
    File file = File.createTempFile("test", ".txt");
    file.deleteOnExit();
    char[] chars = new char[1024];
    Arrays.fill(chars, 'A');
    String longLine = new String(chars);
    long start1 = System.nanoTime();
    PrintWriter pw = new PrintWriter(new FileWriter(file));
    for (int i = 0; i < mb * 1024; i++)
        pw.println(longLine);
    pw.close();
    long time1 = System.nanoTime() - start1;
    System.out.printf("Took %.3f seconds to write to a %d MB, file rate: %.1f MB/s%n",
            time1 / 1e9, file.length() >> 20, file.length() * 1000.0 / time1);

    long start2 = System.nanoTime();
    BufferedReader br = new BufferedReader(new FileReader(file));
    for (String line; (line = br.readLine()) != null; ) {
    }
    br.close();
    long time2 = System.nanoTime() - start2;
    System.out.printf("Took %.3f seconds to read to a %d MB file, rate: %.1f MB/s%n",
            time2 / 1e9, file.length() >> 20, file.length() * 1000.0 / time2);
    file.delete();
}

На машине Linux с большим количеством памяти.

Took 0.395 seconds to write to a 50 MB, file rate: 133.0 MB/s
Took 0.375 seconds to read to a 50 MB file, rate: 140.0 MB/s
Took 0.669 seconds to write to a 100 MB, file rate: 156.9 MB/s
Took 0.569 seconds to read to a 100 MB file, rate: 184.6 MB/s
Took 1.585 seconds to write to a 250 MB, file rate: 165.5 MB/s
Took 1.274 seconds to read to a 250 MB file, rate: 206.0 MB/s
Took 2.513 seconds to write to a 500 MB, file rate: 208.8 MB/s
Took 2.332 seconds to read to a 500 MB file, rate: 225.1 MB/s
Took 5.094 seconds to write to a 1000 MB, file rate: 206.0 MB/s
Took 5.041 seconds to read to a 1000 MB file, rate: 208.2 MB/s
Took 11.509 seconds to write to a 2001 MB, file rate: 182.4 MB/s
Took 9.681 seconds to read to a 2001 MB file, rate: 216.8 MB/s

На машине с большим количеством памяти.

Took 0.376 seconds to write to a 50 MB, file rate: 139.7 MB/s
Took 0.401 seconds to read to a 50 MB file, rate: 131.1 MB/s
Took 0.517 seconds to write to a 100 MB, file rate: 203.1 MB/s
Took 0.520 seconds to read to a 100 MB file, rate: 201.9 MB/s
Took 1.344 seconds to write to a 250 MB, file rate: 195.4 MB/s
Took 1.387 seconds to read to a 250 MB file, rate: 189.4 MB/s
Took 2.368 seconds to write to a 500 MB, file rate: 221.8 MB/s
Took 2.454 seconds to read to a 500 MB file, rate: 214.1 MB/s
Took 4.985 seconds to write to a 1001 MB, file rate: 210.7 MB/s
Took 5.132 seconds to read to a 1001 MB file, rate: 204.7 MB/s
Took 10.276 seconds to write to a 2003 MB, file rate: 204.5 MB/s
Took 9.964 seconds to read to a 2003 MB file, rate: 210.9 MB/s

Ответ 2

В первую очередь я попытаюсь увеличить размер буфера BufferedReader и BufferedWriter. Размер буфера по умолчанию не документирован, но, по крайней мере, в Oracle VM это 8192 символа, что не приносит большого выигрыша в производительности.

Если вам нужно только сделать копию файла (и не нужен фактический доступ к данным), я бы либо бросил подход Reader/Writer, либо напрямую работал с InputStream и OutputStream, используя массив байтов в качестве буфера:

FileInputStream fis = new FileInputStream("d:/test.txt");
FileOutputStream fos = new FileOutputStream("d:/test2.txt");
byte[] b = new byte[bufferSize];
int r;
while ((r=fis.read(b))>=0) {
    fos.write(b, 0, r);         
}
fis.close();
fos.close();

или на самом деле использовать NIO:

FileChannel in = new RandomAccessFile("d:/test.txt", "r").getChannel();
FileChannel out = new RandomAccessFile("d:/test2.txt", "rw").getChannel();
out.transferFrom(in, 0, Long.MAX_VALUE);
in.close();
out.close();

При сопоставлении различных методов копирования у меня есть гораздо большие различия (продолжительность) между каждым прогоном тестов, чем между различными реализациями. Кеширование ввода-вывода (как на уровне ОС, так и на жестком диске) играет здесь большую роль, и очень сложно сказать, что быстрее. На моем оборудовании копирование текстового файла объемом 1 ГБ по линии с использованием BufferedReader и BufferedWriter занимает менее 5 секунд в некоторых прогонах и более 30 секунд в других.

Ответ 3

В Java 7 вы можете использовать методы Files.readAllLines() и Files.write(). Вот пример:

List<String> readTextFile(String fileName) throws IOException {
    Path path = Paths.get(fileName);
    return Files.readAllLines(path, StandardCharsets.UTF_8);
}

void writeTextFile(List<String> strLines, String fileName) throws IOException {
    Path path = Paths.get(fileName);
    Files.write(path, strLines, StandardCharsets.UTF_8);
}

Ответ 5

Я написал обширную статью о многих способах чтения файлов на Java и тестирования их друг на друга с образцами файлов от 1 КБ до 1 ГБ, и я обнаружил, что следующие 3 метода были самыми быстрыми для чтения 1 ГБ файлов:

1) java.nio.file.Files.readAllBytes() - занял менее 1 секунды, чтобы прочитать тестовый файл 1 ГБ.

import java.io.File;
import java.io.IOException;
import java.nio.file.Files;

public class ReadFile_Files_ReadAllBytes {
  public static void main(String [] pArgs) throws IOException {
    String fileName = "c:\\temp\\sample-10KB.txt";
    File file = new File(fileName);

    byte [] fileBytes = Files.readAllBytes(file.toPath());
    char singleChar;
    for(byte b : fileBytes) {
      singleChar = (char) b;
      System.out.print(singleChar);
    }
  }
}

2) java.nio.file.Files.lines() - потребовалось около 3,5 секунд для чтения в тестовом файле 1 ГБ.

import java.io.File;
import java.io.IOException;
import java.nio.file.Files;
import java.util.stream.Stream;

public class ReadFile_Files_Lines {
  public static void main(String[] pArgs) throws IOException {
    String fileName = "c:\\temp\\sample-10KB.txt";
    File file = new File(fileName);

    try (Stream linesStream = Files.lines(file.toPath())) {
      linesStream.forEach(line -&gt; {
        System.out.println(line);
      });
    }
  }
}

3) java.io.BufferedReader - заняло около 4,5 секунд, чтобы прочитать тестовый файл 1 ГБ.

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;

public class ReadFile_BufferedReader_ReadLine {
  public static void main(String [] args) throws IOException {
    String fileName = "c:\\temp\\sample-10KB.txt";
    FileReader fileReader = new FileReader(fileName);

    try (BufferedReader bufferedReader = new BufferedReader(fileReader)) {
      String line;
      while((line = bufferedReader.readLine()) != null) {
        System.out.println(line);
      }
    }
  }
}

Ответ 6

Это все об OutOfMemoryException которое можно эффективно обрабатывать с помощью итератора класса Scanner. Он читает файл построчно, а не навалом.

Ниже код решает проблему:

try(FileInputStream inputStream =new FileInputStream("D:\\File\\test.txt");
  Scanner sc= new Scanner(inputStream, "UTF-8")) {
  while (sc.hasNextLine()) {
    String line = sc.nextLine();
    System.out.println(line);
  }
} catch (IOException e) {
  e.printStackTrace();
}