Ответ 1
Чтобы написать спецификацию в UTF-8, вам нужно PrintStream.print()
, а не PrintStream.write()
.
Также, если вы хотите иметь спецификацию в вашем файле csv
, я думаю, вам нужно распечатать спецификацию после putNextEntry()
.
У меня есть хранимая процедура Java, которая извлекает запись из таблицы с помощью объекта Resultset и создает файл csv.
BLOB retBLOB = BLOB.createTemporary(conn, true, BLOB.DURATION_SESSION);
retBLOB.open(BLOB.MODE_READWRITE);
OutputStream bOut = retBLOB.setBinaryStream(0L);
ZipOutputStream zipOut = new ZipOutputStream(bOut);
PrintStream out = new PrintStream(zipOut,false,"UTF-8");
out.write('\ufeff');
out.flush();
zipOut.putNextEntry(new ZipEntry("filename.csv"));
while (rs.next()){
out.print("\"" + rs.getString(i) + "\"");
out.print(",");
}
out.flush();
zipOut.closeEntry();
zipOut.close();
retBLOB.close();
return retBLOB;
Но сгенерированный файл csv не показывает правильный немецкий символ. База данных Oracle также имеет значение NLS_CHARACTERSET UTF8.
Просьба предложить.
Чтобы написать спецификацию в UTF-8, вам нужно PrintStream.print()
, а не PrintStream.write()
.
Также, если вы хотите иметь спецификацию в вашем файле csv
, я думаю, вам нужно распечатать спецификацию после putNextEntry()
.
BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(...), StandardCharsets.UTF_8));
out.write('\ufeff');
out.write(...);
Это правильно выписывает 0xEF 0xBB 0xBF в файл, который представляет собой представление спецификации спецификации UTF-8.
Я думаю, что out.write('\ufeff');
должен быть out.print('\ufeff');
.
В соответствии с javadoc метод write(int)
фактически записывает байты... без какой-либо кодировки символов. Итак, out.write('\ufeff');
записывает байт 0xff
. Напротив, метод print(char)
кодирует символ как один или байты с использованием кодирования потока, а затем записывает эти байты.
На всякий случай люди используют PrintStream
s, вам нужно сделать это несколько иначе. В то время как Writer
сделает магию для преобразования одного байта в 3 байта, PrintStream
требует все 3 байта спецификации UTF-8 отдельно:
// Print utf-8 BOM
PrintStream out = System.out;
out.write('\ufeef'); // emits 0xef
out.write('\ufebb'); // emits 0xbb
out.write('\ufebf'); // emits 0xbf
В качестве альтернативы вы можете напрямую использовать шестнадцатеричные значения для них:
PrintStream out = System.out;
out.write(0xef); // emits 0xef
out.write(0xbb); // emits 0xbb
out.write(0xbf); // emits 0xbf
В моем случае он работает с кодом:
PrintWriter out = new PrintWriter(new File(filePath), "UTF-8");
out.write(csvContent);
out.flush();
out.close();