Как я могу легко сжимать и распаковывать строки в/из массивов байтов?
У меня есть строки, которые имеют примерно 10K символов. В них много повторений. Они представляют собой сериализованные объекты JSON. Я бы хотел с легкостью сжать их в массив байтов и распаковать их из массива байтов.
Как я могу это сделать? Я ищу методы, поэтому могу сделать следующее:
String original = "....long string here with 10K characters...";
byte[] compressed = StringCompressor.compress(original);
String decompressed = StringCompressor.decompress(compressed);
assert(original.equals(decompressed);
Ответы
Ответ 1
Вы можете попробовать
enum StringCompressor {
;
public static byte[] compress(String text) {
ByteArrayOutputStream baos = new ByteArrayOutputStream();
try {
OutputStream out = new DeflaterOutputStream(baos);
out.write(text.getBytes("UTF-8"));
out.close();
} catch (IOException e) {
throw new AssertionError(e);
}
return baos.toByteArray();
}
public static String decompress(byte[] bytes) {
InputStream in = new InflaterInputStream(new ByteArrayInputStream(bytes));
ByteArrayOutputStream baos = new ByteArrayOutputStream();
try {
byte[] buffer = new byte[8192];
int len;
while((len = in.read(buffer))>0)
baos.write(buffer, 0, len);
return new String(baos.toByteArray(), "UTF-8");
} catch (IOException e) {
throw new AssertionError(e);
}
}
}
Ответ 2
Ответ Питера Лори может быть немного улучшен с использованием этого менее сложного кода для функции распаковки
ByteArrayOutputStream baos = new ByteArrayOutputStream();
try {
OutputStream out = new InflaterOutputStream(baos);
out.write(bytes);
out.close();
return new String(baos.toByteArray(), "UTF-8");
} catch (IOException e) {
throw new AssertionError(e);
}
Ответ 3
Я создал библиотеку для решения проблемы сжатия родовых строк (очень короткие).
Он пытается сжать String с использованием различных алгоритмов (простой utf-8, 5-битное кодирование для латинских букв, кодировка huffman, gzip для длинных строк) и выбирает один с самым коротким результатом (в худшем случае он выберет utf-8 кодирование, так что вы никогда не рискуете потерять пространство).
Я надеюсь, что это может быть полезно, здесь ссылка
https://github.com/lithedream/lithestring
EDIT: Я понял, что ваши строки всегда "длинны", моя библиотека по умолчанию использует gzip для этих размеров, я боюсь, что не могу сделать лучше для вас.