Как преобразовать между ISO-8859-1 и UTF-8 в Java?
Кто-нибудь знает, как преобразовать строку из ISO-8859-1 в UTF-8 и обратно в Java?
Я получаю строку из Интернета и сохраняю ее в RMS (J2ME), но я хочу сохранить специальные символы и получить строку из RMS, но с кодировкой ISO-8859-1. Как это сделать?
Ответы
Ответ 1
В общем, вы не можете этого сделать. UTF-8 способен кодировать любую кодовую точку Unicode. ISO-8859-1 может обрабатывать только небольшую часть. Таким образом, перекодирование с ISO-8859-1 на UTF-8 не представляет проблемы. Переход от UTF-8 к ISO-8859-1 приведет к появлению "замещающих символов" (& # xFFFD;) в вашем тексте при обнаружении неподдерживаемых символов.
Перекодировать текст:
byte[] latin1 = ...
byte[] utf8 = new String(latin1, "ISO-8859-1").getBytes("UTF-8");
или
byte[] utf8 = ...
byte[] latin1 = new String(utf8, "UTF-8").getBytes("ISO-8859-1");
Вы можете усилить контроль, используя API Charset
нижнего уровня. Например, вы можете создать исключение при обнаружении некодируемого символа или использовать другой символ для замены текста.
Ответ 2
Кто работал у меня:
( "üzüm bağları" правильно написано на турецком языке)
Преобразование ISO-8859-1 в UTF-8:
String encodedWithISO88591 = "üzüm baÄları";
String decodedToUTF8 = new String(encodedWithISO88591.getBytes("ISO-8859-1"), "UTF-8");
//Result, decodedToUTF8 --> "üzüm bağları"
Преобразование UTF-8 в ISO-8859-1
String encodedWithUTF8 = "üzüm bağları";
String decodedToISO88591 = new String(encodedWithUTF8.getBytes("UTF-8"), "ISO-8859-1");
//Result, decodedToISO88591 --> "üzüm baÄları"
Ответ 3
Если у вас есть String
, вы можете сделать это:
String s = "test";
try {
s.getBytes("UTF-8");
} catch(UnsupportedEncodingException uee) {
uee.printStackTrace();
}
Если у вас есть "сломанный" String
, вы сделали что-то не так, преобразование String
в String
в другую кодировку не соответствует требованиям! Вы можете преобразовать String
в byte[]
и наоборот (с учетом кодировки). В Java String
находятся AFAIK, закодированные с помощью UTF-16
, но это подробности реализации.
Скажите, что у вас есть InputStream
, вы можете читать в byte[]
, а затем преобразовать его в String
, используя
byte[] bs = ...;
String s;
try {
s = new String(bs, encoding);
} catch(UnsupportedEncodingException uee) {
uee.printStackTrace();
}
или даже лучше (спасибо erickson) используйте InputStreamReader
следующим образом:
InputStreamReader isr;
try {
isr = new InputStreamReader(inputStream, encoding);
} catch(UnsupportedEncodingException uee) {
uee.printStackTrace();
}
Ответ 4
Вот простой способ с выходом String (я создал метод для этого):
public static String (String input){
String output = "";
try {
/* From ISO-8859-1 to UTF-8 */
output = new String(input.getBytes("ISO-8859-1"), "UTF-8");
/* From UTF-8 to ISO-8859-1 */
output = new String(input.getBytes("UTF-8"), "ISO-8859-1");
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return output;
}
// Example
input = "Música";
output = "Música";
Ответ 5
Regex также может быть хорошим и эффективно использоваться (заменяет все символы UTF-8, не указанные в ISO-8859-1
пробелом):
String input = "€Tes¶ti©ng [§] al€l o€f i¶t _ - À ÆÑ with some 9umbers as"
+ " w2921**#$%[email protected]# well Ü, or ü, is a chaŒracte⚽";
String output = input.replaceAll("[^\\u0020-\\u007e\\u00a0-\\u00ff]", " ");
System.out.println("Input = " + input);
System.out.println("Output = " + output);
Ответ 6
Apache Commons IO Класс Charsets может пригодиться:
String utf8String = new String(org.apache.commons.io.Charsets.ISO_8859_1.encode(latinString).array())
Ответ 7
Вот функция для преобразования UNICODE (ISO_8859_1) в UTF-8
public static String String_ISO_8859_1To_UTF_8(String strISO_8859_1) {
final StringBuilder stringBuilder = new StringBuilder();
for (int i = 0; i < strISO_8859_1.length(); i++) {
final char ch = strISO_8859_1.charAt(i);
if (ch <= 127)
{
stringBuilder.append(ch);
}
else
{
stringBuilder.append(String.format("%02x", (int)ch));
}
}
String s = stringBuilder.toString();
int len = s.length();
byte[] data = new byte[len / 2];
for (int i = 0; i < len; i += 2) {
data[i / 2] = (byte) ((Character.digit(s.charAt(i), 16) << 4)
+ Character.digit(s.charAt(i+1), 16));
}
String strUTF_8 =new String(data, StandardCharsets.UTF_8);
return strUTF_8;
}
ТЕСТОВОЕ ЗАДАНИЕ
String strA_ISO_8859_1_i = new String("الغلاف".getBytes(StandardCharsets.UTF_8), StandardCharsets.ISO_8859_1);
System.out.println("ISO_8859_1 strA est = "+ strA_ISO_8859_1_i + "\n String_ISO_8859_1To_UTF_8 = " + String_ISO_8859_1To_UTF_8(strA_ISO_8859_1_i));
РЕЗУЛЬТАТ
ISO_8859_1 strA est = Ø§ÙØºÙا٠String_ISO_8859_1To_UTF_8 = الغلاف
Ответ 8
Способ преобразования из latin1 в utf-8 довольно прост, как показано выше. Обратный путь, вероятно, также прост, но с проблемой у нас есть до 3-4 байтовых символов в utf-8, что является проблемой для latin1, который просто поддерживает 1 байт. Мы должны отобразить каждый символ utf-8 выше 128 на эквивалент в latin1. Я думаю, что алгоритм для этого еще не реализован, но я буду работать над ним в течение этой недели и вернусь с решением на следующей неделе (без неправильно замененных символов).
Обсервованный Я только что понял, что единственные символы, которые вы можете конвертировать без проблем с преобразованием из латиницы 1 (ISO-8859-1) в utf-8, это ascci (от 0 до 127). Другие случаи также должны быть охвачены моим методом, который я представлю на следующей неделе. Лол...