Игнорирование диакритических символов при сравнении слов со специальными символами (é, è,...)
У меня есть список с некоторыми бельгийскими городами с диакритическими символами: (Liège, Quiévrain, Franière и т.д.), и я хотел бы преобразовать эти специальные символы для сравнения со списком, содержащим одни и те же имена в верхнем регистре, но без диакритические знаки (LIEGE, QUIEVRAIN, FRANIERE)
То, что я сначала попытался сделать, это использовать верхний регистр:
LIEGE.contentEqual(Liège.toUpperCase())
, но это не подходит, потому что верхний регистр Liège
равен LIÈGE
, а не LIEGE
.
У меня есть некоторые сложные идеи, такие как замена каждого символа, но это звучит глупо и длительно.
Любые идеи о том, как это сделать умным способом?
Ответы
Ответ 1
Проверьте этот метод в Java
private static final String PLAIN_ASCII = "AaEeIiOoUu" // grave
+ "AaEeIiOoUuYy" // acute
+ "AaEeIiOoUuYy" // circumflex
+ "AaOoNn" // tilde
+ "AaEeIiOoUuYy" // umlaut
+ "Aa" // ring
+ "Cc" // cedilla
+ "OoUu" // double acute
;
private static final String UNICODE = "\u00C0\u00E0\u00C8\u00E8\u00CC\u00EC\u00D2\u00F2\u00D9\u00F9"
+ "\u00C1\u00E1\u00C9\u00E9\u00CD\u00ED\u00D3\u00F3\u00DA\u00FA\u00DD\u00FD"
+ "\u00C2\u00E2\u00CA\u00EA\u00CE\u00EE\u00D4\u00F4\u00DB\u00FB\u0176\u0177"
+ "\u00C3\u00E3\u00D5\u00F5\u00D1\u00F1"
+ "\u00C4\u00E4\u00CB\u00EB\u00CF\u00EF\u00D6\u00F6\u00DC\u00FC\u0178\u00FF"
+ "\u00C5\u00E5" + "\u00C7\u00E7" + "\u0150\u0151\u0170\u0171";
/**
* remove accented from a string and replace with ascii equivalent
*/
public static String removeAccents(String s) {
if (s == null)
return null;
StringBuilder sb = new StringBuilder(s.length());
int n = s.length();
int pos = -1;
char c;
boolean found = false;
for (int i = 0; i < n; i++) {
pos = -1;
c = s.charAt(i);
pos = (c <= 126) ? -1 : UNICODE.indexOf(c);
if (pos > -1) {
found = true;
sb.append(PLAIN_ASCII.charAt(pos));
} else {
sb.append(c);
}
}
if (!found) {
return s;
} else {
return sb.toString();
}
}
Ответ 2
С Java 6 вы можете использовать java.text.Normalizer:
public String unaccent(String s) {
String normalized = Normalizer.normalize(s, Normalizer.Form.NFD);
return normalized.replaceAll("[^\\p{ASCII}]", "");
}
Обратите внимание, что в Java 5 есть также sun.text.Normalizer
, но его использование сильно обескураживается, поскольку оно является частью проприетарного API Sun и удалено на Java 6.
Ответ 3
Это самое простое решение, которое я нашел до сих пор, и он отлично работает в наших приложениях.
Normalizer.normalize(string, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", "");
Но я не знаю, доступен ли Normalizer на платформе Android.
Ответ 4
Если вам все еще нужно, что для Android API 8 или ниже (Android 2.2, Java 1.5), где у вас нет класса Normalizer, здесь мой код, я думаю, лучше изменить, чем ответить Pentium10:
public class StringAccentRemover {
@SuppressWarnings("serial")
private static final HashMap<Character, Character> accents = new HashMap<Character, Character>(){
{
put('Ą', 'A');
put('Ę', 'E');
put('Ć', 'C');
put('Ł', 'L');
put('Ń', 'N');
put('Ó', 'O');
put('Ś', 'S');
put('Ż', 'Z');
put('Ź', 'Z');
put('ą', 'a');
put('ę', 'e');
put('ć', 'c');
put('ł', 'l');
put('ń', 'n');
put('ó', 'o');
put('ś', 's');
put('ż', 'z');
put('ź', 'z');
}
};
/**
* remove accented from a string and replace with ascii equivalent
*/
public static String removeAccents(String s) {
char[] result = s.toCharArray();
for(int i=0; i<result.length; i++) {
Character replacement = accents.get(result[i]);
if (replacement!=null) result[i] = replacement;
}
return new String(result);
}
}
Ответ 5
Класс Collator - хороший способ сделать это (см. соответствующий javadoc). Вот unit test, который показывает, как его использовать:
import static org.junit.Assert.assertEquals;
import java.text.Collator;
import java.util.Locale;
import org.junit.Test;
public class CollatorTest {
@Test public void liege() throws Exception {
Collator compareOperator = Collator.getInstance(Locale.FRENCH);
compareOperator.setStrength(Collator.PRIMARY);
assertEquals(0, compareOperator.compare("Liege", "Liege")); // no accent
assertEquals(0, compareOperator.compare("Liège", "Liege")); // with accent
assertEquals(0, compareOperator.compare("LIEGE", "Liege")); // case insensitive
assertEquals(0, compareOperator.compare("LIEGE", "Liège")); // case insensitive with accent
assertEquals(1, compareOperator.compare("Liege", "Bruxelles"));
assertEquals(-1, compareOperator.compare("Bruxelles", "Liege"));
}
}
EDIT:
жаль, что мой ответ не соответствовал вашим потребностям; возможно, потому что я представил его как unit test? Это нормально для вас? Я лично считаю это лучше, потому что он короткий, и он использует SDK (нет необходимости в замене строки)
Collator compareOperator = Collator.getInstance(Locale.FRENCH);
compareOperator.setStrength(Collator.PRIMARY);
if (compareOperator.compare("Liège", "Liege") == 0) {
// if we are here, then it the "same" String
}
надеюсь, что это поможет
Ответ 6
Поскольку класс Normalizer не поддерживается в версиях Froyo или предыдущих Android, я объединил этот и этот (который я проголосовал), и оптимизировал его, получив несколько вспомогательных методов. Метод unaccentify просто преобразует диакритические символы в простые символы, а метод slugify генерирует пул для входной строки. Надеюсь, это может быть полезно кому-то. Вот исходный код:
import java.util.Arrays;
import java.util.Locale;
import java.util.regex.Pattern;
public class SlugFroyo {
private static final Pattern STRANGE = Pattern.compile("[^a-zA-Z0-9-]");
private static final Pattern WHITESPACE = Pattern.compile("[\\s]");
private static final String DIACRITIC_CHARS = "\u00C0\u00E0\u00C8\u00E8\u00CC\u00EC\u00D2\u00F2\u00D9\u00F9"
+ "\u00C1\u00E1\u00C9\u00E9\u00CD\u00ED\u00D3\u00F3\u00DA\u00FA\u00DD\u00FD"
+ "\u00C2\u00E2\u00CA\u00EA\u00CE\u00EE\u00D4\u00F4\u00DB\u00FB\u0176\u0177"
+ "\u00C3\u00E3\u00D5\u00F5\u00D1\u00F1"
+ "\u00C4\u00E4\u00CB\u00EB\u00CF\u00EF\u00D6\u00F6\u00DC\u00FC\u0178\u00FF"
+ "\u00C5\u00E5" + "\u00C7\u00E7" + "\u0150\u0151\u0170\u0171";
private static final String PLAIN_CHARS = "AaEeIiOoUu" // grave
+ "AaEeIiOoUuYy" // acute
+ "AaEeIiOoUuYy" // circumflex
+ "AaOoNn" // tilde
+ "AaEeIiOoUuYy" // umlaut
+ "Aa" // ring
+ "Cc" // cedilla
+ "OoUu"; // double acute
private static char[] lookup = new char[0x180];
static {
Arrays.fill(lookup, (char) 0);
for (int i = 0; i < DIACRITIC_CHARS.length(); i++)
lookup[DIACRITIC_CHARS.charAt(i)] = PLAIN_CHARS.charAt(i);
}
public static String slugify(String s) {
String nowhitespace = WHITESPACE.matcher(s).replaceAll("-");
String unaccented = unaccentify(nowhitespace);
String slug = STRANGE.matcher(unaccented).replaceAll("");
return slug.toLowerCase(Locale.ENGLISH);
}
public static String unaccentify(String s) {
StringBuilder sb = new StringBuilder(s);
for (int i = 0; i < sb.length(); i++) {
char c = sb.charAt(i);
if (c > 126 && c < lookup.length) {
char replacement = lookup[c];
if (replacement > 0)
sb.setCharAt(i, replacement);
}
}
return sb.toString();
}
}
Ответ 7
Я не знаю, доступна ли это на Android, но на JVM вы должны не переопределить его в своем проекте и повторно использовать уже существующий код: просто используйте org.apache.commons.lang3.StringUtils # stripAccents