Ответ 1
SOUNDEX действительно ориентирован на английский язык. Два других, которые учитывают более широкий спектр фонетических различий, заключаются в следующем: Double Metaphone и NYSIIS.
Они производят кодирование в гораздо большем возможном пространстве, чем SOUNDEX. Double Metaphone, в частности, включает сокращения с явной целью обработки альтернативных произношений на основе большего количества языков, чем английский.
Недавно я сделал презентацию о совпадении нечеткой строки, слайды могут быть полезны.