Slugify и транслитерация символов в С#

Изменить: Для удобства здесь приведен код сверху:

У меня не возникло проблем с кодированием остального, за исключением того, что я не могу найти эквивалент С# следующей строки кода PHP:

Edit: Целью этого является перевод символов, отличных от ASCII, таких как Reformáció Genfi Emlékműve Előtt в reformacio-genfi-emlekmuve-elott

Ответы

Ответ 1

Я также хотел бы добавить, что //TRANSLIT удаляет апострофы и это решение @jxac не адресует это. Я не уверен, почему, но, сначала кодируя его на кириллицу, а затем в ASCII, вы получите аналогичное поведение, как //TRANSLIT.

var str = "éåäöíØ";
var noApostrophes = Encoding.ASCII.GetString(Encoding.GetEncoding("Cyrillic").GetBytes(str)); 

=> "eaaoiO"

Ответ 2

Существует библиотека .NET для транслитерации на codeplex - unidecode. Обычно это трюк с использованием таблиц Unidecode, перенесенных из python.

Ответ 3

преобразование в строку:

byte[] unicodeBytes = Encoding.Unicode.GetBytes(str);
byte[] asciiBytes = Encoding.Convert(Encoding.Unicode, Encoding.ASCII, unicodeBytes);
string asciiString = Encoding.ASCII.GetString(asciiBytes);

преобразование в байты:

byte[] ascii = Encoding.ASCII.GetBytes(str);

@Thomas Levesque прав, получит кодировку выходным потоком...

чтобы удалить диакритические знаки (знаки акцента), вы можете использовать функцию String.Normalize, как описано здесь:

http://www.siao2.com/2007/05/14/2629747.aspx

который должен заботиться о большинстве случаев (где глиф действительно символ плюс знак акцента). для более агрессивного сопоставления char (чтобы заботиться о таких случаях, как скандинавский slashed o [Ø], орграфы и другие экзотические глифы), существует подход к таблице:

http://www.codeproject.com/KB/cs/UnicodeNormalization.aspx

это включает около 1000 символьных отображений в дополнение к нормализации.

(заметим, что вся пунктуация удаляется заменой регулярного выражения в вашем примере)