Slugify и транслитерация символов в С#
Я пытаюсь перевести следующий метод slugify с PHP на С#:
http://snipplr.com/view/22741/slugify-a-string-in-php/
Изменить: Для удобства здесь приведен код сверху:
/**
* Modifies a string to remove al non ASCII characters and spaces.
*/
static public function slugify($text)
{
// replace non letter or digits by -
$text = preg_replace('~[^\\pL\d]+~u', '-', $text);
// trim
$text = trim($text, '-');
// transliterate
if (function_exists('iconv'))
{
$text = iconv('utf-8', 'us-ascii//TRANSLIT', $text);
}
// lowercase
$text = strtolower($text);
// remove unwanted characters
$text = preg_replace('~[^-\w]+~', '', $text);
if (empty($text))
{
return 'n-a';
}
return $text;
}
У меня не возникло проблем с кодированием остального, за исключением того, что я не могу найти эквивалент С# следующей строки кода PHP:
$text = iconv('utf-8', 'us-ascii//TRANSLIT', $text);
Edit:
Целью этого является перевод символов, отличных от ASCII, таких как Reformáció Genfi Emlékműve Előtt
в reformacio-genfi-emlekmuve-elott
Ответы
Ответ 1
Я также хотел бы добавить, что //TRANSLIT
удаляет апострофы и это решение @jxac не адресует это. Я не уверен, почему, но, сначала кодируя его на кириллицу, а затем в ASCII, вы получите аналогичное поведение, как //TRANSLIT
.
var str = "éåäöíØ";
var noApostrophes = Encoding.ASCII.GetString(Encoding.GetEncoding("Cyrillic").GetBytes(str));
=> "eaaoiO"
Ответ 2
Существует библиотека .NET для транслитерации на codeplex - unidecode. Обычно это трюк с использованием таблиц Unidecode, перенесенных из python.
Ответ 3
преобразование в строку:
byte[] unicodeBytes = Encoding.Unicode.GetBytes(str);
byte[] asciiBytes = Encoding.Convert(Encoding.Unicode, Encoding.ASCII, unicodeBytes);
string asciiString = Encoding.ASCII.GetString(asciiBytes);
преобразование в байты:
byte[] ascii = Encoding.ASCII.GetBytes(str);
@Thomas Levesque прав, получит кодировку выходным потоком...
чтобы удалить диакритические знаки (знаки акцента), вы можете использовать функцию String.Normalize, как описано здесь:
http://www.siao2.com/2007/05/14/2629747.aspx
который должен заботиться о большинстве случаев (где глиф действительно символ плюс знак акцента). для более агрессивного сопоставления char (чтобы заботиться о таких случаях, как скандинавский slashed o [Ø], орграфы и другие экзотические глифы), существует подход к таблице:
http://www.codeproject.com/KB/cs/UnicodeNormalization.aspx
это включает около 1000 символьных отображений в дополнение к нормализации.
(заметим, что вся пунктуация удаляется заменой регулярного выражения в вашем примере)