Как транслитерировать кириллицу на латинский текст
У меня есть метод, который превращает любой латинский текст (например, английский, французский, немецкий, польский) в его пуля,
например. Alpha Bravo Charlie
= > alpha-bravo-charlie
Но он не может работать для кириллического текста (например, русский), поэтому я хочу, чтобы транслитерировать кириллический текст на латинские символы, а затем уменьшать его.
Есть ли у кого способ сделать такую транслитерацию? Независимо от фактического источника или библиотеки.
Я кодирую на С#, поэтому библиотека .NET будет работать. Кроме того, если у вас есть код, отличный от С#, я уверен, что смогу его преобразовать.
Ответы
Ответ 1
Вы можете использовать библиотеку DLL с открытым исходным кодом .NET UnidecodeSharpFork, чтобы транслитерировать кириллицу и многие другие языки на латинский.
Пример использования:
Assert.AreEqual("Rabota s kirillitsey", "Работа с кириллицей".Unidecode());
Assert.AreEqual("CZSczs", "ČŽŠčžš".Unidecode());
Assert.AreEqual("Hello, World!", "Hello, World!".Unidecode());
Тестирование кириллицы:
/// <summary>
/// According to http://en.wikipedia.org/wiki/Romanization_of_Russian BGN/PCGN.
/// http://en.wikipedia.org/wiki/BGN/PCGN_romanization_of_Russian
/// With converting "ё" to "yo".
/// </summary>
[TestMethod]
public void RussianAlphabetTest()
{
string russianAlphabetLowercase = "а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ ъ ы ь э ю я";
string russianAlphabetUppercase = "А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я";
string expectedLowercase = "a b v g d e yo zh z i y k l m n o p r s t u f kh ts ch sh shch \" y ' e yu ya";
string expectedUppercase = "A B V G D E Yo Zh Z I Y K L M N O P R S T U F Kh Ts Ch Sh Shch \" Y ' E Yu Ya";
Assert.AreEqual(expectedLowercase, russianAlphabetLowercase.Unidecode());
Assert.AreEqual(expectedUppercase, russianAlphabetUppercase.Unidecode());
}
Простой, быстрый и мощный. И легко расширить/изменить таблицу транслитерации, если вы хотите.
Ответ 2
public static string Translit(string str)
{
string[] lat_up = {"A", "B", "V", "G", "D", "E", "Yo", "Zh", "Z", "I", "Y", "K", "L", "M", "N", "O", "P", "R", "S", "T", "U", "F", "Kh", "Ts", "Ch", "Sh", "Shch", "\"", "Y", "'", "E", "Yu", "Ya"};
string[] lat_low = {"a", "b", "v", "g", "d", "e", "yo", "zh", "z", "i", "y", "k", "l", "m", "n", "o", "p", "r", "s", "t", "u", "f", "kh", "ts", "ch", "sh", "shch", "\"", "y", "'", "e", "yu", "ya"};
string[] rus_up = {"А", "Б", "В", "Г", "Д", "Е", "Ё", "Ж", "З", "И", "Й", "К", "Л", "М", "Н", "О", "П", "Р", "С", "Т", "У", "Ф", "Х", "Ц", "Ч", "Ш", "Щ", "Ъ", "Ы", "Ь", "Э", "Ю", "Я"};
string[] rus_low = { "а", "б", "в", "г", "д", "е", "ё", "ж", "з", "и", "й", "к", "л", "м", "н", "о", "п", "р", "с", "т", "у", "ф", "х", "ц", "ч", "ш", "щ", "ъ", "ы", "ь", "э", "ю", "я"};
for (int i = 0; i <= 32; i++)
{
str = str.Replace(rus_up[i],lat_up[i]);
str = str.Replace(rus_low[i],lat_low[i]);
}
return str;
}
Ответ 3
Почему вы не можете просто взять таблицу транслитерации и сделать небольшое регулярное выражение или подпрограмму?
Ответ 4
В Microsoft есть инструмент транслитерации, который включает в себя DLL, в которую вы могли бы подключиться (вам нужно будет проверить ограничения на лицензирование, если вы собираетесь использовать его не лично). Вы можете больше узнать об этом в сообщение в блоге Dejan Vesić
Ответ 5
Для будущих читателей
Windows 7+ может сделать это с помощью Extended Linguistic Services. (Для этого вам понадобится Код кода Windows API)
Ответ 6
Проверьте этот код:
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Text;
using System.Windows.Forms;
namespace Transliter
{
public partial class Form1 : Form
{
Dictionary<string, string> words = new Dictionary<string, string>();
public Form1()
{
InitializeComponent();
words.Add("а", "a");
words.Add("б", "b");
words.Add("в", "v");
words.Add("г", "g");
words.Add("д", "d");
words.Add("е", "e");
words.Add("ё", "yo");
words.Add("ж", "zh");
words.Add("з", "z");
words.Add("и", "i");
words.Add("й", "j");
words.Add("к", "k");
words.Add("л", "l");
words.Add("м", "m");
words.Add("н", "n");
words.Add("о", "o");
words.Add("п", "p");
words.Add("р", "r");
words.Add("с", "s");
words.Add("т", "t");
words.Add("у", "u");
words.Add("ф", "f");
words.Add("х", "h");
words.Add("ц", "c");
words.Add("ч", "ch");
words.Add("ш", "sh");
words.Add("щ", "sch");
words.Add("ъ", "j");
words.Add("ы", "i");
words.Add("ь", "j");
words.Add("э", "e");
words.Add("ю", "yu");
words.Add("я", "ya");
words.Add("А", "A");
words.Add("Б", "B");
words.Add("В", "V");
words.Add("Г", "G");
words.Add("Д", "D");
words.Add("Е", "E");
words.Add("Ё", "Yo");
words.Add("Ж", "Zh");
words.Add("З", "Z");
words.Add("И", "I");
words.Add("Й", "J");
words.Add("К", "K");
words.Add("Л", "L");
words.Add("М", "M");
words.Add("Н", "N");
words.Add("О", "O");
words.Add("П", "P");
words.Add("Р", "R");
words.Add("С", "S");
words.Add("Т", "T");
words.Add("У", "U");
words.Add("Ф", "F");
words.Add("Х", "H");
words.Add("Ц", "C");
words.Add("Ч", "Ch");
words.Add("Ш", "Sh");
words.Add("Щ", "Sch");
words.Add("Ъ", "J");
words.Add("Ы", "I");
words.Add("Ь", "J");
words.Add("Э", "E");
words.Add("Ю", "Yu");
words.Add("Я", "Ya");
}
private void button1_Click(object sender, EventArgs e)
{
string source = textBox1.Text;
foreach (KeyValuePair<string, string> pair in words)
{
source = source.Replace(pair.Key, pair.Value);
}
textBox2.Text = source;
}
}
}
cryllic to latin:
text.Replace(pair.Key, pair.Value);
латинский к cryllic
source.Replace(pair.Value,pair.Key);
Ответ 7
Вы можете использовать мою библиотеку для транслитерации: https://github.com/nick-buhro/Translit
Он также доступен на NuGet.
Пример:
var latin = Transliteration.CyrillicToLatin(
"Предками данная мудрость народная!",
Language.Russian);
Console.WriteLine(latin);
// Output: Predkami dannaya mudrost` narodnaya!
Ответ 8
Вот отличная статья которая описывает, как сделать эквивалент С# this JavaScript.
string result = DisplayInEnglish("Олъга Виктровна Василенко");
Ответ 9
Оптимизированный ответ Сарвара Нишонбоева выглядит как простейшее решение без лишних сложностей, связанных с воссозданием строки на каждой итерации:
public static class Converter
{
private static readonly Dictionary<char, string> ConvertedLetters = new Dictionary<char, string>
{
{'а', "a"},
{'б', "b"},
{'в', "v"},
{'г', "g"},
{'д', "d"},
{'е', "e"},
{'ё', "yo"},
{'ж', "zh"},
{'з', "z"},
{'и', "i"},
{'й', "j"},
{'к', "k"},
{'л', "l"},
{'м', "m"},
{'н', "n"},
{'о', "o"},
{'п', "p"},
{'р', "r"},
{'с', "s"},
{'т', "t"},
{'у', "u"},
{'ф', "f"},
{'х', "h"},
{'ц', "c"},
{'ч', "ch"},
{'ш', "sh"},
{'щ', "sch"},
{'ъ', "j"},
{'ы', "i"},
{'ь', "j"},
{'э', "e"},
{'ю', "yu"},
{'я', "ya"},
{'А', "A"},
{'Б', "B"},
{'В', "V"},
{'Г', "G"},
{'Д', "D"},
{'Е', "E"},
{'Ё', "Yo"},
{'Ж', "Zh"},
{'З', "Z"},
{'И', "I"},
{'Й', "J"},
{'К', "K"},
{'Л', "L"},
{'М', "M"},
{'Н', "N"},
{'О', "O"},
{'П', "P"},
{'Р', "R"},
{'С', "S"},
{'Т', "T"},
{'У', "U"},
{'Ф', "F"},
{'Х', "H"},
{'Ц', "C"},
{'Ч', "Ch"},
{'Ш', "Sh"},
{'Щ', "Sch"},
{'Ъ', "J"},
{'Ы', "I"},
{'Ь', "J"},
{'Э', "E"},
{'Ю', "Yu"},
{'Я', "Ya"}
};
public static string ConvertToLatin(string source)
{
var result = new StringBuilder();
foreach (var letter in source)
{
result.Append(ConvertedLetters[letter]);
}
return result.ToString();
}
}
Используйте это так:
Converter.ConvertToLatin("Проверочный текст");
Ответ 10
Используйте этот метод Просто передайте свое кириллическое слово, содержащее строку, и этот метод возвращает латинскую английскую строку, соответствующую кириллице.
public static string GetLatinCodeFromCyrillic(string str)
{
str = str.Replace("б", "b");
str = str.Replace("Б", "B");
str = str.Replace("в", "v");
str = str.Replace("В", "V");
str = str.Replace("г", "h");
str = str.Replace("Г", "H");
str = str.Replace("ґ", "g");
str = str.Replace("Ґ", "G");
str = str.Replace("д", "d");
str = str.Replace("Д", "D");
str = str.Replace("є", "ye");
str = str.Replace("Э", "Ye");
str = str.Replace("ж", "zh");
str = str.Replace("Ж", "Zh");
str = str.Replace("з", "z");
str = str.Replace("З", "Z");
str = str.Replace("и", "y");
str = str.Replace("И", "Y");
str = str.Replace("ї", "yi");
str = str.Replace("Ї", "YI");
str = str.Replace("й", "j");
str = str.Replace("Й", "J");
str = str.Replace("к", "k");
str = str.Replace("К", "K");
str = str.Replace("л", "l");
str = str.Replace("Л", "L");
str = str.Replace("м", "m");
str = str.Replace("М", "M");
str = str.Replace("н", "n");
str = str.Replace("Н", "N");
str = str.Replace("п", "p");
str = str.Replace("П", "P");
str = str.Replace("р", "r");
str = str.Replace("Р", "R");
str = str.Replace("с", "s");
str = str.Replace("С", "S");
str = str.Replace("ч", "ch");
str = str.Replace("Ч", "CH");
str = str.Replace("ш", "sh");
str = str.Replace("Щ", "SHH");
str = str.Replace("ю", "yu");
str = str.Replace("Ю", "YU");
str = str.Replace("Я", "YA");
str = str.Replace("я", "ya");
str = str.Replace('ь', '"');
str = str.Replace("Ь", "");
str = str.Replace('т', 't');
str = str.Replace("Т", "T");
str = str.Replace('ц', 'c');
str = str.Replace("Ц", "C");
str = str.Replace('о', 'o');
str = str.Replace("О", "O");
str = str.Replace('е', 'e');
str = str.Replace("Е", "E");
str = str.Replace('а', 'a');
str = str.Replace("А", "A");
str = str.Replace('ф', 'f');
str = str.Replace("Ф", "F");
str = str.Replace('і', 'i');
str = str.Replace("І", "I");
str = str.Replace('У', 'U');
str = str.Replace("у", "u");
str = str.Replace('х', 'x');
str = str.Replace("Х", "X");
return str;
}