Ответ 1
string sOut = Encoding.ASCII.GetString(Encoding.ASCII.GetBytes(s))
У меня есть процедура С#, которая импортирует данные из файла CSV, сопоставляет его с базой данных и затем перезаписывает ее в файл. Кажется, что в исходном файле есть несколько символов, отличных от ASCII, которые загрязняют процедуру обработки.
У меня уже есть статический метод, который я запускаю каждое поле ввода, но он выполняет основные проверки, такие как удаление запятых и кавычек. Кто-нибудь знает, как я могу добавить функциональность, которая также удаляет символы, отличные от ASCII?
string sOut = Encoding.ASCII.GetString(Encoding.ASCII.GetBytes(s))
Здесь простое решение:
public static bool IsASCII(this string value)
{
// ASCII encoding replaces non-ascii with question marks, so we use UTF8 to see if multi-byte sequences are there
return Encoding.UTF8.GetByteCount(value) == value.Length;
}
источник: http://snipplr.com/view/35806/
Если вы хотите протестировать определенный символ, вы можете использовать
if ((int)myChar <= 127)
Простое получение ASCII-кодировки строки не скажет вам, что конкретный символ был не ASCII для начала (если вам это интересно). См. MSDN.
Сделайте все сразу
public string ReturnCleanASCII(string s)
{
StringBuilder sb = new StringBuilder(s.Length);
foreach(char c in s)
{
if((int)c > 127) // you probably don't want 127 either
continue;
if((int)c < 32) // I bet you don't want control characters
continue;
if(c == ',')
continue;
if(c == '"')
continue;
sb.Append(c);
}
return sb.ToString();
}
Здесь улучшается принятый ответ:
string fallbackStr = "";
Encoding enc = Encoding.GetEncoding(Encoding.ASCII.CodePage,
new EncoderReplacementFallback(fallbackStr),
new DecoderReplacementFallback(fallbackStr));
string cleanStr = enc.GetString(enc.GetBytes(inputStr));
Этот метод заменит неизвестные символы значением fallbackStr
, или если fallbackStr
пусто, оставьте их полностью. (Обратите внимание, что enc
можно определить вне области действия функции.)
Звучит странно, что принято отказаться от не-ASCII.
Также я рекомендую отличную FileHelpers библиотеку для разбора CSV файлов.
public string RunCharacterCheckASCII(string s)
{
string str = s;
bool is_find = false;
char ch;
int ich = 0;
try
{
char[] schar = str.ToCharArray();
for (int i = 0; i < schar.Length; i++)
{
ch = schar[i];
ich = (int)ch;
if (ich > 127) // not ascii or extended ascii
{
is_find = true;
schar[i] = '?';
}
}
if (is_find)
str = new string(schar);
}
catch (Exception ex)
{
}
return str;
}