UnicodeDecodeError: кодек ascii не может декодировать байт 0xc3 в позиции 23: порядковый номер не в диапазоне (128)

когда я пытаюсь конкатенировать это, я получаю UnicodeDecodeError, когда поле содержит "ñ" или "". Если поле, содержащее "ñ" или "", последнее, я не получаю ошибок.

#...

nombre = fabrica
nombre = nombre.encode("utf-8") + '-' + sector.encode("utf-8")
nombre = nombre.encode("utf-8") + '-' + unidad.encode("utf-8")

#...

return nombre

любая идея? Большое спасибо!

Ответы

Ответ 1

Вы кодируете UTF-8, затем перекодируете в UTF-8. Python может это сделать только в том случае, если он сначала снова декодирует Unicode, но он должен использовать кодек ASCII по умолчанию:

>>> u'ñ'
u'\xf1'
>>> u'ñ'.encode('utf8')
'\xc3\xb1'
>>> u'ñ'.encode('utf8').encode('utf8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

Не хранить кодировку; оставьте кодировку в UTF-8 до последнего момента. Вместо этого сопоставьте значения Unicode.

Вы можете использовать str.join() (или, вернее, unicode.join()) здесь, чтобы объединить три значения с тирерами между ними:

nombre = u'-'.join(fabrica, sector, unidad)
return nombre.encode('utf-8')

но даже кодирование здесь может быть слишком ранним.

Правило большого пальца: декодируйте момент получения значения (если не значения Unicode, предоставленные API уже), кодируйте только тогда, когда вам нужно (если целевой API не обрабатывает значения Unicode напрямую).

Ответ 2

Когда вы получаете UnicodeEncodeError, это означает, что где-то в вашем коде вы конвертируете непосредственно строку байта в unicode. По умолчанию в Python 2 используется ascii-кодирование и кодировка utf8 в Python3 (оба могут завершиться неудачно, потому что не каждый байт действителен в любой кодировке)

Чтобы избежать этого, вы должны использовать явное декодирование.

Если у вас может быть 2 разных кодировки в вашем входном файле, один из них принимает любой байт (например, UTF8 и Latin1), вы можете попытаться сначала сначала преобразовать строку, а использовать второй, если произойдет UnicodeDecodeError.

def robust_decode(bs):
    '''Takes a byte string as param and convert it into a unicode one.
First tries UTF8, and fallback to Latin1 if it fails'''
    cr = None
    try:
        cr = bs.decode('utf8')
    except UnicodeDecodeError:
        cr = bs.decode('latin1')
    return cr

Если вы не знаете оригинальную кодировку и не заботитесь о символе без ascii, вы можете установить необязательный параметр errors метода decode на replace. Любой оскорбительный байт будет заменен (из стандартной документации библиотеки):

Замените подходящий символ замены; Python будет использовать официальный U + FFFD REPLACEMENT CHARACTER для встроенных кодеков Unicode при декодировании и "? при кодировании.

bs.decode(errors='replace')

Ответ 3

Это решение сработало для моего случая

изменить

my_str = str(my_str) #Basically it removes encoding