Python: UnicodeEncodeError: кодек "latin-1" не может кодировать символ
Я нахожусь в сценарии, где я вызываю api и на основе результатов api я вызываю базу данных для каждой записи, которую я в api. Мои строки api call возвращают и когда я делаю вызов базы данных для возвращаемых элементов api, для некоторых элементов я получаю следующую ошибку.
Traceback (most recent call last):
File "TopLevelCategories.py", line 267, in <module>
cursor.execute(categoryQuery, {'title': startCategory});
File "/opt/ts/python/2.7/lib/python2.7/site-packages/MySQLdb/cursors.py", line 158, in execute
query = query % db.literal(args)
File "/opt/ts/python/2.7/lib/python2.7/site-packages/MySQLdb/connections.py", line 265, in literal
return self.escape(o, self.encoders)
File "/opt/ts/python/2.7/lib/python2.7/site-packages/MySQLdb/connections.py", line 203, in unicode_literal
return db.literal(u.encode(unicode_literal.charset))
UnicodeEncodeError: 'latin-1' codec can't encode character u'\u2013' in position 3: ordinal not in range(256)
Отрезком моего кода, на который ссылается указанная выше ошибка, является:
...
for startCategory in value[0]:
categoryResults = []
try:
categoryRow = ""
baseCategoryTree[startCategory] = []
#print categoryQuery % {'title': startCategory};
cursor.execute(categoryQuery, {'title': startCategory}) #unicode issue
done = False
cont...
После выполнения какого-либо поиска в Google я попробовал следующее в моей командной строке, чтобы понять, что происходит...
>>> import sys
>>> u'\u2013'.encode('iso-8859-1')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'latin-1' codec can't encode character u'\u2013' in position 0: ordinal not in range(256)
>>> u'\u2013'.encode('cp1252')
'\x96'
>>> '\u2013'.encode('cp1252')
'\\u2013'
>>> u'\u2013'.encode('cp1252')
'\x96'
Но я не уверен, каково было бы решение этой проблемы. Кроме того, я не знаю, что такое теория за encode('cp1252')
, было бы здорово, если бы я мог получить некоторое объяснение тому, что я пробовал выше.
Ответы
Ответ 1
Если вам нужна кодировка Latin-1, у вас есть несколько вариантов, чтобы избавиться от указаний или других кодовых пунктов выше 255 (символы, не включенные в Latin-1):
>>> u = u'hello\u2013world'
>>> u.encode('latin-1', 'replace') # replace it with a question mark
'hello?world'
>>> u.encode('latin-1', 'ignore') # ignore it
'helloworld'
Или выполните собственные изменения:
>>> u.replace(u'\u2013', '-').encode('latin-1')
'hello-world'
Если вам не требуется выводить Latin-1, UTF-8 является общим и предпочтительным выбором. Он рекомендуется W3C и красиво кодирует все кодовые точки Unicode:
>>> u.encode('utf-8')
'hello\xe2\x80\x93world'
Ответ 2
Unicode-символ u '\ 02013' является "черточкой". Он содержится в наборе символов Windows-1252 (cp1252) (с кодировкой x96), но не в наборе символов Latin-1 (iso-8859-1). Набор символов Windows-1252 имеет еще несколько символов, определенных в области x80 - x9f, среди которых - тире.
Решением было бы выбрать другой целевой набор символов, нежели Latin-1, такой как Windows-1252 или UTF-8, или заменить черточку на простой "-".
Ответ 3
u.encode('utf-8')
преобразует его в байты, которые затем могут быть напечатаны на stdout с помощью sys.stdout.buffer.write(bytes)
выгрузить displayhook
https://docs.python.org/3/library/sys.html