Преобразование объектов Unicode с не-ASCII-символами в них в объекты строк (в Python)

Я хочу отправить китайские иероглифы для перевода онлайн-службой и вернуть полученную английскую строку. Я использую простой JSON и urllib для этого.

Теперь все работает нормально, если я передаю urllib объект типа строки, даже если этот объект содержит информацию о Unicode. Моя функция называется translate.

и попытайтесь использовать мою функцию перевода. Я получаю эту ошибку:

После небольшого исследования кажется, что это обычная проблема:

Моя проблема заключается в том, что я не контролирую, как передаваемая информация подходит к моей функции. И мне кажется, что я должен привести его в форму Unicode, которая не принимается функцией.

Итак, как мне преобразовать одну вещь в другую?

Но это не то, что мне нужно. Urllib принимает строковый объект, но не объект Unicode, оба содержат одну и ту же информацию

Ну, по крайней мере, в глазах веб-приложения я отправляю неизмененную информацию, я не уверен, что они все еще эквивалентны в Python.

Ответы

Ответ 1

Когда вы получаете объект unicode и хотите вернуть из него закодированную строку байта UTF-8, используйте theobject.encode('utf8').

Кажется странным, что вы не знаете, является ли входящий объект str или unicode - наверняка, вы также контролируете сайты вызовов этой функцией? Но если это действительно так, по какой бы то ни было странной причине вам может понадобиться что-то вроде:

def ensureutf8(s):
    if isinstance(s, unicode):
        s = s.encode('utf8')
    return s

который кодируется только условно, то есть, если он получает объект unicode, а не если объект, который он принимает, уже является байтовой строкой. Он возвращает байтовую строку в любом случае.

Кстати, часть вашего замешательства, похоже, связана с тем фактом, что вы не знаете, что просто ввод выражения в приглашении интерпретатора покажет вам его repr, что не является тем же эффектом, который вы получаете с помощью print; -.)