String.translate() с данными unicode в python
У меня есть 3 API, которые возвращают данные json в 3 словарных переменных. Я беру некоторые значения из словаря для их обработки. Я прочитал конкретные значения, которые я хочу в списке valuelist
. Одним из шагов является удаление знаков препинания. Обычно я использую string.translate(None, string.punctuation)
для этого процесса, но поскольку данные словаря являются unicode, я получаю ошибку:
wordlist = [s.translate(None, string.punctuation)for s in valuelist]
TypeError: translate() takes exactly one argument (2 given)
Есть ли способ обойти это? Либо путем кодирования Unicode, либо замены для string.translate
?
Ответы
Ответ 1
Метод перевода выполняется по-разному для объектов Unicode, чем для объектов с байтовой строкой:
>>> help(unicode.translate)
S.translate(table) -> unicode
Return a copy of the string S, where all characters have been mapped
through the given translation table, which must be a mapping of
Unicode ordinals to Unicode ordinals, Unicode strings or None.
Unmapped characters are left untouched. Characters mapped to None
are deleted.
Таким образом, ваш пример станет следующим:
remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)
word_list = [s.translate(remove_punctuation_map) for s in value_list]
Обратите внимание, что string.punctuation
содержит только знаки ASCII. Полный Unicode имеет много других символов пунктуации, но все зависит от вашего варианта использования.
Ответ 2
Я заметил, что string.translate устарел. Поскольку вы удаляете пунктуацию, а не переводя символы, вы можете использовать функцию re.sub.
>>> import re
>>> s1="this.is a.string, with; (punctuation)."
>>> s1
'this.is a.string, with; (punctuation).'
>>> re.sub("[\.\t\,\:;\(\)\.]", "", s1, 0, 0)
'thisis astring with punctuation'
>>>
Ответ 3
В этой версии вы можете сделать одну букву с другим
def trans(to_translate):
tabin = u'привет'
tabout = u'тевирп'
tabin = [ord(char) for char in tabin]
translate_table = dict(zip(tabin, tabout))
return to_translate.translate(translate_table)
Ответ 4
Модуль Python re
позволяет использовать функцию в качестве аргумента замены, которая должна принимать объект Match
и возвращать подходящую замену, Мы можем использовать эту функцию для создания пользовательской функции перевода символов:
import re
def mk_replacer(oldchars, newchars):
"""A function to build a replacement function"""
mapping = dict(zip(oldchars, newchars))
def replacer(match):
"""A replacement function to pass to re.sub()"""
return mapping.get(match.group(0), "")
return replacer
Пример. Сопоставьте все строчные буквы ([a-z]
), переведите "h" и "i" в "H" и "I" соответственно, удалите другие совпадения:
>>> re.sub("[a-z]", mk_replacer("hi", "HI"), "hail")
'HI'
Как вы можете видеть, его можно использовать с короткими (незавершенными) наборами замены, и его можно использовать для удаления некоторых символов.
Пример Unicode:
>>> re.sub("[\W]", mk_replacer(u'\u0435\u0438\u043f\u0440\u0442\u0432', u"EIPRTV"), u'\u043f\u0440\u0438\u0432\u0435\u0442')
u'PRIVET'
Ответ 5
Когда я наткнулся на ту же проблему, и ответ Саймона был тем, который помог мне решить мое дело, я подумал о том, чтобы показать более простой пример только для разъяснения:
from collections import defaultdict
И затем для перевода, скажем, вы хотите удалить символы "@" и "\ r":
remove_chars_map = defaultdict()
remove_chars_map['@'] = None
remove_chars_map['\r'] = None
new_string = old_string.translate(remove_chars_map)
И пример:
old_string = "word1 @\r word2 @\r word3 @\r"
new_string = "word1 word2 word3"
'@' и '\ r' удалены