Как проверить, является ли строка допустимым идентификатором python? включая проверку ключевых слов?
Кто-нибудь знает, есть ли встроенный метод python, который будет проверять, является ли что-то допустимым именем переменной python, ВКЛЮЧАЯ проверку с использованием зарезервированных ключевых слов? (так что, например, что-то вроде "in" или "for" будет терпеть неудачу...)
В противном случае кто-нибудь знает, где я могу получить список зарезервированных ключевых слов (т.е. дианально, изнутри python, в отличие от копирования и вставки чего-либо из онлайн-документов)? Или у вас есть еще один хороший способ написать собственный чек?
Удивительно, что тестирование путем упаковки setattr в try/except не работает, как-то вроде этого:
setattr(myObj, 'My Sweet Name!', 23)
... на самом деле работает! (... и даже можно получить с помощью getattr!)
Ответы
Ответ 1
Модуль keyword
содержит список всех зарезервированных ключевых слов:
>>> import keyword
>>> keyword.iskeyword("in")
True
>>> keyword.kwlist
['and', 'as', 'assert', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'exec', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'is', 'lambda', 'not', 'or', 'pass', 'print', 'raise', 'return', 'try', 'while', 'with', 'yield']
Обратите внимание, что этот список будет отличаться в зависимости от того, какую основную версию Python вы используете, поскольку список ключевых слов изменяется (особенно между Python 2 и Python 3).
Если вам также нужны все встроенные имена, используйте __builtins__
>>> dir(__builtins__)
['ArithmeticError', 'AssertionError', 'AttributeError', 'BaseException', 'BlockingIOError', 'BrokenPipeError', 'BufferError', 'BytesWarning', 'ChildProcessError', 'ConnectionAbortedError', 'ConnectionError', 'ConnectionRefusedError', 'ConnectionResetError', 'DeprecationWarning', 'EOFError', 'Ellipsis', 'EnvironmentError', 'Exception', 'False', 'FileExistsError', 'FileNotFoundError', 'FloatingPointError', 'FutureWarning', 'GeneratorExit', 'IOError', 'ImportError', 'ImportWarning', 'IndentationError', 'IndexError', 'InterruptedError', 'IsADirectoryError', 'KeyError', 'KeyboardInterrupt', 'LookupError', 'MemoryError', 'NameError', 'None', 'NotADirectoryError', 'NotImplemented', 'NotImplementedError', 'OSError', 'OverflowError', 'PendingDeprecationWarning', 'PermissionError', 'ProcessLookupError', 'ReferenceError', 'ResourceWarning', 'RuntimeError', 'RuntimeWarning', 'StopIteration', 'SyntaxError', 'SyntaxWarning', 'SystemError', 'SystemExit', 'TabError', 'TimeoutError', 'True', 'TypeError', 'UnboundLocalError', 'UnicodeDecodeError', 'UnicodeEncodeError', 'UnicodeError', 'UnicodeTranslateError', 'UnicodeWarning', 'UserWarning', 'ValueError', 'Warning', 'ZeroDivisionError', '_', '__build_class__', '__debug__', '__doc__', '__import__', '__name__', '__package__', 'abs', 'all', 'any', 'ascii', 'bin', 'bool', 'bytearray', 'bytes', 'callable', 'chr', 'classmethod', 'compile', 'complex', 'copyright', 'credits', 'delattr', 'dict', 'dir', 'divmod', 'enumerate', 'eval', 'exec', 'exit', 'filter', 'float', 'format', 'frozenset', 'getattr', 'globals', 'hasattr', 'hash', 'help', 'hex', 'id', 'input', 'int', 'isinstance', 'issubclass', 'iter', 'len', 'license', 'list', 'locals', 'map', 'max', 'memoryview', 'min', 'next', 'object', 'oct', 'open', 'ord', 'pow', 'print', 'property', 'quit', 'range', 'repr', 'reversed', 'round', 'set', 'setattr', 'slice', 'sorted', 'staticmethod', 'str', 'sum', 'super', 'tuple', 'type', 'vars', 'zip']
И обратите внимание, что некоторые из них (например, copyright
) на самом деле не так важны для сделки.
Еще одно предостережение: обратите внимание, что в Python 2, True
, False
и None
не считаются ключевыми словами. Однако присвоение None
является синтаксисом. Присвоение True
или False
допускается, хотя и не рекомендуется (то же самое с любым другим встроенным). В Python 3 это ключевые слова, поэтому это не проблема.
Ответ 2
Python 3
Теперь у Python 3 есть 'foo'.isidentifier()
, поэтому это лучшее решение для последних версий Python (спасибо коллеге-runciter @freenode за предложение). Однако, несколько контр-интуитивно, он не проверяет список ключевых слов, поэтому необходимо использовать комбинацию из них:
import keyword
def isidentifier(ident: str) -> bool:
"""Determines if string is valid Python identifier."""
if not isinstance(ident, str):
raise TypeError("expected str, but got {!r}".format(type(ident)))
if not ident.isidentifier():
return False
if keyword.iskeyword(ident):
return False
return True
Python 2
Для Python 2 проще всего проверить правильность заданной строки. Идентификатор Python позволяет Python самостоятельно анализировать его.
Существует два возможных подхода. Сначала используется модуль tokenize
и проверяем поток токенов, чтобы содержать только наше имя:
import keyword
import tokenize
def isidentifier(ident):
"""Determines if string is valid Python identifier."""
# Smoke test — if it not string, then it not identifier, but we don't
# want to just silence exception. It better to fail fast.
if not isinstance(ident, str):
raise TypeError("expected str, but got {!r}".format(type(ident)))
# Quick test — if string is in keyword list, it definitely not an ident.
if keyword.iskeyword(ident):
return False
readline = (lambda: (yield ident.encode('utf-8-sig')))().__next__
tokens = list(tokenize.tokenize(readline))
# You should get exactly 3 tokens
if len(tokens) != 3:
return False
# First one is ENCODING, it always utf-8 because we explicitly passed in
# UTF-8 BOM with ident.
if tokens[0].type != tokenize.ENCODING:
return False
# Second is NAME, identifier.
if tokens[1].type != tokenize.NAME:
return False
# Name should span all the string, so there would be no whitespace.
if ident != tokens[1].string:
return False
# Third is ENDMARKER, ending stream
if tokens[2].type != tokenize.ENDMARKER:
return False
return True
Во-вторых, нужно использовать ast
и проверить, имеет ли AST одно выражение желаемую форму:
import ast
def isidentifier(ident):
"""Determines, if string is valid Python identifier."""
# Smoke test — if it not string, then it not identifier, but we don't
# want to just silence exception. It better to fail fast.
if not isinstance(ident, str):
raise TypeError("expected str, but got {!r}".format(type(ident)))
# Resulting AST of simple identifier is <Module [<Expr <Name "foo">>]>
try:
root = ast.parse(ident)
except SyntaxError:
return False
if not isinstance(root, ast.Module):
return False
if len(root.body) != 1:
return False
if not isinstance(root.body[0], ast.Expr):
return False
if not isinstance(root.body[0].value, ast.Name):
return False
if root.body[0].value.id != ident:
return False
return True
И вот несколько тестов для проверки работы:
assert(isidentifier('foo'))
assert(isidentifier('foo1_23'))
assert(not isidentifier('pass')) # syntactically correct keyword
assert(not isidentifier('foo ')) # trailing whitespace
assert(not isidentifier(' foo')) # leading whitespace
assert(not isidentifier('1234')) # number
assert(not isidentifier('1234abc')) # number and letters
assert(not isidentifier('👻')) # Unicode not from allowed range
assert(not isidentifier('')) # empty string
assert(not isidentifier(' ')) # whitespace only
assert(not isidentifier('foo bar')) # several tokens
assert(not isidentifier('no-dashed-names-for-you')) # no such thing in Python
# Unicode identifiers are only allowed in Python 3:
assert(isidentifier('℘᧚')) # Unicode $Other_ID_Start and $Other_ID_Continue
Кроме того, забавный факт - несмотря на то, что ℘᧚
является совершенно корректным идентификатором Python 3, модуль tokenize
считает его маркером ошибки. ast
работает отлично, хотя:)
Ответ 3
Джон: как небольшое улучшение, я добавил $в re, в противном случае тест не обнаруживает пробелы:
import keyword
import re
my_var = "$testBadVar"
print re.match("[_A-Za-z][_a-zA-Z0-9]*$",my_var) and not keyword.iskeyword(my_var)
Ответ 4
Список ключевых слов python является коротким, поэтому вы можете просто проверить синтаксис с простым регулярным выражением и членство в относительно небольшом списке ключевых слов
import keyword #thanks asmeurer
import re
my_var = "$testBadVar"
print re.match("[_A-Za-z][_a-zA-Z0-9]*",my_var) and not keyword.iskeyword(my_var)
более короткая, но более опасная альтернатива была бы
my_bad_var="%#ASD"
try:exec("{0}=1".format(my_bad_var))
except SyntaxError: #this maynot be right error
print "Invalid variable name!"
и, наконец, немного более безопасный вариант
my_bad_var="%#ASD"
try:
cc = compile("{0}=1".format(my_bad_var),"asd","single")
eval(cc)
print "VALID"
except SyntaxError: #maybe different error
print "INVALID!"