Резкое различие в "эквивалентном" никогда не совпадающем регулярном выражении?

Однако после моего тестирования я заметил, что регулярное выражение 'a^' и 'x^' потребовало совершенно разных времен, чтобы проверить, хотя они должны быть идентичными. (Только случайно я даже переключил персонажа.) Эти тайминги ниже.

Онлайн-тестирование (только с первых 50 строк) показывает то же поведение (1441880 шагов и ~ 710 мс только с 40858 шагов и ~ 113 мс): https://regex101.com/r/AwaHmK/1

Что здесь делает Python, который делает 'a^' намного длиннее 'x^'?

Чтобы увидеть, что происходит внутри timeit или IPython, я сам написал простую функцию синхронизации, и все проверяет:

Я также воспроизвел мои результаты за пределами IPython в стандартной оболочке 3.5.2. Таким образом, странность не ограничена ни IPython, ни timeit.

Ответы

Ответ 1

Как упоминалось в связанном вопросе, это регулярное выражение просматривает весь текст.

Разница, которую вы видите, просто потому, что a является такой общей буквой в тексте на английском языке, и вы использовали "читаемые" данные. Итак, если вы изучите, как работают двигатели регулярных выражений, вы поймете: использование a^ вызывает еще много задержек из-за поиска предварительных совпадений в первом a, которые затем будут отклоняться позже. Поскольку x является необычным в корпусе, он тратит меньше времени - больше позиций в тексте может быть немедленно отброшено.

Если вы используете другую общую букву на английском языке в своем шаблоне, например e^, она будет такой же медленной (e будет, вероятно, еще медленнее, чем a).
Если вы используете случайные байты вместо реального текста, то как шаблоны x^, так и a^ будут работать аналогичным образом.

Итак, ваши два эквивалентных шаблона регулярных выражений, не соответствующих друг другу, не так эквивалентны. Двигатель имеет две "головки считывания", которые перемещаются слева направо - один движется в строке, один перемещается по шаблону регулярных выражений - и с шаблоном a^ в сочетании с вашим выбором данных, двигатель регулярных выражений должен делать больше Работа.