Регулярное выражение - любой текст, подходящий для URL-адреса
Регулярное выражение PHP script, чтобы удалить все, что не является алфавитной буквой или числом от 0 до 9, и заменить пространство на дефис - изменить на нижний регистр, убедитесь, что есть только один дефис - между словами no - или --- и др.
Например:
Пример: Быстрая коричневая лиса подпрыгнула
Результат: быстрый-коричневый-лиса-прыгнувший
Пример: Быстрая коричневая лиса подпрыгнула!
Результат: быстрый-коричневый-лиса-прыгнувший
Пример: Быстрая коричневая лиса - прыгнула!
Результат: быстрый-коричневый-лиса-прыгнувший
Пример: быстрый ~ `! @# $% ^ & *() _ + = ------- brown {} |] [:" '; < > ?.,/fox - прыгнул!
Результат: быстрый-коричневый-лиса-прыгнувший
Пример: быстрый 1234567890 ~ `! @# $% ^ & *() _ + = ------- brown {} |] [:" '; < > ?.,/fox - прыгнули!
Результат: the-quick-1234567890-brown-fox-jumped
У кого-нибудь есть идея для регулярного выражения?
Спасибо!
Ответы
Ответ 1
Поскольку вам кажется, что все последовательности не-алфавитно-цифровых символов заменяются одним дефисом, вы можете использовать это:
$str = preg_replace('/[^a-zA-Z0-9]+/', '-', $str);
Но это может привести к тому, что ведущие или конечные дефисы могут быть удалены с помощью trim
:
$str = trim($str, '-');
И чтобы преобразовать результат в нижний регистр, используйте strtolower
:
$str = strtolower($str);
Итак, все вместе:
$str = strtolower($str);
$str = trim($str, '-');
$str = preg_replace('/[^a-z0-9]+/', '-', $str);
Или в компактном однострочном слое:
$str = strtolower(trim(preg_replace('/[^a-zA-Z0-9]+/', '-', $str), '-'));
Ответ 2
Я просто работал с чем-то подобным, и я придумал этот маленький кусок кода, он также предполагает использование латинских символов.
Это пример строки:
$str = 'El veloz murciélago hindú comía fe<!>&@#$%&!"#%&?¡?*liz cardillo y kiwi. La cigüeña ¨^;.-|°¬tocaba el saxofón detrás del palenque de paja';
Сначала я конвертирую строку в htmlentities, чтобы упростить ее использование позже.
$friendlyURL = htmlentities($str, ENT_COMPAT, "UTF-8", false);
Затем я заменяю латинские символы соответствующими символами ascii (á
становится a
, Ü
становится U
и т.д.):
$friendlyURL = preg_replace('/&([a-z]{1,2})(?:acute|circ|lig|grave|ring|tilde|uml|cedil|caron);/i','\1',$friendlyURL);
Затем я преобразовываю строку обратно из html-объектов в символы, снова для более удобного использования позже.
$friendlyURL = html_entity_decode($friendlyURL,ENT_COMPAT, "UTF-8");
Затем я заменяю все не алфавитно-цифровые символы на дефисы.
$friendlyURL = preg_replace('/[^a-z0-9-]+/i', '-', $friendlyURL);
Я удаляю лишние дефиши внутри строки:
$friendlyURL = preg_replace('/-+/', '-', $friendlyURL);
Я удаляю ведущие и конечные дефисы:
$friendlyURL = trim($friendlyURL, '-');
И, наконец, преобразуем все в строчные буквы:
$friendlyURL = strtolower($friendlyURL);
Все вместе:
function friendlyUrl ($str = '') {
$friendlyURL = htmlentities($str, ENT_COMPAT, "UTF-8", false);
$friendlyURL = preg_replace('/&([a-z]{1,2})(?:acute|circ|lig|grave|ring|tilde|uml|cedil|caron);/i','\1',$friendlyURL);
$friendlyURL = html_entity_decode($friendlyURL,ENT_COMPAT, "UTF-8");
$friendlyURL = preg_replace('/[^a-z0-9-]+/i', '-', $friendlyURL);
$friendlyURL = preg_replace('/-+/', '-', $friendlyURL);
$friendlyURL = trim($friendlyURL, '-');
$friendlyURL = strtolower($friendlyURL);
return $friendlyURL;
}
Тест:
$str = 'El veloz murciélago hindú comía fe<!>&@#$%&!"#%&-?¡?*-liz cardillo y kiwi. La cigüeña ¨^`;.-|°¬tocaba el saxofón detrás del palenque de paja';
echo friendlyUrl($str);
Результат:
el-veloz-murcielago-hindu-comia-fe-liz-cardillo-y-kiwi-la-ciguena-tocaba-el-saxofon-detras-del-palenque-de-paja
Я думаю, что ответ Gumbo лучше подходит для вашей проблемы, и это более короткий код, но я думал, что это будет полезно для других.
Cheers,
Adriana
Ответ 3
В функции:
function sanitize_text_for_urls ($str)
{
return trim( strtolower( preg_replace(
array('/[^a-z0-9-\s]/ui', '/\s/', '/-+/'),
array('', '-', '-'),
iconv('UTF-8', 'ASCII//TRANSLIT', $str) )), '-');
}
Что он делает:
// Solve accents and diacritics
$str = iconv('UTF-8', 'ASCII//TRANSLIT', $str);
// Leave only alphanumeric (respect existing hyphens)
$str = preg_replace('/[^a-z0-9-\s]/ui', '', $str);
// Turn spaces to hyphens
$str = preg_replace('/\s+/', '-', $str);
// Remove duplicate hyphens
$str = preg_replace('/-+/', '-', $str);
// Remove trailing hyphens
$str = trim($str, '-');
// Turn to lowercase
$str = strtolower($str);
Примечание:
Вы можете объединить несколько preg_replace
, передав массив. См. Функцию вверху.
Например:
// Électricité, plâtrerie --> electricite-platrerie
// St. Lücie-Pétêrès --> st-lucie-peteres
// -Façade- & gros œuvre --> facade-gros-oeuvre
// _-Thè quîck ~`[email protected]#&$%^ &*()_+= ---{}|][ :"; <>?.,/ fóx - jümpëd_-
// the-quick-fox-jumped
EDIT: добавлено "/u" в конце регулярного выражения для использования UTF8
EDIT: учитываются дублированные и ведущие/конечные дефисы, благодаря @LuBre
Ответ 4
Если вы используете это для имен файлов в PHP, ответ Gumbo будет
$str = preg_replace('/[^a-zA-Z0-9.]+/', '-', $str);
$str = trim($str, '-');
$str = strtolower($str);
Добавлен период имен файлов и strtolower()
, а не strtolowercase()
.
Ответ 5
$str = preg_replace('/[^a-zA-Z0-9]/', '-', $str);