Проверка URL Youtube с использованием Regex
Я пытаюсь проверить URL-адреса YouTube для своего приложения.
До сих пор у меня есть следующее:
// Set the youtube URL
$youtube_url = "www.youtube.com/watch?v=vpfzjcCzdtCk";
if (preg_match("/((http\:\/\/){0,}(www\.){0,}(youtube\.com){1} || (youtu\.be){1}(\/watch\?v\=[^\s]){1})/", $youtube_url) == 1)
{
echo "Valid";
else
{
echo "Invalid";
}
Я хочу проверить следующие варианты Youtube Urls:
- С и без http://
- С www и без него.
- С URL-адресами youtube.com и youtu.be
- Должен иметь/смотреть? v =
- Должна иметь уникальную видео-строку (в приведенном выше примере "vpfzjcCzdtCk" )
Однако, я не думаю, что у меня есть моя логика, потому что почему-то она возвращает true для: www.youtube.co/watch?v=vpfzjcCzdtCk
(обратите внимание, что я написал ее неправильно с помощью .co
и не .com
)
Ответы
Ответ 1
В этом регулярном выражении есть много избыточности (а также склонный синдром зубочистки). Это, однако, должно приводить к результатам:
$rx = '~
^(?:https?://)? # Optional protocol
(?:www[.])? # Optional sub-domain
(?:youtube[.]com/watch[?]v=|youtu[.]be/) # Mandatory domain name (w/ query string in .com)
([^&]{11}) # Video id of 11 characters as capture group 1
~x';
$has_match = preg_match($rx, $url, $matches);
// if matching succeeded, $matches[1] would contain the video ID
Некоторые примечания:
- используйте символ тильды
~
как разделитель, чтобы избежать LTS
- используйте
[.]
вместо \.
для улучшения визуальной четкости и избежания LTS. ( "Специальные" символы, такие как точка .
, не влияют на классы символов (в квадратных скобках))
- чтобы сделать регулярные выражения более "читабельными", вы можете использовать модификатор
x
(который имеет дополнительные последствия, см. документы для модификаторов Шаблонов), который также допускает комментарии в регулярных выражениях
- захват может быть подавлен с использованием не-захваченных групп:
(?: <pattern> )
. Это делает выражение более эффективным.
Необязательно, чтобы извлечь значения из (более или менее полного) URL-адреса, вы можете использовать parse_url()
:
$url = 'http://youtube.com/watch?v=VIDEOID';
$parts = parse_url($url);
print_r($parts);
Вывод:
Array
(
[scheme] => http
[host] => youtube.com
[path] => /watch
[query] => v=VIDEOID
)
Проверка имени домена и извлечение идентификатора видео оставлена в качестве упражнения для читателя.
Я поддался комментаторской войне ниже; благодаря Toni Oriol, регулярное выражение теперь работает на коротких (youtu.be) URL-адресах.
Ответ 2
Альтернативой регулярным выражениям будет parse_url()
.
$parts = parse_url($url);
if ($parts['host'] == 'youtube.com' && ...) {
// your code
}
В то время как это больше кода, он более читабельен и, следовательно, более удобен в обслуживании.
Ответ 3
Попробуйте:
// Set the youtube URL
$youtube_url = "www.youtube.com/watch?v=vpfzjcCzdtCk";
if (preg_match("/^((http\:\/\/){0,}(www\.){0,}(youtube\.com){1}|(youtu\.be){1}(\/watch\?v\=[^\s]){1})$/", $youtube_url) == 1)
{
echo "Valid";
}
else
{
echo "Invalid";
}
У вас был || что в любом случае нормально без ^.
Ответ 4
Это должно сделать это:
$valid = preg_match("/^(https?\:\/\/)?(www\.)?(youtube\.com|youtu\.be)\/watch\?v\=\w+$/", $youtube_url);
if ($valid) {
echo "Valid";
} else {
echo "Invalid";
}
Ответ 5
Я откладываю на другие ответы на этой странице для синтаксического анализа синтаксиса URL-адреса, но для самих значений YouTube ID вы можете быть немного более конкретными, как я описываю в следующем ответе на StackExchange/WebApps
Формат для идентификатора видео YouTube - https://webapps.stackexchange.com/a/101153/141734 p >
Идентификатор видео
Для videoId это 8-байтовое (64-разрядное) целое число. Применение Base64-кодирования к 8 байтам данных требует 11 символов. Однако, поскольку каждый символ Base64 передает ровно 6 бит, это распределение может фактически содержать до 11 × 6 = 66
бит - избыток 2 бит по сравнению с тем, что требуется нашей полезной нагрузке. Избыточные биты устанавливаются на ноль, что приводит к исключению определенных символов из когда-либо появляющихся в последней позиции закодированной строки. В частности, videoId всегда заканчивается одним из следующих:
{ A, E, I, M, Q, U, Y, c, g, k, o, s, w, 0, 4, 8 }
Таким образом, регулярное выражение (RegEx) для videoId будет выглядеть следующим образом:
[-_A-Za-z0-9]{10}[AEIMQUYcgkosw048]
Идентификатор канала или списка воспроизведения
Строки channelId и playlistId создаются с помощью Base64-кодирования 128-битного (16-байтового) двоичного целого. Здесь снова вычисление на Base64 правильно прогнозирует наблюдаемую длину строки 22-символа. В этом случае выход способен кодировать биты 22 × 6 = 132
, избыток 4 бит; эти нули заканчиваются тем, что большинство из 64 символов алфавита появляются в последней позиции, и только 4 остаются в силе. Все строки channelId заканчиваются одним из следующих:
{ A, Q, g, w }
Это дает нам регулярное выражение для channelId:
[-_A-Za-z0-9]{21}[AQgw]