Проверьте, является ли строка html или нет.
У меня есть определенная строка, для которой я хочу проверить, является ли она html или нет. Я использую регулярное выражение для того же самого, но не получаю правильный результат.
Я проверил свое регулярное выражение и отлично работает здесь.
var htmlRegex = new RegExp("<([A-Za-z][A-Za-z0-9]*)\b[^>]*>(.*?)</\1>");
return htmlRegex.test(testString);
Здесь скрипка, но регулярное выражение не работает. http://jsfiddle.net/wFWtc/
На моей машине код работает нормально, но в результате я получаю false вместо true.
Что здесь отсутствует?
Ответы
Ответ 1
Чтобы проверить, является ли строка HTML-кодом, лучше использовать следующее:
/^/
Например:
/^/.test('') // true
/^/.test('foo bar baz') //true
/^/.test('<p>fizz buzz</p>') //true
На самом деле, он настолько хорош, что будет возвращать true
для каждой переданной ему строки, потому что каждая строка - это HTML. Серьезно, даже если он плохо отформатирован или недействителен, он все равно HTML.
Если вам нужно наличие HTML-элементов, а не просто текстового содержимого, вы можете использовать что-то вроде:
/<\/?[a-z][\s\S]*>/i.test()
Это никак не поможет вам разобрать HTML, но, безусловно, пометит строку как содержащую элементы HTML.
Ответ 2
Способ № 1. Вот простая функция для проверки, содержит ли строка данные HTML:
function isHTML(str) {
var a = document.createElement('div');
a.innerHTML = str;
for (var c = a.childNodes, i = c.length; i--; ) {
if (c[i].nodeType == 1) return true;
}
return false;
}
Идея состоит в том, чтобы позволить анализатору DOM браузера решать, выглядит ли предоставленная строка как HTML или нет. Как вы можете видеть, он просто проверяет наличие ELEMENT_NODE
(nodeType
из 1).
Я сделал пару тестов и похоже, что это работает:
isHTML('<a>this is a string</a>') // true
isHTML('this is a string') // false
isHTML('this is a <b>string</b>') // true
Это решение будет правильно определять строку HTML, однако имеет побочный эффект, например img/vide/etc. теги начнут загружать ресурс после разбора на innerHTML.
Метод № 2. Другой метод использует DOMParser и не имеет побочных эффектов при загрузке ресурсов:
function isHTML(str) {
var doc = new DOMParser().parseFromString(str, "text/html");
return Array.from(doc.body.childNodes).some(node => node.nodeType === 1);
}
Примечания:
1. Array.from
- это метод ES2015, его можно заменить на [].slice.call(doc.body.childNodes)
.
2. Функция стрелки в вызове some
может быть заменена обычной анонимной функцией.
Ответ 3
Немного проверки с помощью:
/<(?=.*? .*?\/ ?>|br|hr|input|!--|wbr)[a-z]+.*?>|<([a-z]+).*?<\/\1>/i.test(htmlStringHere)
Это ищет пустые теги (некоторые предопределенные) и /
завершенные XHTML пустые теги и проверяет как HTML из-за пустого тега ИЛИ будет захватывать имя тега и пытаться найти его закрывающий тег где-то в строке для проверки как HTML.
Объяснение демо: http://regex101.com/r/cX0eP2
Update:
Полная проверка с помощью:
/<(br|basefont|hr|input|source|frame|param|area|meta|!--|col|link|option|base|img|wbr|!DOCTYPE).*?>|<(a|abbr|acronym|address|applet|article|aside|audio|b|bdi|bdo|big|blockquote|body|button|canvas|caption|center|cite|code|colgroup|command|datalist|dd|del|details|dfn|dialog|dir|div|dl|dt|em|embed|fieldset|figcaption|figure|font|footer|form|frameset|head|header|hgroup|h1|h2|h3|h4|h5|h6|html|i|iframe|ins|kbd|keygen|label|legend|li|map|mark|menu|meter|nav|noframes|noscript|object|ol|optgroup|output|p|pre|progress|q|rp|rt|ruby|s|samp|script|section|select|small|span|strike|strong|style|sub|summary|sup|table|tbody|td|textarea|tfoot|th|thead|time|title|tr|track|tt|u|ul|var|video).*?<\/\2>/i.test(htmlStringHere)
Это делает правильную проверку, так как содержит теги HTML ВСЕ, сначала пустые, затем остальные, которым нужен закрытый тег.
Разъяснение демо: http://regex101.com/r/pE1mT5
Ответ 4
ответ zzzzBov выше, это хорошо, но он не учитывает блуждающие закрывающие теги, например, например:
/<[a-z][\s\S]*>/i.test('foo </b> bar'); // false
Версия, которая также захватывает закрывающие теги, может быть такой:
/<[a-z/][\s\S]*>/i.test('foo </b> bar'); // true
Ответ 5
Здесь неаккуратный однострочный вкладыш, который я использую время от времени:
var isHTML = RegExp.prototype.test.bind(/(<([^>]+)>)/i);
Он будет в основном возвращать true
для строк, содержащих <
, за которым следует ANYTHING
, а затем >
.
Под ANYTHING
я подразумеваю в основном что угодно, кроме пустой строки.
Это не здорово, но это однострочный.
Использование
isHTML('Testing'); // false
isHTML('<p>Testing</p>'); // true
isHTML('<img src="hello.jpg">'); // true
isHTML('My < weird > string'); // true (caution!!!)
isHTML('<>'); // false
Как вы можете видеть, это далеко не идеально, но может сделать это для вас в некоторых случаях.
Ответ 6
Все ответы здесь чрезмерны, они просто ищут <
, а затем >
. Не существует идеального способа определить, является ли строка HTML, но вы можете добиться большего.
Ниже мы ищем конечные теги, и они будут гораздо более точными и точными:
import re
re_is_html = re.compile(r"(?:</[^<]+>)|(?:<[^<]+/>)")
И вот оно в действии:
# Correctly identified as not HTML:
print re_is_html.search("Hello, World")
print re_is_html.search("This is less than <, this is greater than >.")
print re_is_html.search(" a < 3 && b > 3")
print re_is_html.search("<<Important Text>>")
print re_is_html.search("<a>")
# Correctly identified as HTML
print re_is_html.search("<a>Foo</a>")
print re_is_html.search("<input type='submit' value='Ok' />")
print re_is_html.search("<br/>")
# We don't handle, but could with more tweaking:
print re_is_html.search("<br>")
print re_is_html.search("Foo & bar")
print re_is_html.search("<input type='submit' value='Ok'>")
Ответ 7
Если вы создаете регулярное выражение из строкового литерала, вам нужно избежать любых обратных косых черт:
var htmlRegex = new RegExp("<([A-Za-z][A-Za-z0-9]*)\\b[^>]*>(.*?)</\\1>");
// extra backslash added here ---------------------^ and here -----^
Это не обязательно, если вы используете литерал регулярного выражения, но тогда вам нужно избежать косой черты:
var htmlRegex = /<([A-Za-z][A-Za-z0-9]*)\b[^>]*>(.*?)<\/\1>/;
// forward slash escaped here ------------------------^
Также ваш jsfiddle не работал, потому что вы назначили обработчик onload
внутри другого обработчика onload
- по умолчанию, как указано на панели "Рамки и расширения" слева, это обернуть JS в onload
. Измените это на параметр nowrap и исправьте строковый литерал, и он "работает" (в пределах ограничений, которые все указали в комментариях): http://jsfiddle.net/wFWtc/4/
Насколько я знаю, регулярные выражения JavaScript не имеют обратных ссылок. Итак, эта часть вашего выражения:
</\1>
не будет работать в JS (но будет работать на некоторых других языках).
Ответ 8
С помощью jQuery:
function isHTML(str) {
return /^<.*?>$/.test(str) && !!$(str)[0];
}
Ответ 9
/<\/?[^>]*>/.test(str)
Только определить, содержит ли он html-теги, может быть xml
Ответ 10
Используя jQuery в этом случае, простейшая форма:
if ($(testString).length > 0)
Если $(testString).length = 1
, это означает, что внутри textStging
есть один тег HTML.