Проверьте, является ли строка html или нет.

У меня есть определенная строка, для которой я хочу проверить, является ли она html или нет. Я использую регулярное выражение для того же самого, но не получаю правильный результат.

Я проверил свое регулярное выражение и отлично работает здесь.

var htmlRegex = new RegExp("<([A-Za-z][A-Za-z0-9]*)\b[^>]*>(.*?)</\1>");
return htmlRegex.test(testString);

Здесь скрипка, но регулярное выражение не работает. http://jsfiddle.net/wFWtc/

На моей машине код работает нормально, но в результате я получаю false вместо true. Что здесь отсутствует?

Ответы

Ответ 1

Чтобы проверить, является ли строка HTML-кодом, лучше использовать следующее:

/^/

Например:

/^/.test('') // true
/^/.test('foo bar baz') //true
/^/.test('<p>fizz buzz</p>') //true

На самом деле, он настолько хорош, что будет возвращать true для каждой переданной ему строки, потому что каждая строка - это HTML. Серьезно, даже если он плохо отформатирован или недействителен, он все равно HTML.

Если вам нужно наличие HTML-элементов, а не просто текстового содержимого, вы можете использовать что-то вроде:

/<\/?[a-z][\s\S]*>/i.test()

Это никак не поможет вам разобрать HTML, но, безусловно, пометит строку как содержащую элементы HTML.

Ответ 2

Способ № 1. Вот простая функция для проверки, содержит ли строка данные HTML:

function isHTML(str) {
  var a = document.createElement('div');
  a.innerHTML = str;

  for (var c = a.childNodes, i = c.length; i--; ) {
    if (c[i].nodeType == 1) return true; 
  }

  return false;
}

Идея состоит в том, чтобы позволить анализатору DOM браузера решать, выглядит ли предоставленная строка как HTML или нет. Как вы можете видеть, он просто проверяет наличие ELEMENT_NODE (nodeType из 1).

Я сделал пару тестов и похоже, что это работает:

isHTML('<a>this is a string</a>') // true
isHTML('this is a string')        // false
isHTML('this is a <b>string</b>') // true

Это решение будет правильно определять строку HTML, однако имеет побочный эффект, например img/vide/etc. теги начнут загружать ресурс после разбора на innerHTML.

Метод № 2. Другой метод использует DOMParser и не имеет побочных эффектов при загрузке ресурсов:

function isHTML(str) {
  var doc = new DOMParser().parseFromString(str, "text/html");
  return Array.from(doc.body.childNodes).some(node => node.nodeType === 1);
}

_{Примечания:
1. Array.from - это метод ES2015, его можно заменить на [].slice.call(doc.body.childNodes).
2. Функция стрелки в вызове some может быть заменена обычной анонимной функцией.}

Ответ 3

Немного проверки с помощью:

/<(?=.*? .*?\/ ?>|br|hr|input|!--|wbr)[a-z]+.*?>|<([a-z]+).*?<\/\1>/i.test(htmlStringHere)

Это ищет пустые теги (некоторые предопределенные) и / завершенные XHTML пустые теги и проверяет как HTML из-за пустого тега ИЛИ будет захватывать имя тега и пытаться найти его закрывающий тег где-то в строке для проверки как HTML.

Объяснение демо: http://regex101.com/r/cX0eP2

Update:

Полная проверка с помощью:

/<(br|basefont|hr|input|source|frame|param|area|meta|!--|col|link|option|base|img|wbr|!DOCTYPE).*?>|<(a|abbr|acronym|address|applet|article|aside|audio|b|bdi|bdo|big|blockquote|body|button|canvas|caption|center|cite|code|colgroup|command|datalist|dd|del|details|dfn|dialog|dir|div|dl|dt|em|embed|fieldset|figcaption|figure|font|footer|form|frameset|head|header|hgroup|h1|h2|h3|h4|h5|h6|html|i|iframe|ins|kbd|keygen|label|legend|li|map|mark|menu|meter|nav|noframes|noscript|object|ol|optgroup|output|p|pre|progress|q|rp|rt|ruby|s|samp|script|section|select|small|span|strike|strong|style|sub|summary|sup|table|tbody|td|textarea|tfoot|th|thead|time|title|tr|track|tt|u|ul|var|video).*?<\/\2>/i.test(htmlStringHere)

Это делает правильную проверку, так как содержит теги HTML ВСЕ, сначала пустые, затем остальные, которым нужен закрытый тег.

Разъяснение демо: http://regex101.com/r/pE1mT5

Ответ 4

ответ zzzzBov выше, это хорошо, но он не учитывает блуждающие закрывающие теги, например, например:

/<[a-z][\s\S]*>/i.test('foo </b> bar'); // false

Версия, которая также захватывает закрывающие теги, может быть такой:

/<[a-z/][\s\S]*>/i.test('foo </b> bar'); // true

Ответ 5

Здесь неаккуратный однострочный вкладыш, который я использую время от времени:

var isHTML = RegExp.prototype.test.bind(/(<([^>]+)>)/i);

Он будет в основном возвращать true для строк, содержащих <, за которым следует ANYTHING, а затем >.

Под ANYTHING я подразумеваю в основном что угодно, кроме пустой строки.

Это не здорово, но это однострочный.

Использование

isHTML('Testing');               // false
isHTML('<p>Testing</p>');        // true
isHTML('<img src="hello.jpg">'); // true
isHTML('My < weird > string');   // true (caution!!!)
isHTML('<>');                    // false

Как вы можете видеть, это далеко не идеально, но может сделать это для вас в некоторых случаях.

Ответ 6

Все ответы здесь чрезмерны, они просто ищут <, а затем >. Не существует идеального способа определить, является ли строка HTML, но вы можете добиться большего.

Ниже мы ищем конечные теги, и они будут гораздо более точными и точными:

import re
re_is_html = re.compile(r"(?:</[^<]+>)|(?:<[^<]+/>)")

И вот оно в действии:

# Correctly identified as not HTML:
print re_is_html.search("Hello, World")
print re_is_html.search("This is less than <, this is greater than >.")
print re_is_html.search(" a < 3 && b > 3")
print re_is_html.search("<<Important Text>>")
print re_is_html.search("<a>")

# Correctly identified as HTML
print re_is_html.search("<a>Foo</a>")
print re_is_html.search("<input type='submit' value='Ok' />")
print re_is_html.search("<br/>")

# We don't handle, but could with more tweaking:
print re_is_html.search("<br>")
print re_is_html.search("Foo &amp; bar")
print re_is_html.search("<input type='submit' value='Ok'>")

Ответ 7

Если вы создаете регулярное выражение из строкового литерала, вам нужно избежать любых обратных косых черт:

var htmlRegex = new RegExp("<([A-Za-z][A-Za-z0-9]*)\\b[^>]*>(.*?)</\\1>");
// extra backslash added here ---------------------^ and here -----^

Это не обязательно, если вы используете литерал регулярного выражения, но тогда вам нужно избежать косой черты:

var htmlRegex = /<([A-Za-z][A-Za-z0-9]*)\b[^>]*>(.*?)<\/\1>/;
// forward slash escaped here ------------------------^

Также ваш jsfiddle не работал, потому что вы назначили обработчик onload внутри другого обработчика onload - по умолчанию, как указано на панели "Рамки и расширения" слева, это обернуть JS в onload. Измените это на параметр nowrap и исправьте строковый литерал, и он "работает" (в пределах ограничений, которые все указали в комментариях): http://jsfiddle.net/wFWtc/4/

~~Насколько я знаю, регулярные выражения JavaScript не имеют обратных ссылок. Итак, эта часть вашего выражения:~~

</\1>

не будет работать в JS (но будет работать на некоторых других языках).

Ответ 8

С помощью jQuery:

function isHTML(str) {
  return /^<.*?>$/.test(str) && !!$(str)[0];
}

Ответ 9

/<\/?[^>]*>/.test(str) Только определить, содержит ли он html-теги, может быть xml

Ответ 10

Используя jQuery в этом случае, простейшая форма:

if ($(testString).length > 0)

Если $(testString).length = 1, это означает, что внутри textStging есть один тег HTML.