Каковы HTML и XML, специальные символы?

Каковы специальные зарезервированные объекты символов в HTML и XML?

Но я не могу найти документацию ни на одном из них.

В W3C упоминается в Extensible Markup Language (XML) 1.0 (пятое издание) определенные предопределенные ссылки на сущности. Но он говорит, что эти сущности предопределены (так же, как © предопределено); не то, чтобы они были экранированы:

Какие символы должны скрываться в ссылках на сущности в HTML?
Какие символы должны скрываться в ссылках на сущности в XML?

И что ' и " вообще не нужно избегать; если вы не хотите иметь кавычки внутри указанных атрибутов.

HTML намного более правдоподобный по правилам, но звучит так, как будто я должен:

и если " может быть ссылкой на сущность, я также должен заменить ' на &.

Обновить два

Ответы

Ответ 1

Во-первых, вы сравниваете спецификацию HTML 4.01 с HTML 5 шт.. HTML5 тесно связан с XML, чем HTML 4.01 (что почему мы имеем XHTML), поэтому этот ответ будет придерживаться HTML 5 и XML.

Ваши цитируемые ссылки согласуются в следующих пунктах:

< всегда должен быть представлен <, когда не указывается инструкция обработки
> всегда должен быть представлен >, если не указывается инструкция обработки
& всегда должен быть представлен &
кроме, если в <![CDATA[ ]]> (что относится только к XML)

Я согласен с этим на 100%. Вы никогда не хотите, чтобы синтаксический анализатор брал литералы для получения инструкций, поэтому он всегда должен кодировать любой символ без пробела (см. Ниже). Хорошие парсеры знают, что все, что содержится в <![CDATA[ ]]>, не является инструкциями, поэтому кодировка там не нужна.

На практике я никогда не кодирую ' или ", если

он отображается внутри значения атрибута (XML или HTML)
он появляется в тексте тегов XML. (<tag>"Yoinks!", he said.</tag>)

Обе спецификации также согласны с этим.

Итак, единственная точка раздора - (пробел). Единственное упоминание об этом в обеих спецификациях - это попытка сериализации. Если нет, вы всегда должны использовать литерал (пробел). Если вы не пишете собственный парсер, я не вижу необходимости проводить сериализацию, поэтому это не относится к делу.

Каковы HTML и XML, специальные символы?

4.6 Предопределенные объекты

2.4 Символьные данные и разметка

5.3.2 Ссылки на символы символов

Обновить два

8.3 Сериализация HTML-фрагментов

Ответы

Ответ 1