ProgrammerBook.ru: Обратите внимание, что

  1. данный документ является переводом документа «Special Characters»;
  2. данный документ может содержать неточности, опечатки и ошибки перевода;
  3. официальным документом по данной тематике является оригинальный документ на английском языке, расположенный на сайте W3C.

Специальные Символы

Этот раздел содержит информацию о том, как агентам пользователей следует относиться к управляющим и другим специальным символам.

Символьные Данные

Символы между тегами репрезентируют текст, закодированный в соответствии с ISO 8859/1 8-битовым однобайтным кодированием графического набора символов, известным как Латинский Алфавит No. 1, или просто Latin-1. В кодировке Latin-1 присутствует 256 позиций символов. Latin-1 включает в себя символы из большинства западноевропейских языков. Он состоит из символа пробела, 186-и символов, образующих подмножество графических символов в ISO 6937/2 (1983), а также четырёх дополнительных символов, которые предназначены для включения в ISO 6937/2. Для получения более подробной информации смотрите Наборы Символов.

Первые 128 позиций символов включают пробел, 33 управляющих символа, 26 прописных и 26 строчных букв английского алфавита, 10 цифр и 32 прочих печатных символа. Это подмножество, функционально идентично ASCII, определённого в ISO 646 7-битного кодирования набора символов для обмена информацией, также известного как Международная Эталонная Версия. В большинстве ISO 646 идентичен относительно стандарта ANSI для ASCII (American Standard Code for Information Interchange, Американский Стандартный Код для Обмена Информацией). Единственное существенное различие между ISO 646 и ASCII заключается в определённых именах назначенных управляющих символов, которые занимают позиции 00-31 и 127.

Последние 128 позиций включают в себя неразрывный пробел, мягкий перенос, 93 графических символа, 8 неназначенных символов и 25 управляющих символов. Неразрывный пробел и мягкий перенос не распознаются и не интерпретируются всеми HTML-браузерами, поэтому их использование не рекомендовано.

Представлено 58 позиций символов, которые занимают управляющие символы. Смотрите обсуждение для получения более подробной информации об интерпретации управляющих символов. Поскольку некоторые специальные символы подлежат интерпретации и специальной обработке, поставщикам информации и разработчикам браузеров следует придерживаться этих правил.

Некоторые символы могут быть не доступны для ввода с клавиатуры или какая-то часть вашей системы (т.е. программного перевода) не может быть оснащена так, чтобы иметь дело с 8-битным кодом символов. HTML и многие веб-браузеры предоставляют ссылки на сущности символов и числовые ссылки на символ для облегчения записи и интерпретации символов по имени и по порядковому номеру.

Поскольку некоторые символы будут интерпретироваться как разметка, их следует «экранировать»; то есть, репрезентировать в виде разметки -- числовой ссылки на символ или ссылки на сущность символа.


Специальные Символы

Некоторые символы имеют особое значение в контексте HTML-документа. Есть два печатных символа, которые могут быть интерпретированы браузером для того, чтобы влиять на формат текста:

Пробел

Символьные сущности   и   обозначают en пробел и em пробел соответственно, где en пробел составляет половину размера точки, а em пробел равен размеру точки текущего шрифта. Для фиксированных шрифтов основного тона, агент пользователя может обработать en пробел как эквивалент одного символа пробела, а em пробел как эквивалент двух символов пробела.

Неразрывный Пробел ( )

Его следует рассматривать так же, как и символ пробела (32-ой ASCII символ в десятичной системе), за исключением того, что агенту пользователя не следует разрывать строки в этой точке. Он полезен в случаях, когда вы хотите гарантировать, что соседние слова будут всегда оставаться вместе и не будут разделяться на несколько строк.

Дефис

Символьные сущности &endash; и &emdash; обозначают знаки дефиса с такой же шириной, как и   и   сущности соответственно.


Управляющие Символы

Управляющие символы это непечатные символы, которые обычно используются для связи и управления устройством, в качестве эффекторов формата, а также информационных разделителей.

В SGML-приложениях, использование управляющих символов ограничено с целью увеличения вероятности успешного обмена через гетерогенные сети и операционные системы. В HTML используется только три управляющих символа. Оставшиеся 55 управляющих символов избегаются и их не следует использовать в HTML-документе. Допустимые управляющие символы и их интерпретация:

Горизонтальная Табуляция (HT - 9 dec)

Перевод Строки (LF - 10 dec)

Возврат Каретки (CR - 13 dec)


Числовые Ссылки на Символ

Любой печатный символ в 8-битной кодировке символов ISO 8859/1 (256 позиций символов) или 7-битной кодировке символов ISO 646 (128 позиций символов) может быть репрезентирован в тексте HTML-документа числовой ссылкой на символ, например, é это маленькая «e» с акутом. Рекомендуется использовать ссылки на сущности символов, такие как é вместо числовых ссылок на символы.