Набор от символи на документа

Какво представлява „Наборът от символи на документа“ за XML и HTML и как е свързан с кодирането, използвано в тялото на документа?

За по-голяма простота и за спазване на обичайната практика, в тази статия често задаваните въпроси за Unicode се отнасят до набора от символи, съвместно дефиниран от Unicode и ISO/IEC 10646.

Наборът от знаци на документа илиНаборът от основни знаци XML и HTML (версия 4.0) е универсален набор от знаци (UCS стандарт), дефиниран съвместно от ISO/IEC 10646 и стандартите Unicode.

Това означава, че логическият модел, който описва обработката на XML и HTML, е написан по отношение на набора от знаци Unicode.

Това не означава, че всички HTML и XML документи трябва да бъдат кодирани като Unicode; това означава, че всички такива документи могат да съдържат само набора от символи, дефиниран от Unicode. Имайте предвид, ченаборът от знаци и кодирането са различни понятия - например пълният набор от знаци на Unicode може да бъде кодиран по различен начин, като UTF-8, UTF-16 и UTF-32. Всяко кодиране може да се използва за вашия документ, стига да е ясно обозначено и да е един от подкласовете на Unicode. (Въпреки че ще бъде доста трудно да се намери кодиране, което не е подклас.)

От друга страна, по-добре е да използвате Unicode кодиране навсякъде, защото Unicode улеснява прехода към интернационализация и се поддържа широко от процесите на HTML приложения и всички програми за обработка на XML.

Между другото

На практика не всички Unicode символи могат да се използват навсякъде в XML и HTML. Например определени знаци са изключени от имената на таговете на елемента, а определени контролни знаци са изключени от съдържанието. Обърнете внимание обаче, че XML 1.1 позволява много повече знаци, включително имена на тагове на елементи, отколкото XML 1.0.

заден план

С HTML 2.0 беше такабеше уточнено, че всички знаци в HTML документ трябва да бъдат преведени спрямо ISO 8859-1 (известен също като ISO Latin 1), но също така беше обявено, че бъдещите версии на HTML ще използват по-голям набор от знаци, а именно Unicode (или ISO 10646), което означава, че ще бъдат налични повече световни знаци.