Новые спецификации W3C и IETF

В середине февраля международный консорциум W3C выпустил спецификацию "Character Model for the World Wide Web 1.0: Fundamentals" ("Символьная модель для всемирной сети, версия 1.0: основные понятия"), имеющую статус рекомендации.

Данная рекомендация - это первый документ в серии публикаций, посвященных описанию символьной модели. Авторы спецификации полагают, что она будет способствовать использованию всемирной сети всеми людьми независимо от их языка, алфавита, системы записи и культурных традиций - в соответствии с общей целью W3C, заключающейся в обеспечении универсального доступа. Одно из ключевых условий достижения этой цели - возможность передавать и обрабатывать символы в корректно определенном и хорошо понятном виде. Предлагаемая модель должна позволить пользователям всемирной сети осуществлять обмен Web-документами, подготовленными посредством различных способов письма (и на различных платформах), чтение этих документов и поиск..

В спецификации приводится общая справочная информация по обработке текстов, опирающихся на набор универсальных символов (Universal Character Set, сокр. UCS), определенных в стандартах Unicode Standard и

ISO/IEC 10646. В документе также рассмотрено использование терминов "символ" ('character'), "кодирование" ('encoding') и "строка" ('string'), выбор и идентификация кодирования символов, переключение символов и индексирование строк, описывается справочная модель обработки.

Другие документы из упомянутой выше серии публикаций включают спецификации "Character Model for the World Wide Web 1.0: Resource Identifiers" ("Символьная модель для всемирной сети, версия 1.0: идентификаторы ресурсов") и "Character Model for the World Wide Web 1.0: Normalization" ("Символьная модель для всемирной сети, версия 1.0: нормализация"). Первый документ - архитектурная спецификация, в которой содержится общая справочная информация по использованию идентификаторов ресурса и, в частности, указываются интернационализированные идентификаторы ресурса. Второй документ включает сведения о начальной унифицированной нормализации и сопоставлении идентичности строк, предназначенных для улучшения манипулирования совместимыми текстами во всемирной сети.

Помимо этого, представители консорциума заявили о поддержке двух других публикаций: "Uniform Resource Identifier (URI): Generic Syntax" ("Универсальный идентификатор ресурсов: общий синтаксис") и "Internationalized Resource Identifiers (IRIs)" ("Интернационализированные идентификаторы ресурсов"), в работе над которыми, помимо W3C, принимала участие целевая группа инженерной поддержки Internet (Internet Engineering Task Force, сокр. IETF).

Как известно, всемирная сеть определяется как универсальное, всеобъемлющее пространство, содержащее все Internet - и другие - ресурсы, указываемые с помощью универсальных идентификаторов ресурса (Uniform Resource Identifier, сокр. URI), которые иногда называют универсальными указателями ресурса (Uniform Resource Locator, сокр. URL). В

первоначальном предложении Тима Бернерса-Ли (Tim Berners-Lee) всемирная паутина состояла из относительно небольшого числа технологий, включая протокол HTTP и язык HTML. Однако, вероятно, более фундаментальными понятиями по сравнению с HTTP и HTML оказались универсальные идентификаторы ресурса, представляющие собой простые текстовые строки, указывающие на ресурсы Internet - документы, ресурсы, людей и т.д. Таким образом, универсальные идентификаторы - это "клей", который связывает всемирную паутину воедино. Что же касается интернационализированных идентификаторов ресурса, то они расширяют и усиливают этот клей, позволяя пользователям устанавливать ресурсы Web на своем родном языке.

Стоит добавить, что в ходе разработки стандартов Internet (Internet Standards Process) целевая группа инженерной поддержки Internet выпустила тысячи публикаций, в том числе приблизительно 60 стандартов Internet. Упомянутые ранее спецификации, которые в настоящий момент имеют статус стандартов, предложенных к рассмотрению (Proposed Standard) - это лишь малая часть результатов деятельности этой группы.

В первом документе описываются структура, синтаксис и разрешение универсальных идентификаторов ресурса, анализируются вопросы безопасности, нормализации и сравнения (определения эквивалентности двух идентификаторов).

Данный стандарт предназначен для использования вместо одноименной спецификации, выпущенной в 1998г. Основное отличие новой редакции - поддержка интернационализированных имен доменов ведущим компонентом универсальным идентификатором.

Одна из причин появления второй спецификации заключается в том, что, за некоторыми исключениями, многие алфавиты используют символы, отличные от A-Z. Переход от допустимых символов из подмножества US-ASCII к набору универсальных символов (Unicode/ISO 10646) разрешает разработчикам и пользователям указывать ресурсы на своих собственных языках. Кроме того, многим спецификациям W3C - XML, RDF, XHTML и SVG - необходима точная справочная информация для идентификаторов, которые поддерживают международные символы, и эта спецификация обеспечивает эту критически важную информацию.

В соответствие с новым стандартом, каждый универсальный идентификатор ресурса - это уже интернационализированный идентификатор. В результате, при поиске информации в сети пользователям не нужно предпринимать каких-либо особенных действий. В документе также обсуждается, как преобразовывать интернационализированный идентификатор в универсальный идентификатор ресурса для разрешения на существующих системах, рассматриваются такие вопросы, как особый случай двунаправленных интернационализированных идентификаторов, эквивалентность интернационализированных идентификаторов, их использование в различных ситуациях.

Содержание раздела