Sie sind auf Seite 1von 8

Unicode

Unicode es un estndar de codificacin de caracteres diseado para facilitar el


tratamiento informtico, transmisin y visualizacin de textos de mltiples lenguajes y
disciplinas tcnicas, adems de textos clsicos de lenguas muertas. El trmino Unicode
proviene de los tres objetivos perseguidos: universalidad, uniformidad y unicidad.1
Unicode especifica un nombre e identificador numrico nico para cada carcter o
smbolo, el code point (punto de cdigo), adems de otras informaciones necesarias
para su uso correcto: direccionalidad, maysculas y otros atributos. Unicode trata los
caracteres alfabticos, ideogrficos y smbolos de forma equivalente, lo que significa
que se pueden mezclar en un mismo texto sin la introduccin de marcas o caracteres de
control.2
Este estndar es mantenido por el Unicode Technical Committee (UTC), integrado en el
Consorcio Unicode, del que forman parte con distinto grado de implicacin empresas
como: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo, instituciones
como la Universidad de Berkeley, y profesionales y acadmicos a ttulo individual.3 El
Unicode Consortium mantiene estrecha relacin con ISO/IEC, con la que mantiene
desde 1991 el acuerdo de sincronizar sus estndares que contienen los mismos
caracteres y puntos de cdigo.4
El establecimiento de Unicode ha sido un ambicioso proyecto para reemplazar los
esquemas de codificacin de caracteres existentes, muchos de los cuales estn muy
limitados en tamao y son incompatibles con entornos plurilinges. Unicode se ha
vuelto el ms extenso y completo esquema de codificacin de caracteres, siendo el
dominante en la internacionalizacin y adaptacin local del software informtico. El
estndar ha sido implementado en un nmero considerable de tecnologas recientes, que
incluyen XML, Java y sistemas operativos modernos.
La descripcin completa del estndar y las tablas de caracteres estn disponibles en la
pgina web oficial de Unicode [1]. La referencia completa se publica, adems, en forma
de libro impreso cada vez que se libera una nueva versin principal. La versin digital
de este libro est disponible de forma gratuita. Las revisiones y adiciones se publican de
forma independiente.

ndice

1 Alcance del estndar


o 1.1 Relacin con otros estndares
2 Repertorio de caracteres
o 2.1 Tipos de caracteres
o 2.2 Composicin de caracteres y secuencias
o 2.3 Repertorio unificado chino, coreano y japons
2.3.1 Secuencias de descripcin ideogrfica
3 Elementos del estndar Unicode
o 3.1 Principios de diseo
o 3.2 Base de datos de caracteres
3.2.1 Planos

3.2.2 reas y bloques


4 Tratamiento de la informacin
o 4.1 Formas de codificacin
o 4.2 Esquemas de codificacin
5 Historia
6 Vase tambin
7 Referencias
8 Enlaces externos

Alcance del estndar


Unicode incluye todos los caracteres de uso comn en la actualidad. La versin 5.1
contena 100 713 caracteres provenientes de alfabetos, sistemas ideogrficos y
colecciones de smbolos (matemticos, tcnicos, musicales, iconos...). La cifra crece
con cada versin.
Unicode incluye sistemas de escritura modernos como: rabe, braille, copto, cirlico,
griego, sinogramas (hanja coreano, hanzi chino y kanji japons), silabarios japoneses
(hiragana y katakana), hebreo y latino; escrituras histricas extintas, para propsitos
acadmicos, como por ejemplo: cuneiforme, griego antiguo, lineal B micnico, fenicio y
rnico. Entre los caracteres no alfabticos incluidos en Unicode se encuentran smbolos
musicales y matemticos, fichas de juegos como el domin, flechas, iconos etc.
Adems, Unicode incluye los signos diacrticos como caracteres independientes que
pueden ser combinados con otros caracteres y dispone de versiones predefinidas de la
mayora de letras con smbolos diacrticos en uso en la actualidad, como las vocales
acentuadas del espaol.
Unicode es un estndar en constante evolucin y se agregan nuevos caracteres
continuamente. Se han descartado ciertos alfabetos, propuestos por distintas razones,
como por ejemplo el alfabeto klingon.5

Relacin con otros estndares


Como ya se ha indicado, Unicode est sincronizado con el estndar ISO/IEC conocido
como UCS o juego de caracteres universal. Desde un punto de vista tcnico, incluye o
es compatible con codificaciones anteriores como ASCII7 o ISO 8859-1, los estndares
nacionales ANSI Z39.64, KS X 1001, JIS X 0208, JIS X 0212, JIS X 0213, GB 2312,
GB 18030, HKSCS, y CNS 11643, codificaciones particulares de fabricantes de
software como Apple, Adobe, Microsoft, IBM, etc. Adems, Unicode reserva espacio
para fabricantes de software que pueden crear extensiones para su propio uso.6

Repertorio de caracteres
El elemento bsico del estndar Unicode es el carcter. Se considera un carcter al
elemento ms pequeo de un sistema de escritura con significado. El estndar Unicode
codifica los caracteres esenciales grafemas definindolos de forma abstracta y deja
la representacin visual (tamao, dimensin, fuente o estilo) al software que lo trate,
como procesadores de texto o navegadores web. Se incluyen letras, signos diacrticos,

caracteres de puntuacin, ideogramas, caracteres silbicos, caracteres de control y otros


smbolos. Los caracteres se agrupan en alfabetos o sistemas de escritura. Se considera
que son diferentes los caracteres de alfabetos distintos, aunque compartan forma y
significacin.
Los caracteres se identifican mediante un nmero o punto de cdigo y su nombre o
descripcin. Cuando se ha asignado un cdigo a un carcter, se dice que dicho carcter
est codificado. El espacio para cdigos tiene 1 114 112 posiciones posibles
(0x10FFFF). Los puntos de cdigo se representan utilizando notacin hexadecimal
agregando el prefijo U+. El valor hexadecimal se completa con ceros hasta 4 dgitos
hexadecimales cuando es necesario; si es de longitud mayor que 4 dgitos no se agregan
ceros.

Tipos de caracteres

Distintas versiones del carcter angstrom, como carcter (versin preferida), como
carcter con signo diacrtico y como smbolo con forma de letra.
Los bloques del espacio de cdigos contienen puntos con la siguiente informacin:7

Caracteres grficos: letras, signos diacrticos, cifras, caracteres de puntuacin,


smbolos y espacios.
Caracteres de formato: caracteres invisibles que afectan al proceso del texto
prximo. Ejemplos: U+2028 salto de lnea, U+2029 salto de prrafo, U+00A0
espacio duro, etc.
Cdigos de control: 65 cdigos definidos por compatibilidad con ISO/IEC 2022.
Son los caracteres entre en los rangos [U+0000,U+001F], U+007F y
[U+0080..U+009F]. Interpretarlos es responsabilidad de protocolos superiores.
Caracteres privados: reservados para el uso fuera del estndar por fabricantes de
software.
Caracteres reservados: cdigos reservados para su uso por Unicode. Son
posiciones no asignadas.
Puntos de cdigo subrogados: Unicode reserva los puntos de cdigo de U+D800
a U+DFFF para su uso como cdigos subrogados en UTF-16, en la
representacin de caracteres suplementarios.
No caracteres: son cdigos reservados permanentemente para uso interno por
Unicode. Los dos ltimos puntos de cada plano U+FFFE y U+FFFF.
Caracteres descartados: son caracteres que se retienen por compatibilidad con
versiones anteriores, pero se debe evitar su uso.

Composicin de caracteres y secuencias

Composicin del carcter "". La primera es un carcter independiente, la segunda una


n ms una tilde (virgulilla) combinable.
Unicode incluye un mecanismo para formar caracteres y as extender el repertorio de
compatibilidad con los smbolos existentes. Un carcter base se complementa con
marcas: signos diacrticos, de puntuacin o marcos. El tipo de cada carcter y sus
atributos definen el papel que pueden jugar en una combinacin. Por este motivo, puede
haber varias opciones que representen el mismo carcter. Para facilitar la compatibilidad
con codificaciones anteriores, se proporcionan caracteres precompuestos; en la
definicin de dichos caracteres se hace constar qu caracteres intervienen en la
composicin.
Un grupo de caracteres consecutivos, independientemente de su tipo, forma una
secuencia. En caso de que varias secuencias representen el mismo conjunto de
caracteres esenciales, el estndar no define una de ellas como 'correcta', sino que las
considera equivalentes. Para poder identificar dichas equivalencias, Unicode define los
mecanismos de equivalencia cannica y de equivalencia de compatibilidad basados en
la obtencin de formas normalizadas de las cadenas a comparar.

Repertorio unificado chino, coreano y japons


En el estndar Unicode, los ideogramas de Asia oriental (popularmente llamados
caracteres chinos) se denominan ideogramas han. Estos ideogramas se
desarrollaron en China y fueron adaptados por culturas prximas para su propio uso.8 9
Japn, Corea y Vietnam desarrollaron sus propios sistemas alfabticos o silbicos para
usar en combinacin con los smbolos chinos: hiragana y katakana (en Japn), hangul
(en Corea) y yi (en Vietnam). La evolucin natural de los sistemas de escritura y los
distintos momentos de entrada de los caracteres en las distintas culturas han marcado
diferencias en los ideogramas utilizados. Unicode considera las distintas versiones de
los ideogramas como variantes de un mismo carcter abstracto, es decir, como resultado
de la aplicacin de un tipo de letra diferente en cada caso y considera las variantes
nacionales como pertenecientes a un mismo sistema de escritura. La versin original del
estndar se desarroll a partir de los estndares industriales existentes en los pases
afectados.
El organismo encargado de desarrollar el repertorio de caracteres es el Ideographic
Rapporteur Group (IRG). IRG es un grupo de trabajo integrado en ISO/IEC
JTC1/SC2/WG2, incluyendo a China, Hong Kong, Macao, Taipei Computer
Association, Singapur, Japn, Corea del Sur, Corea del Norte, Vietnam y Estados
Unidos de Amrica.8
La base de datos de caracteres CJK se denomina Unihan y contiene, adems,
informacin auxiliar sobre significado, conversiones, datos necesarios para utilizarlos
en los diferentes lenguajes que los utilizan. A continuacin se muestran los bloques que
describen este repertorio. IRG define los caracteres de los tres grupos unificados, los

siguientes dos grupos contienen caracteres para compatibilidad con estndares


anteriores.
Bloque

Rango de
cdigos

Comentarios

Ideogramas de uso comn. Tamao de


cdigo: 2 bytes.
Ideogramas unificados CJK
Ideogramas de uso poco habitual. Tamao de
3400-4DFF
- Extensin A
cdigo: 2 bytes.
Ideogramas unificados CJK 20000Ideogramas de uso poco habitual e histricos.
- Extensin B
2A6DF
Duplicados, variantes unificables y
Ideogramas de
F900-FAFF caracteres corporativos. Tamao de cdigo:
compatibilidad
2 bytes.
Suplemento de ideogramas 2F800Variantes unificables.
de compatibilidad
2FA1F
Ideogramas unificados CJK 4E00-9FFF

Secuencias de descripcin ideogrfica


Se admite que nunca se podr finalizar la tarea de incluir ideogramas en el estndar
debido, principalmente, a que la creacin de nuevos ideogramas contina. A fin de
suplir eventuales carencias, Unicode ofrece un mecanismo que permite la
representacin de los smbolos que faltan denominado secuencias de descripcin
ideogrfica. Se basa en que en la prctica, la totalidad de los ideogramas se puede
descomponer en piezas ms pequeas que, a su vez, son ideogramas. Aunque sea
posible la representacin de un smbolo mediante una secuencia, el estndar especifica
que siempre que exista una versin codificada su uso debe ser preferente. No hay un
mtodo para la descomposicin cannica de ideogramas ni algoritmos de
equivalencia por lo que las operaciones sobre el texto, como bsqueda u ordenacin,
pueden fallar.
Unicode define 12 caracteres diferentes para la descripcin de ideogramas
representando distintas posibilidades de combinacin espacial de otros caracteres han.

Elementos del estndar Unicode


Principios de diseo
El estndar fue diseado con los siguientes objetivos:

Universalidad: Un repertorio suficientemente amplio que albergue a todos los


caracteres probables en el intercambio de texto multlinge.
Eficiencia: Las secuencias generadas deben ser fciles de tratar.
No ambigedad: Un cdigo dado siempre representa el mismo carcter.

Base de datos de caracteres

El conjunto de caracteres codificados por Unicode, es la UCD (unicode character


database: base de datos de caracteres Unicode). Adems de nombre y punto de cdigo,
incluye ms informacin: alfabeto al que pertenece, nombre, clasificacin, maysculas,
orientacin y otras formas de uso, variantes estandarizadas, reglas de combinacin, etc.
Formalmente la base de datos se divide en planos y estos a su vez en reas y bloques.
Con excepciones, los caracteres codificados se agrupan en el espacio de cdigos
siguiendo categoras como alfabeto o sistema de escritura, de forma que caracteres
relacionados se encuentren cerca en tablas de codificacin.
Planos
Por conveniencia se ha dividido el espacio de cdigos en grandes grupos denominados
planos. Cada plano contiene un mximo de 65 535 caracteres. Dado un punto de cdigo
expresado en hexadecimal, los 4 ltimos dgitos determinan la posicin del carcter en
el plano.

Plano bsico multilinge: BMP o plano 0. Contiene la mayor parte de los


alfabetos modernos, incluyendo los caracteres ms comunes del sistema CJK,
otros caracteres histricos o poco habituales y 64 reservadas para uso privado.
Plano suplementario multilinge: SMP o plano 1. Alfabetos histricos de menor
uso y sistemas de uso tcnico u otros usos.
Plano suplementario ideogrfico: SIP o plano 2. Contiene los caracteres del
sistema CJK que no se incluyen en el plano 0. La mayora son caracteres muy
raros o de inters histrico.
Plano de propsito especial: SSP o plano 14. rea para caracteres de control que
no se han introducido en el plano 0.
Planos de uso privado: planos 15 y 16. Reservados para uso privado por
fabricantes de software.

reas y bloques
Los distintos planos se dividen en reas de direccionamiento en funcin de los tipos
generales que incluyen. Esta divisin es convencional, no reglada y puede variar con el
tiempo. Las reas se dividen, a su vez, en bloques. Los bloques estn definidos
normativamente y son rangos consecutivos del espacio de cdigos. Los bloques se
utilizan para formar las tablas impresas de caracteres pero no deben tomarse como
definiciones de grupos significativos de caracteres.

Tratamiento de la informacin
Formas de codificacin
Los puntos de cdigo de Unicode se identifican por un nmero entero. Segn su
arquitectura, un ordenador utilizar unidades de 8, 16 o 32 bits para representar dichos
enteros. Las formas de codificacin de Unicode reglamentan la forma en que los puntos
de cdigo se transformarn en unidades tratables por el computador.

Unicode define tres formas de codificacin bajo el nombre UTF (Unicode


transformation format: formato de transformacin Unicode):10

UTF-8: codificacin orientada a byte con smbolos de longitud variable.


UTF-16: codificacin de 16 bits de longitud variable optimizada para la
representacin del plano bsico multilinge (BMP).
UTF-32: codificacin de 32 bits de longitud fija, y la ms sencilla de las tres.

Las formas de codificacin se limitan a describir el modo en que se representan los


puntos de cdigo en formato inteligible por la mquina. A partir de las 3 formas
identificadas se definen 7 esquemas de codificacin.

Esquemas de codificacin
Los esquemas de codificacin tratan de la forma en que se serializa la informacin
codificada.10 La seguridad en los intercambios de informacin entre sistemas
heterogneos requiere la implementacin de sistemas que permitan determinar el orden
correcto de los bits y bytes y garantizar que la reconstruccin de la informacin es
correcta. Una diferencia fundamental entre procesadores es el orden de disposicin de
los bytes en palabras de 16 y 32 bits, lo que se denomina endianness. Los esquemas de
codificacin deben garantizar que los extremos de una comunicacin saben cmo
interpretar la informacin recibida. A partir de las 3 formas de codificacin se definen
7 esquemas. A pesar de que comparten nombres, no debe confundirse esquemas y
formas de codificacin.
Esquema de codificacin Endianness
Admite BOM
UTF-8
No aplicable
S
UTF-16
Big-endian o Little-endian S
UTF-16BE
No
Big-endian
UTF-16LE
No
Little-endian
UTF-32
Big-endian o Little-endian S
UTF-32BE
No
Big-endian
UTF-32LE
No
Little-endian
Unicode define una marca especial, la marca de orden de bytes (BOM, Byte Order
Mark), al inicio de un fichero o una comunicacin para hacer explcita la ordenacin de
bytes. Cuando un protocolo superior especifica el orden de bytes, la marca no es
necesaria y puede omitirse dando lugar a los esquemas de la lista anterior con sufijo BE
o LE. En los esquemas UTF-16 y UTF-32, que admiten BOM, si este no se especifica se
asume que la ordenacin de bytes es big-endian.
La unidad de codificacin en UTF-8 es el byte por lo que no necesita una indicacin de
orden de byte. El estndar ni requiere ni recomienda la utilizacin de BOM, pero lo
admite como marca de que el texto es Unicode o como resultado de la conversin de
otros esquemas.

Historia

El proyecto Unicode se inici a finales de 1987, tras conversaciones entre Joe Becker,
Lee Collins y Mark Davis (ingenieros de las empresas Apple y Xerox).11 Como
resultado de su colaboracin, en agosto de 1988 se public el primer borrador de
Unicode bajo el nombre de Unicode88.12 Esta primera versin, con cdigos de 16 bits,
se public asumiendo que solo se codificaran los caracteres necesarios para el uso
moderno.
Durante el ao 1989 el trabajo continu con la adicin de colaboradores de otras
compaas como Microsoft o Sun Microsystems. El Consorcio Unicode se form el 3
de febrero de 1991, y en octubre de 1991 se public la primera versin del estndar. La
segunda versin, incluyendo escritura ideogrfica han se public en junio de 1992. A
continuacin se muestra una tabla con las distintas versiones del Estndar Unicode con
sus adiciones o modificaciones ms importantes.

Das könnte Ihnen auch gefallen