Sie sind auf Seite 1von 17

INGENIERIA ONTOLOGICA ELEMENTOS DE LA WEB SEMANTICA: URI Y UNICODE

LEIDY XIMENA CORTES VELASQUEZ ANA KATERINE MONTESINOS GELVEZ

UNIVERSIDAD FRANCISCO DE PAULA SANTANDER INGENIERIA DE SISTEMAS SAN JOSE DE CUCUTA I SEMESTRE 2012

INGENIERIA ONTOLOGICA ELEMENTOS DE LA WEB SEMANTICA: URI Y UNICODE

LEIDY XIMENA CORTES VELASQUEZ COD 1150295 ANA KATERINE MONTESINOS GELVEZ COD 1150013

PROFESOR: EDUARD PUERTO

UNIVERSIDAD FRANCISCO DE PAULA SANTANDER INGENIERIA DE SISTEMAS SAN JOSE DE CUCUTA I SEMESTRE 2012

ELEMENTOS DE LA WEB SEMANTICA: URI Y UNICODE

1. URI URI es el acrnimo de Uniform Resource Identifier que en espaol significa: Identificador uniforme de recurso, es decir una URI es una cadena de caracteres que cumplen la funcin de darle una identificacin nica a un recurso para poder acceder a este. Para entender ms al respecto, primero hablemos de lo que es un recurso en trminos de una web semntica. Un recurso es un objeto del que se quiere decir algo. Por Ejemplo: una pgina, un autor, un libro, un documento, un servicio, una editorial, un lugar, una direccin de correo electrnico, una persona, un hotel, una enciclopedia, etc. Cuando hablamos de estos recursos, no son fsicos, son recursos que se encuentran en la Web. Todos los recursos tienen una URI. El propsito principal de esta identificacin es permitir la interaccin con las representaciones del recurso sobre su red, tpicamente el World Wide Web, usando protocolos especficos. URIs se define en los esquemas definiendo una sintaxis especfica y protocolos definidos.

ESTRUCTURA DE UNA URI

Una URI consta de las siguientes partes:


Esquema: Parte Jerrquica ? Solicitud # Fragmento -

Esquema: Nombre que se refiere a una especificacin para asignar los identificadores, e.g.urn:, tag: , cid: . en algunos casos tambin identifica el protocolo de acceso al recurso, por ejemplo http:, mailto:, ftp: .

Parte Jerrquica: Dividida en Autoridad y Ruta. Autoridad: Elemento jerrquico que identifica la autoridad de nombres (por ejemplo: //translate.google.com.co). Ruta: Informacin usualmente organizada en forma jerrquica, que identifica al recurso en el mbito del esquema URI y la autoridad de nombres (e.g/translate).

Consulta: Informacin usualmente organizada en forma jerrquica, que identifica al recurso en el mbito del esquema URI y la autoridad de nombres. El comienzo de este componente se indica mediante el carcter ?. Solicitud: La solicitud indica variables que se pasan al recurso (pgina) Web. Est separada de la ruta mediante el signo de interrogacin y termina donde empieza el fragmento delimitado por el carcter numeral ( # ) si no hubiere. Por ejemplo: /miruta.html?variable=valor&variable2=valor2 Fragmento: Permite indicar una subdireccin dentro del recurso al que apunta la direccin. Est delimitado por el carcter numeral ( # ) y se extiende hasta donde se termina el URI. Por ejemplo:
/miruta.html#subdireccion Este fragmento es la diferencia entre URL y URI. Los URLs no identifican fragmentos y por eso se recomienda utilizar la expresin URL cuando se hable de expresiones completas. Se ha generalizado al punto de que por ella se entiende cualquier direccin Web sin tener en cuenta los detalles tcnicos.

CLASES DE URIS Una URI puede ser:


URL(Localizadores Uniformes de Recursos) URN (Recurso con nombre nico) URI URL URN

De ambos tipos URN y URL.

a) URL Los URLs son identificadores que permiten acceder a recursos (paginas) web. Las URL se utilizan para referenciar el documento de destino de los hiperenlaces, para referenciar los grficos y cualquier otro fichero que se desee incluir dentro de un documento HTML. Cada elemento de internet tendr una URL que lo defina, ya se encuentre en un servidor de la WWW, FTP, gopher o las News. El formato de una URL ser: servicio://maquina.dominio:puerto/camino/fichero El servicio ser alguno de los de internet, entre estos estn:
http: (HyperText Transport Protocol), es el protocolo utilizado para

transmitir hipertexto. Todas las paginas HTML en servidores WWW debern ser referenciadas mediante este servicio.
https: (HyperText Transport Protocol Secure), es el protocolo para la

conexin a servidores de la WWW seguros. Estos servidores generalmente son de mbito comercial y usan encriptacin para evitar la interseccin de los datos enviados, usualmente nmeros de tarjetas de crdito, datos personales, etc.
ftp: (File Transfer Protocol), utilizar el protocolo FTP de transferencia de

ficheros. Se usa cuando la informacin a la que se desee acceder se encuentre en un servidor de ftp. Por defecto se acceder a un servidor annimo, si se desea indicar el nombre del usuario se usar: ftp://maquina.domino@usuario, y luego le pide la clave de acceso.
gopher, wais: Cualquiera de estos servicios de localizacin, se indicar el

directorio para localizar el recurso concreto.


new: Accede al servicio de news, para ello el visualizador de la WWW debe

ser capaz de presentar este servicio. Se indicara el servidor de news y como camino el grupo de noticias al que se desea acceder: news://newa.cica.es/uca.es.
telnet: Emulacin de terminal remota, para conectarse

a mquina multiusuario, se utiliza para acceder a cuentas pblicas por ejemplo la de biblioteca. Lo normal es llamar a una aplicacin externa que realice la

conexin. En este casi se telnet://maquina.dominio@login.

indicaran

la

maquina

el

login:

mailto: Se utilizar para enviar correo electrnico, todos los navegadores

no son capaces. En este caso solo se indicara la direccin de correo electrnico destino: mailto://aias.correo@dominio. La maquina.dominio indicar al servidor que nos proporciona el recurso, en este caso se utilizara el esquema IP para identificar la maquina, para identificar la maquina ser el nombre de la maquina y el dominio. En el caso de la universidad el domino siempre ser ufp.edu.co. Por tanto un nombre valido para la maquina ser www.ufps.edu.co. El puerto TCP es opcional y lo normal es no ponerlo si el puerto es el mismo que se utiliza normalmente por el servicio. Solo se utilizara cuando el servidor utilice un puerto distinto al puerto por defecto. El camino ser la ruta de direcciones que hay que seguir para encontrar el documento que se desea referenciar. Para separar los subdirectorios utilizaremos la barra de UNIX /, se usa por convenio al ser este tipo de maquinas las ms usadas como servidores. El nombre de los subdirectorios y del fichero referenciado puede ser de ms de ocho caracteres y se tendr en cuenta la diferencia entre maysculas y minsculas en el nombre. La extensin de los ficheros ser tambin importante, para que el servidor sepa que tipo de documento es al que se accede e indique al cliente el modo de tratar este documento. Ejemplos de los URL:

URL

Definicin
En este caso solo se indica el servicio y la maquina y dominio. El resto de los parmetros se toman por defecto, el puerto 80, el directorio, el raz del servidor y el documento por defecto de ese directorio.

http://www.uca.es

http://www.uca.es/internet/internet.html

Esta URL est ms completa en este caso se accede al fichero internet.html que se encuentra en el directorio internet del servidor de la WWW, www.uca.es. Se acceder al fichero por defecto del directorio /serv/sii del servidor de la WWW, www2.uca.es En este caso se acceder a un servidor de FTP annimo, ftp.uca.es por el protocolo FTP y se acceder al fichero globo.gif del directorio de imagenes. En este caso se acceder al grupo de news de la uca en el servidor de news definido por defecto en el navegador de la WWW, esta opcin solo es soportada por los navegadores ms modernos. Enviar un mail al equipo de la WWW de la UCA, esta opcin solo es soportada por los navegadores ms modernos.

http://www2.uca.es/serv/sii

ftp://ftp.uca.es/imagenes/globo.gif

news:uca.es

mailto://www-team@uca.es

b) URN Un URN (Nombre Uniforme de Recursos) es un recurso de Internet con un nombre que a diferencia de una URL, tiene significado persistente, es decir, el dueo de la URN puede esperar que otra persona (o programa) pueda encontrar el recurso. Un URN puede servir para tratar un recurso sin expresar su ubicacin o como acceder a l. Un URN se asemeja a una URL. Por ejemplo, aqu hay un URN hipottico: urn:def://blue_laser

Donde def:// podra indicar una agencia o un directorio accesible de todos los diccionarios, glosarios y enciclopedias en Internet y lser azul era el nombre de un trmino. El resultado de la utilizacin de la agencia podra ser la mejor definicin, la definicin ms larga, o incluso todas las definiciones que la agencia podra encontrar de blue_laser. Un URL comparable tendra que especificar una ubicacin especfica para una definicin como: http://www.whatis.com/bluelase.htm En este caso, el usuario tiene que saber donde se encuentra el recurso, as como de como se escribe el nombre del archivo y el sufijo. Una o ms agencias presumiblemente ser capaz de localizar la copia del recurso y el usuario se libera de la comprensin de que los recursos se encuentran o se han trasladado.

c) URL Y URN

Ambos URN y URL son los tipos de un concepto llamado el Identificador Uniforme de Recurso (URI). Un URN se asocia con otro concepto llamado URC (Caractersticas Uniformes de Recursos), que permite que la informacin descriptiva que se asocia con una urna, como autor, fecha, duracin, etc. Es posible tener un nombre que incluye una direccin para que, en algunos casos URN, pueda ser tambin una URL.

UNICODE Unicode es un sistema de codificacin de caracteres de 16 bits desarrollado en 1991. Unicode puede representar cualquier carcter a travs de un cdigo de 16 bits, independientemente del sistema operativo o el idioma de programacin utilizado. Incluye casi todos los alfabetos actuales (como el rabe, el armenio, el cirlico, el griego, el hebreo y el latn) y es compatible con el cdigo ASCII. El Estndar Unicode es un estndar de codificacin de caracteres diseado para facilitar el tratamiento informtico, transmisin y visualizacin de textos de mltiples lenguajes y disciplinas tcnicas adems de textos clsicos de lenguas muertas. El trmino Unicode proviene de los tres objetivos perseguidos: universalidad, uniformidad y unicidad. Unicode es estndar industrial cuyo objetivo es proporcionar el medio por el cual un texto en cualquier forma e idioma pueda ser codificado para el uso informtico. Unicode proporciona un nmero nico para cada carcter: Sin importar la plataforma, Sin importar el programa, Sin importar el idioma. OBJETIVO Crear un repertorio de todos los caracteres en todos los lenguajes del mundo (y ms)
Asignar un cdigo numrico nico a cada carcter (abandonando la idea de

usar 8 bits)
Mantener en lo posible la compatibilidad con ASCII e ISO

ORGANIZACIN

Se organizan en planos Cada plano tiene espacio para 216 caracteres Se limita el nmero de planos a 17

PLANOS En Unicode los caracteres se pueden categorizar de muchas diversas maneras, los puntos de cdigo de Unicode se pueden dividir lgicamente en 17 planos, cada uno con 65.536 (= 216) puntos de cdigo, aunque solamente algunos planos se utilizan actualmente:

Plano 0 (0000-FFFF): Plano multilinge bsico (BMP). est completamente definido. Contiene todos los alfabetos vivos. ste es el plano que contiene la mayor parte de las asignaciones del carcter hasta ahora. Un objetivo primario para el BMP es apoyar la unificacin de juegos de caracteres anteriores as como los caracteres para sistemas de la escritura en uso actual. Es donde la mayora de los caracteres se han asignado hasta ahora. El BMP contiene los caracteres para casi todos los idiomas modernos, y una gran cantidad de caracteres especiales. La mayor parte de los puntos de cdigo asignados en el BMP se utilizan para codificar chino, japons, y el coreano (CJK) caracteres.

Plano 1 (10000-1FFFF): Plano multilinge suplementario (SMP): Contiene alfabetos muertos o exticos. Se utiliza sobre todo para las escrituras histricas por ejemplo B linear, pero tambin se utiliza para los smbolos musicales y matemticos.

Plano 2 (20000-2FFFF): Plano Ideographic suplementario (SIP): se utiliza para cerca de 40.000 Ideogramas unificados de Han eso se ha utilizado previamente raramente en comunicaciones diariamente escritas.

Los planos 3 a 13 (30000-DFFFF): son no asignados. No se anticipa que estos planos sern necesarios, dado los tamaos totales de los sistemas que escriben sabidos a la izquierda que se codificarn. Sin embargo, el nmero de los caracteres posibles del smbolo que podran presentarse fuera del contexto de los sistemas de la escritura es potencialmente ilimitado. Los pedidos del UCS y de la toma de Unicode smbolos caso por caso. Plano 3, nombrado tentativo Plano Ideographic terciario (TIP), se planea actualmente ser utilizado para los viejos caracteres del hueso de Hanzi y de Oracle

Plano 14 (E0000-EFFFF): Plano Special-purpose suplementario (SSP). contiene actualmente caracteres no grficos en dos bloques de 128 y 240 caracteres. El primer bloque est para los caracteres de la etiqueta de lengua para el uso cuando la lengua no se puede indicar con otros protocolos (tales como xml: lang cualidad en XML). El otro bloque contiene los selectores de la variacin del glyph para indicar un glyph alterno para un carcter que no se pueda determinar por contexto.

Plano 15 (F0000-FFFFF) reservados para rea privada del uso (PUA). Y Plano 16 (100000-10FFFF), reservado para rea privada del uso (PUA). han sido puestos a un lado para la asignacin del carcter por los partidos fuera de la ISO y del consorcio de Unicode. El uso de tales caracteres habr limitado interoperabilidad. El software y las fuentes que apoyan Unicode no apoyarn necesariamente asignaciones de los caracteres por otros partidos. Especialmente si los caracteres tienen caractersticas

inusuales tales como caracteres derecho-a-izquierdos, otras puestas en prctica pueden tratar esos caracteres inadecuados. Actualmente, cerca de diez por ciento del espacio potencial se utilizan. Adems, las gamas de caracteres se han bloqueado tentativo hacia fuera para cada actual y el sistema antiguo de la escritura (escritura) el consorcio de Unicode ha podido identificar: Mientras que Unicode puede necesitar eventual utilizar otros de los repuestos 11 planos para los caracteres ideographic, otros planos permanecen, si las escrituras previamente desconocidas con diez de millares de caracteres se descubren. Este lmite de 20 pedacitos es por lo tanto poco probable ser alcanzado en un futuro prximo. Notacin
Un cdigo Unicode suele escribirse como U- ms 8 cifras hexadecimales

(realmente, bastara con 6)


Las cuatro primeras cifras dan el nmero de plano. Las cuatro inferiores la localizacin dentro del plano Si el plano es 0, suele omitirse y escribirse U+ ms 4 cifras hexadecimales.

Ejemplos Letra Fenicia HET U-00010907

Letra China (Significa Excelente) U-0000329D (U+329D)

Importante Unicode slo especifica qu valor numrico tiene cada carcter, pero no cmo almacenarlo (codificarlo) en un computador. Codificaciones: UCS-4 UCS-2 UTF-8 (muy extendida en XML) UTF-16

Unicode 6.0.0 Unicode 6.0.0 es una versin mayor del estndar Unicode y reemplaza a todas las versiones anteriores. El estndar Unicode, versin 6.0 es la primera versin mayor del estndar Unicode que se publicar exclusivamente en formato online.

TABLA UNICODE

URI Y UNICODE

En la primera capa se encuentran los Unicode y las URI, los primeros permiten que la informacin de la web semntica pueda expresarse en cualquier idioma y las URI permiten de forma inequvoca identificar cada recurso en internet. La segunda capa ofrece los mecanismos bsicos que permiten a los distintos participantes comunicarse entre s, utilizando como sintaxis comn el lenguaje XML, los nombres de espacio y un esquema XML para definir la estructura de los documentos. En ella se encuentran agrupadas las diferentes tecnologas que posibilitan la comunicacin entre agentes.

URI Los URI (Uniform Resource Identifier), cuyo subconjunto ms conocido son los URL (Uniform Resource Locator), es una cadena corta de caracteres que proporcionan el mecanismo para identificar de forma inequvoca cualquier recurso en la red: artculos, imgenes, sonidos, etc. Con la web semntica, los URIs cumplirn adems con la funcin de identificadores de objetos del mundo real. Cualquier objeto podr ser identificado mediante un URI: nuestro microondas tendr una URI asociado, el URI de nuestra web personal o de nuestra direccin e-mail nos identificara a nosotros, la funcin que realizamos en nuestro trabajo se expresara mediante un URI. Una URI consta de las siguientes partes: Esquema: Nombre que se refiere a una especificacin para asignar los identificadores, eg. Urn:, tag:, cid: . en algunos casos tambin identifica el protocolo de acceso al recurso, por ejemplo http:, mailto:, ftp:.

Autoridad: Elemento jerrquico que identifica la autoridad de nombres (por ejemplo //es.wikipedia.org). Ruta: Informacin usualmente organizada en forma jerrquica, que identifica al recurso en el mbito del esquema URI y la autoridad de nombres (e.g. /wiki/Uniform_Resource_Identifier). Consulta: Informacin con estructura no jerrquica (usualmente pares la

clave=valor) que identifica al recurso en el mbito del esquema URI y carcter ?.

autoridad de nombres. El comienzo de este componente se indica mediante el

Fragmento: Permite identificar una parte del recurso principal, o vista de una representacin del mismo. El comienzo de este componente se indica mediante el carcter #.

BIBLIOGRAFIA

En relacin con la informacin acerca de la URI, se consultaron las siguientes fuentes en Internet: http://es.wikipedia.org/wiki/Uniform_Resource_Identifier http://www.hispamedios.com/articles/id34-url-y-uri http://www.maestrosdelweb.com/editorial/web-semantica-y-susprincipales-caracteristicas/ http://www.di.uniovi.es/~labra/cursos/ver04/pres/SemWeb2.pdf http://www2.uca.es/manual-html/url.htm http://wikitel.info/wiki/URI http://searchsoa.techtarget.com/definition/URN http://is20101011871.wordpress.com/2011/07/07/codificacion-decaracteres-ascii-y-unicode/ http://unicode.org/standard/translations/spanish.html http://www.unicode.org/versions/Unicode6.0.0/ http://es.wikipedia.org/wiki/Unicode http://es.scribd.com/doc/60825969/19/Arquitectura-de-la-websemantica http://www.di.uniovi.es/~labra/cursos/ver04/pres/SemWeb2.pdf

Das könnte Ihnen auch gefallen