Sie sind auf Seite 1von 52

Temas Selectos de Bases de Datos

Unidad 4
Bases de Datos Semi-estructuradas

Introduccin a las BD SE

Introduccin a las BD SE
Modelos de datos.

Bajo la estructura de las bases de datos se encuentra el modelo de


datos: una coleccin de herramientas conceptuales para describir los
datos, sus relaciones, su semntica y las restricciones de consistencia.
Los modelos de datos ofrecen un modo de describir el diseo de las
bases de datos en los niveles fsico, lgico y de vistas.
En este texto se van a tratar varios modelos de datos diferentes. Los
modelos de datos pueden clasificarse en cuatro categoras diferentes:

Introduccin a las BD SE
Modelo relacional. El modelo relacional usa una coleccin de tablas
para representar tanto los datos como sus relaciones. Cada tabla tiene
varias columnas, y cada columna tiene un nombre nico. El modelo
relacional es un ejemplo de un modelo basado en registros.
Los modelos basados en registros se denominan as porque la base de
datos se estructura en registros de formato fijo de varios tipos. Cada
tabla contiene registros de un tipo dado. Cada tipo de registro define un
nmero fijo de campos, o atributos. Las columnas de la tabla se
corresponden con los atributos del tipo de registro. El modelo de datos
relacional es el modelo de datos ms ampliamente usado, y una gran
mayora de sistemas de bases de datos actuales se basan en el modelo
relacional.

Introduccin a las BD SE
El modelo entidad-relacin. El modelo de datos entidad-relacin
(E-R) se basa en una percepcin del mundo real que consiste en una
coleccin de objetos bsicos, denominados entidades, y de las relaciones
entre ellos. Una entidad es una cosa u objeto del mundo real que es
distinguible de otros objetos. El modelo entidad-relacin se usa mucho
en el diseo de bases de datos.
Modelo de datos orientado a objetos. El modelo de datos
orientado a objetos es otro modelo de datos que est recibiendo una
atencin creciente. El modelo orientado a objetos se puede considerar
como una extensin del modelo E-R con los conceptos de la
encapsulacin, los mtodos (funciones) y la identidad de los objetos.

Introduccin a las BD SE
Modelo de datos semiestructurados.

El modelo de datos semiestructurados permite la especificacin de datos


donde los elementos de datos individuales del mismo tipo pueden tener
diferentes conjuntos de atributos. Esto lo diferencia de los modelos de
datos mencionados anteriormente, en los que cada elemento de datos de
un tipo particular debe tener el mismo conjunto de atributos.
El lenguaje de marcas extensible (XML, eXtensible Markup
Language) se emplea mucho para representar datos semiestructurados.

Introduccin a las BD SE
Los datos semi-estructurados son datos que pueden ser irregulares
o completos, cuya estructura puede cambiar de forma rpida o
impredecible. No se adaptan a un esquema fijo.
En un sistema de bases de datos basado en datos semi-estructurados el
esquema se descubre a partir de los datos. Se pueden utilizar para
manejar fuentes de informacin web desde una base de datos pero sin la
imposicin de un esquema.
La mayora de las tcnicas para el manejo de este tipo de datos se basan
en lenguajes de consulta que recorren representaciones de los datos en
forma de rbol etiquetado.

Introduccin a las BD SE

Introduccin a las BD SE
Modelo de intercambio de objetos OEM.

OEM (Object Exchange Model) es un modelo propuesto para el manejo


de datos semiestructurados. El objetivo del modelo es realizar la
integracin de datos de diferentes orgenes de datos.
Los OEM carecen de esquema y son auto-descriptivos. Se pueden
visualizar como grficas dirigidas etiquetadas.
Un OEM se compone de un identificador nico, de una etiqueta
descriptiva, un tipo y un valor.

Introduccin a las BD SE
Modelo de intercambio de objetos OEM.

Los objetos pueden ser atmicos y complejos.


Objeto atmico: Contiene un valor para un tipo base. En una grfica

son los nodos sin aristas salientes.


Objeto complejo: Son un conjunto de identificadores de objetos.
Tienen una o ms aristas salientes.

Un objeto hijo puede tener cualquier nmero de objetos padre y un


objeto padre puede tener cualquier cantidad de hijos. Ejemplos:
{Empleado, &3, set, {&8}}
{Nombre, &9, string, Juan}
{Salario, &8, decimal, 5000}

HTML

Introduccin a las BD SE
El lenguaje HTML.

El lenguaje de marcado de hipertexto HTML (HyperText Markup


Language) es utilizado para presentar informacin en forma de texto.
La mayora de los documentos Web se almacenan y transmiten mediante
HTML. Aunque HTML es simple de utilizar, por s solo no permite el
suficiente dinamismo que los documentos en la Web requieren.
W3C World Wide Web Consortium es una comunidad internacional que
desarrolla estndares abiertos para asegurar el crecimiento de la Web.

Introduccin a las BD SE

Introduccin a las BD SE

Introduccin a las BD SE

Introduccin al XML

Introduccin a las BD SE
El lenguaje XML.

El lenguaje de marcado extendible XML (eXtensible Markup Language)


es un metalenguaje que permite a los diseadores Web crear sus propias
etiquetas personalizadas.
En el 2000, W3C publica su recomendacin para utilizar XML 1.0
(creado en 1998), con el objetivo de hacer un HTML ms portable y ms
poderoso.
El objetivo de XML es proporcionar ciertas funcionalidades no
disponibles en HTML. XML fue derivado de SGML el cual fue
estandarizado en 1986..

Introduccin al XML
El lenguaje de marcado generalizado estndar SGML (Standard
Generalized Markup Language) es un sistema que permite definir tipos
de documentos estructurados y lenguajes de composicin para
representar instancias de dichos tipos de documentos. SGML es muy
potente, pero muy complejo y requiere una gran cantidad de software
para procesarlo.
Las principales caractersticas de SGML son ampliabilidad, estructura y
validacin. SGML permite separar en dos partes un documento:
Una parte define la estructura del documento.
En la otra parte se encuentra el contenido del documento.

Introduccin al XML
Cualquier sistema compatible con SGML puede leer documentos XML.

XML permite realizar aportaciones considerables a las interfaces


grficas, los sistemas embebidos, los sistemas distribuidos y las bases de
datos.
Puesto que XML describe la estructura de datos, podra ser un
mecanismo para definir la estructura de diversas bases de datos y
orgenes de datos heterogneos.

Introduccin al XML
Propiedades del XML.
Simplicidad. Es un estndar sencillo, descrito en alrededor de

cincuenta pginas.
Independencia. Es independiente de la plataforma y del fabricante.
Ampliabilidad. Permite a los usuarios definir sus propias etiquetas.
Reutilizacin. Se pueden crear bibliotecas de etiquetas XML.
Separacin. Permite separar el contenido de un documento de la

forma en que va a presentarse.

Introduccin al XML
Propiedades del XML.
Equilibrio de carga. Los clculos pueden ser realizados de manera

local, aligerando la carga del servidor.


Soporte para la integracin de datos. Permite integrar datos de
mltiples fuentes heterogneas. Para esto pueden utilizarse agentes
software.
Capacidad de descripcin. Puede utilizarse para describir datos
contenidos en una amplia variedad de aplicaciones.
Motores de bsqueda avanzados. Basta con que los motores de
bsqueda analicen las etiquetas donde se describe el contenido de los
datos.

Introduccin al XML
Propiedades del XML.
Lenguaje basado en tags para la especificacin de datos semi-

estructurados.
Ha sido tomado como estndar por World Wide Web
Consortium (W3C) para el intercambio de datos.
Los tags son definidos por el usuario y representan el
significado de los datos que encierran.

Introduccin al XML
Declaracin XML.

Primero se indica la versin de XML utilizada para componer el


documento, la codificacin y si se hace o no referencia a declaraciones
externas. Lo siguiente es el cuerpo del documento.

Introduccin al XML
Sintaxis Bsica de XML.
Elementos XML.
Componentes bsicos en un documento XML.
Atributos XML.
Representan propiedades de los elementos.
Son definidos como pares (nombre, valor) en un tag.
En un tag pueden ser definidos mltiples atributos.
En un tag un atributo puede ser definido una sola vez.
Los atributos no estn predefinidos.
Atributos pueden introducir ambigedad de cmo representar las

caractersticas estructurales de un objeto del mundo real.

Introduccin al XML
Sintaxis Bsica de XML.
Comentarios.
Instrucciones de Procesamiento:
Permite al documento contener instrucciones para aplicaciones.
Entidades:
Permiten definir macros
DTD (Document Type Definition):
Define el esquema de un documento XML

Introduccin al XML
Diferentes usos de los atributos de XML.
<persona>
<nombre> Jose Perez </nombre>
<edad> 24 </edad>
<e-mail> jp@cbi.ocm </e-mail>

</persona>
O
<persona nombre=Jose Perez edad=24 email=jp@cbi.ocm/>
O

<persona edad=24>
<nombre> Jose Perez</nombre>
<e-mail> jp@cbi.ocm</e-mail>
</persona>

Introduccin al XML
Representacin de un documento XML en un rbol.

Introduccin al XML
Interrelaciones en Documentos XML.

XML permite:
Asociar identificadores a elementos, como el valor de un cierto

atributo.
<estado id=s2>
<codigoEstado> MD </codigoEstado>
<nombreEstado>Maryland</nombreEstado>
</estado>

Introduccin al XML
Interrelaciones en Documentos XML.

XML permite:
Hacer referencias entre elementos haciendo uso del atributo idref .

<ciudad id=c2/>
<cciudad> </cciudad>
<cnombre> </cnombre>
<estado idref=s2 />
</ciudad>

Introduccin al XML
Definicin de Tipos de Datos (Data Type Def.) en XML.
Un Data Type Definition (DTD) define la estructura de un documento

XML.
Un DTD se expresa en XML.
Un DTD es una gramtica libre de contexto para un documento.
<!DOCTYPE name [markupdeclarations]>
Donde: [markupdeclaration] puede ser:
<!ELEMENT name TYPE>
<!ATTLIST elementName name attType Const >

Introduccin al XML
Ejemplo de DTD en XML.

<!DOCTYPE pais [
<!ELEMENT pais (estado,ciudad)*>
<!ELEMENT estado (codEst,nombreEst,capital,ciudades-en*)>
<!ATTLIST estado id ID #REQUIRED>
<!ELEMENT codEst (#PCDATA)>
<!ELEMENT nombreEst (#PCDATA)>
<!ELEMENT capital EMPTY>
<!ATTLIST capital idref IDREF #REQUIRED>
<!ELEMENT ciudades-en EMPTY>

Introduccin al XML
Ejemplo de DTD en XML.

<!ATTLIST ciudades-en idref IDREF #REQUIRED>


<!ELEMENT ciudad (codCiudad, nombreCiudad,estado-de)>
<!ATTLIST ciudad id ID>
<!ELEMENT codCiudad (#PCDATA)>
<!ELEMENT nombreCiudad (#PCDATA)>
<!ELEMENT estado-de EMPTY>
<!ATTLIST estado-de idref IDREF #REQUIRED> ]>

Introduccin al XML
Ejemplo:
Orden de Compra, Orden.xml
<?xml version="1.0"?>
<ordenDeCompra FechaDeOrden=14-01-2015">
<EnviarA Pas=Mxico"><nom>Alicia Snchez</nom>

<calle>Calle A. Rosales</calle><num>1294</num>
<colonia>Guadalupe</colonia><ciudad>Culiacn</ciudad>
<estado>Sinaloa</estado><cp>80120</cp>
</EnviarA>
<FacturarA Pas=Mxico"><nom>Jos Snchez</nom>
<calle>Calle Sptima</calle><num>1149</num>
<colonia>Los Pinos</colonia><ciudad>Culiacn</ciudad>
<estado>Sinaloa</estado><cp>80200</cp>
</ FacturarA>

Introduccin al XML
Ejemplo:
<comentario>Urgente!</comentario>
<piezas>
<pieza NumParte="872-AA">
<NomDeProducto>Teclado101Teclas</NomDeProducto>

<cantidad>1</cantidad><Precio>1489.95</Precio>
<comentario>Confirmar</comentario>
</pieza>
< pieza NumParte="926-AA">

<NomDeProducto>Baby Monitor</NomDeProducto>
<cantidad>1</cantidad><Precio>3999.98</Precio>
<DiaDeVenta>05-12-2014</DiaDeVenta>
</pieza></piezas></ordenDeCompra>

Introduccin al XML
Lenguaje XML-Schema:

El esquema de datos se define en base a:


Un elemento schema.
Varios subelementos:
Element.
ComplexType. Contiene elementos, referencias a elementos y
atributos (attribute). Los atributos solo pueden ser simpleType.
SimpleType: Hay tipos primitivos de datos.
Sequence. Determina un orden de los elementos.
Restricciones de nmero de ocurrencias.
Definiciones de tipos annimos.

Introduccin al XML
Lenguaje XML-Schema:
<xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<xsd:annotation>
<xsd:documentation xml:lang="en">
Purchase order schema for Example.com.
Copyright 2000 Example.com. All rights reserved.
</xsd:documentation>
</xsd:annotation>
<xsd:element name=OrdenDeCompra type="OrdenDeCompra"/>
<xsd:element name="comment" type="xsd:string"/>

Motores de Bsqueda

Motores de Bsqueda
Por el tipo de tecnologa que utilizan, los sistemas de bsqueda en
internet se pueden clasificar en dos:
Motores de bsqueda: Son sistemas de bsqueda por palabras clave,
consisten en bases de datos que incorporan automticamente pginas
web mediante "robots" de bsqueda por la red. Como operan en forma
automtica, los motores de bsqueda contienen generalmente ms
informacin que los directorios.
ndices temticos o directorios: Son sistemas de bsqueda por
temas o categoras jerarquizados, aunque tambin incluyen sistemas de
bsqueda por palabras clave. Se trata de bases de datos de direcciones
Web elaboradas "manualmente", es decir, hay personas que se encargan
de asignar cada pgina web a una categora o tema determinado.

Motores de Bsqueda
Motor de bsqueda.

Un motor de bsqueda es un software que busca y clasifica documentos


almacenados en los diversos servidores de Internet, mediante un proceso
denominado: indexacin.
Un ejemplo son los buscadores de internet (algunos buscan slo en la
Web pero otros buscan adems en News, Gopher, FTP, etc.) cuando les
pedimos informacin sobre algn tema. Las bsquedas se hacen con
palabras clave o con rboles jerrquicos por temas; como resultado de la
bsqueda se obtiene un listado de direcciones Web en las que se
mencionan temas relacionados con las palabras clave buscadas.

Motores de Bsqueda
Motor de bsqueda.

El primer sistema de bsqueda popular en Internet se llam: Archie y


estaba orientado de manera exclusiva a la investigacin y clasificacin de
los nombres de los archivos almacenados en servidores FTP, es por ello
que obtiene su nombre aludiendo a: Archive.
Nuevos mecanismos de bsqueda fueron apareciendo con la llegada de
nuevas aplicaciones de Internet, tal fue el caso de la aplicacin. Veronica,
que permita indexar archivos del sistema Gopher (precedente del
WWW) y cuyo nombre hacia a referencia a la compaera de Archie,
personaje principal de un popular comic.

Motores de Bsqueda
Motor de bsqueda.

Con la llegada del Word Wide Web, aparece el primer motor de


bsqueda, desarrollado por el Instituto Tecnolgico de Massachusetts en
1993, denominado Wandex. Posteriormente fueron apareciendo otros
motores de bsqueda como: Lycos, Altavista, Excite, Google, Yahoo Search,
MSN Search y Wikiseek.
Los motores de bsqueda incorporan automticamente y de manera
constante informacin de internet mediante los denominados robots
de bsqueda y por medio de algoritmos que organizan los resultados.

Motores de Bsqueda
Motor de bsqueda.

Dichos robots o spiders, recorren las pginas recopilando


informacin sobre los contenidos de los sitios de Internet en bases de
datos. Estas bases de datos contienen, generalmente, el titulo de la
pgina, una descripcin del sitio, palabras clave e informacin de sus
enlaces.

Cuando buscamos una informacin en los motores, ellos consultan


su base de datos, y nos la presentan clasificados por su relevancia.
Si buscamos una palabra, por ejemplo "educacin", en los
resultados que nos ofrecer el motor de bsqueda, aparecern
pginas que contengan esta palabra en alguna parte de su texto.

Motores de Bsqueda
Motor de bsqueda.

Cada cierto tiempo, los motores de bsqueda revisan los sitios web, para
actualizar los contenidos de su base de datos, por lo que pudiera darse el
caso de que los resultados de la bsqueda no estn actualizados. Los
motores de bsqueda, tienen una coleccin de programas simples y
potentes con diferentes cometidos. Se suelen dividir en tres partes: los
programas que exploran la red spiders, los que construyen la base de
datos y los que utiliza el usuario: el programa que explora la base de
datos.

Motores de Bsqueda
Motor de bsqueda.

Motores de Bsqueda
Motor de bsqueda.

Para lograr posicionar un sitio web en la lista de resultados de un motor


de bsqueda, se utilizan un conjunto de algoritmos que consideran entre
otros elementos:
a) La popularidad del sitio web (Cuantos otros sitios llevan a un

determinado sitio?)
b) El titulo de la pgina.
c) Los encabezados.
d) El texto del sitio
e) El nombre de las imgenes
f) Los enlaces hacia otras pginas.

Motores de Bsqueda
Motor de bsqueda.

Es por ello que un sitio especifico, tendr mayores posibilidades de


posicionarse en la lista del resultados de un motor de bsqueda en tanto
sea ms popular, es decir, en tanto exista un mayor nmero de sitios web
que apunten hacia l.
Es posible conocer que tal popular es un sitio web, mediante diversas
herramientas, como utilizar el motor de bsqueda de Google insertando
antes de la direccin URL la instruccin: link:, por ejemplo: si se desea
saber que tan popular es el sitio de Greenpeace, insertamos en la barra
de bsqueda de Google la siguiente instruccin: link:www.greenpeace.org

Motores de Bsqueda
Motor de bsqueda.

Motores de Bsqueda
Motor de bsqueda.

En este caso, el motor de bsqueda responder con un resultado como el


siguiente:
Directorios.
Los directorios son una tecnologa ms barata que los buscadores y son
ampliamente utilizados porque no se requieren muchos recursos de
informtica, en cambio, se requiere ms soporte humano y
mantenimiento.

Motores de Bsqueda
Motor de bsqueda.

Los algoritmos son mucho ms sencillos, presentando la informacin


sobre las webs registradas como una coleccin de directorios. No
recorren las webs ni almacenan sus contenidos, solo registran algunos de
los datos de la pgina a la que se hace referencia tales como el ttulo y la
descripcin de la misma.
Los directorios, diferencia de los motores, son revisados por operadores
humanos, y clasificados segn categoras, de forma que es fcil encontrar
pginas web del tema de nuestro inters. Un ejemplo de directorio lo
constituye el portal espaol Terra.

Motores de Bsqueda
Motor de bsqueda.

Motores de Bsqueda
Motor de bsqueda.

Actualmente existen portales mixtos que integran la funcionalidad de un


motor de bsqueda pero ofrecen el servicio de directorio mediante webs
registradas en catlogos sobre contenidos como: informtica, cultura,
sociedad, deportes, entre otros, que a su vez se dividen en subsecciones,
en ejemplo de este tipo de portales es:Yahoo! Mxico.

Motores de Bsqueda
Motor de bsqueda.

Das könnte Ihnen auch gefallen