3

3.
1 Metodología del
Procesamiento de Consultas
Distribuidas.
Fannyy149805 Facebook
Fannyy14 Gmail
Las consultas distribuidas detienen acceso a datos de varios orígenes de datos
heterogéneos. Estos orígenes de datos pueden estar almacenados en el mismo equipo o
en equipos diferentes.
El procesamiento de consultas tiene varias etapas a seguir para resolver una consulta SQL,
las características del modelo relacional permiten quecada motor de base de datos elija
su propia representación que,comúnmente, resulta ser el álgebra relacional
En el caso del sistema centralizado, el criterio principal para determinar el costo de una
estrategia específica es el número de acceso al disco. En un sistema distribuido es preciso
tener en cuenta otros factores como son:
 El costo de transmisión de datos en la red.

 Repetición y fragmentación.
 Procesamiento de intersección simple.
 Distribuciones Homogéneas:
En los sistemas de bases de datos distribuidas homogéneas todos los sitios emplean idéntico
software de gestión de bases de datos, son conscientes de la existencia de los demás sitio y
acuerdan cooperar en el procesamiento de las solicitudes de los usuarios.
En estos sistemas, los sitios locales renuncian a una parte de su autonomía en cuanto a su derecho
a modificar los esquemas o el software de gestión de bases de datos. Este software también debe
cooperar con los demás sitios en el intercambio de la información sobre las transacciones para
hacer posible su procesamiento entre varios sitios.
 Distribuciones Heterogéneas:
Las BD’s Heterogéneas o Multibase de Datos son aquellas donde Sitios diferentes utilizan diferentes
DBMS’s, siendo cada uno esencialmente autónomo. Es posible que algunos sitios no sean
conscientes de la existencia de los demás y quizás proporcionen facilidades limitadas para la
cooperación en el procesamiento de transacciones
ARBOLES DE CONSULTAS
Pasos:
 Descomposició n de la consulta.
 Optimización
 Generación de código
 Ejecución de la consulta
TRANSFORMACIONES EQUIVALENTES
Cuando una base de datos se encuentra en múltiples servidores y distribuye a un número

determinado de nodos tenemos:
 El servidor recibe una petición de un nodo.
 El servidor es atacado por el acceso concurrente a la base de datos cargada
localmente.
 El servidor muestra un resultado y le da un hilo a cada una de las maquinas nodo de la
red local.
Cuando una base de datos es acezada de esta manera la técnica que se utiliza es la de
fragmentación de datos que puede ser hibrida, horizontal y vertical.
METODOS DE EJECUCION DEL JOIN
Join en bucles (ciclos) anidados
Si z = r s, r recibirá el nombre de relación externa y s se llamará relación interna, el algoritmo

de bucles anidados se puede presentar como sigue:
Para cada tupla tr en s si (tr,ts) si satisface la condición, entonces añadir tr * ts al resultado

Donde tr * ts será la concatenación de las tuplas tr y ts. Como para cada registro de r se
tiene que realizar una exploración completa de ts, y suponiendo el peor caso, en el cual la
memoria intermedia sólo puede concatenar un bloque de cada relación, entonces el
número de bloques a acceder es de sr bn b. Por otro lado, en el mejor de los casos si se
pueden contener ambas relaciones en la memoria intermedia entonces sólo se necesitarían
accesos a bloques.
Join en bucles anidados por bloques
Una variante del algoritmo anterior puede lograr un ahorro en el acceso a bloques, si se
procesan las relaciones por bloques en vez de por tuplas. Para cada bloque Br dar a igual
para cada bloque Bs de s, para cada tupla tr en Br.
La diferencia principal en costos de este algoritmo con el anterior es que en el peor de los
casos cada bloque de la relación interna s se lee una vez por cada bloque de dr y no por
cada tupla de la relación externa.
Join por mezcla
Este algoritmo se puede utilizar para calcular si un Join natural es óptimo en la búsqueda o
consulta. Para tales efectos, ambas relaciones deben estar ordenadas para los atributos en
común es decir se asocia un puntero a cada relación, al principio estos punteros apuntan al
inicio de cada una de las relaciones. Según avance el algoritmo el puntero se mueve a
través de la relación. De este modo se leen en memoria un grupo de tuplas de una relación
con el mismo valor en los atributos de las relaciones.
LO QUE TOMAMOS EN CUENTA EN ESTE ALGORITMO:

 Se tiene que ordenar primero, para después utilizar este método.
 Se tiene que considerar el costo de ordenarlo / las relaciones.
 Es más fácil utilizar pequeñas tuplas.
Join por asociación.
Al igual que el algoritmo de join por mezcla, el algoritmo de join por asociación se puede
utilizar para un Join natural o un equi-join. Este algoritmo utiliza una función de asociación h
para dividir las tuplas de ambas relaciones. La idea fundamental es dividir las tuplas de cada
relación en conjuntos con el mismo valor de la función de asociación en los atributos de join.
El número de bloques ocupados por las particiones podría ser ligeramente mayor que.
Debido a que los bloques no están completamente llenos. El acceso a estos bloques puede
añadir un gasto adicional de 2·max a lo sumo, ya que cada una de las particiones podría
tener un bloque parcialmente ocupado que se tiene que leer y escribir de nuevo.
Join por asociación híbrida
El algoritmo de join por asociación híbrida realiza otra optimización; es útil cuando el tamaño
de la memoria es relativamente grande paro aún así, no cabe toda la relación s en
memoria. Dado que el algoritmo de join por asociación necesita max +1 bloques de
memoria para dividir ambas relaciones se puede utilizar el resto de la memoria (M – max – 1
bloques)para guardar en la memoria intermedia la primera partición de la relación s, esto es,
así no es necesaria leerla ni escribirla nuevamente y se puede construir un índice asociativo.
Cuando r se divide, las tuplas de tampoco se escriben en disco; en su lugar, según se van
generando, el sistema las utiliza para examinar el índice asociativo en y así generar las tuplas
de salida del join. Después de utilizarlas, estas tuplas se descartan, así que la partición no
ocupa espacio en memoria. De este modo se ahorra un acceso de lectura y uno de
escritura para cada bloque de y.
Join Complejos
Los join en bucle anidado y en bucle anidado por bloques son útiles siempre, sin embargo,
las otras técnicas de join son más eficientes que estas, pero sólo se pueden utilizar en
condiciones particulares tales como join natural o equi-join. Se pueden implementar join con
condiciones más complejas tales como conjunción o disyunción Dado un join de las forma
se pueden aplicar una o más de las técnicas de join descritas anteriormente en cada
condición individual, el resultado total consiste en las tuplas del resultado intermedio que
satisfacen el resto de las condiciones. Estas condiciones se pueden ir comprobado según se
generen las tuplas. La implementación de la disyunción es homóloga a la conjunción.
Outer Join (Join externos)
Un outer join es una extensión del operador join que se utiliza a menudo para trabajar con la
información que falta.
EJEMPLO
Suponiendo que se desea generar una lista con todos los choferes y los autos que manejan
(si manejan alguno) entonces se debe cruzar la relación Chofer con la relación Móvil. Si se
efectúa un join corriente se perderán todas aquellas tuplas que pertenecen a los choferes,
en cambio con un outer join se pueden desplegar las tuplas resultado incluyendo a aquellos
choferes que no tengan a cargo un auto.
El outer join tiene tres formas distintas: por la izquierda, por la derecha y completo. El join por
la izquierda ( ) toma todas las tuplas de la relación de la izquierda que no coincidan con
ninguna tupla de la relación de la derecha, las rellena con valores nulos en los demás
atributos de la relación de la derecha y las añade al resultado del join natural.
Un outer join por la derecha ( ) es análogo al procedimiento anterior y el outer join completo
es aquel que efectúa ambas operaciones.
Para el caso de un outer join completo se puede calcular mediante extensiones de los
algoritmos de join por mezcla y join por asociación.

3

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

3

Hochgeladen von

Copyright:

Verfügbare Formate

3.

 El costo de transmisión de datos en la red.

Cuando una base de datos se encuentra en múltiples servidores y distribuye a un número

Si z = r s, r recibirá el nombre de relación externa y s se llamará relación interna, el algoritmo

Para cada tupla tr en s si (tr,ts) si satisface la condición, entonces añadir tr * ts al resultado

LO QUE TOMAMOS EN CUENTA EN ESTE ALGORITMO:

Das könnte Ihnen auch gefallen