SENA CENTRO DE DISEO Y METROLOGIA TECNICO EN SISTEMAS 576021
BOGOTA D.C. 14 DE FEBRERO DE 2014
Qu es la normalizacin La normalizacin es el proceso mediante el cual se transforman datos complejos a un conjunto de estructuras de datos ms pequeas, que adems de ser ms simples y ms estables, son ms fciles de mantener. Tambin se puede entender la normalizacin como una serie de reglas que sirven para ayudar a los diseadores de bases de datos a desarrollar un esquema que minimice los problemas de lgica. Cada regla est basada en la que le antecede. La normalizacin se adopt porque el viejo estilo de poner todos los datos en un solo lugar, como un archivo o una tabla de la base de datos, era ineficiente y conduca a errores de lgica cuando se trataban de manipular los datos. La normalizacin tambin hace las cosas fciles de entender. Los seres humanos tenemos la tendencia de simplificar las cosas al mximo. Lo hacemos con casi todo, desde los animales hasta con los automviles. Vemos una imagen de gran tamao y la hacemos ms simple agrupando cosas similares juntas. Las guas que la normalizacin provee crean el marco de referencia para simplificar una estructura de datos compleja. Otra ventaja de la normalizacin de base de datos es el consumo de espacio. Una base de datos normalizada ocupa menos espacio en disco que una no normalizada. Hay menos repeticin de datos, lo que tiene como consecuencia un mucho menor uso de espacio en disco. El proceso de normalizacin tiene un nombre y una serie de reglas para cada fase. Esto puede parecer un poco confuso al principio, pero poco a poco se va entendiendo el proceso, as como las razones para hacerlo de esta manera.
Grados de normalizacin Existen bsicamente tres niveles de normalizacin: Primera Forma Normal (1NF), Segunda Forma Normal (2NF) y Tercera Forma Normal (3NF). Cada una de estas formas tiene sus propias reglas. Cuando una base de datos se conforma a un nivel, se considera normalizada a esa forma de normalizacin. No siempre es una buena idea tener una base de datos conformada en el nivel ms alto de normalizacin, puede llevar a un nivel de complejidad que pudiera ser evitado si estuviera en un nivel ms bajo de normalizacin. En la tabla siguiente se describe brevemente en que consiste cada una de las reglas, y posteriormente se explican con ms detalle. Primera Forma Normal La regla de la Primera Forma Normal establece que las columnas repetidas deben eliminarse y colocarse en tablas separadas. Poner la base de datos en la Primera Forma Normal resuelve el problema de los encabezados de columna mltiples. Muy a menudo, los diseadores de bases de datos inexpertos harn algo similar a la tabla no normalizada. Una y otra vez, crearn columnas que representen los mismos datos. La normalizacin ayuda a clarificar la base de datos y a organizarla en partes ms pequeas y ms fciles de entender. En lugar de tener que entender una tabla gigantesca y monoltica que tiene muchos diferentes aspectos, slo tenemos que entender los objetos pequeos y ms tangibles, as como las relaciones que guardan con otros objetos tambin pequeos. Segunda Forma Normal La regla de la Segunda Forma Normal establece que todas las dependencias parciales se deben eliminar y separar dentro de sus propias tablas. Una dependencia parcial es un trmino que describe a aquellos datos que no dependen de la llave primaria de la tabla para identificarlos. Una vez alcanzado el nivel de la Segunda Forma Normal, se controlan la mayora de los problemas de lgica. Podemos insertar un registro sin un exceso de datos en la mayora de las tablas.
Tercera Forma Normal Una tabla est normalizada en esta forma si todas las columnas que no son llave son funcionalmente dependientes por completo de la llave primaria y no hay dependencias transitivas. Comentamos anteriormente que una dependencia transitiva es aquella en la cual existen columnas que no son llave que dependen de otras columnas que tampoco son llave. Cuando las tablas estn en la Tercera Forma Normal se previenen errores de lgica cuando se insertan o borran registros. Cada columna en una tabla est identificada de manera nica por la llave primaria, y no debe haber datos repetidos. Esto provee un esquema limpio y elegante, que es fcil de trabajar y expandir. Un dato sin normalizar no cumple con ninguna regla de normalizacin. Para explicar con un ejemplo en que consiste cada una de las reglas, vamos a considerar los datos de la siguiente tabla.
Al examinar estos registros, podemos darnos cuenta que contienen un grupo repetido para NUM_ITEM, DESC_ITEM, CANT y PRECIO. La 1FN prohbe los grupos repetidos, por lo tanto tenemos que convertir a la primera forma normal. Los pasos a seguir son: Tenemos que eliminar los grupos repetidos. Tenemos que crear una nueva tabla con la PK de la tabla base y el grupo repetido.
Los registros quedan ahora conformados en dos tablas que llamemos RDENES y ARTICULOS_ORDENES - ORDENES - ARTICULOS_ORDENES
Ahora procederemos a aplicar la segunda formal normal, es decir, tenemos que eliminar cualquier columna no llave que no dependa de la llave primaria de la tabla. Los pasos a seguir son: Determinar cules columnas que no son llave no dependen de la llave primaria de la tabla. Eliminar esas columnas de la tabla base. Crear una segunda tabla con esas columnas y la(s) columna(s) de la PK de la cual dependen. La tabla ORDENES est en 2FN. Cualquier valor nico de ID_ORDEN determina un slo valor para cada columna. Por lo tanto, todas las columnas son dependientes de la llave primaria ID_ORDEN. Por su parte, la tabla ARTICULOS_ORDENES no se encuentra en 2FN ya que las columnas PRECIO y DESC_ITEM son dependientes de NUM_ITEM, pero no son dependientes de ID_ORDEN. Lo que haremos a continuacin es eliminar estas columnas de la tabla ARTICULOS_ORDENES y crear una tabla ARTICULOS con dichas columnas y la llave primaria de la que dependen. Las tablas quedan ahora de la siguiente manera.
- ARTICULOS_ORDENES
- ARTICULOS
La tercera forma normal nos dice que tenemos que eliminar cualquier columna no llave que sea dependiente de otra columna no llave. Los pasos a seguir son: Determinar las columnas que son dependientes de otra columna no llave. Eliminar esas columnas de la tabla base. Crear una segunda tabla con esas columnas y con la columna no llave de la cual son dependientes. Al observar las tablas que hemos creado, nos damos cuenta que tanto la tabla ARTICULOS, como la tabla ARTICULOS_ORDENES se encuentran en 3FN. Sin embargo la tabla ORDENES no lo est, ya que NOM_CLIENTE y ESTADO son dependientes de ID_CLIENTE, y esta columna no es la llave primaria. Para normalizar esta tabla, moveremos las columnas no llave y la columna llave de la cual dependen dentro de una nueva tabla CLIENTES. Las nuevas tablas CLIENTES y ORDENES se muestran a continuacin. - ORDENES
- CLIENTES
Qu tan lejos debe llevar la normalizacin? La siguiente decisin es qu tan lejos debe llevar la normalizacin? La normalizacin es una ciencia subjetiva. Determinar las necesidades de simplificacin depende de nosotros. Si nuestra base de datos va a proveer informacin a un solo usuario para un propsito simple y existen pocas posibilidades de expansin, normalizar los datos hasta la 3FN quiz sea algo exagerado. Las reglas de normalizacin existen como guas para crear tablas que sean fciles de manejar, as como flexibles y eficientes. A veces puede ocurrir que normalizar los datos hasta el nivel ms alto no tenga sentido.
Se estn dividiendo tablas slo para seguir las reglas o estas divisiones son en verdad prcticas?. stas son el tipo de cosas que nosotros como diseadores de la base de datos, necesitamos decidir, y la experiencia y el sentido comn nos pueden auxiliar para tomar la decisin correcta. La normalizacin no es una ciencia exacta, ms bien subjetiva. Cuarta forma normal: 4FN Una relacin est en 4 FN si ya est en la FNBC y adems no existen dependencias multivaluadas. Es decir, no se aceptan atributos que dependan de un multivalor. Veamos un ejemplo sencillo: FIGURA COLOR TAMAO Esfera Rojo Grande Esfera Verde Grande Cubo Blanco Grande Cubo Azul Grande Pirmide Blanco Mediano Pirmide Blanco Grande Pirmide Rojo Grande La Figura determina valores mltiples de Color, Tamao y Color, Tamao. Todas estas son independientes entre s si estuvieran separadas. Sin embargo se repiten: Esfera grande, Pirmide blanco y Pirmide grande. Estas repeticiones entre la figura y el tamao hace que no est en 4 Forma Normal. La solucin al planteamiento anterior, es realizar dos tablas en la que se encuentre en una de ellas: La figura y el color. Y en otra de ellas: La figura y el tamao. T_COLOR :{(FIGURA: texto), (COLOR: texto)} T_TAMAO :{(CA_FIGURA: texto), (TAMAO: texto)} T_TAMAO -->CA_FIGURA -->T_COLOR Quinta Forma Normal: 5FN Una relacin est en 5FN si est en 4FN y adems no existen restricciones impuestas por el creador de la BD. Una restriccin de este tipo puede ser por ejemplo que una tabla se divida en subtablas. Esta forma normal tiene poca aplicacin prctica porque dificulta el diseo ya que genera un nmero enorme de tablas. Redundancia de datos Un objetivo del diseo de bases de datos relacionales es agrupar atributos en relaciones de forma que se reduzca la redundancia de datos y as el espacio de almacenamiento necesario. Ejemplo 1. Los siguientes dos esquemas Bases de datos y sistemas de informacin Profesor: Rafael Caballero Empleados(Id_empleado, NombreP, DireccinP, Puesto, Salario, Centro) Centros(NombreC, DireccinC, Telfono) contienen la misma informacin que el siguiente: Empleados_Centros(Id_empleado, NombreP, DireccinP, Puesto, Salario, NombreC, DireccinC, Telfono) La relacin Empleados_Centros presenta redundancia de datos porque se repite para cada empleado la informacin asociada al centro. Las relaciones con datos redundantes presentan diferentes anomalas de actualizacin: son las anomalas de insercin, borrado y modificacin. Anomalas de actualizacin Anomalas de insercin. Se produce en dos casos. En primer lugar, cuando se inserta una nueva fila sin respetar las dependencias funcionales. En el ejemplo anterior puede ocurrir si se aade una fila de un empleado adscrito a Informtica y con un telfono distinto de 123. En segundo lugar, la imposibilidad de aadir nuevos datos para el consecuente de la dependencia funcional sin que exista un antecedente para ella. En el ejemplo anterior no se puede dar de alta un centro a menos que exista un empleado destinado en l. Sera necesario dejar valores nulos en la clave (Id_empleado). Anomalas de modificacin. Se produce cuando se modifican las columnas con datos redundantes de slo un subconjunto de las filas con el mismo dato. En el ejemplo puede ocurrir cuando se modifica el telfono de Informtica slo en la primera fila. Anomalas de eliminacin. Se produce cuando se eliminan todas las filas en las que aparecen los datos redundantes por lo que se pierde los datos de la dependencia funcional. Si se elimina la segunda fila porque el empleado se da de baja, se pierden tambin los datos del centro. Las anomalas de actualizacin aparecen tambin en los modelos de red y jerrquico, y se resuelven con campos virtuales y tipos de registros virtuales implementados con punteros. Los modelos orientados a objetos evitan el problema mediante la referencia en lugar de la copia. Bases de datos y sistemas de informacin.