Excel Y La Estadistica - P. Vidales

EXCEL Y LA ESTADSTICA
Ejercicios resueltos
2
P.VIDALES
3
1.3 ENTORNO DE EXCEL 2013, 2010 Y 2007. LIBROS Y HOJAS DE
CLCULO
1 3.1 Introduccin de datos y frmulas
1 3.2 Series de datos. Autocompletar
1.4 FRMULAS
1.4.1 Barra de frmulas
1.4.2 Rellenar una hoja mediante una frmula
1.5 OPERADORES
1 5.1 Orden de los operandos y preferencia de los operadores en las
frmulas
1 5.2 Tipos de operadores
1 5.3 Frmulas matriciales
1 5.4 Paleta de frmulas
1 5.5 Rangos con nombre
1.6 V NCULACIN DE L BROS
1 6.1 Crear una frmula para calcular datos en otra hoja o en otro libro
1 6.2 Vnculo a una hoja de clculo en otro libro
1.7 MOSTRAR FRMULAS Y VALORES EN UNA HOJA DE CLCULO
1.8 FUNCIONES DE HOJA DE CLCULO
1 8.1 Funciones anidadas dentro de funciones
1 8.2 Categoras de funciones en Excel 2010
1.9 COMPLEMENTOS EN EXCEL Y LA ESTADSTICA
VARIABLES ESTADSTICAS Y DISTRIBUCIONES DE FRECUENCIAS

2.1 VARIABLES ESTADSTICAS
2.2 DISTRIBUCIONES DE FRECUENCIAS Y SU F NALIDAD
2.3 INTERPRETAR LAS DISTR BUCIONES DE FRECUENCIAS
5
2.4 FORMALIZAR LAS DISTR BUCIONES DE FRECUENCIAS
2.5 REPRESENTAR DISTRIBUCIONES DE FRECUENCIAS
2 5.1 Representaciones para variables cualitativas: diagramas de
rectngulos, diagramas de sectores y pictogramas
2 5.2 Representaciones para variables cuantitativas sin agrupar:
diagramas de barras, en escalera y polgonos de frecuencias
2 5.3 Representaciones para variables cuantitativas agrupadas:
histogramas y polgonos de frecuencias simples y acumulados
2.6 GRFICOS EN EXCEL
2.7 EXCEL Y LAS DISTR BUCIONES DE FRECUENCIAS
2.7.1 La funcin FRECUENCIA de Excel
2.7.2 Distribuciones de frecuencias e histogramas con herramientas de
anlisis de Excel
MEDIDAS DE POSICIN, DISPERSIN Y FORMA

3.1 EXPRESIN CUANTITATIVA DE LAS DISTRIBUCIONES
3.2 MED DAS DE POSICIN: MEDIA MEDIANA MODA CUANTILES
PERCENT LES Y MOMENTOS
3.3 MED DAS DE DISPERSIN
3.4 MED DAS DE FORMA
3.5 ANLISIS EXPLORATORIO DE DATOS
3.6 GRFICO DE SIMETRA
3.7 GRFICO NORMAL DE PROBABIL DAD
3.8 FUNCIONES DE EXCEL PARA MEDIDAS DE POSICIN,
DISPERSIN Y FORMA
3.9 MED DAS DE POSICIN, DISPERSIN Y FORMA CON
HERRAMIENTAS DE ANLISIS
Al pulsar Aceptar en la Figura 3-19, se obtiene la Figura 3-20 con todos
los estadsticos incluido el radio del intervalo de confianza para la
6
4.15 EXCEL Y LA CORRELACIN MLT PLE CON HERRAMIENTAS DE
ANLISIS
4.15.1 Correlacin y matriz de correlaciones
4.15.2 Covarianza y matriz de covarianzas
4.16 EXCEL Y LAS TABLAS DE CONTINGENCIA MEDIANTE TABLAS
D NMICAS
4.16.1 Excel y las tablas de contingencia para dos variables cualitativas
4.16.2 Excel y las tablas de contingencia para dos variables, una
cualitativa y otra cuantitativa
4.16.3 Excel y las tablas de contingencia para ms de dos variables
4.17 EXCEL Y LOS CONTRASTES DE ASOCIACIN E
INDEPENDENCIA
NMEROS NDICES Y MEDIDAS DE CONCENTRACIN

5.1 NMEROS NDICES S MPLES
5.2 NMEROS NDICES COMPLEJOS NO PONDERADOS
5.3 NMEROS NDICES COMPLEJOS DE PRECIOS NO
PONDERADOS
5.4 NMEROS NDICES COMPLEJOS PONDERADOS
5.5 NMEROS NDICES COMPLEJOS DE PRECIOS PONDERADOS
5.6 NMEROS NDICES COMPLEJOS PONDERADOS CUNTICOS O
DE PRODUCCIN
5.7 PROP EDADES DE LOS NMEROS NDICES
5.8 NDICES EN CADENA
5.9 CAMBIO DE BASE Y ENLACES DE NMEROS NDICES
5.10 DEFLACTACIN DE SERIES ESTADSTICAS
5.11 PARTICIPACIN Y REPERCUSIN
5.12 NDICES OFICIALES
8
5.13 TASAS DE VARIACIN
5.14 MED DAS DE CONCENTRACIN
5.15 NDICE DE CONCENTRACIN DE G NI
5.16 CURVA DE CONCENTRACIN DE LORENTZ
9
1.1 INTRODUCCIN
La estadstica es una materia en alza, en una poca en la que los
datos son un activo muy importante y el anlisis cuantitativo tiene aplicaciones
muy relevantes en diferentes campos de la ciencia como la economa, las
finanzas, la ingeniera, la matemtica en general, la sociologa, la psicologa, la
biologa, la medicina, etc. Es clave para empezar a trabajar en estadstica, sea
cual sea el campo en que se aplique, la comprensin de los propios conceptos
estadsticos, para posteriormente realizar la operatoria matemtica necesaria
para desarrollarlos a travs del software, que facilita obtener los resultados de
los procedimientos estadsticos de forma rpida y con menos errores que cuando
las operaciones se realizaban manualmente.
Este libro trata los temas elementales de la estadstica desde una

ptica aplicada, pero a la vez formal. Se presentan coincenzudamente los
conceptos, intentando que sean inteligibles para lectores con formacin diversa
(ciencias, letras, etc.) Las tcnicas estadsticas se describen en lenguaje
asequible, y se elimina el problema de la operatoria tediosa matemtica
utilizando un programa tan sencillo y disponible para todos como es Excel. Los
cap tulos se complementan con ejercicios resueltos totalmente, tanto con su
operatoria matemtica habitual, como con el apoyo del software, con la finalidad
de facilitar al lector la comprensin de los conceptos. Tambin se proponen
ejercicios cuya solucin se aporta al lector en archivos Excel disponibles en la
pgina web de la editorial.
11
Por otra parte, Excel tambin implementa determinados
complementos para ampliar el campo de trabajo en diferentes reas. Uno de
estos complementos lo constituyen las Herramientas para anlisis que se
insertan en el grupo Anlisis de la ficha Datos de la cinta de opciones de Excel.
Al final de este captulo se muestra la forma de utilizar estos complementos en
Excel.
Tambin existen otras herramientas adicionales como Solver, que

permiten trabajar en temas estadsticos como la programacin lineal,
optimizacin, etc.
15
1.3 ENTORNO DE EXCEL 2013, 2010 Y 2007. LIBROS Y
HOJAS DE CLCULO
Al iniciar Excel 2013, 2010 0 2007 se observa un entorno de
trabajo similar. La Figura 1-3 muestra el entorno de Excel 2010, pero las otras
versuiiones presentan un entorno idntico y las posibilidades de rabajo en
Estadstiva Descriptiva son similares. Destacan la Cinta de opciones con sus
fichas y sus grupos de opciones en cada ficha, la barra de herramientas de
acceso rpido y la barra de estado con los botones de visualizacin y el Zoom.
La Cinta de opciones presenta fichas orientadas a tareas que

contienen grupos lgicos de comandos (opciones). Se ha diseado para
encontrar fcilmente los comandos necesarios para realizar tareas que antes
estaban ocultos en complejos mens y barras de herramientas, y que ahora se
agrupan de modo lgico en las fichas Inicio, Insertar, Diseo de pgina,
Frmulas, Datos, Revisar y Vista.
En determinados grupos de las fichas de la Cinta de opciones
aparecen iniciadores de cuadros de dilogo, que son pequeos iconos que se
sitan en la parte inferior izquierda del grupo y que abren cuadros de dilogo.
Por ejemplo, el grupo Fuente de la ficha Inicio en la Figura 1-3 presenta a su
derecha un iniciador que abre el cuadro de dilogo Formato de celdas con su
pestaa Fuente seleccionada.
La Barra de herramientas de acceso rpido aparece de forma

predeterminada en la parte superior izquierda de la ventana de Excel (Figura 1-
3) y proporciona acceso rpido a herramientas que se utilizan con frecuencia.
16
funciones, etc.
Una Hoja de clculo u Hoja de trabajo (abreviadamente Hoja) es

un conjunto de celdas distribuidas en filas y columnas. Las hojas se utilizan para
introducir, mostrar y analizar datos. Si se crea un grfico, ste podr colocarse
en la hoja de clculo con sus datos correspondientes o en una hoja de grfico.
Un Libro de trabajo (abreviadamente Libro) es un conjunto de

hojas diferentes, que normalmente estn relacionadas entre s. El libro
corresponde al concepto de archivo. Excel nombra por defecto las hojas del
mismo libro como Hoja1, Hoja 2, etctera. Los nombres de las distintas hojas del
mismo libro aparecen en etiquetas en la parte inferior de la ventana de la hoja de
clculo (Figura 1-3). Para moverse de una hoja a otra, haga clic en las etiquetas
de las hojas. En la lnea superior de la pantalla de entrada en Excel 2010 con
todos sus elementos, tenemos la Barra del t tulo del libro y los botones de
Windows.
El ttulo del libro es por defecto Libro1, mientras no se guarde
como archivo y se le d otro nombre. Los botones de Windows, que aparecen a la
derecha de la barra de ttulo, se utilizan, respectivamente, para minimizar,
maximizar y cerrar el libro de Excel activo (libro de trabajo).
Pueden introducirse y modificarse los datos en varias hojas de

clculo del mismo libro y pueden ejecutarse clculos basndose en los datos de
las distintas hojas de clculo del mismo libro simultneamente.
El libro de trabajo se corresponde con el concepto de fichero o

archivo de datos de Excel, de modo que cuando se guarda el fichero actual,
realmente se estn guardando todas las hojas del libro de trabajo actual en el
fichero especificado. Un libro de trabajo puede contener, adems de una o ms
hojas de clculo, una o varias hojas de grficos cuyo contenido puede ser
cualquier tipo de grfico representativo de los datos contenidos en la hoja.
Los libros de trabajo ayudan a organizar los proyectos y a guardar

los objetos que estn relacionados entre s en un mismo lugar. Excel permite dar
nombre a las hojas de clculo, aadir nuevas hojas y eliminar hojas vacas o no
utilizadas. Finalmente, cada ventana de un libro de trabajo contiene barras de
18
desplazamiento que se pueden utilizar para pasar de una hoja de clculo a la
siguiente o para hacer desplazamientos de un lugar a otro dentro de la hoja de
clculo activa.
19
Un valor numrico puede ser un entero (como 32), un nmero
decimal (como 499,95), una fraccin entera (como 10 3/4), o un nmero en
notacin cientfica (como 4,09 E+13). En los nmeros, se pueden utilizar
smbolos matemticos, como el smbolo de suma (+), el de resta (-), el de tanto
por ciento (%), fracciones (/) y exponenciales (E). Asimismo, es posible utilizar
el smbolo de dlar ($). Si se introduce un nmero demasiado grande como para
ser presentado en una celda, Excel mostrar el nmero en notacin cientfica o
mostrar ####### en la celda, para advertirle de que necesita incrementar el
ancho de la misma.
De todos modos, Excel siempre guarda internamente el nmero

que se ha introducido, y este valor subyacente se podr ver en la barra de
frmulas cuando la celda est activa. Por defecto, los valores numricos son
siempre alineados a la derecha de la celda.
Cuando se introduce ms de un nmero, despus de haber

introducido el primero se pueden utilizar las teclas de flecha (o teclas de
direccin) para desplazarse a una nueva celda e introducir el siguiente nmero.
Por ejemplo, si se escribe un nmero y se pulsa la tecla de flecha hacia abajo, el
puntero de celda se desplazar una lnea hacia abajo. Las teclas de flecha hacia
la izquierda, hacia arriba y hacia la derecha hacen que se mueva el puntero una
celda a la izquierda, hacia arriba y hacia la derecha, respectivamente.
En Microsoft Excel, un nmero puede tener slo los siguientes

caracteres: 0 1 2 3 4 5 6 7 8 9 + - ( ) , / $ % . E e. Por otra parte, Excel ignora los
signos ms (+) a la izquierda, y trata a los puntos como separadores de miles o
separadores decimales (igualmente las comas). Todas las dems
combinaciones de nmeros y caracteres no numricos son consideradas texto.
Para evitar introducir una fraccin como fecha, coloque un cero (0) delante de
cada fraccin; por ejemplo, escriba 0 1/2. Delante de los nmeros negativos,
site un signo menos (-), o bien encierre los nmeros entre parntesis ( ).
Dentro de una celda, todos los nmeros se alinean a la derecha por defecto (si
no se produce la alineacin al pulsar Enter o TAB, el nmero est mal escrito).
Para cambiar la alineacin, seleccione la celda o celdas que
21
el nmero deseado. Esto no afectar a los datos que haya indicado en las celdas
antes de seleccionar la opcin Nmero fijo de decimales. Para anular
temporalmente la opcin Nmero fijo de decimales, especifique un separador de
decimales al escribir el nmero. Se pueden elegir los caracteres para separar
decimales y miles con las opciones Usar separadores del sistema, Separadores
de decimales y Separadores de miles de la Figura 1-8.
26
Figura 1-8
28
Tambin es posible especificar el tipo de serie de relleno
utilizando el botn secundario del ratn para arrastrar el controlador de relleno
sobre el rango y despus hacer clic en el comando adecuado del men contextual
de la Figura 1-16. Por ejemplo, si el valor inicial es la fecha ENE-2002, haga clic
en Rellenar meses para obtener la serie FEB-2002, MAR-2002, etc. Tambin
puede hacer clic en Rellenar aos para obtener la serie ENE-2003, ENE-2004,
etc.
32
41
49
% Porcentaje
^ Exponente
* y/ Multiplicacin y divisin
+ y- Suma y resta
& Conecta dos cadenas de texto (concatenacin)
= < > <= >= <> Comparacin
51
1.6 VINCULACIN DE LIBROS
Pueden compartirse los datos almacenados en hojas de clculo y
libros diferentes mediante la utilizacin de vnculos o de referencias externas. La
vinculacin resulta especialmente til cuando no conviene conservar grandes
modelos de hoja de clculo en el mismo libro.
61
el nombre de la otra hoja de clculo o del otro libro contiene caracteres no
alfabticos, se deber poner el nombre (o la ruta de acceso) entre comillas
sencillas.
65
funciones de texto (Figura 1-53) y las funciones lgicas (Figura 1-54).
77
79
1.9 COMPLEMENTOS EN EXCEL Y LA ESTADSTICA
Como ya habamos anticipado al principio del cap tulo, Excel 2010
dispone de complementos adicionales (Herramientas para anlisis, Solver, etc.)
que pueden cargarse despus de la instalacin del programa y que incorporan
funcionalidades adicionales para el trabajo en estadstica. Para cargar o
descargar un complemento de Excel, se tendrn en cuenta los pasos siguientes:
Haga clic en el Archivo y, a continuacin, pulse en Opciones.
En la Figura 1-55 haga clic en la categora Complementos de

panel izquierdo.
En el cuadro Administrar (Figura 1-55), haga clic en

Complementos de Excel y, a continuacin, en Ir.
En el cuadro Complementos disponibles (Figura 1-56), active la

casilla de verificacin situada junto al complemento que desea
cargar y, luego, haga clic en Aceptar. Si el complemento que
desea utilizar no aparece en la lista del cuadro Complementos
disponibles, haga clic en Examinar y, a continuacin, busque el
complemento. Los complementos que no estn disponibles en el
equipo se pueden descargar de Descargas en Office Online.
87
2.1 VARIABLES ESTADSTICAS
En el trabajo estadstico la informacin se recoge en variables.
Estas variables se organizan de forma ordenada y se almacenan en ficheros.
Posteriormente ser posible operar con estas variables y aplicar funciones a las
mismas para realizar las transformaciones y los anlisis estadsticos que se
desee. Las variables pueden contener datos numricos (variables cuantitativas)
y datos categricos no cuantificables numricamente (variables cualitativas). El
sexo, la profesin y el lugar de origen seran variables cualitativas. La estatura y la
edad seran ejemplos de variables cuantitativas.
Las variables cuantitativas pueden ser discretas y continuas.
Una variable es discreta cuando toma una cantidad finita o numerable

de valores aislados, es decir, entre cada dos valores consecutivos no se puede
intercalar ningn otro valor de la variable. El nmero de hijos, el nmero de
parados y el nmero de caras obtenido al lanzar tres monedas al aire seran
ejemplos de variables cuantitativas discretas.
Una variable es continua cuando toma una infinidad no numerable de

valores, es decir, entre cada dos valores cualesquiera siempre existen infinitos
valores de la variable. La fuerza fsica, la longitud y el peso seran ejemplos de
variables cuantitativas continuas.
Las variables cualitativas suelen clasificarse, segn la naturaleza de los

datos categricos que representan, en variables nominales y variables ordinales.
Las variables nominales describen las categoras directamente por su

contenido, por ejemplo, las categoras de la variable cualitativa sexo son varn y
mujer. A veces suelen asignarse por comodidad cdigos numricos a las
distintas categoras de una variable cualitativa nominal, por ejemplo, varn=1 y
hembra=2, en cuyo caso hay que resaltar que dichos cdigos siguen siendo
variables cualitativas no tratables numricamente.
Las variables ordinales describen las categoras por el orden que

ocupan, por ejemplo, los valores (categoras) de la variable cualitativa
92
satisfaccin en el trabajo pueden ordenarse en satisfacin baja (valores entre
0 y 10 segn una determinada escala de puntuacin que vara entre 0 y 30),
satisfacin media (valores entre 10 y 20) y satisfaccin alta (valores entre 30 y
40).
Las variables cuantitativas suelen clasificarse en variables ratio, que

toman valores numricos puntuales, y variables por intervalos, en las cuales se
agrupan los valores numricos en intervalos convenientes con vistas a facilitar el
trabajo.
93
2.2 DISTRIBUCIONES DE FRECUENCIAS Y SU
FINALIDAD
Cuando se analiza una caracterstica medida por una variable
cualquiera resultado de un determinado proceso (de produccin, de medida,
econmico, financiero, sociolgico, mdico, biolgico, demogrfico, etc.), los
datos que obtenemos siempre estn dispersos y nunca tienen un nico valor
constante. Una vez que sabemos que los datos relativos a las distintas
caractersticas van a estar dispersos, nos surge el problema de detectar el
patrn en la variabilidad de los datos. Para ayudar a esta tarea existen
herramientas estadsticas bsicas como las distribuciones de frecuencias y los
histogramas, as como tcnicas sencillas de anlisis exploratorio de datos.
Cuando los datos estn dispersos, la dispersin sigue un cierto patrn.

Inicialmente los datos no nos dicen nada por s mismos, pero si los dividimos en
clases o celdas ordenadamente, puede aclararse la forma de su dispersin, es
decir, puede aclararse la forma de cmo estn distribuidos. Esta forma de la
distribucin de los datos inherente a su variabilidad se denomina distribucin de
frecuencias.
Normalmente es posible ver la forma general de una distribucin si se

recogen cien o ms valores y se prepara convenientemente una tabla de
frecuencias con diez o veinte clases. Pero la distribucin se puede ver an con
mayor claridad en forma de representacin grfica mediante un histograma de
frecuencias. El histograma es una representacin visual de los datos en la que
pueden observarse ms fcilmente tres propiedades esenciales de una
distribucin como son: forma, tendencia central o acumulacin y dispersin o
variabilidad. De esta forma, el histograma da una idea del proceso, lo que un
simple examen de los datos tabulados no hace.
Hay muchos mtodos para construir histogramas. Cuando los

datos son numerosos, es muy til reunirlos en clases y se recomienda utilizar
entre 4 y 20 clases (o celdas). A menudo conviene elegir un nmero total de
clases igual aproximadamente a la raz cuadrada del tamao de la muestra. Las
clases deben tener amplitud uniforme y se construye la primera de ellas
comenzando con un lmite inferior slo un poco menor que el valor ms pequeo
94
de los datos. Se construye la ltima clase finalizando con un lmite superior slo
un poco mayor que el valor ms grande de los datos. Para realizar el histograma
se marcan las clases sobre el eje de abscisas, y sobre cada clase se levanta un
rectngulo de altura proporcional al nmero de observaciones de la variable
(frecuencia absoluta) que caen en la clase.
El agrupamiento de los datos en clases condensa los datos

originales, lo que da como resultado una prdida de algo de detalle. As, cuando
el nmero de observaciones es relativamente pequeo, o cuando las
observaciones slo toman pocos valores, puede construirse el histograma a
partir de la distribucin de frecuencias de los datos sin agrupar, dando lugar a
los diagramas de barras.
Las distribuciones de frecuencias son la herramienta ms sencilla

y ms utilizada y eficaz cuando estamos rodeados de montones de datos, que no
nos dicen nada si no hacemos ms que enumerarlos. Al expresar estos datos en
forma de una distribucin de frecuencias, ya nos proporcionan diversas ideas.
Puesto que las distribuciones de frecuencias se utilizan muy a menudo, es
necesario conocer la finalidad de las mismas y su interpretacin y uso.
El fin principal de la preparacin de una distribucin de

frecuencias es, usualmente, uno de los siguientes:
Dejar bien visible la distribucin de la variable estudiada e

identificar su forma.
Analizar, controlar y mostrar las capacidades de los procesos de

los que derivan sus datos, tanto cualitativa como cuantitativamente.
Ayudar a determinar el promedio, la desviacin estndar, los

coeficientes de asimetra y curtosis, as como otras medidas
caractersticas de una distribucin.
Probar a qu tipo de distribucin matemtica se puede acoplar

estadsticamente la distribucin emprica de los datos relativos a la
95
variable estudiada.
96
2.3 INTERPRETAR LAS DISTRIBUCIONES DE
FRECUENCIAS
Las distribuciones de frecuencias facilitan que todo el mundo vea y
comprenda intuitivamente la forma de los valores de la variable que representa.
Sin embargo hay que prestar atencin a la interpretacin de las distribuciones.
Cuando se miran las distribuciones de frecuencias, se tiene que prestar atencin
a los puntos siguientes:
Est el promedio de la distribucin en una posicin adecuada?
Cmo es la dispersin de la distribucin respecto al promedio?
Cul es la relacin entre valores tales como la desviacin

estndar, el valor medio, el rango, etc?
Hay algunos huecos, como dientes que faltan, o subidas o

bajadas repentinas como las pas de un peine, en la distribucin?
Hay algunos puntos aislados fuera del cuerpo principal de la

distribucin?
Son aceptables los valores mximo y mnimo de la distribucin?
Es asimtrica la distribucin, con un extremo mucho ms largo

que el otro, o bien es simtrica?
Tiene aspecto de acantilado la parte izquierda o la derecha de

la distribucin?
Tiene ms de un pico la distribucin?
Es demasiado agudo o demasiado chato el pico de la

distribucin?
97
98
2.5 REPRESENTAR DISTRIBUCIONES DE
FRECUENCIAS
El objetivo esencial de las representaciones grficas de las
distribuciones de frecuencias es obtener una idea general sobre sus
propiedades en un simple vistazo. Observando un histograma de frecuencias
podemos deducir si la variable se aproxima a la normalidad o si es simtrica, as
como otras propiedades que posteriormente pueden ser analizadas de modo
formal utilizando contrastes u otras herramientas adecuadas.
A la hora de representar distribuciones de frecuencias ser

necesario tener presente en primer lugar si la variable es cualitativa o
cuantitativa. En segundo lugar, y ya dentro de las variables cuantitativas, habr
que tener presente si la distribucin es agrupada o no agrupada. Teniendo en
cuenta estas caractersticas de la variable cuya distribucin de frecuencias se
representa podemos clasificar los grficos como sigue:
102
frecuencias es el polgono de frecuencias acumuladas, que se utiliza cuando se
trabaja con frecuencias absolutas o relativas acumuladas y que se construye
levantando en el extremo superior de cada intervalo de clase una ordenada igual
a la frecuencia acumulada correspondiente y uniendo a continuacin dichas
ordenadas.
Los puntos que se unen sern (Li+1, Ni). La primera ordenada se une
al extremo inferior del primer intervalo prolongndose el polgono desde este
punto hacia la izquierda sobre el eje X, y prolongndose tambin el polgono a
partir de la ordenada del extremo superior del ltimo intervalo con una paralela
al eje de abscisas. De esta forma, la ordenada correspondiente a cada valor de
la variable X mide el nmero de observaciones para las cuales la variable toma
valores menores o iguales que la abscisa (concepto que aproxima la funcin de
distribucin de la variable X).
La Figura 2-11 muestra el polgono de frecuencias simple relativo

a la variable X.
116
2.6 GRFICOS EN EXCEL
La forma ms habitual de crear un grfico en Excel consiste en
seleccionar los datos para la construccin del grfico en la hoja de clculo y
utilizar el tipo de grfico que se quiera crear del grupo Grficos de la ficha
Insertar (Figura 2-13) en la que hemos seleccionado el tipo Lnea (grficos de
lneas). Tambin se pueden utilizar los tipos Columna (Figura 2-14), Barra
(Figura 2-15), Circular (Figura 2-16), rea (Figura 2-17), Dispersin (Figura
2-18) y Otros grficos (Figura 2-19). Es posible ver todos los tipos de grfico
disponibles haciendo clic en la opcin Todos los tipos de grfico cualquier
Figura anterior. Se obtiene la Figura 2-20.
119
la Figura 2-21) que contiene las tres fichas Diseo, Presentacin y Formato que
permiten la edicin de un grfico ya existente. La ficha Diseo permite cambiar el
tipo de grfico, los datos del mismo, los diseos a utilizar, los estilos y la
ubicacin. La ficha Presentacin (Figura 2-22) permite trabajar con el rea del
grfico, etiquetas, t tulos, ejes, fondos, lneas de tendencia y todos los elementos
habituales que componen un grfico. La ficha Formato (Figura 2-23) permite
trabajar con estilos de forma, estilos de Word Art, as como con el tamao y la
organizacin del grfico.
128
2.7 EXCEL Y LAS DISTRIBUCIONES DE FRECUENCIAS
Excel permite trabajar con distribuciones de frecuencias por dos vas
distintas. Por un lado, aporta la funcin FRECUENCIA, disponible desde las
primeras versiones del programa. Por otro lado, el complemento de Anlisis de
datos incorpora la opcin Histograma, que permite hallar distribuciones de
frecuencias para variables aleatorias cuantitativas y representarlas mediante los
correspondientes histogramas de frecuencias.
131
2.7.1 La funcin FRECUENCIA de Excel
La funcin FRECUENCIA de Excel calcula las frecuencias
absolutas de los valores de una variable en un rango de intervalos o grupos
cuyos extremos se conocen. Debe introducirse como una frmula de matrices,
debido a que FRECUENCIA devuelve una matriz. Su sintaxis es la siguiente:
FRECUENCIA(datos;grupos)
El argumento datos es una matriz de un conjunto de valores o una

referencia a un conjunto de valores x1, x2,..., xn cuyas frecuencias se desea
calcular (columna DATOS de la Figura 2-24). El argumento grupos es una
matriz de intervalos o una referencia a extremos superiores de intervalos L1,
L2,..., Lk dentro de los cuales desea agrupar los valores del argumento datos
(columna NTERVALOS de la Figura 2-15). L1, L2,..., Lk representan los
intervalos (-,L1], (L1,L2],..., (Lk-1, Lk], (Lk, ). Si grupos no contiene ningn
valor, FRECUENCIA devolver el nmero de elementos contenido en datos.
La funcin FRECUENCIA se introduce como una frmula

matricial despus de seleccionar un rango de celdas adyacentes en las que se
desea que aparezca el resultado de la distribucin (Figura 2-24).
132
Haga clic en la opcin En una hoja nueva para insertar una hoja
nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la
nueva hoja de clculo. Para asignar un nombre a la nueva hoja de clculo,
escrbalo en el cuadro.
Pulse en la opcin En un libro nuevo para crear un nuevo libro y

pegar los resultados en una hoja nueva del libro creado.
Active la casilla Pareto (Histograma ordenado) para presentar los

datos en orden de frecuencia descendente en la tabla de resultados. Si esta
casilla est desactivada, Microsoft Excel presentar los datos en orden
ascendente, y omitir las tres columnas situadas ms a la derecha que
contienen los datos ordenados.
Active la casilla Porcentaje acumulado para generar una columna

de tabla de resultados con porcentajes acumulados y para incluir una lnea de
porcentaje acumulado en el grfico de histograma. Desactvela para omitir los
porcentajes acumulados.
Active la casilla Crear grfico para generar un grfico de

histograma incrustado con la tabla de resultados.
En la Figura 2-33 se muestra la salida correspondiente al

Histograma de la variable Datos, con extremos de intervalos de clase dados por
la columna Intervalos para el cuadro de dilogo Histograma de la Figura 2-32.
142
Dado que estamos ante una variable cuantitativa con datos sin agrupar
podemos representarla mediante el diagrama de barras o mediante el polgono
de frecuencias (Figura 2-47) obtenidos mediante los mismos pasos del ejercicio
anterior.
El diagrama de barras y el polgono de frecuencias suelen ofrecer

informacin sobre la simetra y la normalidad de la distribucin. En este caso
vemos que estas representaciones no se desvan demasiado de una campana de
Gauss, lo que indica que puede admitirse la normalidad de los datos. En cuanto
a la simetra se observa que la parte izquierda de la distribucin aglomera ms
frecuencia, por lo que podra haber una asimetra dbil en esa direccin. No
obstante, podra admitirse tambin la simetra, al igual que la normalidad con un
margen de error no muy elevado.
161
detectar qu patrn sigue dicha variabilidad para determinar mejor la estructura
de los datos. En primer lugar ser conveniente realizar una ordenacin de los
datos segn su magnitud, es decir, una tabla de frecuencias, que aportar algo
de luz sobre la distribucin de frecuencias subyacente.
Como se trata de una variable cuantitativa con 154 valores

comprendidos entre 13 y 49, ser necesario agruparlos en intervalos o clases.
Para ello tomamos 12 intervalos de igual anchura (12 es un entero que aproxima
bien la raz cuadrada de N = 154). La anchura de los intervalos ser (49 13)/12
= 3.
Para hallar las frecuencias absolutas por clases, se utiliza la

funcin FRECUENCIA de Excel con la sintaxis que se observa en la Figura 2-
54, previa introduccin de los datos de la variable (Xi) y de la columna de
extremos superiores de los intervalos (menos el ltimo). Hay que tener en cuenta
el rango seleccionado para escribir la frmula y que hay que pulsar
Mayus+Control+Enter para ejecutarla. Se obtiene la Figura 2-55.
Conocidas las frecuencias absolutas, ya podemos construir la

tabla de frecuencias tal y como se ha hecho en los ejercicios anteriores (Figura
2-56).
170
Figura 2-64
185
Figura 2-65
187
3.1 EXPRESIN CUANTITATIVA DE LAS
DISTRIBUCIONES
En el captulo anterior se han definido los conceptos bsicos en el
estudio de una distribucin de frecuencias de una variable. En el presente
cap tulo estudiaremos las distintas formas de resumir dichas distribuciones
mediante medidas de posicin (o de centralizacin), teniendo presente el error
cometido en el resumen mediante las correspondientes medidas de dispersin. A
su vez, analizaremos la forma de la distribucin mediante las medidas de forma.
El histograma de frecuencias ya nos daba una representacin visual de las tres
propiedades ms importantes de los datos muestrales relativos a variables: la
forma de su distribucin, su tendencia central y su dispersin. Ahora se trata de
cuantificar estos conceptos.
Por otra parte, tambin en este cap tulo se tratan las tcnicas de anlisis
exploratorio de datos, que amplan la informacin ofrecida por las medidas de
concentracin, dispersin y forma de una distribucin. Mediante las tcnicas de
anlisis exploratorio se estudian exhaustivamente las distribuciones de
frecuencias y se detectan las posibles anomalas que presentan las
observaciones.
189
3.2 MEDIDAS DE POSICIN: MEDIA, MEDIANA,
MODA, CUANTILES, PERCENTILES Y
MOMENTOS
La finalidad de las medidas de posicin es encontrar unos valores
que sinteticen las distribuciones de frecuencias. En vez de manejar todos los
datos sobre las caractersticas o variables, tarea que puede ser pesada,
podemos caracterizar su distribucin de frecuencias mediante algunos valores
numricos, eligiendo como resumen de los datos un valor central alrededor del
cual se encuentran distribuidos los valores de la variable. El valor de la variable
elegido para representar a una distribucin se llama promedio o medida de
posicin, y es un valor representativo de todos los valores que toma la variable.
Debe hallarse entre el mayor y el menor valor de la variable.
Pero estas medidas de posicin de una distribucin de frecuencias han de

cumplir determinadas condiciones para que sean verdaderamente
representativas de la variable a la que resumen. Toda sntesis de una distribucin
se considerar como operativa si intervienen en su determinacin todos y cada
uno de los valores de la distribucin, siendo nica para cada distribucin de
frecuencias, y siendo siempre calculable y de fcil obtencin. A continuacin, se
hace una relacin de las medidas de posicin ms comunes utilizadas en
estadstica.
Media aritmtica: Se define como la suma de todos los valores de la distribucin

dividida por el nmero total de datos. La expresin matemtica que representa la
media aritmtica coincide con el momento de primer orden respecto al origen.
Pero esto slo es vlido en el supuesto ms sencillo, en el que los datos de la
variable estn sin agrupar. En el caso de que tuvisemos una distribucin con
datos agrupados en intervalos, los valores individuales de la variable seran
desconocidos y, por tanto, no podramos utilizar la frmula anterior. En este
supuesto, los datos estarn agrupados en clases, y se postula la hiptesis de
que el punto medio del intervalo de clase (marca de clase) representa
adecuadamente el valor medio de dicha clase, por lo que aplicaramos la frmula
original de la media simple para dichos valores. En el caso de que la variable
presente valores anormalmente extremos, stos pueden distorsionar la media
aritmtica, hacindola incluso poco representativa. A los estadsticos que no son
190
3.3 MEDIDAS DE DISPERSIN
Las medidas de dispersin permiten calcular la representatividad de una
medida de posicin, para lo cual ser preciso cuantificar la distancia de los dife-
rentes valores de la distribucin respecto a dicha medida. A tal distancia es a lo
que, en trminos estadsticos, denominaremos variabilidad o dispersin de la
distribucin. Las medidas de dispersin tienen como finalidad estudiar hasta qu
punto, para una determinada distribucin de frecuencias, las medidas de
tendencia central o de posicin son representativas como sntesis de toda la
informacin de la distribucin. Medir la representatividad de una medida de
posicin equivale a cuantificar la separacin de los valores de la distribucin
respecto a dicha medida. Por ejemplo, si queremos estudiar en qu grado una
media aritmtica nos marca una tendencia central generalizable del
comportamiento de todos los elementos del conjunto estudiado, tendremos que
fijarnos en la separacin o desviacin de cada valor respecto a la media. Si
todos los valores estn cercanos al valor medio, ste ser representativo de
ellos.
A la mayor o menor separacin de los valores de una distribucin

respecto de otro, que se pretende que sea su sntesis, se le llama dispersin o
variabilidad. Ser, pues, tanto ms representativa la media aritmtica de una
variable cuanto ms agrupados en torno a ella estn los valores promediados;
por el contrario, ser tanto ms rechazable, por no ser representativa, cuanta
mayor dispersin exista de los valores de la variable respecto a la media.
Resulta pues necesario para completar la informacin que pueda

deducirse de una medida de posicin o centralizacin, acompaarla de uno o
varios coeficientes que nos midan el grado de dispersin de la distribucin de la
variable respecto de esa medida de centralizacin. Estos coeficientes son los
que llamamos medidas de dispersin. Inicialmente, se distingue entre medidas
de dispersin absolutas y relativas, entendindose por relativas las que no
dependen de las unidades de medida. Posteriormente, se clasifican las medidas
absolutas y relativas segn sean medidas referidas a promedios o no lo sean.
Entre las medidas de dispersin absolutas no referidas a promedios

tenemos el recorrido, o diferencia entre el mayor valor y el menor valor de una
199
ndice de dispersin respecto a la mediana: Se usa para resolver el problema de
comparacin de medianas de varias distribuciones, que pueden venir, en general,
en unidades diferentes. Se define como la relacin por cociente entre la
desviacin media respecto de la mediana y la mediana aritmtica VMe = DMe /
M e. Evidentemente, a menor ndice de dispersin mejor es la mediana.
204
3.5 ANLISIS EXPLORATORIO DE DATOS
Los estadsticos descriptivos ms habitualmente utilizados han
sido la media y la desviacin tpica. Sin embargo, el uso automtico de estos
ndices no es muy aconsejable. La media y la desviacin tpica son ndices
convenientes slo cuando la distribucin de datos es aproximadamente normal o,
al menos simtrica y unimodal. Pero las variables objeto de estudio no siempre
cumplen estos requisitos. Por lo tanto es necesario un examen a fondo de la
estructura de los datos.
Actualmente se utilizan las novedosas tcnicas del anlisis

exploratorio de datos, mediante las cuales se pueden analizar los datos
exhaustivamente y detectar las posibles anomalas que presentan las
observaciones. J. W. Tuckey ha sido uno de los pioneros en la introduccin de
este tipo de anlisis.
Se recomienda iniciar un anlisis con grficos que permitan
visualizar su estructura. Por ejemplo, para datos cuantitativos es aconsejable
comenzar con el histograma de frecuencias. El paso siguiente suele ser
examinar la posible presencia de valores atpicos (outliers) en el conjunto de
datos. Para ello, suelen utilizarse los propios histogramas u otros tipos de
grficos ms avanzados como los grficos de caja y bigote o histogramas
digitales (grficos de tallo y hojas).
Las tcnicas de anlisis exploratorio de datos amplan la

informacin ofrecida por las medidas de concentracin, dispersin y forma de
una distribucin. Mediante las tcnicas de anlisis exploratorio se estudian
exhaustivamente las distribuciones de frecuencias y se detectan las posibles
anomalas que presentan las observaciones, su simetra y su grado de
normalidad.
211
3.6 GRFICO DE SIMETRA
El grfico de simetra (Figura 3-1) es una herramienta que
permite analizar visualmente el grado de simetra de una variable. En el eje de
abscisas se representan las distancias de los valores de la variable a la mediana
que quedan por debajo de ella, y en el eje de ordenadas se representan las
distancias de los valores de la variable a la mediana que quedan por encima de
ella. Si la simetra fuese perfecta, el conjunto de puntos resultante sera la
diagonal principal. Mientras ms se aproxime la grfica a la diagonal ms
simetra existir en la distribucin de la variable.
Para el ejemplo de la variable X, variable definida por el nmero de

litros consumidos por los automviles cada 1000 kilmetros que venimos
considerando durante todo el captulo, tenemos el grfico de simetra siguiente:
212
la mediana.
4. Se toman los valores positivos de di ordenados de menor a mayor y se les

denomina pi. Estos valores sern las distancias sobre la mediana.
5. Se toman los valores negativos de di ordenados de menor a mayor y se les

denomina ni. Estos valores cambiados de signo sern las distancias bajo
la mediana.
6. Se grafican los puntos de coordenadas (-ni, pi).
214
del rango de entrada estn organizados en filas o en columnas.
Rtulos en la primera fila y rtulos en la primera columna: si la primera fila del

rango de entrada contiene rtulos, active la casilla de verificacin Rtulos en la
primera fila. Si los rtulos estn en la primera columna del rango de entrada,
active la casilla de verificacin Rtulos en la primera columna. Esta casilla de
verificacin estar desactivada si el rango de entrada carece de rtulos;
Microsoft Excel generar los rtulos de datos correspondientes para la tabla de
resultados.
Nivel de confianza para la media: active esta casilla si desea incluir una fila
correspondiente al nivel de confianza de la media en la tabla de resultados. En el
cuadro, escriba el nivel de confianza que desee utilizar. Por ejemplo, un valor de
95% calcular el nivel de confianza de la media con un nivel de importancia del
5%.
Ksimo mayor: active esta casilla si desea incluir una fila correspondiente al
valor k-simo mayor de cada rango de datos en la tabla de resultados. En el
cuadro, escriba el nmero que va a utilizarse para k. Si escribe 1, esta fila
contendr el mximo del conjunto de datos.
Ksimo menor: active esta casilla si desea incluir una fila correspondiente al
valor k-simo menor de cada rango de datos en la tabla de resultados. En el
cuadro, escriba el nmero que va a utilizarse para k. Si escribe 1, esta fila
contendr el mnimo del conjunto de datos.
Rango de salida: introduzca la referencia correspondiente a la celda superior

izquierda de la tabla de resultados. Esta herramienta genera dos columnas de
informacin por cada conjunto de datos. La columna de la izquierda contiene los
rtulos de estadstica, y la columna de la derecha contiene las estadsticas.
Excel escribir una tabla de estadsticas de dos columnas por cada columna o
fila del rango de entrada, dependiendo de la opcin que se haya seleccionado en
el cuadro Agrupado por.
En una hoja nueva: haga clic en esta opcin para insertar una hoja nueva en el
libro actual y pegar los resultados comenzando por la celda A1 de la nueva hoja
236
de clculo. Para darle un nombre a la nueva hoja de clculo, escr balo en el
cuadro.
En un libro nuevo: haga clic en esta opcin para crear un nuevo libro y pegar los
resultados en una hoja nueva del libro creado.
Resumen de estadsticas: seleccione esta opcin si desea que Excel genere un

campo en la tabla de resultados por cada una de las siguientes variables
estadsticas: media, error tpico (de la media), mediana, moda, desviacin
estndar, varianza, curtosis, coeficiente de asimetra, rango, mnimo, mximo,
suma, cuenta, mayor (#), menor (#) y nivel de confianza.
237
Figura 3-25
Al hacer clic en Aceptar, se obtiene la pantalla Estadstica

descriptiva, cuyos campos se rellenan como se indica en la Figura 3-26. Al
hacer clic en Aceptar, se obtiene la Figura 3-27, que presenta varios de los
estadsticos pedidos en el problema. Se observa que la moda (peso ms
frecuente) y la mediana (peso tal que la mitad de los restantes pesos sean
inferior a l) coinciden y valen 106. Como el coeficiente de asimetra (0,38) y el
coeficiente de curtosis (-0,044) estn en el intervalo [-2, 2], la distribucin de los
pesos podr considerarse realmente normal.
251
Dado el valor positivo del coeficiente de asimetra de Pearson, se
concluye que la distribucin es simtrica positiva.
El coeficiente de asimetra de Fisher se calcula como sigue:
Dado el valor positivo del coeficiente de asimetra de Fisher, se

concluye que la distribucin es simtrica positiva.
Para cuantificar el grado de apuntamiento de la distribucin se calcula el

coeficiente de curtosis como sigue:
Este resultado nos dice que la distribucin es ligeramente leptocrtica,

es decir, un poco ms apuntada que la normal.
Un criterio bastante efectivo para comprobar la normalidad de los datos

es observar los valores de los coeficientes de asimetra y curtosis. Si ambos
coeficientes caen en el intervalo (-2, 2) se considera que los datos provienen de
una distribucin normal. En nuestro caso g1=1,16 y g2=1,17, valores que caen
dentro del intervalo (-2, 2), lo que indica posible presencia de normalidad en los
datos.
286
Captulo 4
VARIABLE N-DIMENSIONAL. CORRELACIN

Y REGRESIN. TABLAS DE CONTINGENCIA
287
4.1 DISTRIBUCIONES BIDIMENSIONALES DE
FRECUENCIAS
Si X e Y son dos variables observadas, la distribucin bidimen-
sional (X,Y) ser (xi,yi,nij). Cada frecuencia corresponde ahora a un par de
valores (variables cuantitativas) o modalidades (variables cualitativas): el primer
elemento del par corresponde al valor de la primera caracterstica observada, el
segundo hace referencia a la segunda de tales caractersticas, y el tercero a la
frecuencia conjunta. Evidentemente, sera posible realizar un estudio por
separado de la distribucin de X e Y, y resumir estos caracteres por medio de
sus medidas de posicin y dispersin descritas en el cap tulo anterior; tales
distribuciones recibirn el nombre de distribuciones marginales. Sin embargo,
nuestro inters en este punto se centra en el anlisis simultneo de ambas
caractersticas; es decir, en la distribucin conjunta de las mismas, con el fin de
establecer si existe relacin entre ellas y en qu grado. Los pares que contienen
los valores de las variables o atributos junto con sus correspondientes
frecuencias, suelen disponerse en una tabla de doble entrada, que recibe el
nombre de tabla de correlacin en el caso de que ambos caracteres sean
cuantitativos, y tabla de contingencia cuando son cualitativos. Estos dos tipos de
tablas sern objeto de nuestra atencin en los apartados siguientes.
288
4.2 TABLA DE CORRELACIN: DISTRIBUCIONES
MARGINALES Y DISTRIBUCIONES
CONDICIONADAS
Queremos estudiar conjuntamente dos caracteres cuantitativos, X e Y,
sobre una poblacin, apareciendo X con h niveles e Y con k. Para ello,
seleccionamos una muestra de tamao N y la sometemos a observacin,
disponiendo los resultados en una tabla de doble entrada, donde x1, ..., xh e y1,
..., yk representan los valores observados para cada variable, y nij la frecuencia
absoluta conjunta, es decir, las veces que aparecen simultneamente el valor i-
simo de X y j-simo de Y.
289
nij = frecuencia absoluta del valor (Xi,Yj) de la distribucin conjunta (X,Y).
= frecuencia absoluta del valor Xi de la variable

marginal X.
290
= frecuencia absoluta del valor Yj de la variable
marginal Y.
= frecuencia relativa del valor (Xi,Yj) de la distribucin

conjunta (X,Y).
= frecuencia relativa del valor Xi de la variable marginal X.
= frecuencia relativa del valor Yj de la variable marginal

Y.
Se cumple que:
291
En esta tabla, ni. y n.j nos proporcionan las frecuencias marginales. Es
decir, el nmero de veces que aparece el valor i-simo de X, con independencia
de cul sea el valor de Y, es ni., y el nmero de veces que aparece el valor j-
simo de Y, independientemente de cul sea el valor de X con el que se da
conjuntamente Y, es n.j. De esta forma tenemos que las distribuciones
marginales de X e Y vienen dadas por (xi; ni.) y (yj; n.j ). Estas distribuciones
marginales pueden expresarse como sigue:
Dado que estas distribuciones marginales son variables

unidimensionales, es posible calcular todo tipo de medidas de centralizacin,
dispersin y forma, mediante los procedimientos ya vistos en el captulo anterior.
292
A partir de la tabla de correlacin es posible formar un nuevo tipo de
distribuciones, que denominaremos distribuciones condicionadas debido a que
para su obtencin es preciso definir previamente una condicin. Esta condicin
har referencia a la fijacin a priori de un valor (o valores) de una de las
variables, para posteriormente calcular la distribucin de la otra variable sujeta a
esa condicin. Si fijamos la variable Y en el valor y2 (podramos fijar ms de un
nico valor), la distribucin de la variable X condicionada a que Y tome el valor
y2 vendr dada por:
Donde X/Y=y2 nos dar los valores que puede tomar la variable X cuando
Y toma el valor y2, y ni/j=2 nos da las frecuencias con que se presenta cada uno
de los valores.
En general, dado que se pueden establecer condiciones sobre Y y X

calculando posteriormente la distribucin de X o Y sujeta a esa condicin, nos
encontramos distribuciones que, de manera genrica, tendrn la forma:
293
Dado que estas distribuciones condicionadas son variables
unidimensionales, es posible calcular todo tipo de medidas de centralizacin,
dispersin y forma, mediante los procedimientos ya vistos en el captulo anterior.
Para todas las distribuciones condicionadas, ser posible trabajar con

frecuencias relativas en vez de con frecuencias absolutas. Tenemos lo siguiente:
294
Otra relacin importante entre distribuciones condicionadas, marginales y
conjunta es la siguiente:
295
4.3 COVARIANZA
Pero, puesto que no interesan nicamente las distribuciones
marginales, sino tambin la conjunta, es preciso introducir medidas que hagan
referencia a esta ltima distribucin.
El momento bidimensional de orden (r,s) centrado en el origen, se define

como:
El momento bidimensional de orden (r,s) centrado en las medias, se define

como:
Los momentos de la distribucin marginal de X se calcularn como ar0

(los centrados en el origen) y mr0 (los centrados en la media). Concretamente
a10 es la media de X, y m20 es la varianza de X. De la misma forma, los
momentos de la distribucin marginal de Y se calcularn como a0s (los
centrados en el origen) y m0s (los centrados en la media). Concretamente, a01
es la media de Y, y m02 es la varianza de Y.
De entre las medidas relativas a la distribucin conjunta, la de mayor

inters en todo anlisis estadstico es la covarianza sxy, que se define como m11.
Su frmula ser:
296
La covarianza es una medida de gran importancia por su signo, ms que
por el valor que pueda alcanzar; el signo indica el sentido de la variacin
conjunta de las variables que estamos considerando. De esta forma, si la
covarianza es positiva, quiere decir que ambas variables varan en el mismo
sentido alrededor de sus medias, mientras que si la variacin de las mismas
tiene lugar en sentido contrario, la covarianza tomar valores negativos.
En ocasiones, suele utilizarse la cuasicovarianza debido a sus

propiedades muestrales. La expresin de la cuasicovarianza es:
297
4.4 VARIABLES INDEPENDIENTES
Cmo podemos detectar la existencia de independencia entre dos
variables? qu instrumentos estadsticos son los que nos permiten sealar la
ausencia de tal relacin? Para detectar la no presencia de asociacin entre dos
caracteres analizados sobre la misma poblacin, se procede a elaborar la tabla
de correlacin (para variables cuantitativas) o de contingencia (para variables
cualitativas), y se calculan las respectivas distribuciones conjuntas, marginales y
condicionadas. Las variables son independientes si se cumple cualquiera de las
dos siguientes condiciones equivalentes:
Las frecuencias relativas condicionadas coinciden con sus respectivas
frecuencias relativas marginales, lo que nos indica que el
condicionamiento, en cuanto tal, no existe. Ha de cumplirse que fi/j = fi.= ni.
/N y fj/i =f.j= n.j /N para todo i,j.
La frecuencia relativa conjunta es igual al producto de las frecuencias

relativas marginales, es decir, nij /N = (ni. /N)*(n.j /N) fij = fi. f.j para
todo i,j.
Cuando las dos variables son independientes, la covarianza es cero,

aunque debemos sealar que el recproco no es siempre cierto (es decir, la
covarianza nula no implica necesariamente que ambas variables sean
independientes).
298
4.5 COEFICIENTE DE CORRELACIN LINEAL ENTRE
DOS VARIABLES. REGRESIN SIMPLE
MNIMO CUADRTICA
Se llama correlacin al grado de dependencia mutua entre dos
variables. El coeficiente de correlacin intenta medir la intensidad con que dos
variables estn relacionadas. Este concepto est directamente relacionado con el
concepto de curva de regresin. Mediante la regresin simple mnimo
cuadrtica, se expresa la estructura funcional de la relacin existente entre dos
variables, ajustando la nube de puntos dada por los pares de valores de las dos
variables a una curva de la forma mejor posible (minimizando la varianza del
error). El ajuste ser de la forma Y=f(x)+e o X=f(Y)+e, donde e denota el error
cometido cuya varianza debe ser mnima. El coeficiente de correlacin mide la
calidad de ese ajuste.
Cuando la curva es una recta, la regresin se llama lineal, y en

este caso el coeficiente de correlacin se llama coeficiente de correlacin lineal,
y mide el grado de asociacin lineal que existe entre las variables. El ajuste ser
de la forma Y = a + b X + e (recta de regresin de Y sobre X), o X = c + d Y + e
(recta de regresin de X sobre Y), donde a = ,b=
, c= yd = .
A los parmetros a y b se les denomina coeficientes de regresin

de Y sobre X, y a los parmetros c y d se les llama coeficientes de regresin de X
sobre Y. Tambin se pueden expresar las rectas de regresin de Y sobre X y X
sobre Y respectivamente de la forma
299
.
Si suponemos el ajuste de la forma Y = a + b X + e (recta de regresin

de Y sobre X), el criterio de mnimos cuadrados considera que la funcin que
mejor se ajusta a los datos es la que minimiza la varianza del error e, lo que es
equivalente a minimizar:
Derivando respecto de los parmetros a y b e igualando a cero

tenemos:
Las soluciones a y b de este sistema de ecuaciones normales son a
= y b= , lo que hace que la recta

de regresin de Y sobre X sea:
300
Y= a+ bX = + x
Razonando de forma similar, se obtienen la recta de regresin de X sobre

Y.
La expresin del coeficiente de correlacin lineal entre las variables X e Y

viene dado por la expresin:
Si r = 1 existe correlacin perfecta positiva, y la relacin funcional entre

ambas variables es exacta y positiva, variando las dos en el mismo sentido (al
aumentar una aumenta la otra, y al disminuir una disminuye la otra). Si r = - 1
existe correlacin perfecta negativa, y la relacin funcional entre ambas variables
es exacta y negativa, variando las dos en el sentido opuesto (al aumentar una
disminuye la otra, y al disminuir una aumenta la otra). Si r = 0 la correlacin es
nula, y las variables no estn asociadas, siendo imposible encontrar una relacin
funcional entre ellas.
Si 0 < r < 1 la correlacin es positiva, pero el grado de asociacin

entre las dos variables ser mayor a medida que r se acerca ms a 1, y ser
301
menor a medida que r se acerca ms a cero. Si - 1 < r < 0 la correlacin es
negativa, pero el grado de asociacin entre las dos variables ser mayor a
medida que r se acerca ms a -1, y ser menor a medida que r se acerca ms a
cero.
El cuadrado del coeficiente de correlacin r 2, denotado en general por

R2, se denomina coeficiente de determinacin y representa el porcentaje de
variabilidad de la variable dependiente que es explicada por la regresin. Dada
su definicin, R2 puede expresarse de forma general en funcin de la varianza de
Y y de la varianza residual como sigue:
En general, se trata de una medida de la bondad del ajuste por

regresin. Si R2 se aproxima a la unidad el ajuste es bueno y si R2 se acerca a
cero el ajuste es malo. Esta definicin e interpretacin de R2 es vlida para
cualquier tipo de ajuste aunque no sea lineal.
En cuanto a relacin entre correlacin e independencia, se observa que al

definir el coeficiente de correlacin lineal como r = Sxy /(Sx Sy), si las variables
son independientes estarn incorrelacionadas, ya que r=0 debido a que Sxy es
cero cuando hay independencia. Ahora bien, el recproco no es necesariamente
cierto, ya que dos variables pueden estar incorrelacionadas linealmente y ser
dependientes, puesto que al ser r=0, lo nico que podemos decir es que la
asociacin lineal es nula, pero esas variables pueden depender segn otro tipo
302
de asociacin (parablica, exponencial, etc.)
303
4.6 REGRESIN PARABLICA
Si suponemos el ajuste de la forma Y = a + b X + c X 2 + e (curva de

regresin parablica de Y sobre X), el criterio de mnimos cuadrados considera
que la funcin que mejor se ajusta a los datos es la que minimiza la varianza del
error e, lo que es equivalente a minimizar:
Derivando respecto de los parmetros a, b y c e igualando a cero

tenemos:
Las soluciones a, b y c de este sistema de ecuaciones normales

proporcionan la ecuacin de la parbola que mejor ajusta los datos en el sentido
304
de mnimos cuadrados.
305
4.7 REGRESIN POLINMICA
Si suponemos el ajuste de la forma Y = a + b X + c X 2 + d X 3 + + e

(curva de regresin polinmica de Y sobre X), el criterio de mnimos cuadrados
considera que la funcin que mejor se ajusta a los datos es la que minimiza la
varianza del error e, lo que es equivalente a minimizar:
Derivando respecto de los parmetros a, b, c, d, e igualando a

cero tenemos:
Las soluciones a, b, c, d, de este sistema de ecuaciones
306
normales proporcionan la ecuacin polinmica que mejor ajusta los datos en el
sentido de mnimos cuadrados.
307
4.8 REGRESIN HIPERBLICA, POTENCIAL Y
EXPONENCIAL
Si suponemos el ajuste de la forma Y = a + b / X + e (curva de regresin
hiperblica de Y sobre X), podemos realizar la transformacin Z=1/X, con lo que
la ecuacin a ajustar resulta ser Y = a + b Z + e (curva de regresin lineal de Y
sobre X), regresin que ya sabemos resolver. Una vez realizado el ajuste se
deshace el cambio en la ecuacin resultante.
Si suponemos el ajuste de la forma Y=aXb(curva de regresin potencial

de Y sobre X), podemos aplicar logaritmos, con lo que la ecuacin a ajustar
resulta ser LnY=Lna+bLnX+e (curva de regresin lineal de Y sobre X),
regresin que ya sabemos resolver. Realizado el ajuste lineal se obtienen Lna y
b, es decir, ya conocemos a y b.
Si suponemos el ajuste de la forma Y=abX (curva de regresin

exponencial de Y sobre X), podemos aplicar logaritmos, con lo que la ecuacin a
ajustar resulta ser LnY=Lna+XLnb+e (curva de regresin lineal de Y sobre X),
regresin que ya sabemos resolver. Una vez realizado el ajuste lineal se
obtienen Lna y Lb, es decir, ya conocemos a y b.
308
4.9 COEFICIENTE DE CORRELACIN POR RANGOS
Es muy tpico considerar, sobre todo en variables cualitativas, el
coeficiente de correlacin entre los rangos de los valores de las variables. Se
entiende por rango de un valor de una variable el lugar que ocupa dicho valor en
el conjunto total de valores de la variable, suponiendo una ordenacin de menor a
mayor. Sean Ai y Bi las diferentes modalidades de dos variables cualitativas X e
Y. Sean xi e yi los rangos o nmeros de orden que le corresponden a Ai y Bi,
supuestas ordenadas estas modalidades, con la escala que se determine, y de
menor a mayor. Se define el coeficiente de correlacin por rangos de Spearman
para las variables cualitativas X e Y como el coeficiente de correlacin lineal de
las variables cuyos valores son xi e yi.
Este valor se utiliza para medir el grado de asociacin de las

variables cualitativas X e Y basndonos en la concordancia o discordancia de las
clasificaciones por rangos de sus modalidades. El coeficiente de correlacin por
rangos tambin se utiliza para variables cuantitativas, con la aclaracin de que el
grado de asociacin obtenido no es el de los valores de las variables, sino el de
las clasificaciones por rangos de dichos valores. Este coeficiente viene dado por:
siendo di = xi - yi. Este coeficiente tambin se denomina coeficiente de

correlacin ordinal, y por ser un coeficiente de correlacin vara entre -1 y 1.
Cuando la concordancia entre los rangos es perfecta, entonces di = xi - yi = 0 y r
=1. Cuando la discordancia es perfecta, r = -1. Cuando no hay ni concordancia ni
discordancia, r = 0.
309
4.10 DISTRIBUCIONES DE MS DE DOS
DIMENSIONES: MATRIZ DE COVARIANZAS Y
MATRIZ DE CORRELACIONES
Cuando se tiene una variable tridimensional (X,Y,Z) o enedimensional
en general, tambin se puede realizar la descripcin y anlisis de las
distribuciones de frecuencias subyacentes. La complejidad crece cuando el
nmero de variables o factores que se analizan simultneamente aumenta, pero
conocido el procedimiento para el caso tridimensional, su gener alizacin al n-
dimensional es inmediata. El anlisis es igualmente vlido cuando los caracteres
analizados son de naturaleza cuantitativa o cualitativa.
Al igual que en las distribuciones bidimensionales, la forma ms usual de

representacin de distribuciones tridimensionales son las tablas de correlacin
(referentes a caracteres cuantitativos) o las tablas de contingencia (referentes a
caracteres cuantitativos). Como suceda en el caso de la distribucin bi-
dimensional, se pretende que las frecuencias, tanto conjuntas y marginales como
condicionadas, sean fcilmente localizables, y tambin sus respectivas
distribuciones.
Un elemento esencial en el estudio de variables enedimensionales es la

matriz de covarianzas, que resume las covarianzas para todos los posibles
pares de variables de entre n dadas X1, X2, ..., Xn. Se define como:
310
donde cada sij representa la covarianza entre Xi y Xj para todo i,j.
El signo de cada sij indica el sentido de la variacin conjunta de las dos

variables Xi y Xj que estamos considerando. Si la covarianza es positiva, quiere
decir que ambas variables varan en el mismo sentido, mientras que si la
variacin de las mismas tiene lugar en sentido contrario, la covarianza tomar
valores negativos.
Con la matriz de covarianzas analizamos simultneamente el

sentido de la variacin conjunta de todos los posibles pares de variables Xi y Xj
para todo i,j.
Otro elemento esencial en el estudio de variables enedimensionales es la

matriz de correlaciones, que resume las correlaciones para todos los posibles
pares de variables de entre n dadas X1, X2,...,Xn. Se define como:
311
donde cada rij es el coeficiente de correlacin entre Xi y Xj para todo i,j.
Si dada una serie de variables X1, X2, ..., Xn, se trata de estudiar el grado
de dependencia simultnea entre todas ellas (o bien entre grupos de ellas),
puede utilizarse la matriz de correlaciones. Si en base a la intensidad con que
dependen se puede establecer una funcin que explique una variable mediante
todas las dems, que se supone son sus causas influyentes, estamos ante un
problema de regresin mltiple, que ser estudiado en cap tulos posteriores.
Mediante el coeficiente de correlacin lineal mltiple se estudia el grado

de asociacin lineal simultnea entre todas las variables, mientras que mediante
los coeficientes de correlacin simples r ij se mide el grado de asociacin entre
las variables Xi y Xj sin tener en cuenta a las dems variables.
312
4.11 VARIABLES CUALITATIVAS: TABLAS DE
CONTINGENCIA Y DISTRIBUCIONES
MARGINALES Y CONDICIONADAS
En los apartados anteriores hemos trabajado con variables cuyos
valores son cuantificables numricamente, es decir, hemos estudiado la
denominada estadstica de variables, que incluye las diferentes tcnicas para
analizar la informacin disponible acerca de un determinado fenmeno colectivo
cuyos sucesos vienen expresados en trminos cuantitativos o numricos (renta,
salarios, precios, etc.). Sin embargo, cuando esos sucesos vienen referidos a
cualidades o caractersticas no medibles del fenmeno estudiado (color,
nacionalidad, enfermedades, etc.), estaremos hablando de lo que definimos como
estadstica de atributos, que se ocupa de las variables cualitativas.
En la estadstica de atributos, bien establecemos un determinado

orden o rango entre las observaciones (cuando estas son susceptibles de
aparecer en una determinada escala ordinal), bien procedemos al simple
recuento de las distintas modalidades en que se divide el atributo o cualidad en la
serie de objetos o individuos que se estn analizando (cuando la informacin
aparezca en escala nominal). En este ltimo caso, el carcter numrico surge al
efectuar el recuento, obtenindose de este modo la distribucin de frecuencias
del atributo o variable cualitativa correspondiente.
Pero, aunque se obtenga la distribucin de frecuencias para la

variable cualitativa, no tendra sentido el empleo de promedios, tales como la
media aritmtica o geomtrica. Cuando las observaciones aparecen en una
escala nominal, slo la moda puede utilizarse como medida resumen de posicin
o centralizacin. Si las observaciones responden a una escala ordinal, puede
determinarse, adems del valor modal, tambin la mediana.
Consideramos una poblacin (o una muestra) compuesta por N individuos

sobre los que se pretende analizar simultneamente dos atributos o factores
(variables cualitativas). Designemos como A1, ..., Ah y como B1, ..., Bk las h y k
modalidades del factor A y del factor B respectivamente, y por nij el nmero de
313
individuos que presentan a la vez las modalidades A y Bj. La tabla estadstica
que describe estos N individuos, denominada tabla de contingencia, ser una
tabla de doble entrada como la siguiente:
Al igual que en el caso de las variables cuantitativas, en esta tabla ni. y n.j
nos proporcionan las frecuencias marginales; es decir, el nmero de veces que
aparece la modalidad i-sima de A, con independencia de cul sea la modalidad
de B, es ni., y el nmero de veces que aparece la modalidad j-sima de B,
independientemente de cul sea la modalidad de A con el que se da
314
conjuntamente B, es n.j. De esta forma tenemos que las distribuciones
marginales de A y B vienen dadas por (Ai; ni.) y (Bj; n.j).
A partir de la tabla de contingencia es posible formar un nuevo tipo de

distribuciones, que denominaremos distribuciones condicionadas debido a que
para su obtencin es preciso definir previamente una condicin. Esta condicin
har referencia a la fijacin a priori de una modalidad (o modalidades) de una de
las variables cualitativas o factores, para posteriormente calcular la distribucin
de la otra variable cualitativa sujeta a esa condicin. Si fijamos la variable B en el
valor B2 (podramos fijar ms de un nico valor), la distribucin de la variable A
condicionada a que B tome el valor B2 vendr dada por:
Donde A/B2 nos dar los valores que puede tomar la variable A cuando la
B toma el valor B2, y ni/2 nos da las frecuencias con que se presenta cada uno de
los valores (modalidades).
En general, dado que se pueden establecer condiciones sobre A y B

calculando posteriormente la distribucin de A o B sujeta a esa condicin, nos
encontramos distribuciones que, de manera genrica, tendrn la forma:
315
Para todas las distribuciones ser posible trabajar con frecuencias
relativas en vez de con frecuencias absolutas.
316
4.12 INDEPENDENCIA Y ASOCIACIN DE VARIABLES
CUALITATIVAS: COEFICIENTES
En cuanto a la independencia de variables cualitativas, ya fue tratada al
hablar de la independencia de variables cuantitativas, aunque este concepto toma
aqu especial relevancia, pues en el caso de variables cualitativas la falta de
independencia suele denominarse asociacin, y el anlisis del grado de
asociacin entre variables cualitativas tiene fuerte incidencia en la estadstica de
atributos. Ya hemos visto que de forma anloga a lo que ocurre en el caso de dos
variables cuantitativas, la observacin simultnea de dos atributos da lugar a una
tabla de doble entrada, en donde nij indica el nmero de objetos o individuos que
poseen conjuntamente las modalidades indicadas en la fila i-sima y en la
columna j-sima de la tabla de contingencia. Tambin hemos visto que las
distribuciones que se refieren a uno solo de los dos atributos o variables
cualitativas se denominan igualmente distribuciones marginales.
Se dice que dos atributos A y B son independientes, cuando entre

ellos no existe ningn tipo de influencia mutua. Si dos atributos, A y B, son
independientes estadsticamente, la frecuencia relativa conjunta ser igual al
producto de las frecuencias marginales respectivas. Para que A y B sean
independientes, habr de cumplirse que nij = (ni.n.j)/N para todo i,j. En la
prctica basta con que la relacin se verifique para (h-1)(k-1) valores de nij, ya
que entonces se verificar para todos los restantes.
Si designamos como nij la frecuencia conjunta correspondiente a

las modalidades Ai del atributo A y Bj de B, y por nij la frecuencia terica que
correspondera en el caso de que ambos atributos fuesen independientes, esto
es, nij = (ni.n.j)/N, i=1,...,h, j=1,...,k, siendo N el total de elementos que se
estudian, definimos el coeficiente de contingencia (c 2)como sigue:
317
c2=
Este coeficiente tambin se denomina en la literatura estadstica

cuadrado de la contingencia, y puede expresarse de forma ms sencilla para el
clculo como sigue:
c2=
El coeficiente de contingencia c 2 se utiliza para realizar un contraste

formal para la hiptesis nula de independencia de los atributos A y B cuya
informacin muestral se recoge en la tabla de contingencia dada. La hiptesis
alternativa es la existencia de asociacin entre los atributos A y B. El contraste se
basa en que, bajo la hiptesis nula de independencia de los atributos A y B, el
estadstico c 2 se distribuye segn una chi-cuadrado con (h-1)(k-1) grados de
libertad.
Cuando el tamao muestral es pequeo (N menor que 150), se

utiliza el test exacto de Fisher para contrastar la independencia de atributos. En
este caso suele introducirse una correccin por continuidad en el estadstico de
la chi-cuadrado, tomando en su lugar para el contraste de independencia el
estadstico corregido de Yates, cuya expresin es la siguiente:
318
c2=
Como concepto contrario al de independencia tenemos el de

asociacin. Se dice que A y B estn asociados cuando aparecen juntos en
mayor nmero de casos del que cabra esperar si fuesen independientes. Segn
que esa tendencia a coincidir o no coincidir est ms o menos marcada,
tendremos distintos grados de asociacin. Para medirlos se han ideado diversos
procedimientos, denominados coeficientes de asociacin, entre los que
destacaremos los siguientes:
Cuadrado medio de la contingencia: Se trata de una medida de asociacin

sencilla, que no es ms que el cociente entre el coeficiente de
contingencia c 2 y el tamao de la muestra (N), con lo cual se elimina el
efecto del tamao muestral. Este coeficiente alcanza el valor mximo (uno)
cuando entre los dos atributos existe asociacin perfecta estricta. El valor
del coeficiente es cero si los atributos son independientes. Se trata de una
medida muy sensible a la presencia de totales marginales desequilibrados,
por lo cual, cuando esta circunstancia se presenta, los valores tomados por
esta medida pueden llevarnos a conclusiones falsas. Tanto el coeficiente de
contingencia como el cuadrado medio de la contingencia no pueden ser
nunca negativos. La expresin del cuadrado medio de la contingencia ser :
F2 = c 2/N =
319
Coeficiente de contingencia C de K. Pearson: Se trata de un coeficiente
definido como C = (c 2/(N+c 2)) 1/2. El coeficiente C tiene un campo de
variacin entre 0 y 1, de manera que su valor es cero cuando existe una
carencia absoluta de asociacin entre los atributos, o sea, cuando los
atributos son independientes. Cuando los atributos muestran una total
asociacin entre s, el coeficiente se aproxima a uno, pero slo se
alcanzara el valor uno en el caso ideal de infinitas modalidades. Se puede
demostrar que en el caso de una tabla de contingencia cuadrada (h=k), el
lmite superior de C es S=((h-1)/h) 1/2, lo que permitira calcular un nuevo
valor para esta medida, llamado coeficiente ajustado, que vendra dado por
CA=C/S. Este coeficiente ajustado podra resultar de inters, puesto que
proporciona una idea del verdadero grado de asociacin, al evaluar la
discrepancia entre el valor obtenido y el mximo que podra alcanzar para
la tabla dada. La expresin del coeficiente de contingencia C de K. Pearson
ser:
El coeficiente T de Tschuprow: Se trata de un coeficiente que depende de

c 2, del nmero de filas y columnas de la tabla de contingencia y del total de
elementos N. El coeficiente vara entre 0 y 1, pero no alcanza el mximo
valor cuando la tabla analizada es rectangular, y s cuando la tabla es
cuadrada. La expresin de este coeficiente es la siguiente:
320
Tambin se cumple que:
El coeficiente V de Cramer: Se trata de un coeficiente que toma el valor 1

cuando existe asociacin perfecta entre atributos, cualquiera que sea el
nmero de filas y columnas de la tabla de contingencia analizada. Cuando
la tabla es cuadrada se tiene V=T, y en caso contrario, se tiene V>T. Su
expresin es :
donde m = min(h-1,k-1)
Coeficientes Lambda de Goodman y Kruskall: Se trata de coeficientes que

ya no dependen de c 2. Suponiendo que se ha elegido Y como factor
explicado y X como explicativo, se evala la capacidad de X para predecir Y
mediante el coeficiente ly, cuya expresin es :
321
De la misma forma, suponiendo que se ha elegido X como factor
explicado e Y como explicativo, se evala la capacidad de Y para predecir X
mediante el coeficiente lx, cuya expresin es:
Tanto lx como ly varan entre 0 y 1, y estn especialmente

pensadas como medidas asimtricas. Por ello, cuando no es posible determinar
de manera objetiva cul de los dos factores es el explicativo o el explicado, se
debe optar por la utilizacin de la versin simtrica de estas medidas, cuyo valor
es:
322
El valor de l est comprendido entre lx y ly, y presenta como
inconveniente su gran sensibilidad a la presencia de totales marginales
desequilibrados. Si l se aproxima a uno existe asociacin entre X e Y, y si se
aproxima a cero existir independencia.
323
4.13 FUNCIONES DE EXCEL PARA CORRELACIN Y
REGRESIN SIMPLE
Excel dispone de varias funciones que permiten trabajar con
coeficientes de correlacin, regresin y otros conceptos sobre variables
multidimensionales. Ya sabemos que para ver las funciones de la categora
Estadsticas, se hace clic sobre el icono Insertar funcin, , de la barra de

frmulas (o se elige la opcin Insertar del grupo Biblioteca de funciones de la
ficha Frmulas), con lo que se obtiene la Figura 4-1, en cuyo cuadro Seleccionar
una categora se elige Estadsticas, presentndose todas las funciones de dicha
categora elegida en el cuadro Seleccionar una funcin (Figura 4-2).
Si en el cuadro Seleccionar una funcin hacemos clic con el ratn

sobre una funcin, por ejemplo la funcin COEF.DE.CORREL, se obtiene la
paleta de la funcin con su sintaxis (Figura 4-3). Una vez completados los
argumentos (variables X e Y de la Figura 4-4), se obtiene el resultado en la parte
inferior de la paleta. Al pulsar Aceptar, la frmula y su resultado se insertan en la
celda activa de la hoja de clculo.
324
325
Figura 4-1 Figura 4-2
326
327
A continuacin, se presenta una relacin de funciones de Excel
para correlacin, regresin y variables multidimensionales, acompaada de un
ejemplo referido a las variables X e Y de la hoja de clculo de la Figura 4-4
cuyos valores ocupan los rangos A2 A11 y B2:B11.
Devuelve
COVAR(x;y)
COVAR(A2:A11;B2:B11)
Devuelve
328
COEF.DE.CORREL(x;y)
COEF.DE.CORREL(A2:A11;B2:B11)
Da el coe
COEFICIENTE.R2(y;x)
COEFICIENTE.R2(B2:B11;A2:A11)
Da la pen
PENDIENTE(y;x)
PENDIENTE(B2:B11;A2:A11)
INTERSECCION.EJE(y;x) Da la orde
INTERSECCION.EJE(B2:B11;A2:A11)
PRONOSTICO(z;y;x) Halla la p
PRONOSTICO(2;B2:B11;A2:A11) variable in
TENDENCIA(y;x;z;constante) Halla las
TENDENCIA(A2:A8;B2:B8;B9:B11) para los v
Constante
especifica
CRECIMIENTO(y;x;z;constante) Halla las
CRECIMIENTO(A2:A8;B2:B8;B9: B11;0) para los v
Constante
especifica
Devuelve
329
ERROR.TIPICO.XY(y;x) error tpic
ERROR.TIPICO(B2:B11;A2:A11) para un va
Estas funciones pueden escribirse directamente sobre las celdas

de la hoja de clculo de igual modo que cualquier otra frmula. La Figura 4-5
presenta varias funciones de clculo de medidas de correlacin y regresin
situadas en las celdas de la hoja de clculo y referidas a los valores de las
variables X e Y que ocupan las dos primeras columnas de la hoja. La Figura 4-6
presenta los resultados de las frmulas.
Figura 4-5
330
Figura 4-6
A continuacin, para algunas funciones se presenta su paleta,

omitindose dicha presentacin para paletas de funciones muy similares en su
sintaxis (figuras 4-7 a 4-10).
331
Figura 4-7
332
Figura 4-8
333
Figura 4-9
334
Figura 4-10
Como ejemplo de ajuste por regresin simple con Excel

consideramos las variables R (renta personal en unidades monetarias) y H
(nmero de personas que se van de vacaciones al extranjero), cuyos valores
para un determinado pas son los siguientes:
335
a) Justificar si puede aceptarse una dependencia estadstica lineal entre R y H.
b) En caso positivo, hallar la recta de ajuste y representar la nube de puntos
ajustada.
Introducimos en la hoja de clculo las variables R y H como

columnas de la misma y, a continuacin, situamos las frmulas como se indica
en la Figura 4-11. Los resultados se presentan en la Figura 4-12.
336
Figura 4-11
Figura 4-12
Se observa que el coeficiente de correlacin entre R y H es

r=0,986, lo que asegura la fuerte dependencia lineal positiva entre las dos
variables.
337
Con vistas a realizar un ajuste entre ambas variables, lo lgico es
que el nmero de personas que se van de vacaciones al extranjero dependa de
la renta personal, con lo que hemos de hallar la funcin lineal f tal que H=f(R),
es decir, tenemos que hallar la recta de regresin de H sobre R, cuya pendiente
ha resultado ser b=0,057 y cuya ordenada en el origen ha resultado ser
a=-17,34. Por lo tanto, la recta de regresin de H sobre R es H=-17,34+0,057R,
que nos define la relacin lineal entre el nmero de personas que se van de
vacaciones al extranjero y su renta personal.
Podemos representar la recta de regresin marcando el rango de

las dos variables y haciendo clic en la opcin Dispersin slo con marcadores
del grupo Grficos de la ficha Insertar (Figura 4-13). Se obtiene la nube de
puntos de la regresin (Figura 4-14). A continuacin, se elige la opcin Agregar
lnea de tendencia del men emergente resultante al hacer clic con el botn
derecho del ratn sobre el grafo de la lnea de ajuste (Figura 4-15),
seleccionando en la solapa Tipo tendencia lineal (Figura 4-16), mientras que en
la solapa Opciones se elige presentar la ecuacin en el grfico y el valor de R-
cuadrado (Figura 4-17). Al pulsar Aceptar, se obtiene la Figura 4-18, que
presenta la nube de puntos ajustada a la recta de regresin cuya ecuacin
tambin aparece sobre el grfico. El alto valor de R2 indica un buen ajuste.
338
Figura 4-13
339
Figura 4-14
340
Figura 4-15
341
342
343
Figura 4-18
Como ejemplo adicional consideramos las variables Q
(produccin en millones de unidades monetarias) y E (exportaciones en
milllones de unidades monetarias), cuyos valores durante cuatro aos para un
determinado sector econmico son los siguientes:
344
a) Si se estima que las producciones en los ejercicios 1988, 1999 y 2000 van a
ser de 640, 690 y 720 millones, respectivamente, y que las condiciones del
mercado internacional no van a variar, cul ser el volumen de exportaciones
previsible para esos aos?
b) En qu medida esta previsin puede ser o no aceptable?
c) Cules seran las previsiones considerando una lnea de ajuste

exponencial?
Lgicamente, el volumen de exportaciones depender de la

produccin, con lo que hemos de hallar la funcin f tal que E=f(P), es decir, la
recta de regresin de E sobre P. Una vez calculada la ecuacin de esta recta,
podra usarse para predecir el volumen de exportaciones relativo a una
produccin de 640 millones. No obstante, Excel dispone de funciones para
prediccin que no necesitan del clculo previo de la ecuacin de regresin, y
que son las que utilizaremos aqu.
Comenzamos introduciendo en la hoja de clculo las variables E y

P como columnas de la misma. A continuacin, situamos las frmulas de los
coeficientes de correlacin, determinacin y error tpico como se indica en la
345
Figura 4-19. Los resultados se presentan en la Figura 4-20, e indican que el
ajuste por regresin ha sido bueno, al ser el coeficiente de correlacin muy
prximo a la unidad (0,9493) y el coeficiente de determinacin superior al 90%.

Para realizar la prediccin lineal mnimo cuadrtica mltiple (sin
constante en el modelo), se ha utilizado la funcin matricial TENDENCIA
(Figura 4-21) y se han obtenido previsiones de exportaciones de 125,6, 136,5 y
141,3 millones para los aos 1998, 1999 y 2000, respectivamente. Las
346
predicciones segn la lnea de ajuste exponencial Q = bEx se han calculado
mediante la funcin matricial CREC M ENTO (Figura 4-22), y se han obtenido
previsiones de exportaciones de 576,5, 947,3 y 1 276,1 millones para los aos
1998, 1999 y 2000, respectivamente (lgicamente mayores que para el caso de
la prediccin lineal). Los valores aceptables de los coeficientes de correlacin y
regresin y el valor bajo del error tpico indican que las predicciones realizadas
pueden ser bastante fiables.
347
348
4.14 EXCEL Y LOS AJUSTES POR REGRESIN
POLINMICA, LOGARTMICA,
EXPONENCIAL Y POTENCIAL
Consideramos la serie de inversiones realizadas por una empresa
en 10 perodos consecutivos que se presenta en la Figura 4-23. Con la finalidad
de predecir correctamente la inversin empresaril futura, se trata de ajustar la
serie a una lnea de tendencia cbica, exponencial, potencial, logartmica y de
media mvil de orden 2 para decidir finalmente cul de los modelos ofrece
mejores prediciones.
Se comienza seleccionando los datos de la serie y eligiendo la opcin

Lnea en el grupo Grficos de la pestaa Insertar (Figura 4-23). Se obtiene el
grfico de lneas de la serie de la Figura 4-24. Se hace clic con el botn derecho
del ratn sobre la lnea y en el men emergente resultante se elige Agregar lnea
de tendencia (Figura 4-25). Eligiendo las opciones indicadas en la Figuras 4-25,
4-27, 4-29, 4-31 y 4-33, se obtienen las lneas de tendencia e las Figuras 4-26, 4-
28, 4-30, 4-32 y 4-34, Se observa que la mejor linea de tendenia es la cbica
porque tiene el mayor valor de R2.
349
Figura 4-23
350
Figura 4-24
351
352
353
354
355
356
357
358
359
360
361
4.15 EXCEL Y LA CORRELACIN MLTIPLE CON
HERRAMIENTAS DE ANLISIS
Excel proporciona herramientas de anlisis para medir la relacin
entre dos conjuntos de datos. El clculo de la correlacin devuelve la covarianza
de dos conjuntos de datos dividida por el producto de sus desviaciones estndar.
Se puede utilizar la herramienta Coeficiente de correlacin para

determinar si dos conjuntos de datos varan conjuntamente; es decir, si los
valores altos de un conjunto estn asociados con los valores altos del otro
(correlacin positiva), si los valores bajos de un conjunto estn asociados con
los valores bajos del otro (correlacin negativa), o si los valores de ambos
conjuntos no estn relacionados (correlacin con tendencia a cero). Cuando se
consideran ms de dos variables, esta herramienta devuelve la matriz de
correlaciones entre ellas.
Asimismo, Excel tambin permite hallar el promedio del producto

de desviaciones de variables respecto de sus medias (covarianza) mediante la
herramienta Covarianza. La covarianza es una medida de la relacin entre dos
rangos de datos, y tambin se puede utilizar para determinar si dos rangos de
datos varan conjuntamente. Cuando se consideran ms de dos variables, esta
herramienta devuelve la matriz de covarianzas entre ellas.
362
4.15.1 Correlacin y m atriz de correlaciones
La opcin Anlisis de datos del grupo Anlisis de la ficha Datos
(Figura 4-35) nos lleva al cuadro de dilogo Anlisis de datos de la Figura 4-36.
Si en la lista Funciones para anlisis elegimos Coeficiente de correlacin, se
obtendr el cuadro de dilogo de la Figura 4-37, que permite calcular la matriz
de correlaciones de las variables especificadas en el campo Rango de entrada.
363
364
Figura 4-37
En el campo Rango de entrada introduzca la referencia de celda del

rango de datos que desee analizar (rango que contiene las variables cuya
correlacin o matriz de correlaciones se va a calcular). La referencia deber
contener dos o ms rangos adyacentes organizados en columnas o filas. En el
campo Agrupado por haga clic en el botn Filas o Columnas para indicar si los
datos del rango de entrada estn organizados en filas o en columnas. Si la
primera fila del rango de entrada contiene rtulos, active la casilla de
verificacin Rtulos en la primera fila. Si los rtulos estn en la primera columna
del rango de entrada, active la casilla de verificacin Rtulos en la primera
columna. Esta casilla de verificacin estar desactivada si el rango de entrada
carece de rtulos. Microsoft Excel generar los rtulos de datos
365
correspondientes para la tabla de resultados.
En cuanto a las Opciones de salida, en el campo Rango de salida

introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados (matriz de correlaciones). Microsoft Excel slo completar
media tabla, ya que la correlacin entre dos rangos de datos es independiente
del orden en que se procesen dichos rangos. Las celdas de la tabla de
resultados con coordenadas de filas y de columnas iguales contendrn el valor
1, ya que cada conjunto de datos est perfectamente correlacionado consigo
mismo. Haga clic en la opcin En una hoja nueva para insertar una hoja nueva
en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva
hoja de clculo.
Para darle un nombre a la nueva hoja de clculo, escrbalo en el
cuadro. Haga clic en la opcin En un libro nuevo para crear un nuevo libro y
pegar los resultados en una hoja nueva del libro creado. En la Figura 4-38, se
muestra la matriz de correlaciones de las variables X, Y y Z para las opciones
de entrada en el cuadro Coeficiente de correlacin de la Figura 4-37. Se
observa la escasa relacin existente entre las variables, ya que todos los
coeficientes de correlacin son muy pequeos.
Figura 4-38
366
4.15.2 Covarianza y m atriz de covarianzas
La opcin Anlisis de datos del grupo Anlisis de la ficha Datos
(Figura 4-35) nos lleva al cuadro de dilogo Anlisis de datos de la Figura 4-39.
Si en la lista Funciones para anlisis elegimos Covarianza, se obtendr el
cuadro de dilogo de la Figura 4-40, que permite calcular la matriz de
correlaciones de las variables del campo Rango de entrada.
Figura
4-39
367
En el cuadro Rango de entrada introduzca la referencia de celda del

rango de datos a analizar (rango que contiene las variables cuya covarianza o
matriz de covarianzas se quiere calcular). La referencia deber contener dos o
ms rangos adyacentes organizados en columnas o filas. En el campo Agrupado
368
por haga clic en el botn Filas o Columnas para indicar si los datos del rango de
entrada estn organizados en filas o en columnas.
Si la primera fila del rango de entrada contiene rtulos, active la
casilla de verificacin Rtulos en la primera fila. Si los rtulos estn en la
primera columna del rango de entrada, active la casilla de verificacin Rtulos
en la primera columna. Esta casilla de verificacin estar desactivada si el rango
de entrada carece de rtulos. Excel generar los rtulos de datos
correspondientes para la tabla de resultados.
En cuanto a las Opciones de salida, en el campo Rango de salida

introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados (matriz de covarianzas). Microsoft Excel slo completar
media tabla, ya que la covarianza entre dos rangos de datos es independiente
del orden en que se procesen dichos rangos. Las celdas de la tabla de
resultados con coordenadas de filas y de columnas iguales contendrn el valor
de la varianzas de las variables. Haga clic en la opcin En una hoja nueva para
insertar una hoja nueva en el libro actual y pegar los resultados, comenzando
por la celda A1 de la nueva hoja de clculo. Para darle un nombre a la nueva hoja
de clculo, escr balo en el cuadro. Haga clic en la opcin En un libro nuevo para
crear un nuevo libro y pegar los resultados en una hoja nueva del libro creado.
En la Figura 4-41 se muestra la matriz de covarianzas de las variables X, Y y Z
para las opciones de entrada en el cuadro Covarianza de la Figura 4-40.
369
4.16 EXCEL Y LAS TABLAS DE CONTINGENCIA
MEDIANTE TABLAS DINMICAS
En Excel es posible construir tablas de contingencia a travs de
las tablas dinmicas. Una tabla dinmica o informe de tabla dinmica es una
tabla interactiva que se puede utilizar para presentar tablas cruzadas y
distribuciones de frecuencias que resumen rpidamente grandes volmenes de
datos. Podrn elegirse las variables de sus filas y columnas a medida para ver
diferentes resmenes de los datos de origen. Las variables a tabular sern
dinmicas, es decir, a partir de un conjunto extenso de informacin previamente
almacenada de forma bruta en mltiples variables, se cruzarn entre s las
variables que se desee, filtrando los datos y mostrando los detalles de las reas
que consideremos de inters.
La informacin de las tablas dinmicas puede graficarse, dando

lugar a los grficos dinmicos o informes de grfico dinmico, que se
corresponden con los histogramas de frecuencias.
Como veremos a continuacin con ejemplos, en Excel es posible

construir tablas de contingencia para dos variables cualitativas, para una
variable cuantitativa y otra cualitativa, y para tres o ms variables.
370
4.16.1 Excel y las tablas de contingencia para dos
variables cualitativas
La tabla siguiente muestra los datos relativos a los resultados de
una encuesta de opinin (favorable o desfavorable) sobre un determinado
acontecimiento, realizada a un conjunto de hombres y mujeres pertenecientes a
una determinada clase social y con una edad conocida.
371
372
Se trata de crear una tabla de contingencia que cruce las
variables cualitativas sexo y opinin. Posteriormente, se especificar la tabla de
contingencia anterior segn los valores de la variable clase.
Para crear una tabla de contingencia, utilice el Asistente para

tablas y grficos dinmicos como gua para buscar y especificar los datos de
origen que desea analizar y para crear el diseo de la tabla. Los pasos para
crear una tabla de contingencia comienzan por abrir el libro en que se desee
crear la tabla y hacer clic en una celda de la hoja que contiene los datos.
A continuacin, haga clic en Tablas dinmicas en el grupo Tablas

de la ficha Insertar (Figura 4-42). En el Asistente para tablas y grficos
dinmicos (Figura 4-43) especifique la zona de la hoja que contiene los datos a
analizar y la esquina superior izquierda de la hoja que contendr el informe de
tabla de dinmica que se va a generar. Se obtiene la Figura 4-44.
373
Figura 4-42 Figura
4-43
374
Figura 4-44
Para disear el informe, se arrastran los campos cuyos valores

van a situarse en filas en la tabla, desde la barra de herramientas Tabla dinmica
a la zona Coloque campos de fila aqu (o a la zona Etiquetas de fila de la parte
inferior derecha encabezada por Arrastrar campos entre las reas siguientes), y
se arrastran los campos cuyos valores van a situarse en columnas a la zona
Coloque campos de columna aqu (o a la zona Etiquetas de columna). Al
arrastrar el campo por cuyos valores se tabula a la zona Coloque los campos de
375
valor aqu (o a la zona Valores), se obtiene la tabla dinmica.
Para disear nuestro informe de tabla dinmica, se arrastran los

campos cuyos valores van a situarse en filas en la tabla, desde la parte superior
derecha de la figura (encabezada por Lista de campos de tabla dinmica) a la
zona Etiquetas de fila (en nuestro caso Sexo). Tambin se arrastran los campos
cuyos valores van a situarse en columnas a la zona Etiquetas de columna (en
nuestro caso OPINION). Por ltimo, se arrastra el campo por cuyos valores se
tabula (en nuestro caso OPINION) a la zona Valores. Se obtiene la tabla
dinmica de la Figura 4-45.
La Lista de campos de tabla dinmica de la Figura 4-45 permite
agregar campos a las filas y a las columnas de la tabla de contingencia para
obtener tablas mltiples. Por ejemplo, si arrastramos a la zona de columnas el
campo Clase, se obtiene la tabla de contingencia triple de la Figura 4-46.
376
377
Figura 4-45
378
Figura 4-46
379
4.16.2 Excel y las tablas de contingencia para dos
variables, una cualitativa y otra
cuantitativa
Con los datos del ejemplo anterior, se trata ahora de obtener la
tabla de contingencia que cruza la variable cualitativa OPINION con la variable
cuantitativa EDAD. Ahora se trata de cruzar la OPINION con la EDAD para
tabular el nmero de personas que con las distintas edades tienen las diferentes
opiniones.
Para crear este tipo de tabla de contingencia, se utiliza el

Asistente para tablas y grficos dinmicos igual que en el apartado anterior, con
la nica diferencia de que en la pantalla de diseo se arrastra Edad a Etiquetas
de fila, Opinion a Etiquetas de columna y Edad a Valores. Se obtiene la tabla
dinmica de la Figura 4-47.
380
381
Figura 4-47
Como la variable que resume los datos es ahora una variable

cuantitativa (Edad), la funcin de resumen es por defecto la funcin Suma. No
obstante, puede utilizarse cualquier otra. Si se hace clic en la flecha situada a la
derecha de Suma de Edad, se obtendr el men emergente de la Figura 4-48 en
el que se elige la opcin Configuracin de campo de valor que nos permite
elegir cualquier funcin para resumir los datos (en nuestro caso la funcin
Cuenta) de las mostradas en la Figura 4-49. Se obtiene la nueva tabla de
contingencia pedida, que se muestra en la Figura 4-50.
382
383
384
Figura 4-50
385
4.16.3 Excel y las tablas de contingencia para m s
de dos variables
Con los datos del ejemplo anterior realizaremos una tabla de
contingencia tridimensional que cruce la variable EDAD (filas) con las variables
OPININ y SEXO (columnas). Posteriormente, realizar una tabla de
contingencia que cruce la EDAD con OPINION y SEXO para la clase media.
El camino para realizar tablas de contingencia de tres o ms

variables es el mismo que en los casos anteriores, teniendo presente que a la
hora de disear la tabla hay que situar en F LA y COLUMNA las variables
adecuadas.
Para realizar una tabla de contingencia tridimensional que cruza
la variable EDAD (filas) con las variables OPINION y SEXO (columnas), se
realiza el diseo de la tabla tal y como se indica en la Figura 4-51.
386
Figura 4-51
Para aumentar las dimensiones de una tabla de contingencia,

puede utilizarse tambin la zona de arrastre de campos Filtro de informe. Por
ejemplo, podemos realizar la tabla tridimensional del ejemplo anterior para cada
valor de la variable CLASE (con lo cual ya estamos introduciendo una cuarta
dimensin). Para ello, llevamos el campo CLASE a la zona Filtro de informes, y
situamos los dems campos como en el prrafo anterior. Se obtiene la tabla
dinmica de la Figura 4-52, que presta la nueva dimensin CLASE en su parte
superior. Por defecto, la tabla se realiza considerando todas las clases, pero
387
pueden obtenerse tablas que crucen EDAD con OP NION y SEXO para cada
valor de CLASE haciendo clic en el tringulo situado en la parte inferior del
campo Todas (Figura 4-53). Por ejemplo, en la Figura 4-54 se cruza EDAD con
OPINION y SEXO para la clase media.
Figura 4-52
388
Figura 4-53
389
Figura 4-54
390
4.17 EXCEL Y LOS CONTRASTES DE ASOCIACIN E
INDEPENDENCIA
En Excel es muy sencillo calcular el cuadrado de la contingencia
c2 a partir de las frecuencias absolutas Oj de las propias celdas de la tabla de
contingencia y de las frecuencias esperadas Ej = (Total Columna)(Total
Fila)/(Total General). La expresin del estadstico c2 para contrastar la
independencia es:
A partir del valor de este estadstico, podemos contrastar la

independencia de dos variables aleatorias cualitativas a un nivel alfa calculando
el valor cr tico correspondiente a ese nivel alfa segn una chi-cuadrado con (r-
1)(s-1) grados de libertad, siendo r y s el nmero de filas y columnas,
respectivamente, de la tabla de contingencia.
Una vez calculadas las frecuencias esperadas Ej, Excel dispone
de la funcin PRUEBA.CHI(rango_tabla; rango_Ej), que devuelve el valor del
estadstico c2 (cuadrado de la contingencia).
Excel tambin dispone de la funcin PRUEBA.CHI.INV(alfa;

grados), que devuelve el valor cr tico de una chi-cuadrado correspondiente al
nivel alfa y a los grados de libertad especificados.
Si el valor del estadstico es mayor que el valor cr tico, se

rechazar la hiptesis de independencia entre las dos variables cualitativas. En
caso contrario, se acepta la hiptesis de independencia.
A partir del valor del cuadrado de la contingencia pueden

calcularse el resto de las medidas de asociacin entre las variables cualitativas
391
estudiadas en este cap tulo.
Como ejemplo, con los datos anteriores estudiaremos la

independencia entre las variables cualitativas OPINION y SEXO. Adems,
cuantificaremos el grado de asociacin entre las dos variables citadas a partir
de los coeficientes de asociacin estudiados en este cap tulo.
Comenzamos creando la tabla de contingencia 2*2 a partir del

diseo de la Figura 4-55. A continuacin, construimos la tabla de frecuencias
esperadas (Figura 4-57) mediante las frmulas de la Figura 4-56.
392
Figura 4-55
393
Figura 4-56
Figura 4-57
394
A partir de los valores de la tabla de contingencia y de los valores
de la tabla de frecuencias esperadas, podemos calcular el valor del cuadrado de
la contingencia y el valor crtico al 95%. Para calcular c2, hacemos clic en ,

y en la categora Estadsticas seleccionamos la funcin PRUEBA.CHI (Figura
4-58), rellenando su paleta como se indica en la Figura 4-59 (previamente nos
hemos situado en la celda de la hoja en la que se insertar el resultado de la
funcin), para hallar el p-valor (0,456). Para hallar el valor c2 (0,554), usamos la
paleta de la funcin PRUEBA.CHI. NV de la Figura 4-60. De igual forma, se
calcula el valor crtico del 95% (3,841) con la paleta de la funcin
PRUEBA.CHI.INV de la Figura 4-61. En la Figura 4-62 se observa que el valor
del estadstico c2 es menor que el valor cr tico (3,84), con lo que se acepta la
hiptesis de independencia (adems, el p-valor es mayor que 0,05). La Figura 4-
63 muestra las frmulas.
395
396
397
Figura 4-62
398
Figura 4-63
Para calcular el resto de los coeficientes de asociacin

estudiados en este cap tulo, se utilizan las frmulas de la Figura 4-64, que
ofrecen los resultados de la Figura 4-65.
399
Figura 4-64
400
Figura 4-65
Vemos que los coeficientes de asociacin estn muy prximos a

cero, lo que indica la debilidad de la asociacin entre las dos variables SEXO y
OPINION.
El resultado anterior concuerda con la aceptacin de la hiptesis

de independencia entre ellas, ya corroborada anteriormente.
Los coeficientes de asociacin se han calculado mediante las

siguientes expresiones:
El valor del cuadrado medio de la contingencia ser:
401
F2 = c 2/N = =0,030789
El valor del coeficiente de contingencia C de K. Pearson ser:
=0,172827
El valor del coeficiente T de Tschuprow se calcula as:
=0,175468
El coeficiente V de Cramer se calcula mediante la expresin:
402
= 0,175468 donde m = min(h-1,k-1)=1
El coeficiente Lambda de Goodman y Kruskall ly se calcula de la

forma siguiente:
=-0,44444
EJERCICIOS RESUELTOS
Ejercicio 1. Se han estudiado los pesos en kg y las tallas en cm de 70 individuos
obtenindose los datos de la tabla siguiente:
403
1. Hallar el peso medio y la talla media as como el error cometido al
resumir pesos y tallas por sus valores medios Qu media es mejor?
2. Hallar la distribucin segn las tallas de los individuos que pesan 54 kilos
y la distribucin segn los pesos de los individuos que miden entre 161
cm y 167 cm. Hallar media y varianza de las dos distribuciones
condicionadas.
Si llamamos X a la variable pesos e Y a la variable tallas, los datos

pueden arreglarse en una tabla de doble entrada como sigue para realizar los
clculos:
X/Y 160 162 164 166
48 3 2 2 1
51 2 3 4 2
54 1 3 6 8
57 0 0 1 2
404
60 0 0 0 2
n.j 6 8 13 15
n.jyj 960 1296 2132 2490
n.jyj2 153600 209952 349648 413340
La tabla anterior puede obtenerse a travs de Excel mediante los clculos

que se especifican en la Figura 4-66.
Figura 4-66
Para hallar el peso medio y la talla media se calcularn las medias

de las distribuciones marginales de X e Y respectivamente. Asimismo, para
cuantificar el error cometido al resumir pesos y tallas por sus valores medios se
cuantificarn los coeficientes de variacin de Pearson para ambas marginales.
Las distribuciones marginales de X e Y son las siguientes:
X ni. Y
405
48 8 160
51 14 162
54 24 164
57 14 166
60 10 168
170
Tenemos lo siguiente:
406
Se observa que el menor coeficiente de variacin es el relativo a la talla
media, que resulta ser as un promedio ms adecuado.
La distribucin segn las tallas de los individuos que pesan 54

kilos es la distribucin de Y condicionada a X=54, y la distribucin segn los
pesos de los individuos que miden entre 161 cm y 167 cm es la distribucin de X
condicionada a Y=162,164,166.
X/Y=162,164,166 ni/j=2,3,4 Y/X=54
48 5 160
51 9 162
54 17 164
57 3 166
60 2 168
170
La tabla Excel que genera estas distribuciones se presenta en la Figura

4-67.
407
Figura 4-67
La media y la varianza de cada una de estas dos distribuciones

condicionadas se calcula de la misma forma que para cualquier distribucin de
frecuencias.
408
Ejercicio 2. Se considera la variable bidimensional (X,Y) cuya distribucin de
frecuencias se presenta en la tabla siguiente:
1. Estudiar si las dos variables son independientes utilizando la distribucin

conjunta y las marginales.
2. Estudiar si las dos variables son independientes utilizando las
distribuciones marginales y las condicionadas.
3. Hallar la covarianza de X e Y
409
Para estudiar la independencia de las dos variables utilizando la
distribucin conjunta y las marginales tenemos que comprobar que fij = fi.f.j "i,j.
La primera tarea ser construir una tabla con la distribucin conjunta (fij
= nij/N) y con las marginales (fi.= ni./N y f.j = n.j/N) como se indica en la
Figura 4-68.
X/Y 15 24
12 3 4
15 6 8
19 9 12
n.j 18 24
fij
0,03571429 0,04761905
0,07142857 0,0952381
0,10714286 0,14285714
f.j 0,21428571 0,28571429
Figura 4-68
Ya estamos en condiciones de comprobar que fij = fi.f.j "i,j. Para

ello ordenamos los clculos fi.f.j como se indica a continuacin:
0,21428*0,16666 0,28571*0,16666
0,21428*0,33333 0,28571*0,33333
0,21428*0,5 0,28571*0,5
410
Observamos que, una vez realizados estos clculos, se obtiene la
tabla de la distribucin conjunta fij.
fij 0,035714286 0,04761905
0,071428571 0,0952381
0,107142857 0,14285714
0,214285714 0,28571429
Las frmulas de Excel de la Figura 4-69 nos llevan a las

distribuciones marginales y conjuntas de la Figura 4-70.
411
412
Figura 4-69
Figura 4-70
Para estudiar la independencia de las dos variables utilizando las

distribuciones marginales y las condicionadas tenemos que comprobar que fj/i =
f.j "i,j.
fi/j=1 fi/j=2 fi/j=3
fj/i=1 3/14 4/14 2/14

fj/i=2 6/28 8/28 4/28
413
fj/i=3 9/42 12/42 6/42
f.j 18/84 24/84 12/84
Los clculos se arreglaran en Excel segn las frmulas de la Figura 4-

71.
Figura 4-71
Observamos que se cumple fj/i = f.j "i,j ya que:
3/14 = 6/28 = 9/42 = 18/84

4/14 = 8/28 = 12/42 = 24/84
2/14 = 4/28 = 6/42 =12/84
5/14=10/28=15/42=30/84
Para estudiar la independencia de las dos variables utilizando las

distribuciones marginales y las condicionadas tambin podramos comprobar
que fi/j = fi. "i,j.
fi/j=1 fi/j=2 fi/j=3
3/18 4/24 2/12
414
6/18 8/24 4/12
9/18 12/24 6/12

n.j 18 24 12

72.
Figura 4-72
Observamos que se cumple fi/j = fi. "i,j ya que:
3/18 = 4/24 = 2/12 = 5/30 = 14/84

6/18 = 8/24 = 4/12 = 10/30 = 28/84
9/18 = 12/24 = 6/12 = 15/30 = 42/84
La covarianza entre X e Y viene dada por la expresin:
Luego para su clculo necesitamos las medias de las dos
415
marginales X e Y, que se calcularn con los datos de la tabla de la Figura 4-73
X/Y 15 24
12 3 4
15 6 8
19 9 12
n.j 18 24
Figura 4-73

74.
Figura 4-74
416
La covarianza, que ser cero debido a la independencia, puede calcularse
como sigue:
La covarianza tambin puede calcularse de la forma siguiente:
Para realizar el clculo de

se utiliza la tabla siguiente:
X/Y 15 24 27 30 ni. xiy1n1j xiz2n2j
417
12 3 4 2 5 14 540 1
15 6 8 4 10 28 1350 28
19 9 12 6 15 42 2565 54
n.j 18 24 12 30 84 4455 95

75.
Figura 4-75
Ejercicio 3. En una empresa se toma una muestra de 100 trabajadores con la

finalidad de estudiar si hay relacin entre su edad X y los das que estn de baja
en el ao Y. Se obtienen los siguientes resultados:
418
1. Es simtrica la distribucin del nmero de das de baja de los
trabadores?
2. Cul es la edad ms frecuente de los trabajadores que piden la baja?
3. Ajustar mediante un modelo exponencial los das de baja en funcin de la
edad.
4. Realizar el mismo ajuste considerando un modelo lineal.
5. Cul de los ajustes es el mejor?
Para realizar los clculos necesarios elaboramos la tabla siguiente:
X/Y 10 30 50 ni.
24 28 2 0
35 26 15 4
45 6 14 5
n.j 60 31 9
yjn.j 600 930 450
yj2n.j 6000 27900 22500
419
yj3n.j 60000 837000 1125000
N.j 60 91 100

76.
Figura 4-76
Realizamos los siguientes clculos:
420
Para estudiar la asimetra del nmero de das de baja de los trabajadores
calculamos el coeficiente de asimetra de Fisher de la variable marginal Y como
sigue:
421
Se observa que hay una ligera asimetra hacia la derecha, pero
muy pequea. Los das de baja se distribuyen casi simtricamente a lo largo del
ao.
Para calcular la edad ms frecuente de los trabajadores que piden

la baja hallaremos la moda de la variable marginal X. Observamos que el
intervalo modal es [30,40] ya que es el que tiene mayor frecuencia ni. El clculo
de la moda se realiza como sigue:
aos
Ahora intentaremos ajustar los das de baja en funcin de la edad

de los trabajadores mediante un modelo de regresin exponencial de ecuacin y
= abx.
La regresin exponencial es equivalente a la regresin lineal con

variable dependiente Log(y) y con variable independiente x. Los clculos para
esta regresin se presentan en la tabla siguiente:
X/Z 1 1,4771 1,699 ni. x
422
24 28 2 0 30
35 26 15 4 45
45 6 14 5 25
n.j 60 31 9 100
z jn. j 60 45,790 15,291 121,0811
zj2n.j 60 67,6365 25,97940 153,6159

77.
Figura 4-77
El parmetro Log(b) se estima por mnimos cuadrados mediante:
423
El parmetro Log(a) se estima por mnimos cuadrados mediante:
Los parmetros finales buscados a y b del modelo exponencial se

estimarn mediante:
El modelo estimado tiene la ecuacin y = 3,99(1,04)x.
Para medir la calidad de este ajuste podemos utilizar el coeficiente

de determinacin R2, que se calcula como:
424
El ajuste no es de calidad porque R2 est ms cerca de cero que
de la unidad.
El ajuste por regresin lineal es de la forma y = a + bx siendo:
El coeficiente de determinacin ser en este caso el cuadrado del

coeficiente de correlacin, que se calcula como sigue:
425
Para realizar el clculo de
se utiliza la tabla siguiente:
X/Y 10 30 50 ni. xiy1n1j xiy2n2
24 28 2 0 30 6720
35 26 15 4 45 9100
45 6 14 5 25 2700
n.j 60 31 9 100 18520

78.
426
Figura 4-78
El ajuste lineal tampoco es de calidad porque R2 est ms cerca

de cero que de la unidad. Adems, el ajuste exponencial es mejor que el ajuste
lineal porque su coeficiente de determinacin es mayor (0,26 > 0,2536).
Ejercicio 4. Consideramos la siguiente variable aleatoria bidimensional:
1. Calcular medias y varianzas marginales de X e Y.

2. Relacionar la media marginal de Y y la media de las medias
condicionadas de Y a X.
3. Calcular la media y varianza condicionada de la distribucin de X
condicionada a los valores 5 y 9 de Y.
4. Calcular la recta de regresin de X sobre Y.
Comenzaremos resumiendo los datos de muestra variable

bidimensional en la tabla de doble entrada que se presenta a continuacin:
427
Para realizar los clculos necesarios elaboramos la tabla
siguiente:
X/Y 2 5 9 10
3 0 2 1 2
4 2 1 0 3
6 3 0 4 2
n.j 5 3 5 7
yjn.j 10 15 45 70
yj2n.j 20 75 405 700

79.
428
Figura 4-79
Las medias y varianzas marginales se calculan como se indica a

continuacin:
429
Las distribuciones condicionadas de Y a todos los valores de X, as como
los clculos requeridos se presentan a continuacin:
Y/X=3 n.j yjn.j Y/X=4 n.j yjn.j Y/X=6 n.j
2 0 0 2 2 4 2 3
5 2 10 5 1 5 5 0
9 1 9 9 0 0 9 4
10 2 20 10 3 30 10 2
5 39 6 39 9
430
Se observa que se cumple:
luego la media marginal de Y es igual a la media de las medias condicionadas

de Y a X.
La media y la varianza de X condicionadas a los valores 5 y 9 de Y

se calcula de la misma forma que para cualquier distribucin de frecuencias.
X/Y=5,9 ni. Xini. Xi2ni.
3 3 9 27
4 1 4 16
6 4 24 144
8 37 187
431
La recta de regresin de X sobre Y tiene como ecuacin
La tabla siguiente permite el clculo de .
X/Y 2 5 9 10 ni. xiy1n1j
3 0 2 1 2 5 0
4 2 1 0 3 6 16
6 3 0 4 2 9 36
n.j 5 3 5 7 20 52

80.
Figura 4-80
432
La recta de regresin de X sobre Y tiene como ecuacin
Para medir la calidad de este ajuste suele calcularse el coeficiente

de correlacin, o su cuadrado, el coeficiente de determinacin.
El coeficiente de determinacin tan bajo indica que el ajuste no es de

calidad, y el coeficiente de correlacin tan bajo indica que las variables X e Y
estn muy poco relacionadas.
Ejercicio 5. Se han obtenido datos sobre el consumo (C) y la renta mensual

(RM) de 100 familias, expresadas en 104 unidades monetarias, obtenindose la
siguiente tabla bidimensional de frecuencias:
C 15 25 35 45
RM
30 10 15
40 5 20 25
50 15 5 5
433
a) Ajustar los datos a una relacin lineal adecuada entre el consumo y la renta.
b) Medir el grado de representatividad de la relacin lineal anterior.
c) Calcular el consumo esperado para una renta de 60*104 unidades monetarias.
d) Obtener las distribuciones marginales de las variables C y RM y sus medias,
varianzas, desviaciones tpicas y coeficientes de asimetra y curtosis.
En este ejercicio es esencial la forma en que se ofrecen los datos

para su tratamiento en Excel. Observamos que los valores de las variables vienen
dados en forma de tabla bidimensional de frecuencias absolutas. La primera
tarea ser introducir adecuadamente los valores de las dos variables como dos
columnas de la hoja de clculo Excel. El par de valores RM=30 y C=15 se
introduce 10 veces, el par de valores RM=40 C=15 se introduce 5 veces, y as
sucesivamente; se introduce cada par de valores tantas veces como indique su
frecuencia absoluta.
Es lgico que el consumo de las familias dependa de su renta mensual,

con lo que hemos de hallar la funcin f tal que C=f(RM), es decir, la recta de
regresin de C sobre RM. Una vez calculada la ecuacin de esta recta, la
utilizaremos para predecir el consumo esperado para una renta de 60*104
unidades monetarias.
Una vez introducidos los datos de las variables, utilizamos las funciones
de Excel que permiten calcular el coeficiente de correlacin y la pendiente y
ordenada en el origen de la recta de regresin de C sobre RM (Figura 4-81). La
Figura 4-82 presenta los resultados.
434
Figura 4-81
Figura 4-82
Se observa que el coeficiente de correlacin entre C y RM es 0,4613, que

no es un valor lo suficientemente alto como para asegurar una dependencia
fuerte entre las dos variables.
435
No obstante, correlacin dbil no implica independencia, por lo
que puede hallarse la recta de regresin de C sobre RM, pero con la precaucin
de que dicha relacin lineal entre ambas variables puede no ser buena, y sobre
todo pueden no ser fiables las predicciones basadas en dicha relacin de
linealidad. Una vez calculadas la pendiente y la ordenada en el origen de la recta
de regresin, tenemos la relacin C=7,5+0,5RM.
Una vez calculada la ecuacin de la recta de regresin, la

utilizaremos para predecir el consumo esperado relativo a una produccin de
60*104 unidades monetarias, que vendr dado por C=7,5+0,5*60*104 = 37,5*104
unidades monetarias.
Esta prediccin puede no ser lo suficientemente buena, ya que el
contraste de ajuste por regresin aceptaba la incorrelacin entre las variables, y
el coeficiente de correlacin no es muy prximo a la unidad (0,4949).
La prediccin tambin puede calcularse mediante la funcin

PRONOSTICO de Excel, tal y como se indica en la Figura 4-83.
Figura 4-83
436
Para hallar las medias, varianzas, desviaciones tpicas y coeficientes de
variacin, asimetra y curtosis de las distribuciones marginales de C y RM,
seleccionamos la opcin Anlisis de datos del men Herramientas, y elegimos
Estadstica descriptiva en Funciones para anlisis (Figura 4-84). Rellenamos la
pantalla Estadstica descriptiva como se indica en la Figura 4-85. Al pulsar
Aceptar, se obtienen los resultados de la Figura 4-86.
437
438
Figura 4-86
Para hallar las propias distribuciones marginales de C y RM,
seleccionamos la opcin Anlisis de datos en el grupo Anlisis de la ficha Datos,
y elegimos Histograma en Funciones para anlisis (Figura 4-87). Rellenamos la
pantalla Histograma como se indica en la Figura 4-88. Al pulsar Aceptar, se
obtiene la distribucin e histograma de RM. Repitiendo el proceso para C
(Figura 4-89), se obtiene la marginal de C. Los resultados se observan en la
Figura 4-90.
439
Figura 4-87
440
441
442
Figura 4-90
Ejercicio 6. Consideramos la distribucin bidimensional de las variables presin
(P) y tiempo de aplicacin de dicha presin (T) sobre determinadas piezas para
el control de su calidad de fabricacin.
T 0 5 10 15 20
443
P
66 1 1 0 1 2
68 3 2 1 0 1
70 0 1 9 1 2
72 1 2 1 2 1
74 3 1 2 1 2
a) Estudiar el grado de dependencia lineal existente entre las dos variables.

b) Hallar las distribuciones marginales de P y T y sus coeficientes de variacin,
tercer cuartil y percentil 15.
c) Hallar la distribucin de P condicionada a que T=10, as como su esperanza,
varianza, moda, mediana, tercer cuartil y coeficiente de variacin.
d) Hallar la distribucin de T condicionada a que P=72, as como su esperanza,
varianza, moda, mediana, tercer cuartil y coeficiente de variacin.
e) Para la distribuciones de T condicionadas a P=66,68,70,72,74,
respectivamente, y las de P condicionadas a T=0,5,10,15,20, respectivamente.
La primera tarea ser introducir adecuadamente los valores de las

dos variables como dos columnas de la hoja de clculo. El par de valores P=66 y
T=0 se introduce una vez, el par de valores P=68 y T=0 se introduce 3 veces, y
as sucesivamente, se introduce cada par de valores tantas veces como indique
su frecuencia absoluta.
Una vez introducidos los datos de las variables, utilizamos la

funcin de Excel que permite calcular el coeficiente de correlacin (Figura 4-
91).
444
Figura 4-91
Tambin puede usarse la paleta de la funcin COEF DE.CORREL,
tal y como se indica en la Figura 4-92 (basta hacer clic en y hacer doble
clic en la funcin).
445
Figura 4-92
Se observa que el coeficiente de correlacin entre P y T es 0,0073,

que es un valor muy prximo a cero, con lo que el grado de dependencia entre
las dos variables es prcticamente nulo. No tendra sentido hacer un ajuste por
regresin.
La forma ms rpida de hallar las propias distribuciones

marginales de P y T, es elegir la opcin Anlisis de datos en el grupo Anlisis de
la ficha Datos y seleccionar Histograma en Funciones para anlisis (Figura 4-
93). Rellenamos la pantalla Histograma como se indica en la Figura 4-94, y al
pulsar Aceptar, se obtiene la distribucin e histograma de P. Repitiendo el
proceso para T (Figura 4-95), se obtiene la marginal de T. Los resultados se
observan en la Figura 4-96.
446
Figura 4-93
447
448
449
Figura 4-96
El camino ms sencillo para calcular coeficientes de variacin,

cuartiles y percentiles de las distribuciones marginales de P y T, es utilizar las
respectivas funciones de Excel, tal y como se indica en la Figura 4-97. La Figura
4-98 presenta los resultados.
Para hallar la distribuciones condicionadas de P a todos los

valores de T, utilizamos la opcin Tabla dinmica del grupo Tablas de la ficha
450
Insertar. La pantalla de diseo se rellena llevando la variable P a F LA, y la
variable T a COLUMNA y a VALORES, y utilizando la funcin CUENTA como
funcin de resumen. Al pulsar Aceptar, se obtiene la Figura 4-99, cuyas
columnas son distribuciones de P condicionadas al valor de T que encabeza la
columna (la tercera columna presenta la condicionada de P a T=10).
451
Para hallar la distribuciones condicionadas de T a todos los
valores de P, utilizamos la opcin Informes de tabla y grfico dinmico del men
Datos, rellenando la pantalla de diseo llevando la variable T a FILA y la variable
P a COLUMNA y a VALORES, y utilizando la funcin CUENTA como funcin de
resumen. Al pulsar Aceptar, se obtiene la Figura 4-100, cuyas columnas son
distribuciones de T condicionadas al valor de P que encabeza la columna (la
cuarta columna presenta la condicionada de T a P=72).
Para calcular estadsticos relativos a las distribuciones

condicionadas, bastara con introducir sus valores en columnas de Excel y
aplicar las frmulas correspondientes. No obstante, para calcular la media,
varianza, moda, mediana, tercer cuartil y coeficiente de variacin de la
distribucin de P condicionada a T=10, bastara fijarse en que esos valores de P
ocupan el rango A18 A21. Por lo tanto, plantearamos las frmulas de la Figura
4-101 para obtener los resultados de la Figura 4-102. En el caso del clculo de
la media, varianza, moda, mediana, tercer cuartil y coeficiente de variacin de la
distribucin de T condicionada a P=72, introducimos sus valores en una columna
de la hoja de clculo y aplicamos las frmulas de la Figura 4-103 para obtener
los resultados de la Figura 4-104.
Figura 4-101
452
Figura 4-102
453
Figura 4-103
454
Figura 4-104
Ejercicio 7. Los ahorros S y los ingresos Y mensuales en cientos de euros de

una muestra de 10 familias de una determinada regin se presentan en la tabla
siguiente:
1. Ajustar los datos anteriores a un modelo lineal que explique los ahorros
familiares en funcin de los ingresos para la regin dada.
455
2. Ajustar los datos anteriores a un modelo lineal parablico que explique
los ahorros familiares en funcin de los ingresos para la regin dada.
3. Qu ajuste es mejor?
4. Qu ahorro se puede prever para una familia de la regin que ingrese
2500 euros mensuales?
Comenzaremos elaborando una tabla de datos adecuada para los

clculos a realizar en el problema:
Si yi Siyi yi 2 Si
1,9 20,5 38,95 420,25
1,8 20,8 37,44 432,64
2 21,2 42,4 449,44
2,1 21,7 45,57 470,89
1,9 22,1 41,99 488,41
2 22,3 44,6 497,29
2,2 22,2 48,84 492,84
2,3 22,6 51,98 510,76
2,7 23,1 62,37 533,61
3 23,5 70,5 552,25
SUMAS 21,9 220 484,64 4848,38
La tabla anterior se obtiene mediante las frmulas de Excel de la Figura

4-105.
456
Figura 4-105
El modelo lineal puede ajustarse

mediante el sistema de ecuaciones normales siguiente:
457
Luego el modelo lineal ajustado ser:
Para medir la calidad del ajuste lineal utilizamos el coeficiente de

correlacin, o su cuadrado, el coeficiente de determinacin, que se calcula como
sigue:
Se observa que la calidad del ajuste es buena porque el coeficiente de

determinacin es alto (el coeficiente de correlacin vale
, que es un valor elevado

indicativo del alto grado de relacin entre el ahorro y la renta de las familias).
El modelo lineal parablico

puede ajustarse mediante el sistema de ecuaciones normales siguiente:
458
La solucin de este sistema ofrece los parmetros del modelo parablico
(b0=85,713, b1= -7,962 y b2 = 0,189). Luego el modelo ajustado ser:

determinacin, que se calcula como sigue:
El ajuste parablico es de mayor calidad que el lineal porque tiene un

coeficiente de determinacin mayor. Por lo tanto se usar el modelo parablico
para hacer predicciones.
459
La tabla siguiente ordena los clculos para hallar
Si yi (Si-(85,713-7,962yi+0,189
1,9 20,5
1,8 20,8
2 21,2
2,1 21,7
1,9 22,1
2 22,3
2,2 22,2
2,3 22,6
2,7 23,1
3 23,5
La tabla anterior se obtiene mediante las frmulas de Excel de la Figura

4-106.
460
Figura 4-106
Para saber qu ahorro se puede prever para una familia de la

regin que ingrese 2500 euros mensuales, realizamos la correspondiente
prediccin para yi = 25 cientos de euros mediante el modelo parablico recin
estimado. Tenemos:
Ejercicio 8. Para describir la distribucin de la renta de las personas fsicas

suele utilizarse la ley de Pareto que viene definida por la siguiente ecuacin:
461
donde y es el porcentaje de personas con una renta igual o inferior a x siendo x0
la renta mnima y b un parmetro estructural. Se pide ajustar una ley de Pareto a
los datos siguientes:
Se trata de un ajuste de tipo hiperblico potencial. Todo este tipo

de ajustes se resuelve aplicando logaritmos para linealizar de la siguiente forma:
El modelo lineal puede ajustarse

mediante el sistema de ecuaciones normales siguiente:
462
Luego el modelo lineal ajustado ser:
Una tabla adecuada para los clculos sera la siguiente:
n(xi) yi Zi= Ln(1-yi) ZiLn(xi)
0,7 0,033 -0,03355678 -0,0234
1,2 0,107 -0,1131687 -0,1358
1,5 0,22 -0,24846136 -0,3726
1,8 0,373 -0,46680874 -0,8402
2,2 0,55 -0,7985077 -1,7567
2,7 0,753 -1,39836694 -3,7755
3,2 0,88 -2,12026354 -6,7848
3,5 0,96 -3,21887582 -11,266
4 1
16,8 3,876 -8,39800958 -24,955
463
correlacin, o su cuadrado, el coeficiente de determinacin, que se calcula como
sigue:
La tabla anterior puede obtenerse mediante las frmulas de Excel de la

Figura 4-107.
Figura 4-107
Se observa que la calidad del ajuste lineal es buena porque el coeficiente
464
de determinacin es alto (el coeficiente de correlacin vale
, que es un valor elevado indicativo del alto

grado de relacin entre Zi y Ln(xi), y por tanto entre xi e yi).
Para ver la forma del modelo de Pareto deshacemos el cambio de variable

como sigue:
El modelo de Pareto ajustado ser el siguiente:
Ejercicio 9. La inversin K y el producto interior bruto y se relacionan mediante la

expresin y = aKc, (denominada en trminos econmicos funcin simple de
Cobb-Douglas). Se pide ajustar una funcin de Cobb-Douglas a los datos
siguientes:
465
Se trata de un ajuste de tipo potencial. Todo este tipo de ajustes se
resuelve aplicando logaritmos para linealizar de la siguiente forma:
El modelo lineal puede ajustarse mediante el

sistema de ecuaciones normales siguiente:
Luego el modelo de Cobb-Douglas ajustado ser:
Una tabla adecuada para los clculos sera la siguiente:
Ki yi Zi = log(yi) xi
0,6 2,6 0,41497335
0,6 2,9 0,462398
466
0,8 3,4 0,53147892
1 4,1 0,61278386
1,3 5,1 0,70757018
1,4 6 0,77815125
1,6 7,2 0,8573325
1,9 9,2 0,96378783
2,2 11,2 1,04921802
2,5 13,1 1,1172713
2,9 15,2 1,18184359
3,5 17,3 1,2380461
3,9 19,9 1,29885308
SUMAS 11,213708
La Figura 4-108 muestra las frmulas de Excel adecuadas a la tabla

anterior.
467
Figura 4-108
Para medir la calidad del ajuste potencial medimos la del ajuste
lineal al que es equivalente utilizando el coeficiente de correlacin, o su
cuadrado, el coeficiente de determinacin, que se calcula como sigue:
Se observa que la calidad del ajuste lineal es muy buena porque el

coeficiente de determinacin es alto (el coeficiente de correlacin vale
468
, que es un valor muy prximo a 1 indicativo del
alto grado de relacin entre Zi y xi, y por tanto entre xi e yi).
Ejercicio 10. Consideramos las variables X, Y ,Z cuyos valores son los

siguientes:
6. Hallar la matriz de correlaciones deduciendo el grado de dependencia de

las variables.
7. Hallar la matriz de covarianzas e interpretar el resultado.
En primer lugar introducimos como tres columnas de Excel las

variables X, Y y Z. A continuacin, seleccionamos la opcin Anlisis de datos del
grupo Anlisis del men Datos, y elegimos Estadstica descriptiva en Funciones
para anlisis (Figura 4-109). Rellenamos la pantalla Estadstica descriptiva
como se indica en la Figura 4-110. Al pulsar Aceptar, se obtienen los resultados
de la Figura 4-111.
469
Figura 4-109
470
Figura 4-110
471
Figura 4-111
Para calcular la matriz de correlaciones, seleccionamos la opcin

Anlisis de datos del grupo Anlisis del men Datos, y elegimos Coeficiente de
correlacin en Funciones para anlisis (Figura 4-112). Rellenamos la pantalla
Coeficiente de correlacin como se indica en la Figura 4-113 Al pulsar Aceptar,
se obtiene la matriz de correlaciones de la Figura 4-114.
472
473
Figura 4-114
En la salida anterior, se observa que el coeficiente de correlacin entre

las variables X e Y es 0,9899, entre X y Z es 0,9802, y entre Y y Z es 0,9830, lo
que indica la fuerte dependencia lineal positiva entre cada par de variables. La
matriz de correlaciones tiene la forma siguiente:
Para hallar la matriz de covarianzas, seleccionamos la opcin

Anlisis de datos del grupo Anlisis del men Datos, y elegimos Covarianza en
Funciones para anlisis (Figura 4-115). Rellenamos la pantalla Covarianza
como se indica en la Figura 4-116. Al pulsar Aceptar, se obtiene la matriz de
covarianzas de la Figura 4-117.
474
475
Figura 4-117
A la vista de los resultados, podemos decir que como todas las

covarianzas son positivas, los pares de variables varan en el mismo sentido
alrededor de sus medias.
Por otro lado, como la covarianza entre X e Y es 12, entre X y Z es 7,96 y

entre Y y Z es 10,8 y adems las varianzas de X, Y y Z son respectivamente 8,96,
16,4 y 7,36 la matriz de covarianzas tiene la forma siguiente:
Ejercicio 11. Se pregunta a 50 economistas, 40 ingenieros y 10 abogados si

creen que la bolsa en el prximo mes va a bajar, subir o permanecer igual. El 20
% de los economistas opina que subir, mientras que el 40% de ellos piensa
que bajar. El 50 % de los ingenieros se inclina porque permanecer igual, y tan
slo el 5% cree que bajar. Por ltimo, la mitad de los abogados se decanta por
la subida y la otra mitad cree que bajar.
a) Resumir los datos en la variable bidimensional que cruza la profesin con el
476
pronstico y presentar la tabla de contingencia correspondiente.
b) Hallar las distribuciones marginales del atributo profesin y del atributo
pronstico y realizar un diagrama de barras para el atributo F.
c) Hallar la distribucin de la profesin condicionada al valor igual del atributo
pronstico.
d) Existe relacin entre los pronsticos sobre la evolucin del mercado burstil
y la profesin del encuestado?
Comenzaremos calculando la tabla de contingencia relativa al

problema (Figura 4-118).
Figura 4-118
La siguiente tarea ser introducir los datos de los dos atributos como
dos variables en la hoja de clculo. Denominamos P a la variable pronstico, y F
a la variable profesin. P puede tomar los valores B (baja), I (igual) y S (sube). F
puede tomar los valores E (economista), I (Ingeniero) y A (abogado). El valor EB
de la variable bidimensional lo introducimos 20 veces (la E en la columna de la
varible F y la B en la columna de la variable P), el valor EI 20 veces, el valor ES
10 veces, el valor IB 10 veces, el valor II 20 veces, el valor IS 18 veces, el valor
AB 5 veces, y el valor AS 5 veces.
Para crear la tabla de contingencia 3*3, utilizamos el Asistente

para tablas y grficos dinmicos (opcin Tablas dinmicas del grupo Tablas de
la ficha Insertar) rellenando la pantalla de diseo situando la variable P en
COLUMNA y la variable F en F LA y VALORES, para obtener la tabla de
477
contingencia de la Figura 4-119.
Figura 4-119
La distribucin marginal de F ya se observa sobre la tabla de

contingencia (zona en negrita de la Figura 4-120). Lo mismo ocurre con la
distribucin marginal de P (zona en negrita de la Figura 4-121). Para hallar un
diagrama de barras para el atributo F, basta pulsar el icono (opcin

Columna del grupo Grficos de la ficha Insertar) estando posicionados sobre
cualquier celda de la tabla de contingencia. Se obtiene el grfico dinmico de la
Figura 4-122, que presenta un diagrama de barras para F subdividido por
clases correspondientes a los valores de P.
478
479
Figura 4-122
480
La distribucin de la Profesin condicionada al valor Igual del atributo
Pronstico, est formada por la zona en negrita de la figura 5-123. Para ver si
existe relacin entre los atributos Pronstico y Profesin, calculamos medidas
de asociacin y realizamos el contraste de independencia de la chi-cuadrado
segn las frmulas de la Figura 4-124. Se obtienen los resultados de la Figura
4-125.
Figura 4-123
481
Figura 4-124
482
Figura 4-125
Se observa que el p-valor del contraste de la chi-cuadrado es menor que
0,05, lo que indica que las variables no son independientes. Adems, el valor del
estadstico de la chi-cuadrado es superior al valor crtico al 95%, lo que
corrobora la dependencia de las variables.
Como ya sabemos que no hay independencia, la siguiente tarea

es medir el grado de asociacin de P y F. Para ello, utilizamos los valores de las
diferentes medidas de asociacin, que como es lgico son bastante altos (se
alejan bastante de cero), lo que nos muestra que existe un cierto grado de
483
asociacin entre las variables.
484
Captulo 5
NMEROS NDICES Y MEDIDAS DE

CONCENTRACIN
485
5.1 NMEROS NDICES SIMPLES
En los captulos anteriores se han caracterizado las distribuciones
de una y varias variables por una serie de medidas que intentaban sintetizar el
conjunto de toda la informacin disponible (medidas de posicin), pasando
despus al estudio de la variabilidad (medidas de dispersin) y de las medidas de
forma (asimetra y curtosis). El problema que ahora se nos presenta es la
comparacin de magnitudes simples o complejas referidas a una situacin
inicial, que se fijar previamente de la forma ms adecuada posible a los
objetivos que se persigan y que condiciona la comparacin. En cuanto a las
magnitudes complejas, habr que tener en cuenta la homogeneidad de las
unidades y el problema de la agregacin. Tambin se estudiar en este captulo
la deflactacin de series estadsticas y los ndices o medidas de concentracin.
Consideraremos un nmero ndice simple como una medida que

nos da la evolucin de una magnitud en el tiempo. Ms formalmente, definiremos
un nmero ndice como aquella medida estadstica que nos permite estudiar los
cambios que se producen en una magnitud simple o compleja con respecto al
tiempo o al espacio; es decir, vamos a comparar dos situaciones, una de las
cuales se considera de referencia. Si la magnitud estudiada es simple, el ndice
se llama simple, y si la magnitud estudiada es compleja, el ndice se llama
complejo.
Sea Xi una magnitud simple y sean xi0 y xit los valores de dicha magnitud
en los perodos base y actual respectivamente. El nmero ndice simple Ii para la
magnitud citada se define como:
Ii = I0t(i) = xit / xi0
que mide la variacin en tanto por uno que ha sufrido la magnitud Xi entre los
dos perodos considerados. Generalmente, estos ndices se suelen expresar en
porcentajes, multiplicndolos por cien.
ndices simples de precios, cantidad y valor
486
Entre los nmeros ndices simples ms usuales tenemos los ndices de
precios, los ndices de cantidades, de produccin o cunticos, y los ndices de
valor. Un ndice simple de precios, o precio relativo, es la razn entre el precio de
un bien en el perodo actual pit y el precio del mismo en el perodo base pio. Se
puede escribir:
P0t = pit / pi0
De la misma forma, un ndice simple de cantidad, produccin, cuntico o

cantidad relativa, puede definirse como la razn entre la cantidad producida o
vendida de un bien en sus perodos actual qit y base qio. Se puede escribir:
Q0t = qit / qi0
Un ndice simple de valor, o valor relativo, se define como el cociente entre

el valor de un bien en el perodo actual (producto del precio de ese bien y la
cantidad producida en el perodo actual pit*qit) y el valor de ese bien en el perodo
base (pi0*qi0). Tendremos que:
V0t = pit*qit / pi0*qi0 = (pit/pi0) * (qit/qi0)
Por lo tanto, se cumple que el ndice de valor es igual al ndice de precios

por el ndice de cantidades, o, lo que es lo mismo, que el valor relativo de un bien
es igual al producto de su precio relativo y su cantidad relativa.
487
5.2 NMEROS NDICES COMPLEJOS NO
PONDERADOS
En la prctica, los nmeros ndices simples no suelen utilizarse
aisladamente. Por lo general, no estamos interesados en comparar precios,
cantidades o valores de bienes individuales, sino en comparar dichas magnitudes
para grandes grupos de bienes. Como consecuencia de ello, la informacin
suministrada por los ndices simples de cada uno de los diferentes bienes debe
ser resumida en un nico ndice al que vamos a denominar complejo.
Un ndice complejo ha de ser sencillo, pero a la vez ha de reunir la
mayor cantidad posible de informacin. As, podemos considerar dos tipos de
ndices complejos, en los que va a primar, en mayor o menor medida, cada una de
las caractersticas anteriores. Si se prefiere sencillez, tendremos los ndices
complejos no ponderados, y si, por el contrario, lo que se desea es que
contengan la mayor cantidad de informacin posible, se utilizarn los ndices
complejos ponderados.
Los ndices complejos no ponderados van a ser medias aritmticas,

geomtricas, armnicas y agregativas de los ndices simples. Pero todas las
medias calculadas sern no ponderadas. Esto es lgico, pues para resumir la
informacin obtenida a travs de los ndices simples, lo natural es promediar
stos. En los apartados siguientes se definirn los ndices complejos sin
ponderar ms usuales.
ndice media aritmtica, geomtrica y armnica de ndices simples
Sea la magnitud compleja X formada por las magnitudes simples X1, X2,
..., Xi, ..., XN que toman los siguientes valores:
Perodo base Perodo actual ndices simples
x10 x1t I1 = x1t / x10

. . .
. . .
488
xi0 xit Ii = xit / xi0
. . .
. . .
xN0 xNt IN = xNt / xN0
El ndice complejo sin ponderar media aritmtica resume los diferentes

ndices simples Ii considerando su media aritmtica sin ponderar, con lo que su
expresin ser:
El ndice complejo sin ponderar media geomtrica resume los diferentes

ndices simples Ii considerarando su media geomtrica sin ponderar, con lo que
su expresin ser:
El ndice complejo sin ponderar media armnica resume los diferentes

ndices simples Ii considerando su media armnica sin ponderar, con lo que su
expresin ser:
489
ndice media agregativa
Este tipo de ndice considera, en vez de las medias entre los diferentes
ndices simples, la relacin por cociente entre las sumas de los diferentes
valores de la magnitud en los dos perodos. Su expresin es:
490
5.3 NMEROS NDICES COMPLEJOS DE PRECIOS NO
PONDERADOS
En los epgrafes siguientes se tratan los ndices complejos de
precios no ponderados ms habituales. Estos indices van a tener la ventaja de su
sencillez de clculo, pero tienen la desventaja de no tener en cuenta la
importancia relativa de cada uno de los diferentes bienes en el conjunto total, ya
que no son ponderados. Tambin es una desventaja el hecho de que las unidades
utilizadas para medir los precios de cada bien afectan al valor de los ndices, con
lo que estos no resultan homogneos.
ndice de Sauerbeck
Se trata de una media aritmtica no ponderada de ndices simples de

precios Ii=pit /pi0. Con lo que el ndice de Sauerbeck ser:
que es simplemente la media aritmtica de los precios relativos de los bienes

considerados.
ndice de Bradstreet-Dtot
Es la media agregativa sin ponderar de los precios, y su expresin es la

siguiente:
491
492
Los nmeros ndices complejos ponderados tienen en cuenta la
diferente importancia relativa de cada una de las magnitudes simples dentro del
conjunto de todas ellas. Para ello, es necesario afectar a cada magnitud simple, y
por tanto a sus ndices, de unas ponderaciones que midan su peso relativo dentro
del conjunto en que se consideren.
ndice media aritmtica, geomtrica y armnica de ndices simples
Supongamos que las diferentes ponderaciones o pesos asignados a los

ndices simples que van a constituir el ndice complejo son w1, w2,..., wi,...wn.
Segn el tipo de media ponderada utilizado para calcular el ndice complejo
obtendramos los siguientes nmeros ndices:
El ndice complejo ponderado media aritmtica resume los diferentes

ndices simples Ii considerando su media aritmtica ponderada, con lo que su
expresin ser:
El ndice complejo ponderado media geomtrica resume los diferentes

ndices simples Ii considerando su media geomtrica ponderada, con lo que su
expresin ser:
493
El ndice complejo ponderado media armnica resume los diferentes
ndices simples Ii considerando su media armnica ponderada, con lo que su
expresin ser:
ndice media agregativa
Este tipo de ndice considera, en vez de las medias ponderadas entre los
diferentes ndices simples, la relacin por cociente entre las sumas de los
diferentes valores ponderados de la magnitud en los dos perodos. Su expresin
es:
494
495
5.5 NMEROS NDICES COMPLEJOS DE PRECIOS
PONDERADOS
En el trabajo con los ndices complejos de precios ponderados es
fundamental el tipo de ponderaciones utilizado. Entre los sistemas de
ponderaciones propuestos tradicionalmente, tenemos:
wi = pi0*qi0, que es el valor de la cantidad consumida del bien i-simo en

el perodo base, a precios de dicho perodo.
wi = pit*qit, que es el valor actual de la cantidad consumida del bien i-

simo, a precios actuales.
wi = pi0*qit, que es el valor de precios del perodo base de la cantidad

consumida del bien i en el perodo actual.
wi = pit*qi0, que es el valor actual de la cantidad consumida del bien i en el

perodo base.
Las diferentes ponderaciones dan lugar a los diferentes ndices

complejos de precios ponderados. Los ms habituales se estudian en los
epgrafes siguientes.
ndice de Laspeyres
Es la media aritmtica ponderada de los ndices simples de precios. El

criterio de ponderacin seguido es wi=pi0*qi0; luego la expresin del ndice
ser:
496
ndice de Paasche
Es tambin una media aritmtica ponderada de ndices simples de

precios, pero en este caso el coeficiente de ponderacin es wi=pi0*qit, con lo
que la expresin del ndice ser:
La frmula de Paasche exige calcular las ponderaciones qit para cada

perodo corriente. El clculo de este ndice es laborioso, y presenta el
inconveniente adicional de que el ndice de precios de cada ao slo se puede
comparar con el del ao base, debido a que las ponderaciones varan de perodo
en perodo, siendo por tanto distintas en los diferentes ndices calculados.
ndice de Edgeworth
497
Es una media agregativa ponderada de precios cuyo coeficiente de
ponderacin es wi=qi0+qit. Su expresin ser:
ndice ideal de Fisher
Se trata de la media geomtrica de los ndices de precios complejos

ponderados de Laspeyres y Paasche; es decir:
498
CUNTICOS O DE PRODUCCIN
La evolucin de las magnitudes tambin puede estudiarse a travs
de sus cantidades fsicas. Los nmeros ndices cunticos o de produccin tienen
como objetivo estudiar las variaciones habidas en la produccin fsica de un
conjunto de bienes y servicios, para medir su evolucin en el tiempo. Los ms
importantes se ven en los epgrafes siguientes.
ndice cuntico de Laspeyres
Es la media aritmtica ponderada de los ndices simples de cantidades. El

criterio de ponderacin seguido es wi=pi0*qi0; luego la expresin del ndice
ser:
ndice cuntico de Paasche
Es tambin una media aritmtica ponderada de ndices simples de

cantidades, pero en este caso el coeficiente de ponderacin es wi=pit*qi0, con lo
que la expresin del ndice ser:
499
ndice ideal de Fisher
Se trata de la media geomtrica de los ndices cunticos complejos

ponderados de Laspeyres y Paasche; es decir:
Lo mismo que para los ndices de precios, el ndice cuntico de

Laspeyres es el que ms se utiliza.
500
5.7 PROPIEDADES DE LOS NMEROS NDICES
Existen determinadas propiedades que seran deseables para todo
nmero ndice. Las ms importantes son las siguientes:
Existencia: Todo nmero ndice debe existir, ha de tener un valor finito

distinto de cero. Por ejemplo, los ndices de media geomtrica y armnica
se anulan si algn xit es cero y, por lo tanto, en este caso, no estn
determinados.
Identidad: Si se hacen coincidir el perodo base y el perodo actual, el

nmero ndice debe ser igual a la unidad. Esta propiedad debe cumplirse
necesariamente, puesto que los nmeros ndices miden variaciones entre
dos perodos, y al hacer coincidir stos, el nmero ndice no debe reflejar
ninguna variacin.
Inversin: Si designamos como I0t un nmero ndice con base 0 y perodo

actual t, al intercambiar los perodos entre s (It0), el nuevo ndice debe
cumplir que I0t = 1/It0 => It0*I0t = 1.
Circular: Si consideramos los perodos 0, t, t , t , se debe cumplir que

I0t*Itt *It 0=1 y I0t*Itt *It t *It 0=1. Como consecuencia de esta propiedad
y de la inversin, tenemos que I0t*Itt = I0t y I0t*Itt *It t = I0t
Proporcionalidad: Si en el perodo actual todas las magnitudes sufren una

variacin proporcional, el nmero ndice debe quedar lgicamente afectado
por la misma variacin, es decir, si los valores xit sufren una variacin
proporcional de orden k, de forma que los nuevos valores en el perodo t
son xit = xit + kxit = (1+k)xit, el nuevo ndice simple ser I i = xit /xi0 =
(1+k)xit /xi0=(1+k)Ii.
Homogeneidad: Un nmero ndice no debe venir afectado por un cambio en
501
las unidades de medida.
Sera deseable que estas propiedades que, en general, se cumplen para

los ndices simples, se verificasen tambin en los complejos, pero esto no
siempre ocurre. La idoneidad de un ndice puede basarse en el grado de
cumplimiento de las propiedades citadas, y por esta va puede intentarse
determinar cul de todos los ndices ya definidos es el ms idneo para ser
utilizado en la medicin de las variaciones de los precios o las cantidades. Las
propiedades de existencia y unicidad las cumplen todos los ndices definidos. Las
propiedades de inversin y circularidad las verifican solamente los ndices de
Bradstreet-Dtot, Edgeworth y Fisher. La proporcionalidad la satisfacen todos los
ndices algebraicamente, si bien desde el punto de vista econmico hay que
hacer algunas objeciones para los ndices de Paasche, Edgeworth y Fisher.
502
5.8 NDICES EN CADENA
Los ndices en cadena son une serie de ndices en los que la base es
siempre el perodo precedente, con lo que cada uno de ellos ofrece una
comparacin porcentual respecto al perodo anterior. A travs de este
procedimiento, y partiendo de una serie de enlaces relativos, podemos conseguir
una serie de ndices referidos a una base comn aplicando la propiedad circular.
La nueva serie obtenida nos permitir efectuar comparaciones a medio y largo
plazo.
Si tenemos datos sobre una magnitud, referidos a los instantes

consecutivos en el tiempo 0, 1, 2,..., t -1, t, podemos expresar el nmero ndice en
el instante t con base en el instante 0 como producto de una cadena de ndices
cuyas bases son los instantes consecutivos, de la siguiente forma:
I0,1*I1,2*It-1,t = I0,t
503
5.9 CAMBIO DE BASE Y ENLACES DE NMEROS
NDICES
A medida que pasa el tiempo, mantener el perodo base de un
ndice puede resultar inadecuado. Existe prdida de representatividad de los
ndices al irnos alejando del perodo base, sobre todo cuando para ponderar
magnitudes actuales se utilizan pesos relativos referidos al perodo base. Este
problema se resuelve haciendo un cambio de base a un perodo ms cercano al
actual. Para poder relacionar series de ndices referidos a distintos perodos
base, se utilizan los enlaces tcnicos entre ambas series. Para efectuar el
cambio de base nos basaremos en la propiedad de inversin de los nmeros
ndices.
Sea la siguiente serie de nmeros ndices referidos al perodo de base 0.

Supongamos que deseamos efectuar un cambio de perodo base desde el
perodo 0 al h. Obtenemos as una nueva serie referida a dicho perodo base h.
Perodo ndice base 0 ndice base h
0 I00 I0h
1 I10 I1h
. . .
. . .
i Ii0 Iih
. . .
. . .
h Ih0 Ihh
. . .
. . .
t It0 Ith
La nueva serie de ndices se obtendr teniendo en cuenta que
504
Iih = Ii0/Ih0 * Ihh = Ii0 / Ih0
donde Ih0 es el ndice que hace de enlace tcnico entre las dos series.
505
5.10 DEFLACTACIN DE SERIES ESTADSTICAS
De forma muy simple, puede decirse que deflactar es eliminar el efecto de

los precios que puede existir en la variacin total de una magnitud. De este
modo, puede conocerse la alteracin de la magnitud debida exclusivamente al
cambio en las cantidades (variacin en trminos reales o a precios constantes).
As, deflactando una serie a precios corrientes (serie en la que las
modificaciones de sus trminos recogen el efecto de los precios y de las
cantidades), se obtiene otra a precios constantes o en trminos reales (serie en
la que las variaciones de sus elementos son debidas nicamente al efecto de las
cantidades). Para pasar de una serie en pesetas corrientes a una en pesetas
constantes, dividiremos la serie primitiva por un ndice de precios adecuado, ya
que de esta forma se puede eliminar la influencia de los precios. El paso de una
serie de valores corrientes a constantes se conoce con el nombre de deflactacin
de la serie, y al ndice elegido para efectuar dicha transformacin se le llama
deflactor.
En el caso de las magnitudes complejas, los deflactores son ndices de

precios que se obtienen mediante ponderaciones de la evolucin de los precios
de los bienes y/o servicios que integran la magnitud estudiada. No existe un
deflactor nico que pueda utilizarse con cualquier serie. La utilizacin de uno u
otro depender de la magnitud econmica que est recogida en la serie. As, por
ejemplo, si se pretende deflactar una serie temporal de consumo privado o medir
la variacin de la capacidad adquisitiva de los trabajadores, lo ms indicado ser
tomar como deflactor el ndice de precios al consumo, y si la serie fuese el
producto interior bruto habra que emplear el deflactor implcito del PIB.
506
5.11 PARTICIPACIN Y REPERCUSIN
Supongamos que todas las magnitudes simples que componen un
ndice complejo sufren una variacin que podemos expresar por Dp1t, Dp2t,..,
DpNt. El ndice presentar una variacin total debida a todas estas variaciones, y
cada una de sus componentes contribuir con una variacin particular,
denominada repercusin, a la variacin del ndice general. La suma de todas las
repercusiones individuales de cada componente es igual a la variacin total del
ndice general.
Se entiende por participacin de la componente i en la variacin del ndice

general, la relacin por cociente entre la repercusin de la componente i y la
suma de repercusiones de todas las componentes.
lustraremos estos conceptos aplicndolos al ndice de Laspeyres de

precios. Si todas las magnitudes simples que componen el ndice complejo de
Laspeyres de precios sufren una variacin que podemos expresar por Dp1t,
Dp2t, ..., DpNt, el nuevo ndice ser:
donde
507
La variacin en porcentaje del ndice general se expresa como:
Llamaremos repercusin, en valor absoluto, de la variacin de la

componente i en el ndice general, a la expresin:
En porcentaje, la variacin de la componente i en el ndice general ser:
508
La participacin en porcentaje de la componente i en la variacin del
ndice general ser la relacin por cociente entre la repercusin en porcentaje y
la suma de repercusiones en porcentaje de todas las componentes, expresada en
tanto por ciento. Su expresin ser:
509
5.12 NDICES OFICIALES
ndice de precios al consumo
Entre los ndices de precios de mayor importancia se encuentra el ndice

de precios al consumo ( PC), que tiene por objeto medir la evolucin en el tiempo
de los precios, basndose en un conjunto determinado de bienes y servicios, que
componen la llamada cesta de la compra, para un determinado estrato de
poblacin convenientemente elegido.
En casi todos los pases el ndice elegido para el PC es un ndice tipo

Laspeyres. En Espaa, para determinar la cesta de la compra, se obtiene a travs
de la Encuesta de Presupuestos Familiares, y referido a un determinado estrato
de poblacin, el conjunto de bienes y servicios que dicho grupo adquiere
normalmente, y que le proporciona el mismo nivel de vida a lo largo de un perodo
de tiempo no demasiado amplio. Una vez determinada la cesta de la compra, se
valoran las correspondientes cantidades consumidas a precios del perodo base
y del actual. Su cociente nos dar el ndice del coste de la vida.
ndices de produccin y precios industriales
Recogen las variaciones de la oferta industrial dentro de la mayora de las

ramas de la actividad econmica. El ndice de produccin industrial ( PI) tiene
por objeto indicar la evolucin en volumen de la parte del Producto Interior Bruto
(P B) que tiene su origen en la industria, es decir, el valor aadido bruto al coste
de los factores de las diversas ramas industriales y del conjunto del sector
industrial. De esta forma, el IPI sintetiza en un nmero restringido de cifras o,
an mejor, en una nica serie estadstica, la multitud de informaciones
estadsticas sobre las cantidades de bienes producidos por la industria de un
pas. Este ndice es uno de los principales instrumentos con que se cuenta para
el anlisis econmico coyuntural, especialmente cuando se utiliza en
combinacin con otros indicadores, tales como los relativos al comercio exterior,
el empleo o el paro. Se utiliza, asimismo, para la actualizacin a corto plazo de
las cifras relativas al producto interior bruto (en las cuentas nacionales
trimestrales o en las primeras estimaciones de las cuentas nacionales anuales).
Para su clculo se utiliza la frmula del ndice complejo ponderado de Laspeyres
510
para cantidades.
El ndice de precios industriales ( PRI) es un indicador que mide la
evolucin de los precios en el primer paso de comercializacin de los productos,
es decir, en la fase de venta de stos a los precios de produccin, esto es, sin
incluir los impuestos indirectos que los gravan. Se refiere nicamente a
productos industriales de produccin nacional, con exclusin de los servicios,
tales como instalaciones, transportes, comercializacin, reparaciones, etc.
Este ndice sirve de indicador de la evolucin coyuntural de los

precios de produccin, tanto en general, como por sectores. Tambin sirve de
base para el estudio y determinacin de la poltica de precios ms conveniente en
relacin con la redistribucin de las rentas. Tambin se usa como un instrumento
para las revisiones de precios en la contratacin a largo plazo, as como para
detectar en sus inicios las presiones inflaccionistas o deflaccionistas. Tambin
sirve como instrumento tcnico para la deflaccin de ciertos indicadores
coyunturales de la industria, y de los datos relativos a las transacciones sobre
productos industriales en el marco de las tablas Input Output y de la contabilidad
nacional. Para su clculo se utiliza la frmula del ndice complejo ponderado de
Laspeyres para precios.
ndices de salarios
Reflejan las variaciones del salario total de los trabajadores por unidad de
tiempo. Suelen ser del tipo media aritmtica ponderada, recogiendo la variacin
de la relacin por cociente entre las remuneraciones en el perodo base y el
actual.
ndices de comercio exterior
Este tipo de ndices suele analizar la evolucin de la balanza comercial, e

involucra un gran volumen de transacciones. Los ms importantes son los
siguientes:
ndices de ventaja comparativa revelada: Analizan el comercio exterior por

sectores, y los ms usuales son el saldo comercial relativo (SCR) y el
ndice de contribucin al saldo (ICS). Ambos ndices se construyen a partir
511
del saldo comercial de cada sector. Si llamamos Xi y M i a las exportaciones
e importaciones del sector i, sus expresiones son:
ndices de especializacin (IE) y dependencia (ID) comercial: Comparan

la estructura comercial espaola con la de una agrupacin de pases de
referencia, por ejemplo la Unin Europea, considerando por separado la
vertiente exportadora de la importadora. Si consideramos las exportaciones
e importaciones del sector i (Xi y M i) relativas a Espaa (ESP) y a la Unin
Europea (UE), estos ndices se expresan de la siguiente manera:
512
ndice de comercio intraindustrial: Se utiliza cuando en los diferentes
sectores se produce simultneamente la exportacin e importacin de un
mismo tipo de productos. Su expresin es:
513
ndices de competitividad: Se utilizan para medir la competitividad de las
economas, y se basan en la evolucin de los precios y los tipos de cambio.
Los ms importantes son el tipo de cambio efectivo nominal (TCEN), que
se utiliza para medir la evolucin de una moneda en un perodo determinado
(marcado por el ao 0 que es el base y el ao t que es en el que se realiza
el clculo) frente a un conjunto de monedas correspondientes a una
agrupacin de pases con los que mantiene intercambios, y el tipo de
cambio efectivo real (TCER), que es un ajuste del anterior introduciendo
un factor que refleja las variaciones de precios relativos entre el pas que
elabora el ndice y los dems a lo largo de un perodo determinado. Sus
expresiones son las siguientes:
donde W i = (Xi+M i)/(X+M), siendo Xi las exportaciones espaolas con

destino al pas i, M i las importaciones espaolas procedentes del pas i, X
514
el total de exportaciones espaolas destinadas al conjunto de pases en
cuestin, y M el total de importaciones espaolas procedentes del conjunto
de pases. Ci0 y Cit representan las cotizaciones oficiales de la peseta
frente a la moneda del pas i en el ao base y en el ao t respectivamente. Pt
y P0 son los ndices de precios de Espaa en los instantes base, y t, y Pi0 y
Pit son los ndices de precios del pas i en el ao base y en el ao t.
ndice de relaciones de cambio: Tambin se denomina relacin real de

intercambio, y viene expresada por R = Pp(X) / Pp(M); es decir, es el
cociente de ndices de precios de Paasche de exportaciones y de
importaciones.
ndices de cotizacin de valores en bolsa
Miden las fluctuaciones en la cotizacin que se registran diariamente, y

hacen referencia a la cotizacin de los valores en el momento de cierre de la
sesin.
Indicadores de la coyuntura
Son un conjunto de ndices (precios, produccin, salarios, etc.) que nos

dan una idea aproximada sobre la evolucin de la economa de un pas, y permiten
un anlisis a corto plazo de sus distintos aspectos.
515
5.13 TASAS DE VARIACIN
Expresan el porcentaje que representa la variacin absoluta de
una magnitud, en un intervalo temporal determinado, sobre el valor inicial de
dicha magnitud, que normalmente se corresponde con el del ao anterior. Esto
es:
Donde v es una magnitud cualquiera, i es el perodo inicial de intervalo de

variacin, f es el perodo final de intervalo de variacin, vf - vi es la variacin
absoluta, y TV es la tasa de variacin expresada en tantos por uno.
Evidentemente, se cumple que:
Otro concepto muy utilizado es el de tasa de variacin media acumulativa,

que expresa el porcentaje de variacin que una magnitud debera haber
experimentado perodo tras perodo para, desde su valor inicial, alcanzar su valor
final. Se define como:
Donde n es el nmero de perodos entre el ao inicial y el final, o bien el

nmero de datos de la serie menos uno. Evidentemente, se cumple que:
516
517
5.14 MEDIDAS DE CONCENTRACIN
Las medidas de concentracin tratan de poner de relieve el mayor o menor
grado de igualdad en el reparto del total de los valores de una variable. Son, por
tanto, indicadores del grado de equidistribucin de la variable. Estos indicadores
no deben confundirse con las medidas de dispersin, ya que desde el punto de
vista estadstico la dispersin hace referencia a la variabilidad de los datos, a las
diferencias que entre ellos existen y, por tanto, a la mayor o menor
representatividad de los promedios.
Estas medidas tienen especial aplicacin a variables econmicas

(rentas, salarios, etc.). En una distribucin estadstica, de rentas por ejemplo,
desde el punto de vista de la equidad econmica, ni la media, ni siquiera la
varianza son significativas. Lo que verdaderamente interesa es la mayor o menor
igualdad en su reparto entre los componentes de la poblacin, es decir, que est
equitativamente repartida. Para este fin, estn concebidos los estudios sobre
concentracin, entendindose por concentracin la mayor o menor equidad en el
reparto de la suma total de la variable considerada. Es decir, si suponemos que
la distribucin es de rentas, y que tenemos n rentistas cuyas rentas son x1 x2
x3 ... xn, nos interesa estudiar hasta qu punto la suma total de rentas
x1+x2+...+xn est equitativamente repartida.
Las situaciones extremas se producen (a) cuando de los n

rentistas, slo uno percibe el total de renta y los dems nada (concentracin
mxima, es decir, x1= x2 = x3 = ... = xn-1= 0 y xn 0), y (b) cuando todos los
rentistas perciben la misma cantidad (concentracin mnima o equidistribucin,
es decir x1 = x2 = x3 = ... = xn).
Las medidas de concentracin ms utilizadas en el reparto de la renta

son el ndice de Gini, la curva de Lorentz, y el porcentaje de poblacin bajo el
umbral de pobreza.
518
5.15 NDICE DE CONCENTRACIN DE GINI
Sea una distribucin de frecuencias relativa a rentas (xi,ni), de la que

vamos a considerar las siguientes caractersticas:
Los productos xi*ni, que nos indicarn la renta total percibida por los ni
rentistas de renta individual xi.
Las frecuencias absolutas acumuladas Ni.

Los totales acumulados ui de los productos xi*ni, o sea, u1 = x1n1, u2 =
x1n1 + x2n2, ..., un = x1n1 + x2n2 + ... + xnnn. De esta forma, ui ser la
renta total percibida por los Ni primeros rentistas.
Las frecuencias acumuladas relativas, que expresaremos en tantos por

ciento, y que aqu llamaremos pi, es decir, pi = (Ni/N)*100.
Una medida que expresa cada ui en tantos por ciento de un. A este
porcentaje le llamamos qi. Tendremos que qi = (ui/un) *100.
Se define el ndice de concentracin de Gini mediante la expresin:
519
Sabemos que si la concentracin es mnima, es decir, si la renta est
repartida por igual, pi = qi, con lo que IG =0. En el caso de concentracin
mxima, solamente el ltimo trabajador percibe renta, por lo que, q1 = q2 = ... =
qn-1 = 0, con lo que IG =1. El campo de variacin de IG va, pues, de cero a uno, y
su valor responder a una distribucin tanto ms justa de la renta o del salario
cuanto ms prximo est a cero.
520
5.16 CURVA DE CONCENTRACIN DE LORENTZ
La distribucin de salarios, o de rentas, se puede materializar
grficamente, obtenindose la llamada curva de concentracin o curva de
Lorentz. Para construirla, dibujamos un cuadrado cuyos lados estn divididos en
una escala de 1 a 100. En el vrtice inferior izquierdo est el origen de
coordenadas, en el eje de abscisas representamos los valores pi, y en el de
ordenadas los valores qi. A continuacin, representamos los puntos (pi,qi), que,
al unirlos entre s, nos determinan una poligonal llamada curva de Lorentz.
La curva de Lorentz es siempre creciente, resultando que la curva que

indica la concentracin mnima (equidistribucin) es la diagonal del cuadrado
(ya que pi = qi para concentracin mnima). Cuanto ms prxima est la curva a
la diagonal del cuadrado que parte del orgen, mayor equidistribucin existir. La
curva de Lorentz es ms curvada cuanto ms desigual sea la distribucin y ms
fuerte la concentracin.
PROBLEMAS RESUELTOS
Ejercicio 1. La evolucin de las ganancias de una empresa del ramo del
automvil desde el ao 1950 hasta 1960 se presenta en la tabla siguiente:
3. Hallar los ndices de ganancias tomando como base el ao 1950.

4. Cambiar de base los ndices anteriores tomando como nuevo perodo
base el ao 1960.
Los nmeros ndices simples de ganancias con base en 1950 se

calcularn de acuerdo a la tabla siguiente, cuya estructura puede implementarse
en Excel):
521
Ao Ganancias ndices simples
1950 g0 100
1951 g1 (g1/g0)*100
1952 g2 (g2/g0)*100
1953 g3 (g3/g0)*100
1954 g4 (g4/g0)*100
1955 g5 (g5/g0)*100
1956 g6 (g6/g0)*100
1957 g7 (g7/g0)*100
1958 g8 (g8/g0)*100
1959 g9 (g9/g0)*100
1960 g10 (g10/g0)*100
Una vez realizados los clculos de la tabla anterior tenemos los

siguientes resultados para los ndices simples:
Ao Ganancias ndices simples
1950 12 100
1951 14 116,6666667
1952 18 150
1953 18 150
1954 19 158,3333333
1955 15 125
522
1956 12 100
1957 16 133,3333333
1958 20 166,6666667
1959 24 200
1960 35 291,6666667
Para realizar el cambio de base desde base 0 a base i tendremos en

cuenta las siguientes transformaciones de ndices simples Ii.
t ndices en base 0 ndices en base i
0 0 ( 0/Ii)*
1 I1 (I1/Ii)*
2 I2 (I2/Ii)*
3 I3 (I3/Ii)*
4 I4 (I4/Ii)*
5 I5 (I5/Ii)*
6 6 ( 6/Ii)*
7 I7 (I7/Ii)*
8 I8 (I8/Ii)*
9 I9 (I9/Ii)*
10 I10 (I10/Ii)*
La estructura de la tabla anterior puede implementarse fcilmente

en frmulas de Excel.
523
Una vez realizados los clculos de la tabla anterior tenemos los
siguientes resultados para los ndices simples en base 1960:
ndices simples
Ao Ganancias
en base 1950
1950 12 100
1951 14 116,6666667
1952 18 150
1953 18 150
1954 19 158,3333333
1955 15 125
1956 12 100
1957 16 133,3333333
1958 20 166,6666667
1959 24 200
1960 35 291,6666667
Ejercicio 2. El precio de un artculo de consumo descendi en 1964 un 20% con

respecto al ao anterior, pero aument un 50% respecto al ao 1959. Hallar el
nmero ndice de precios de 1963 tomando como ao base 1959.
Los datos del problema nos dicen que:

I 63,64 = 80
I59,64 = 150
524
Por las propiedades de los ndices podemos hacer lo siguiente:
Ejercicio 3. En 1960 el precio de un bien de consumo aument en un 60% por

encima del que tena en 1953, mientras que su produccin disminuy en un 40%.
En qu porcentaje aument o disminuy el ndice de valor de dicho bien en 1960
con respecto a 1953?
Segn el enunciado del problema tenemos que:
Ahora calculamos el ndice de valor de la siguiente forma:
Como la base en 1953 es 100 y el ndice de valor en 1960 es 96, dicho ndice de
valor ha disminuido en un 4%.
Ejercicio 4. Hallar los nmeros ndices de precios de Laspeyres, Paasche y

Edgeworth con base 1980 = 100 de tres artculos de consumo, A , B y C, dados
los precios y cantidades correspondientes a los aos 1980 a 1984 que se
presentan en la siguiente tabla:
525
Artculo A Artculo B Artculo C
Aos
Precio Cantidad Precio Cantidad Precio
Cantidad
1980 2 10 5 12
10 3
1981 2 12 6 10
11 2
1982 3 15 6 5
12 3
1983 4 20 7 6
12 1
1984 4 18 8 5
13 2
Para calcular los ndices de precios de Laspeyres, Paasche y Edgeworth

nos basaremos en sus expresiones generales definidas mediante:
526
Para hallar el ndice de precios de Laspeyres en el ao 1981 con
base en 1980 (Lp81,80) es necesario hallar (P81*Q80)/ (P80*Q80)*100. De la
misma forma se calculan los ndices de precios de Laspeyres en los aos 1982,
1983 y 1984 con base en 1980 (Lp82,80; Lp83,80 y Lp84,80) usando las
expresiones: (P82*Q80)/(P80*Q80)*100, (P83*Q80)/(P80*Q80)*100 y
(P84*Q80)/(P80*Q80)*100.
La Figura 5-1 presenta las frmulas de Excel adecuadas, y la

Figura 5-2 los resultados.
527
Figura 5-1
Figura 5-2
Para hallar los ndices de precios de Paasche en los aos 1981,

1982, 1983 y 1984 con base en 1980 (Pp81,80; Pp82,80; Pp83,80 y Pp84,80),
usamos: (P81*Q81)/ (P80*Q81)*100, (P82*Q82)/(P80*Q82)*100,
(P83*Q83)/(P80*Q83)*100 y (P84*Q84)/ (P80*Q84)*100, para conseguir los
valores 112,8, 130,6, 167,5 y 170,4 respectivamente.
La Figura 5-3 muestra las frmulas de Excel, y la Figura 7-4 los
resultados.
528
Figura 5-3
Figura 5-4
Para hallar los ndices de precios de Edgeworth en los aos 1981,

1982, 1983 y 1984 con base en 1980 (Ep81,80; Ep82,80; Ep83,80 y Ep84,80), se
usan las expresiones: (P81*(Q80+Q81))/(P80*(Q80+Q81))*100, (P82*
(Q80+Q82))/(P80*(Q80+Q82))*100, (P83*(Q80+Q83))/(P80*
(Q80+Q83))*100 y (P84*(Q80+Q84))/(P80*(Q80+Q84))*100, para obtener los
valores 113,2, 127,7, 154,7 y 163,9 respectivamente.
529
La Figura 5-5 muestra las frmulas, y la Figura 5-6, los
resultados.
Figura 5-5
Figura 5-6
Para realizar clculos con nmeros ndices siempre es conveniente

introducir como columnas los datos de los diferentes aos.
530
Ejercicio 5. Con los datos del producto interior bruto a precios de mercado
(P Bpm) y del deflactor implcito del P Bpm (D Ppm) de la economa espaola
recogidos en el cuadro presentado a continuacin:
PIBpm D Ppm
P Bpm DIPpm
Aos corriente Base 1980 Aos corriente
Base 1980
1970 2574,6 24,3 1982 19562,3 127,2

1971 2911,2 26,2 1983 22531,8
143,7
1972 3417,3 28,6 1984 25519,5
160,7
1973 4156,3 32,1 1985 28200,9
173,1
1974 5102,0 37,2 1986 32324,0
192,2
1975 6018,3 43,6 1987 36144,0
203,3
1976 7234,2 51,0 1988 40158,7
214,8
1977 9178,4 62,5 1989 45006,0
230,1
1978 11230,7 75,2 1990 50125,3
247,0
1979 13157,7 87,7 1991 54791,1
263,9
1980 15209,1 100,0 1992 58677,2 279,8
1. Hallar P B a precios del mercado en pesetas constantes del ao 1980

para 1970-1992.
2. Calcular las tasas de variacin interanual del P Bpm en pesetas
constantes del ao 1980.
531
3. Hallar ndices con base 1974 de la serie P Bpm en pesetas constantes del
ao 1980.
4. Hallar P B a precios del mercado en pesetas constantes del ao 1986
para 1970-1992.
Como la serie del deflactor que el enunciado proporciona ya est

expresada tomando como base el ao 1980 (obsrvese que el valor del DIP en
1980 es igual a 100), no habr que realizar ninguna transformacin previa. As,
dividiendo cada uno de los trminos de la serie del PIBpm en trminos corrientes
entre el deflactor correspondiente y multiplicando por cien el resultado, se
obtendr la serie del PIBpm expresada en pesetas constantes del ao 1980.
Comenzamos introduciendo los datos del problema como dos variables

(columnas) de la hoja de clculo llamadas PIBpmC y DIPpm80. A su vez,
creamos la columna llamada PIBpmK80 con la frmula (PIBpmC/DIPpm80)*100
(Figura 5-7).
Los datos as obtenidos expresan cul fue la produccin de cada ao

valorada a precios del ao 1980 (Figura 5-8). As pues, cualquier variacin en
los elementos de la serie obtenida ser producto de modificaciones slo en las
cantidades producidas, y no en los precios.
532
533
Los datos as obtenidos expresan cul fue la produccin de cada

ao valorada a precios del ao 1980. As pues, cualquier variacin en los
elementos de la serie obtenida ser producto de modificaciones slo en las
cantidades producidas, y no en los precios. Analizando la serie P BpmK80
obtenida, se observa que en la economa espaola, a lo largo del perodo 1970-
1992, el producto interior bruto a precios de mercado creci en trminos reales
534
de modo generalizado, excepto en el ao 1981.
Para calcular las tasas de variacin interanual del PIBpmK80

creamos la columna de nombre TVP BpmK80 con la expresin PIBpmK80/
P BpmK80(-1)*100 tal y como se indica en la Figura 5-9. La nueva serie
TVPIBpmK80 que, contempla las tasas porcentuales de variacin interanuales de
la serie del producto interior bruto a precios de mercado en pesetas constantes
de 1980, tal y como se observa en la Figura 5-10.
535
Analizando la nueva serie TVPIBpmK80, se observa el ritmo al que ha ido

creciendo el P Bpm espaol a precios constantes durante el perodo 1970-1992.
El perodo 1970-1974 pertenece a una etapa de desarrollo de la economa
espaola; el perodo 1975-1985 constituye un perodo de crisis; el perodo 1986-
1990 es un perodo de recuperacin; y en el perodo 1991-1992 aparece una
nueva etapa de crisis.
536
Para calcular los nmeros ndices con base en el ao 1974 de la
serie TVPIBpmK80 creamos la columna Ind74 mediante la expresin
(P BpmK80/13715,1)*100, donde 13715,1 es el valor del PIBpm de 1974 en
pesetas constantes de 1980 (Figura 5-11). Se obtiene la nueva serie Ind74, que
contempla la serie de nmeros ndices pedidos (Figura 5-12).
Figura 5-11
537
Figura 5-12
Para hallar la serie del PIBpm a precios constantes del ao 1986,
necesitamos los datos del deflactor del P B en base 1986. Como el enunciado
538
nos proporciona la serie del deflactor en base 1980, ser necesario realizar el
cambio de base. Para ello, creamos la columna llamada D Ppm86 con la
expresin (DIPpm80/192,2)*100 (Figura 5-13), donde192,2 es el deflactor
implcito del PIBpm de 1986 en base 1980. Se obtiene la nueva serie DIPpm86
con los datos del deflactor del PIBpm en base 1986 (Figura 5-14).
539
Figura 5-13
540
Figura 5-14
541
Ahora ya podemos hallar la serie del P Bpm a precios constantes
de 1986. Para ello creamos la columna de nombre P BpmK86 con la expresin
(P BpmC/DIPpm86)*100 (Figura 5-15) para obtener los datos de la Figura 5-16.
542
543
Figura 5-15
544
545
Figura 5-16
Ejercicio 6. Una fbrica de automviles produce cuatro modelos, cuyos precios
de venta, costes de materiales empleados y nmeros de unidades producidas en
los ltimos tres aos fueron los siguientes:
_________1985_______ _________1986________
_________1987________
Modelos Precio N de Precio N de Precio
N de
venta Coste unidades venta Coste unidades venta
Coste unidades
205 0,9 0,4 3 200 1,1 0,5 4 100 1,2

0,6 5 600
309 1,3 0,6 4 200 1,3 0,7 3 000 1,5
0,7 4 300
405 1,9 1,0 2 300 2,0 1,1 2 400 2,1
1,3 2 000
605 3,8 2,2 1 700 4,1 2,5 1 500 4,3
2,8 1 200
1. Hallar el ndice de produccin de Laspeyres para 1986 y 1987, con base

1985.
2. Hallar los ndices cunticos de Paasche, con la misma base.
3. Hallar los ndices de precios de Laspeyres, con la misma base.
En los ndices de cantidades, las ponderaciones han de ser valores

aadidos, para evitar dobles contabilizaciones y sobreestimaciones. Luego las
ponderaciones sern los valores precio de venta-coste.
El ndice de produccin de Laspeyres tiene la siguiente expresin:
546
Para calcularlo construiremos una tabla con variables (columnas)
que reflejan los precios de venta, costes y cantidades para los cuatro modelos de
automviles. Para calcular el ndice de produccin de Laspeyres en el ao 1986
con base en 1985 usamos la expresin definida como Lq86,85 = (Q86*(P85 -
C85)) /SUM(Q85*(P85 - C85))*100. Se obtiene el valor 93,3. De la misma forma
se calcula el ndice de produccin de Laspeyres en el ao 1987 con base en
1985, utilizando la expresin Lq87,85 = (Q87*(P85 - C85))/SUM(Q85*(P85 -
C85))*100, para obtener el valor 102,1. La Figura 5-17 muestra las frmulas y la
Figura 5-18 los resultados.
Figura 5-17
547
Figura 5-18
El ndice de cantidades de Paasche tiene la siguiente expresin:
Para calcular los ndices de cantidades de Paasche en los aos 1986 y

1987 con base 1985, usamos: Pq86,85 = (Q86*(P86-C86))/SUM(Q85*(P86-
C86))*100 y Pq87,85 = (Q87*(P87 - C87)) /SUM(Q85*(P87 - C87))*100, para
obtener los valores 95,6 y 105,5 respectivamente. La Figura 5-19 muestra las
frmulas de Excel y la Figura 5-20 muestra los resultados.
548
Figura 5-19
Figura 5-20
549
El ndice de precios de Laspeyres se calcula mediante la siguiente
expresin:
Para calcular los ndices de precios de Laspeyres en los aos 1986 y

1987 con base en 1985, utilizaremos las expresiones definidas por Lp86,85 =
(P86*Q85)/SUM(P85*Q85)*100 y Lp86,85 = (P87*Q85)/SUM(P85*Q85)*100,
para obtener los valores 107,2 y 116,2 respectivamente. La Figura 5-21 muestra
las frmulas de Excel y la Figura 5-22 muestra los resultados.
550
Ejercicio 7. Consideremos cuatro productos de una industria, cuyos precios de

venta y produccin son los siguientes:
1979 1988
Productos
Precio Cantidad Precio
Cantidad
Producto A 225 200 314 320

Producto B 75 15 82
21
Producto C 68 10 75
14
Producto D 109 34 120 50
Hallar el ndice de valor para 1988 con base en 1979.
En este problema suponemos que los precios que nos dan representan
tambin el valor aadido de cada producto, que es tanto como decir que el coste
de las materias primas empleadas es cero. Pueden asimilarse a este caso, en
551
parte, las industrias integrales y las industrias de la primera fase del proceso
productivo.
Comenzamos introduciendo los datos en una tabla creando variables

(columnas) que reflejan los precios y cantidades para los cuatro productos. Para
hallar el ndice de valor de la produccin para 1988 base 1979, utilizamos Iv87,86
= (P88*Q88)/ (P79*Q79)*100. Se obtiene el ndice de valor 216,29. La Figura
5-23 muestra las frmulas de Excel y la Figura 5-24 muestra los resultados.
Figura 5-23
552
Figura 5-24
Ejercicio 8. A partir de los datos que se exponen a continuacin, calcular el tipo

de cambio efectivo nominal TCEN de la peseta frente al conjunto de pases de la
Unin Europea.
Pases CO85 CO91 X

M P91
Francia 19,00 18,42 1244,354,9 1467,708,8

120,2
Alemania 57,99 62,64 992,575,6 1565,523,7
110,7
Italia 8,92 8,38 706,740,4 971,727,0
140,0
Reino Unido 219,46 183,29 477,873,8
728,191,2 141,3
Pases Bajos 51,41 55,58 267,741,4
339,545,9 107,7
Blgica-Luxemburgo 287,41 304,23 193,745,9
553
287,477,0 114,6
Portugal 98,96 71,93 410,428,3
263,276,2 190,6
Dinamarca 16,10 16,24 54,288,1
75,441,8 124,1
Irlanda 180,53 167,31 21,658,3
74,245,1 121,4
Grecia 123,43 5 7,09 47,621,1
24,182,1 265,9
La expresin del TCEN es la siguiente:
donde W i = (Xi+M i)/(X+M), siendo Xi las exportaciones espaolas con destino

al pas i, M i las importaciones espaolas procedentes del pas i, X el total de
exportaciones espaolas destinadas al conjunto de pases en cuestin, y M el
total de importaciones espaolas procedentes del conjunto de pases. Ci0 y Cit
representan las cotizaciones oficiales de la peseta frente a la moneda del pas i
en el ao base y en el ao t respectivamente. Pt y P0 son los ndices de precios
de Espaa en los instantes base, y t, y Pi0 y Pit son los ndices de precios del
pas i en el ao base y en el ao t.
Comenzamos introduciendo los datos ordenadamente en una tabla

creando variables (columnas) que reflejan las magnitudes del problema. Para
calcular el indicador TCEN, generamos la variable de expresin:
554
Para hallar el TCEN basta con hacer el producto de los elementos
de la columna TCENt y multiplicar por 100; es decir, elevaremos a la potencia 10
la media geomtrica de la variable TCENt y multiplicaremos por 100. La Figura
5-25 muestra las frmulas, y la Figura 5-26, los resultados.
Figura 5-25
555
Figura 5-26
Ejercicio 9. Dada la tabla de exportaciones (X) e importaciones (M) espaolas y

comunitarias por sectores del ao 1989 que se presenta a continuacin:
Espaa 1989
UE 1989
Sector
X M X M
1. Productos alimenticios 5424 .418

87820 97225
2. Bebidas y tabaco 686 741
556
16380 11633
3. Materias primas 1634 4824
31401 65480
4. Productos energticos 1906 7148
34794 86508
5. Aceites y grasas 383 217
4002 4266
6. Productos qumicos 3902 6307
124782 108157
7. Productos manufacturados 9001 8178
197244 194880
8. Maquinaria y material de transporte 15230 24.112
393977 348614
9. Artculos diversos 4514 5996
127949 130465
Total 42680 62941
1018349 1047228
1. Hallar los indicadores de ventaja comparativa revelada, saldo comercial

relativo (SCR) e ndice de contribucin al saldo (ICS).
2. Hallar los ndices de especializacin (IE) y de dependencia ( D).
3. Hallar el ndice de comercio intraindustrial (ICI).
Los indicadores de ventaja comparativa revelada analizan el

comercio exterior por sectores, y los ms usuales son el saldo comercial relativo
(SCR) y el ndice de contribucin al saldo (ICS). Ambos ndices se construyen a
partir del saldo comercial de cada sector. Si llamamos Xi y M i a las
exportaciones e importaciones del sector i, sus expresiones son:
557
Para resolver este problema comenzamos construyendo una tabla
con los datos en las columnas XE (exportaciones espaolas), ME (importaciones
espaolas), XUE (exportaciones de la Unin Europea), y MUE (importaciones de
la Unin Europea). Para hallar el saldo comercial relativo, creamos la columna
llamada SCR con la expresin (XE-ME)/(XE+ME)*100. Sectores con SCR
positivo indican que el pas presenta ventaja comparativa para el sector en
cuestin.
Para hallar el ndice de contribucin al saldo, creamos la columna

llamada ICS, con la expresin ((XE-ME)/(XE+ME) - (XE-ME) / (XE+ME))
*100. Para simplificar las expresiones usamos como apoyo S = XE+ME y D=XE-
ME. Sectores con ICS positivo contribuyen positivamente al saldo comercial
espaol, dado que su saldo comercial relativo es superior al de la economa
espaola en su conjunto.
Los ndices de especializacin (IE) y dependencia ( D) comercial

comparan la estructura comercial espaola con la de una agrupacin de pases
de referencia, por ejemplo la Unin Europea, considerando por separado la
vertiente exportadora de la importadora. Si consideramos las exportaciones e
importaciones del sector i (Xi y M i) relativas a Espaa (ESP) y a la Unin
Europea (UE), estos ndices se expresan de la siguiente manera:
558
El ndice de comercio intraindustrial se utiliza cuando en los
diferentes sectores se produce simultneamente la exportacin e importacin de
un mismo tipo de productos. Su expresin es:
559
Para hallar el ndice de especializacin, que ya es un indicador de
comparacin de la estructura comercial espaola con la de la Unin Europea,
creamos la columna llamada E mediante la frmula ((XE/(XE))/(XUE/
(XUE)))*100. Para sectores con IE superior a 100, sus exportaciones tienen
una representacin mayor en Espaa que en el conjunto de la Unin Europea.
Para hallar el ndice de dependencia, que es otro indicador de

comparacin de la estructura comercial espaola con la de la Unin Europea,
creamos la columna llamada D, mediante la frmula ((ME/(ME))/(MUE/
(MUE)))*100. Para sectores con D inferior a 100, sus importaciones tienen
una representacin menor en Espaa que en el conjunto de la Unin Europea.
Para hallar el ndice de comercio intraindustrial, que es otro

indicador de comparacin de la estructura comercial espaola con la de la Unin
Europea cuando se produce simultneamente la exportacin y la importacin de
un mismo tipo de productos, creamos la columna llamada ICI mediante la frmula
(1-| XE-ME| /(XE+ME))*100. Para sectores con ICI prximo a 100, existe un
elevado ndice de comercio intraindustrial.
La Figura 7-27 muestra todas las frmulas para la generacin de todas las
series utilizas durante el problema, y la Figura 7-28 presenta los resultados, en
los que pueden analizarse los comentarios realizados a lo largo del problema.
560
Figura 7-27
561
Figura 7-28
Ejercicio 10. Tenemos los siguientes datos sobre el ndice de precios al

consumo (IPC) con base 1983 = 100:
Grupos ndices Ponderaciones

ndice mensual
base 1983 = 100 medio
de 1986
1. Alimentos, bebidas y tabaco 100 330,3

136,9
2. Vestido y calzado 100 87,4
134,1
3. Vivienda 100 185,7
122,1
562
4. Menaje 100 74,1
131,5
5. Servicios mdicos y sanitarios 100
23,9 123,8
6. Transportes y comunicaciones 100 143,8
121,3
7. Esparcimiento, enseanza y cultura 100 69,6
129,6
8. Otros bienes y servicios 100
85,2 137,9
Total 100 1000,0

130,5
1. Hallar las repercusiones y participaciones de cada uno de los grupos del

PC en la variacin sufrida por el ndice general en 1986.
2. Qu grupos son los ms y los menos afectados por la subida de
precios?
La serie de repercusiones en la variacin global del IPC desde 1983 a

1986 para los distintos grupos, viene dada por la frmula Ri=DIiW i/W i. Para
resolver este problema comenzamos creando una tabla e introduciendo los datos
del problema en las columnas de nombres IPC83, W e IPC86. Para hallar las
repercusiones creamos la columna llamada REP con la frmula (IPC86 -
PC83)*W/(W). Se obtiene la nueva serie REP de repercusiones en la variacin
global del IPC desde 1983 a 1986 para los distintos grupos.
Para hallar la participacin de cada grupo en la variacin del PC,

utilizamos la frmula Pi=Ri/DLp. Pero DLp es un dato del problema en su fila de
totales, que vale 130,5 - 100 = 30,5. Si este dato no fuese dado, se calculara
mediante la frmula de Laspeyres Lp = IiWi/Wi.
Para hallar las participaciones, creamos la columna llamada PAR

con la frmula (REP/30,5)*100. Se obtiene la nueva serie PAR de participaciones
de cada grupo en la variacin global del IPC desde 1983 a 1986. La Figura 7-29
563
presenta las frmulas, y la Figura 7-30 presenta los resultados.
Figura 7-29
Figura 7-30
Ejercicio 11. Hallar el ndice burstil para 1986, con base 1980=100, de la
564
siguiente cartera de valores (volumen de negocio en 109 pesetas):
1980 1986
Cotizacin Volumen negociado Cotizacin
Bancos 230 25,4 614

Elctricas 94 10,3 153
Inmobiliarias 112 7,1 510
Monopolios 125 8,9 325
Qumicas 82 2,1 184
Metalrgicas 75 0,8 415
Inversin mobiliario 60 3,4 825
Varios 107 0,5 407
Como norma general, los ndices de cotizaciones de bolsa suelen ser

medias ponderadas de ndices simples de cotizaciones Ct/C0 del tipo Laspeyres,
usando como ponderaciones W los volmenes de contratacin de cada ttulo en el
ao base, con lo que IB=(Cit/Ci0)W i0/W i0.
Comenzamos introduciendo los datos en la hoja de clculo creando las

variables con los datos del problema. Para calcular el ndice de cotizaciones en
bolsa en el ao 1986 con base en 1980, utilizamos la expresin definida mediante
SUM((CO86/CO80)*W80)/SUM(W80)*100. Para facilitar los clculos se
introduce la abreviatura B=(CO86/CO80)*W80. La Figura 7-31 muestra todas
las frmulas para la generacin de todas las series utilizadas durante el
problema, y la Figura 7-32 presenta los resultados.
565
El resultado nos indica que desde el ao 1980 al ao 1986, el valor de la
cartera de valores aument en un 238,175 por ciento.
Ejercicio 12. Se consideran dos distribuciones de salarios en dos fbricas A y B

por da y trabajador. Los datos son los siguientes:
Fbrica A Fbrica B
566
Salario N de trabajadores Salario N de
trabajadores
800 20 800 10
1 000 10 1 000 30
1 200 10 1 200 30
1 500 10 1 500 20
7 500 50 7 500 10
1. Analizar ambas distribuciones de salarios mediante el ndice de

concentracin de Gini. Cul de los dos salarios es ms equitativo?
2. Hallar los puntos de las curvas de Lorentz para analizar la concentracin
de las distribuciones de salarios en las dos fbricas y comentar los
resultados.
Comenzamos creando una tabla con los datos de las dos distribuciones
de salarios en sus columnas. Para calcular los ndices de Gini relativos a ambas
distribuciones, creamos las columnas de nombres pA, pB, pTnA y pTnB (sumas
acumuladas de nA, nB, T*nA y T*nB respectivamente).
Luego, creamos las columnas qA = pTnA)/(TnA)*100 y qB =

pTnB)/(TnB)*100 respectivamente.
Para calcular el ndice de Gini de la distribucin A, utilizamos la

frmula dada por (pA-qA)/((pA) -100). Se obtiene el ndice 0,778.
Para calcular el ndice de Gini de la distribucin B, utilizaremos la

frmula dada por (pB - qB)/((pB) -100). Se obtiene el ndice 0,404.
Dado que el ndice de Gini de la empresa A es mayor que el de la empresa

B, la concentracin de salarios es mayor en la empresa A, luego la mejor
distribucin de salarios entre sus trabajadores la tiene la empresa B.
La Figura 7-33 presenta las frmulas para el clculo de los ndices de Gini
de las empresas A y B, y la Figura 7-34 presenta los resultados.
567
Figura 7-33
Figura 7-34
Para representar las curvas de Lorentz de las empresas A y B,

graficaremos los pares de puntos (pA,qA) y (pB, qB).
Para representar la curva de Lorenz de la empresa A, seleccionamos las

dos columnas pA y qA en la hoja de clculo (Figura 7-35), hacemos clic en la
568
opcin Dispersin con lneas suavizadas del grupo Grficos de la ficha Insertar
y obtenemos la curva de Lorenz de la empresa A (Figura 7-36). Realizando
pasos similares para la empresa B, se obtiene su curva de Lorenz (Figura 7-37).
Figura 7-35
569
La curva de Lorentz de la empresa A est ms alejada de la diagonal que la
de la empresa B, luego la distribucin de la renta es mejor en la empresa B,
siendo la concentracin menor en dicha empresa. No olvidemos que la curva de
Lorentz es ms curvada (se aleja ms de la diagonal) cuanto ms desigual sea
la distribucin y ms fuerte la concentracin.
570
571

Excel Y La Estadistica - P. Vidales

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Excel Y La Estadistica - P. Vidales

Hochgeladen von

Copyright:

Verfügbare Formate

EXCEL Y LA ESTADSTICA

VARIABLES ESTADSTICAS Y DISTRIBUCIONES DE FRECUENCIAS

MEDIDAS DE POSICIN, DISPERSIN Y FORMA

NMEROS NDICES Y MEDIDAS DE CONCENTRACIN

Este libro trata los temas elementales de la estadstica desde una

Tambin existen otras herramientas adicionales como Solver, que

La Cinta de opciones presenta fichas orientadas a tareas que

La Barra de herramientas de acceso rpido aparece de forma

Una Hoja de clculo u Hoja de trabajo (abreviadamente Hoja) es

Un Libro de trabajo (abreviadamente Libro) es un conjunto de

Pueden introducirse y modificarse los datos en varias hojas de

El libro de trabajo se corresponde con el concepto de fichero o

Los libros de trabajo ayudan a organizar los proyectos y a guardar

De todos modos, Excel siempre guarda internamente el nmero

Cuando se introduce ms de un nmero, despus de haber

En Microsoft Excel, un nmero puede tener slo los siguientes

Para cambiar la alineacin, seleccione la celda o celdas que

Haga clic en el Archivo y, a continuacin, pulse en Opciones.

En la Figura 1-55 haga clic en la categora Complementos de

En el cuadro Administrar (Figura 1-55), haga clic en

En el cuadro Complementos disponibles (Figura 1-56), active la

Las variables cuantitativas pueden ser discretas y continuas.

Una variable es discreta cuando toma una cantidad finita o numerable

Una variable es continua cuando toma una infinidad no numerable de

Las variables cualitativas suelen clasificarse, segn la naturaleza de los

Las variables nominales describen las categoras directamente por su

Las variables ordinales describen las categoras por el orden que

Las variables cuantitativas suelen clasificarse en variables ratio, que

Cuando los datos estn dispersos, la dispersin sigue un cierto patrn.

Normalmente es posible ver la forma general de una distribucin si se

Hay muchos mtodos para construir histogramas. Cuando los

El agrupamiento de los datos en clases condensa los datos

Las distribuciones de frecuencias son la herramienta ms sencilla

El fin principal de la preparacin de una distribucin de

Dejar bien visible la distribucin de la variable estudiada e

Analizar, controlar y mostrar las capacidades de los procesos de

Ayudar a determinar el promedio, la desviacin estndar, los

Probar a qu tipo de distribucin matemtica se puede acoplar

Est el promedio de la distribucin en una posicin adecuada?

Cmo es la dispersin de la distribucin respecto al promedio?

Cul es la relacin entre valores tales como la desviacin

Hay algunos huecos, como dientes que faltan, o subidas o

Hay algunos puntos aislados fuera del cuerpo principal de la

Son aceptables los valores mximo y mnimo de la distribucin?

Es asimtrica la distribucin, con un extremo mucho ms largo

Tiene aspecto de acantilado la parte izquierda o la derecha de

Tiene ms de un pico la distribucin?

Es demasiado agudo o demasiado chato el pico de la

A la hora de representar distribuciones de frecuencias ser

La Figura 2-11 muestra el polgono de frecuencias simple relativo

El argumento datos es una matriz de un conjunto de valores o una

La funcin FRECUENCIA se introduce como una frmula

Pulse en la opcin En un libro nuevo para crear un nuevo libro y

Active la casilla Pareto (Histograma ordenado) para presentar los

Active la casilla Porcentaje acumulado para generar una columna

Active la casilla Crear grfico para generar un grfico de

En la Figura 2-33 se muestra la salida correspondiente al

El diagrama de barras y el polgono de frecuencias suelen ofrecer

Como se trata de una variable cuantitativa con 154 valores

Para hallar las frecuencias absolutas por clases, se utiliza la

Conocidas las frecuencias absolutas, ya podemos construir la

Pero estas medidas de posicin de una distribucin de frecuencias han de

Media aritmtica: Se define como la suma de todos los valores de la distribucin