Sie sind auf Seite 1von 571

EXCEL Y LA ESTADSTICA

Ejercicios resueltos

2
P.VIDALES

3
1.3 ENTORNO DE EXCEL 2013, 2010 Y 2007. LIBROS Y HOJAS DE
CLCULO
1 3.1 Introduccin de datos y frmulas
1 3.2 Series de datos. Autocompletar
1.4 FRMULAS
1.4.1 Barra de frmulas
1.4.2 Rellenar una hoja mediante una frmula
1.5 OPERADORES
1 5.1 Orden de los operandos y preferencia de los operadores en las
frmulas
1 5.2 Tipos de operadores
1 5.3 Frmulas matriciales
1 5.4 Paleta de frmulas
1 5.5 Rangos con nombre
1.6 V NCULACIN DE L BROS
1 6.1 Crear una frmula para calcular datos en otra hoja o en otro libro
1 6.2 Vnculo a una hoja de clculo en otro libro
1.7 MOSTRAR FRMULAS Y VALORES EN UNA HOJA DE CLCULO
1.8 FUNCIONES DE HOJA DE CLCULO
1 8.1 Funciones anidadas dentro de funciones
1 8.2 Categoras de funciones en Excel 2010
1.9 COMPLEMENTOS EN EXCEL Y LA ESTADSTICA

VARIABLES ESTADSTICAS Y DISTRIBUCIONES DE FRECUENCIAS


2.1 VARIABLES ESTADSTICAS
2.2 DISTRIBUCIONES DE FRECUENCIAS Y SU F NALIDAD
2.3 INTERPRETAR LAS DISTR BUCIONES DE FRECUENCIAS

5
2.4 FORMALIZAR LAS DISTR BUCIONES DE FRECUENCIAS
2.5 REPRESENTAR DISTRIBUCIONES DE FRECUENCIAS
2 5.1 Representaciones para variables cualitativas: diagramas de
rectngulos, diagramas de sectores y pictogramas
2 5.2 Representaciones para variables cuantitativas sin agrupar:
diagramas de barras, en escalera y polgonos de frecuencias
2 5.3 Representaciones para variables cuantitativas agrupadas:
histogramas y polgonos de frecuencias simples y acumulados
2.6 GRFICOS EN EXCEL
2.7 EXCEL Y LAS DISTR BUCIONES DE FRECUENCIAS
2.7.1 La funcin FRECUENCIA de Excel
2.7.2 Distribuciones de frecuencias e histogramas con herramientas de
anlisis de Excel

MEDIDAS DE POSICIN, DISPERSIN Y FORMA


3.1 EXPRESIN CUANTITATIVA DE LAS DISTRIBUCIONES
3.2 MED DAS DE POSICIN: MEDIA MEDIANA MODA CUANTILES
PERCENT LES Y MOMENTOS
3.3 MED DAS DE DISPERSIN
3.4 MED DAS DE FORMA
3.5 ANLISIS EXPLORATORIO DE DATOS
3.6 GRFICO DE SIMETRA
3.7 GRFICO NORMAL DE PROBABIL DAD
3.8 FUNCIONES DE EXCEL PARA MEDIDAS DE POSICIN,
DISPERSIN Y FORMA
3.9 MED DAS DE POSICIN, DISPERSIN Y FORMA CON
HERRAMIENTAS DE ANLISIS
Al pulsar Aceptar en la Figura 3-19, se obtiene la Figura 3-20 con todos
los estadsticos incluido el radio del intervalo de confianza para la

6
4.15 EXCEL Y LA CORRELACIN MLT PLE CON HERRAMIENTAS DE
ANLISIS
4.15.1 Correlacin y matriz de correlaciones
4.15.2 Covarianza y matriz de covarianzas
4.16 EXCEL Y LAS TABLAS DE CONTINGENCIA MEDIANTE TABLAS
D NMICAS
4.16.1 Excel y las tablas de contingencia para dos variables cualitativas
4.16.2 Excel y las tablas de contingencia para dos variables, una
cualitativa y otra cuantitativa
4.16.3 Excel y las tablas de contingencia para ms de dos variables
4.17 EXCEL Y LOS CONTRASTES DE ASOCIACIN E
INDEPENDENCIA

NMEROS NDICES Y MEDIDAS DE CONCENTRACIN


5.1 NMEROS NDICES S MPLES
5.2 NMEROS NDICES COMPLEJOS NO PONDERADOS
5.3 NMEROS NDICES COMPLEJOS DE PRECIOS NO
PONDERADOS
5.4 NMEROS NDICES COMPLEJOS PONDERADOS
5.5 NMEROS NDICES COMPLEJOS DE PRECIOS PONDERADOS
5.6 NMEROS NDICES COMPLEJOS PONDERADOS CUNTICOS O
DE PRODUCCIN
5.7 PROP EDADES DE LOS NMEROS NDICES
5.8 NDICES EN CADENA
5.9 CAMBIO DE BASE Y ENLACES DE NMEROS NDICES
5.10 DEFLACTACIN DE SERIES ESTADSTICAS
5.11 PARTICIPACIN Y REPERCUSIN
5.12 NDICES OFICIALES

8
5.13 TASAS DE VARIACIN
5.14 MED DAS DE CONCENTRACIN
5.15 NDICE DE CONCENTRACIN DE G NI
5.16 CURVA DE CONCENTRACIN DE LORENTZ

9
1.1 INTRODUCCIN
La estadstica es una materia en alza, en una poca en la que los
datos son un activo muy importante y el anlisis cuantitativo tiene aplicaciones
muy relevantes en diferentes campos de la ciencia como la economa, las
finanzas, la ingeniera, la matemtica en general, la sociologa, la psicologa, la
biologa, la medicina, etc. Es clave para empezar a trabajar en estadstica, sea
cual sea el campo en que se aplique, la comprensin de los propios conceptos
estadsticos, para posteriormente realizar la operatoria matemtica necesaria
para desarrollarlos a travs del software, que facilita obtener los resultados de
los procedimientos estadsticos de forma rpida y con menos errores que cuando
las operaciones se realizaban manualmente.

Este libro trata los temas elementales de la estadstica desde una


ptica aplicada, pero a la vez formal. Se presentan coincenzudamente los
conceptos, intentando que sean inteligibles para lectores con formacin diversa
(ciencias, letras, etc.) Las tcnicas estadsticas se describen en lenguaje
asequible, y se elimina el problema de la operatoria tediosa matemtica
utilizando un programa tan sencillo y disponible para todos como es Excel. Los
cap tulos se complementan con ejercicios resueltos totalmente, tanto con su
operatoria matemtica habitual, como con el apoyo del software, con la finalidad
de facilitar al lector la comprensin de los conceptos. Tambin se proponen
ejercicios cuya solucin se aporta al lector en archivos Excel disponibles en la
pgina web de la editorial.

11
Por otra parte, Excel tambin implementa determinados
complementos para ampliar el campo de trabajo en diferentes reas. Uno de
estos complementos lo constituyen las Herramientas para anlisis que se
insertan en el grupo Anlisis de la ficha Datos de la cinta de opciones de Excel.
Al final de este captulo se muestra la forma de utilizar estos complementos en
Excel.

Tambin existen otras herramientas adicionales como Solver, que


permiten trabajar en temas estadsticos como la programacin lineal,
optimizacin, etc.

15
1.3 ENTORNO DE EXCEL 2013, 2010 Y 2007. LIBROS Y
HOJAS DE CLCULO
Al iniciar Excel 2013, 2010 0 2007 se observa un entorno de
trabajo similar. La Figura 1-3 muestra el entorno de Excel 2010, pero las otras
versuiiones presentan un entorno idntico y las posibilidades de rabajo en
Estadstiva Descriptiva son similares. Destacan la Cinta de opciones con sus
fichas y sus grupos de opciones en cada ficha, la barra de herramientas de
acceso rpido y la barra de estado con los botones de visualizacin y el Zoom.

La Cinta de opciones presenta fichas orientadas a tareas que


contienen grupos lgicos de comandos (opciones). Se ha diseado para
encontrar fcilmente los comandos necesarios para realizar tareas que antes
estaban ocultos en complejos mens y barras de herramientas, y que ahora se
agrupan de modo lgico en las fichas Inicio, Insertar, Diseo de pgina,
Frmulas, Datos, Revisar y Vista.
En determinados grupos de las fichas de la Cinta de opciones
aparecen iniciadores de cuadros de dilogo, que son pequeos iconos que se
sitan en la parte inferior izquierda del grupo y que abren cuadros de dilogo.
Por ejemplo, el grupo Fuente de la ficha Inicio en la Figura 1-3 presenta a su
derecha un iniciador que abre el cuadro de dilogo Formato de celdas con su
pestaa Fuente seleccionada.

La Barra de herramientas de acceso rpido aparece de forma


predeterminada en la parte superior izquierda de la ventana de Excel (Figura 1-
3) y proporciona acceso rpido a herramientas que se utilizan con frecuencia.

16
funciones, etc.

Una Hoja de clculo u Hoja de trabajo (abreviadamente Hoja) es


un conjunto de celdas distribuidas en filas y columnas. Las hojas se utilizan para
introducir, mostrar y analizar datos. Si se crea un grfico, ste podr colocarse
en la hoja de clculo con sus datos correspondientes o en una hoja de grfico.

Un Libro de trabajo (abreviadamente Libro) es un conjunto de


hojas diferentes, que normalmente estn relacionadas entre s. El libro
corresponde al concepto de archivo. Excel nombra por defecto las hojas del
mismo libro como Hoja1, Hoja 2, etctera. Los nombres de las distintas hojas del
mismo libro aparecen en etiquetas en la parte inferior de la ventana de la hoja de
clculo (Figura 1-3). Para moverse de una hoja a otra, haga clic en las etiquetas
de las hojas. En la lnea superior de la pantalla de entrada en Excel 2010 con
todos sus elementos, tenemos la Barra del t tulo del libro y los botones de
Windows.
El ttulo del libro es por defecto Libro1, mientras no se guarde
como archivo y se le d otro nombre. Los botones de Windows, que aparecen a la
derecha de la barra de ttulo, se utilizan, respectivamente, para minimizar,
maximizar y cerrar el libro de Excel activo (libro de trabajo).

Pueden introducirse y modificarse los datos en varias hojas de


clculo del mismo libro y pueden ejecutarse clculos basndose en los datos de
las distintas hojas de clculo del mismo libro simultneamente.

El libro de trabajo se corresponde con el concepto de fichero o


archivo de datos de Excel, de modo que cuando se guarda el fichero actual,
realmente se estn guardando todas las hojas del libro de trabajo actual en el
fichero especificado. Un libro de trabajo puede contener, adems de una o ms
hojas de clculo, una o varias hojas de grficos cuyo contenido puede ser
cualquier tipo de grfico representativo de los datos contenidos en la hoja.

Los libros de trabajo ayudan a organizar los proyectos y a guardar


los objetos que estn relacionados entre s en un mismo lugar. Excel permite dar
nombre a las hojas de clculo, aadir nuevas hojas y eliminar hojas vacas o no
utilizadas. Finalmente, cada ventana de un libro de trabajo contiene barras de

18
desplazamiento que se pueden utilizar para pasar de una hoja de clculo a la
siguiente o para hacer desplazamientos de un lugar a otro dentro de la hoja de
clculo activa.

19
Un valor numrico puede ser un entero (como 32), un nmero
decimal (como 499,95), una fraccin entera (como 10 3/4), o un nmero en
notacin cientfica (como 4,09 E+13). En los nmeros, se pueden utilizar
smbolos matemticos, como el smbolo de suma (+), el de resta (-), el de tanto
por ciento (%), fracciones (/) y exponenciales (E). Asimismo, es posible utilizar
el smbolo de dlar ($). Si se introduce un nmero demasiado grande como para
ser presentado en una celda, Excel mostrar el nmero en notacin cientfica o
mostrar ####### en la celda, para advertirle de que necesita incrementar el
ancho de la misma.

De todos modos, Excel siempre guarda internamente el nmero


que se ha introducido, y este valor subyacente se podr ver en la barra de
frmulas cuando la celda est activa. Por defecto, los valores numricos son
siempre alineados a la derecha de la celda.

Cuando se introduce ms de un nmero, despus de haber


introducido el primero se pueden utilizar las teclas de flecha (o teclas de
direccin) para desplazarse a una nueva celda e introducir el siguiente nmero.
Por ejemplo, si se escribe un nmero y se pulsa la tecla de flecha hacia abajo, el
puntero de celda se desplazar una lnea hacia abajo. Las teclas de flecha hacia
la izquierda, hacia arriba y hacia la derecha hacen que se mueva el puntero una
celda a la izquierda, hacia arriba y hacia la derecha, respectivamente.

En Microsoft Excel, un nmero puede tener slo los siguientes


caracteres: 0 1 2 3 4 5 6 7 8 9 + - ( ) , / $ % . E e. Por otra parte, Excel ignora los
signos ms (+) a la izquierda, y trata a los puntos como separadores de miles o
separadores decimales (igualmente las comas). Todas las dems
combinaciones de nmeros y caracteres no numricos son consideradas texto.
Para evitar introducir una fraccin como fecha, coloque un cero (0) delante de
cada fraccin; por ejemplo, escriba 0 1/2. Delante de los nmeros negativos,
site un signo menos (-), o bien encierre los nmeros entre parntesis ( ).
Dentro de una celda, todos los nmeros se alinean a la derecha por defecto (si
no se produce la alineacin al pulsar Enter o TAB, el nmero est mal escrito).

Para cambiar la alineacin, seleccione la celda o celdas que

21
el nmero deseado. Esto no afectar a los datos que haya indicado en las celdas
antes de seleccionar la opcin Nmero fijo de decimales. Para anular
temporalmente la opcin Nmero fijo de decimales, especifique un separador de
decimales al escribir el nmero. Se pueden elegir los caracteres para separar
decimales y miles con las opciones Usar separadores del sistema, Separadores
de decimales y Separadores de miles de la Figura 1-8.

26
Figura 1-8

28
Tambin es posible especificar el tipo de serie de relleno
utilizando el botn secundario del ratn para arrastrar el controlador de relleno
sobre el rango y despus hacer clic en el comando adecuado del men contextual
de la Figura 1-16. Por ejemplo, si el valor inicial es la fecha ENE-2002, haga clic
en Rellenar meses para obtener la serie FEB-2002, MAR-2002, etc. Tambin
puede hacer clic en Rellenar aos para obtener la serie ENE-2003, ENE-2004,
etc.

32
41
49
% Porcentaje
^ Exponente
* y/ Multiplicacin y divisin
+ y- Suma y resta
& Conecta dos cadenas de texto (concatenacin)
= < > <= >= <> Comparacin

51
1.6 VINCULACIN DE LIBROS
Pueden compartirse los datos almacenados en hojas de clculo y
libros diferentes mediante la utilizacin de vnculos o de referencias externas. La
vinculacin resulta especialmente til cuando no conviene conservar grandes
modelos de hoja de clculo en el mismo libro.

61
el nombre de la otra hoja de clculo o del otro libro contiene caracteres no
alfabticos, se deber poner el nombre (o la ruta de acceso) entre comillas
sencillas.

65
funciones de texto (Figura 1-53) y las funciones lgicas (Figura 1-54).

77
79
1.9 COMPLEMENTOS EN EXCEL Y LA ESTADSTICA
Como ya habamos anticipado al principio del cap tulo, Excel 2010
dispone de complementos adicionales (Herramientas para anlisis, Solver, etc.)
que pueden cargarse despus de la instalacin del programa y que incorporan
funcionalidades adicionales para el trabajo en estadstica. Para cargar o
descargar un complemento de Excel, se tendrn en cuenta los pasos siguientes:

Haga clic en el Archivo y, a continuacin, pulse en Opciones.

En la Figura 1-55 haga clic en la categora Complementos de


panel izquierdo.

En el cuadro Administrar (Figura 1-55), haga clic en


Complementos de Excel y, a continuacin, en Ir.

En el cuadro Complementos disponibles (Figura 1-56), active la


casilla de verificacin situada junto al complemento que desea
cargar y, luego, haga clic en Aceptar. Si el complemento que
desea utilizar no aparece en la lista del cuadro Complementos
disponibles, haga clic en Examinar y, a continuacin, busque el
complemento. Los complementos que no estn disponibles en el
equipo se pueden descargar de Descargas en Office Online.

87
2.1 VARIABLES ESTADSTICAS
En el trabajo estadstico la informacin se recoge en variables.
Estas variables se organizan de forma ordenada y se almacenan en ficheros.
Posteriormente ser posible operar con estas variables y aplicar funciones a las
mismas para realizar las transformaciones y los anlisis estadsticos que se
desee. Las variables pueden contener datos numricos (variables cuantitativas)
y datos categricos no cuantificables numricamente (variables cualitativas). El
sexo, la profesin y el lugar de origen seran variables cualitativas. La estatura y la
edad seran ejemplos de variables cuantitativas.

Las variables cuantitativas pueden ser discretas y continuas.

Una variable es discreta cuando toma una cantidad finita o numerable


de valores aislados, es decir, entre cada dos valores consecutivos no se puede
intercalar ningn otro valor de la variable. El nmero de hijos, el nmero de
parados y el nmero de caras obtenido al lanzar tres monedas al aire seran
ejemplos de variables cuantitativas discretas.

Una variable es continua cuando toma una infinidad no numerable de


valores, es decir, entre cada dos valores cualesquiera siempre existen infinitos
valores de la variable. La fuerza fsica, la longitud y el peso seran ejemplos de
variables cuantitativas continuas.

Las variables cualitativas suelen clasificarse, segn la naturaleza de los


datos categricos que representan, en variables nominales y variables ordinales.

Las variables nominales describen las categoras directamente por su


contenido, por ejemplo, las categoras de la variable cualitativa sexo son varn y
mujer. A veces suelen asignarse por comodidad cdigos numricos a las
distintas categoras de una variable cualitativa nominal, por ejemplo, varn=1 y
hembra=2, en cuyo caso hay que resaltar que dichos cdigos siguen siendo
variables cualitativas no tratables numricamente.

Las variables ordinales describen las categoras por el orden que


ocupan, por ejemplo, los valores (categoras) de la variable cualitativa

92
satisfaccin en el trabajo pueden ordenarse en satisfacin baja (valores entre
0 y 10 segn una determinada escala de puntuacin que vara entre 0 y 30),
satisfacin media (valores entre 10 y 20) y satisfaccin alta (valores entre 30 y
40).

Las variables cuantitativas suelen clasificarse en variables ratio, que


toman valores numricos puntuales, y variables por intervalos, en las cuales se
agrupan los valores numricos en intervalos convenientes con vistas a facilitar el
trabajo.

93
2.2 DISTRIBUCIONES DE FRECUENCIAS Y SU
FINALIDAD
Cuando se analiza una caracterstica medida por una variable
cualquiera resultado de un determinado proceso (de produccin, de medida,
econmico, financiero, sociolgico, mdico, biolgico, demogrfico, etc.), los
datos que obtenemos siempre estn dispersos y nunca tienen un nico valor
constante. Una vez que sabemos que los datos relativos a las distintas
caractersticas van a estar dispersos, nos surge el problema de detectar el
patrn en la variabilidad de los datos. Para ayudar a esta tarea existen
herramientas estadsticas bsicas como las distribuciones de frecuencias y los
histogramas, as como tcnicas sencillas de anlisis exploratorio de datos.

Cuando los datos estn dispersos, la dispersin sigue un cierto patrn.


Inicialmente los datos no nos dicen nada por s mismos, pero si los dividimos en
clases o celdas ordenadamente, puede aclararse la forma de su dispersin, es
decir, puede aclararse la forma de cmo estn distribuidos. Esta forma de la
distribucin de los datos inherente a su variabilidad se denomina distribucin de
frecuencias.

Normalmente es posible ver la forma general de una distribucin si se


recogen cien o ms valores y se prepara convenientemente una tabla de
frecuencias con diez o veinte clases. Pero la distribucin se puede ver an con
mayor claridad en forma de representacin grfica mediante un histograma de
frecuencias. El histograma es una representacin visual de los datos en la que
pueden observarse ms fcilmente tres propiedades esenciales de una
distribucin como son: forma, tendencia central o acumulacin y dispersin o
variabilidad. De esta forma, el histograma da una idea del proceso, lo que un
simple examen de los datos tabulados no hace.

Hay muchos mtodos para construir histogramas. Cuando los


datos son numerosos, es muy til reunirlos en clases y se recomienda utilizar
entre 4 y 20 clases (o celdas). A menudo conviene elegir un nmero total de
clases igual aproximadamente a la raz cuadrada del tamao de la muestra. Las
clases deben tener amplitud uniforme y se construye la primera de ellas
comenzando con un lmite inferior slo un poco menor que el valor ms pequeo

94
de los datos. Se construye la ltima clase finalizando con un lmite superior slo
un poco mayor que el valor ms grande de los datos. Para realizar el histograma
se marcan las clases sobre el eje de abscisas, y sobre cada clase se levanta un
rectngulo de altura proporcional al nmero de observaciones de la variable
(frecuencia absoluta) que caen en la clase.

El agrupamiento de los datos en clases condensa los datos


originales, lo que da como resultado una prdida de algo de detalle. As, cuando
el nmero de observaciones es relativamente pequeo, o cuando las
observaciones slo toman pocos valores, puede construirse el histograma a
partir de la distribucin de frecuencias de los datos sin agrupar, dando lugar a
los diagramas de barras.

Las distribuciones de frecuencias son la herramienta ms sencilla


y ms utilizada y eficaz cuando estamos rodeados de montones de datos, que no
nos dicen nada si no hacemos ms que enumerarlos. Al expresar estos datos en
forma de una distribucin de frecuencias, ya nos proporcionan diversas ideas.
Puesto que las distribuciones de frecuencias se utilizan muy a menudo, es
necesario conocer la finalidad de las mismas y su interpretacin y uso.

El fin principal de la preparacin de una distribucin de


frecuencias es, usualmente, uno de los siguientes:

Dejar bien visible la distribucin de la variable estudiada e


identificar su forma.

Analizar, controlar y mostrar las capacidades de los procesos de


los que derivan sus datos, tanto cualitativa como cuantitativamente.

Ayudar a determinar el promedio, la desviacin estndar, los


coeficientes de asimetra y curtosis, as como otras medidas
caractersticas de una distribucin.

Probar a qu tipo de distribucin matemtica se puede acoplar


estadsticamente la distribucin emprica de los datos relativos a la

95
variable estudiada.

96
2.3 INTERPRETAR LAS DISTRIBUCIONES DE
FRECUENCIAS
Las distribuciones de frecuencias facilitan que todo el mundo vea y
comprenda intuitivamente la forma de los valores de la variable que representa.
Sin embargo hay que prestar atencin a la interpretacin de las distribuciones.
Cuando se miran las distribuciones de frecuencias, se tiene que prestar atencin
a los puntos siguientes:

Est el promedio de la distribucin en una posicin adecuada?

Cmo es la dispersin de la distribucin respecto al promedio?

Cul es la relacin entre valores tales como la desviacin


estndar, el valor medio, el rango, etc?

Hay algunos huecos, como dientes que faltan, o subidas o


bajadas repentinas como las pas de un peine, en la distribucin?

Hay algunos puntos aislados fuera del cuerpo principal de la


distribucin?

Son aceptables los valores mximo y mnimo de la distribucin?

Es asimtrica la distribucin, con un extremo mucho ms largo


que el otro, o bien es simtrica?

Tiene aspecto de acantilado la parte izquierda o la derecha de


la distribucin?

Tiene ms de un pico la distribucin?

Es demasiado agudo o demasiado chato el pico de la


distribucin?

97
98
2.5 REPRESENTAR DISTRIBUCIONES DE
FRECUENCIAS
El objetivo esencial de las representaciones grficas de las
distribuciones de frecuencias es obtener una idea general sobre sus
propiedades en un simple vistazo. Observando un histograma de frecuencias
podemos deducir si la variable se aproxima a la normalidad o si es simtrica, as
como otras propiedades que posteriormente pueden ser analizadas de modo
formal utilizando contrastes u otras herramientas adecuadas.

A la hora de representar distribuciones de frecuencias ser


necesario tener presente en primer lugar si la variable es cualitativa o
cuantitativa. En segundo lugar, y ya dentro de las variables cuantitativas, habr
que tener presente si la distribucin es agrupada o no agrupada. Teniendo en
cuenta estas caractersticas de la variable cuya distribucin de frecuencias se
representa podemos clasificar los grficos como sigue:

102
frecuencias es el polgono de frecuencias acumuladas, que se utiliza cuando se
trabaja con frecuencias absolutas o relativas acumuladas y que se construye
levantando en el extremo superior de cada intervalo de clase una ordenada igual
a la frecuencia acumulada correspondiente y uniendo a continuacin dichas
ordenadas.

Los puntos que se unen sern (Li+1, Ni). La primera ordenada se une
al extremo inferior del primer intervalo prolongndose el polgono desde este
punto hacia la izquierda sobre el eje X, y prolongndose tambin el polgono a
partir de la ordenada del extremo superior del ltimo intervalo con una paralela
al eje de abscisas. De esta forma, la ordenada correspondiente a cada valor de
la variable X mide el nmero de observaciones para las cuales la variable toma
valores menores o iguales que la abscisa (concepto que aproxima la funcin de
distribucin de la variable X).

La Figura 2-11 muestra el polgono de frecuencias simple relativo


a la variable X.

116
2.6 GRFICOS EN EXCEL
La forma ms habitual de crear un grfico en Excel consiste en
seleccionar los datos para la construccin del grfico en la hoja de clculo y
utilizar el tipo de grfico que se quiera crear del grupo Grficos de la ficha
Insertar (Figura 2-13) en la que hemos seleccionado el tipo Lnea (grficos de
lneas). Tambin se pueden utilizar los tipos Columna (Figura 2-14), Barra
(Figura 2-15), Circular (Figura 2-16), rea (Figura 2-17), Dispersin (Figura
2-18) y Otros grficos (Figura 2-19). Es posible ver todos los tipos de grfico
disponibles haciendo clic en la opcin Todos los tipos de grfico cualquier
Figura anterior. Se obtiene la Figura 2-20.

119
la Figura 2-21) que contiene las tres fichas Diseo, Presentacin y Formato que
permiten la edicin de un grfico ya existente. La ficha Diseo permite cambiar el
tipo de grfico, los datos del mismo, los diseos a utilizar, los estilos y la
ubicacin. La ficha Presentacin (Figura 2-22) permite trabajar con el rea del
grfico, etiquetas, t tulos, ejes, fondos, lneas de tendencia y todos los elementos
habituales que componen un grfico. La ficha Formato (Figura 2-23) permite
trabajar con estilos de forma, estilos de Word Art, as como con el tamao y la
organizacin del grfico.

128
2.7 EXCEL Y LAS DISTRIBUCIONES DE FRECUENCIAS
Excel permite trabajar con distribuciones de frecuencias por dos vas
distintas. Por un lado, aporta la funcin FRECUENCIA, disponible desde las
primeras versiones del programa. Por otro lado, el complemento de Anlisis de
datos incorpora la opcin Histograma, que permite hallar distribuciones de
frecuencias para variables aleatorias cuantitativas y representarlas mediante los
correspondientes histogramas de frecuencias.

131
2.7.1 La funcin FRECUENCIA de Excel
La funcin FRECUENCIA de Excel calcula las frecuencias
absolutas de los valores de una variable en un rango de intervalos o grupos
cuyos extremos se conocen. Debe introducirse como una frmula de matrices,
debido a que FRECUENCIA devuelve una matriz. Su sintaxis es la siguiente:

FRECUENCIA(datos;grupos)

El argumento datos es una matriz de un conjunto de valores o una


referencia a un conjunto de valores x1, x2,..., xn cuyas frecuencias se desea
calcular (columna DATOS de la Figura 2-24). El argumento grupos es una
matriz de intervalos o una referencia a extremos superiores de intervalos L1,
L2,..., Lk dentro de los cuales desea agrupar los valores del argumento datos
(columna NTERVALOS de la Figura 2-15). L1, L2,..., Lk representan los
intervalos (-,L1], (L1,L2],..., (Lk-1, Lk], (Lk, ). Si grupos no contiene ningn
valor, FRECUENCIA devolver el nmero de elementos contenido en datos.

La funcin FRECUENCIA se introduce como una frmula


matricial despus de seleccionar un rango de celdas adyacentes en las que se
desea que aparezca el resultado de la distribucin (Figura 2-24).

132
Haga clic en la opcin En una hoja nueva para insertar una hoja
nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la
nueva hoja de clculo. Para asignar un nombre a la nueva hoja de clculo,
escrbalo en el cuadro.

Pulse en la opcin En un libro nuevo para crear un nuevo libro y


pegar los resultados en una hoja nueva del libro creado.

Active la casilla Pareto (Histograma ordenado) para presentar los


datos en orden de frecuencia descendente en la tabla de resultados. Si esta
casilla est desactivada, Microsoft Excel presentar los datos en orden
ascendente, y omitir las tres columnas situadas ms a la derecha que
contienen los datos ordenados.

Active la casilla Porcentaje acumulado para generar una columna


de tabla de resultados con porcentajes acumulados y para incluir una lnea de
porcentaje acumulado en el grfico de histograma. Desactvela para omitir los
porcentajes acumulados.

Active la casilla Crear grfico para generar un grfico de


histograma incrustado con la tabla de resultados.

En la Figura 2-33 se muestra la salida correspondiente al


Histograma de la variable Datos, con extremos de intervalos de clase dados por
la columna Intervalos para el cuadro de dilogo Histograma de la Figura 2-32.

142
Dado que estamos ante una variable cuantitativa con datos sin agrupar
podemos representarla mediante el diagrama de barras o mediante el polgono
de frecuencias (Figura 2-47) obtenidos mediante los mismos pasos del ejercicio
anterior.

El diagrama de barras y el polgono de frecuencias suelen ofrecer


informacin sobre la simetra y la normalidad de la distribucin. En este caso
vemos que estas representaciones no se desvan demasiado de una campana de
Gauss, lo que indica que puede admitirse la normalidad de los datos. En cuanto
a la simetra se observa que la parte izquierda de la distribucin aglomera ms
frecuencia, por lo que podra haber una asimetra dbil en esa direccin. No
obstante, podra admitirse tambin la simetra, al igual que la normalidad con un
margen de error no muy elevado.

161
detectar qu patrn sigue dicha variabilidad para determinar mejor la estructura
de los datos. En primer lugar ser conveniente realizar una ordenacin de los
datos segn su magnitud, es decir, una tabla de frecuencias, que aportar algo
de luz sobre la distribucin de frecuencias subyacente.

Como se trata de una variable cuantitativa con 154 valores


comprendidos entre 13 y 49, ser necesario agruparlos en intervalos o clases.
Para ello tomamos 12 intervalos de igual anchura (12 es un entero que aproxima
bien la raz cuadrada de N = 154). La anchura de los intervalos ser (49 13)/12
= 3.

Para hallar las frecuencias absolutas por clases, se utiliza la


funcin FRECUENCIA de Excel con la sintaxis que se observa en la Figura 2-
54, previa introduccin de los datos de la variable (Xi) y de la columna de
extremos superiores de los intervalos (menos el ltimo). Hay que tener en cuenta
el rango seleccionado para escribir la frmula y que hay que pulsar
Mayus+Control+Enter para ejecutarla. Se obtiene la Figura 2-55.

Conocidas las frecuencias absolutas, ya podemos construir la


tabla de frecuencias tal y como se ha hecho en los ejercicios anteriores (Figura
2-56).

170
Figura 2-64

185
Figura 2-65

187
3.1 EXPRESIN CUANTITATIVA DE LAS
DISTRIBUCIONES
En el captulo anterior se han definido los conceptos bsicos en el
estudio de una distribucin de frecuencias de una variable. En el presente
cap tulo estudiaremos las distintas formas de resumir dichas distribuciones
mediante medidas de posicin (o de centralizacin), teniendo presente el error
cometido en el resumen mediante las correspondientes medidas de dispersin. A
su vez, analizaremos la forma de la distribucin mediante las medidas de forma.
El histograma de frecuencias ya nos daba una representacin visual de las tres
propiedades ms importantes de los datos muestrales relativos a variables: la
forma de su distribucin, su tendencia central y su dispersin. Ahora se trata de
cuantificar estos conceptos.
Por otra parte, tambin en este cap tulo se tratan las tcnicas de anlisis
exploratorio de datos, que amplan la informacin ofrecida por las medidas de
concentracin, dispersin y forma de una distribucin. Mediante las tcnicas de
anlisis exploratorio se estudian exhaustivamente las distribuciones de
frecuencias y se detectan las posibles anomalas que presentan las
observaciones.

189
3.2 MEDIDAS DE POSICIN: MEDIA, MEDIANA,
MODA, CUANTILES, PERCENTILES Y
MOMENTOS
La finalidad de las medidas de posicin es encontrar unos valores
que sinteticen las distribuciones de frecuencias. En vez de manejar todos los
datos sobre las caractersticas o variables, tarea que puede ser pesada,
podemos caracterizar su distribucin de frecuencias mediante algunos valores
numricos, eligiendo como resumen de los datos un valor central alrededor del
cual se encuentran distribuidos los valores de la variable. El valor de la variable
elegido para representar a una distribucin se llama promedio o medida de
posicin, y es un valor representativo de todos los valores que toma la variable.
Debe hallarse entre el mayor y el menor valor de la variable.

Pero estas medidas de posicin de una distribucin de frecuencias han de


cumplir determinadas condiciones para que sean verdaderamente
representativas de la variable a la que resumen. Toda sntesis de una distribucin
se considerar como operativa si intervienen en su determinacin todos y cada
uno de los valores de la distribucin, siendo nica para cada distribucin de
frecuencias, y siendo siempre calculable y de fcil obtencin. A continuacin, se
hace una relacin de las medidas de posicin ms comunes utilizadas en
estadstica.

Media aritmtica: Se define como la suma de todos los valores de la distribucin


dividida por el nmero total de datos. La expresin matemtica que representa la
media aritmtica coincide con el momento de primer orden respecto al origen.
Pero esto slo es vlido en el supuesto ms sencillo, en el que los datos de la
variable estn sin agrupar. En el caso de que tuvisemos una distribucin con
datos agrupados en intervalos, los valores individuales de la variable seran
desconocidos y, por tanto, no podramos utilizar la frmula anterior. En este
supuesto, los datos estarn agrupados en clases, y se postula la hiptesis de
que el punto medio del intervalo de clase (marca de clase) representa
adecuadamente el valor medio de dicha clase, por lo que aplicaramos la frmula
original de la media simple para dichos valores. En el caso de que la variable
presente valores anormalmente extremos, stos pueden distorsionar la media
aritmtica, hacindola incluso poco representativa. A los estadsticos que no son

190
3.3 MEDIDAS DE DISPERSIN
Las medidas de dispersin permiten calcular la representatividad de una
medida de posicin, para lo cual ser preciso cuantificar la distancia de los dife-
rentes valores de la distribucin respecto a dicha medida. A tal distancia es a lo
que, en trminos estadsticos, denominaremos variabilidad o dispersin de la
distribucin. Las medidas de dispersin tienen como finalidad estudiar hasta qu
punto, para una determinada distribucin de frecuencias, las medidas de
tendencia central o de posicin son representativas como sntesis de toda la
informacin de la distribucin. Medir la representatividad de una medida de
posicin equivale a cuantificar la separacin de los valores de la distribucin
respecto a dicha medida. Por ejemplo, si queremos estudiar en qu grado una
media aritmtica nos marca una tendencia central generalizable del
comportamiento de todos los elementos del conjunto estudiado, tendremos que
fijarnos en la separacin o desviacin de cada valor respecto a la media. Si
todos los valores estn cercanos al valor medio, ste ser representativo de
ellos.

A la mayor o menor separacin de los valores de una distribucin


respecto de otro, que se pretende que sea su sntesis, se le llama dispersin o
variabilidad. Ser, pues, tanto ms representativa la media aritmtica de una
variable cuanto ms agrupados en torno a ella estn los valores promediados;
por el contrario, ser tanto ms rechazable, por no ser representativa, cuanta
mayor dispersin exista de los valores de la variable respecto a la media.

Resulta pues necesario para completar la informacin que pueda


deducirse de una medida de posicin o centralizacin, acompaarla de uno o
varios coeficientes que nos midan el grado de dispersin de la distribucin de la
variable respecto de esa medida de centralizacin. Estos coeficientes son los
que llamamos medidas de dispersin. Inicialmente, se distingue entre medidas
de dispersin absolutas y relativas, entendindose por relativas las que no
dependen de las unidades de medida. Posteriormente, se clasifican las medidas
absolutas y relativas segn sean medidas referidas a promedios o no lo sean.

Entre las medidas de dispersin absolutas no referidas a promedios


tenemos el recorrido, o diferencia entre el mayor valor y el menor valor de una

199
ndice de dispersin respecto a la mediana: Se usa para resolver el problema de
comparacin de medianas de varias distribuciones, que pueden venir, en general,
en unidades diferentes. Se define como la relacin por cociente entre la
desviacin media respecto de la mediana y la mediana aritmtica VMe = DMe /
M e. Evidentemente, a menor ndice de dispersin mejor es la mediana.

204
3.5 ANLISIS EXPLORATORIO DE DATOS
Los estadsticos descriptivos ms habitualmente utilizados han
sido la media y la desviacin tpica. Sin embargo, el uso automtico de estos
ndices no es muy aconsejable. La media y la desviacin tpica son ndices
convenientes slo cuando la distribucin de datos es aproximadamente normal o,
al menos simtrica y unimodal. Pero las variables objeto de estudio no siempre
cumplen estos requisitos. Por lo tanto es necesario un examen a fondo de la
estructura de los datos.

Actualmente se utilizan las novedosas tcnicas del anlisis


exploratorio de datos, mediante las cuales se pueden analizar los datos
exhaustivamente y detectar las posibles anomalas que presentan las
observaciones. J. W. Tuckey ha sido uno de los pioneros en la introduccin de
este tipo de anlisis.
Se recomienda iniciar un anlisis con grficos que permitan
visualizar su estructura. Por ejemplo, para datos cuantitativos es aconsejable
comenzar con el histograma de frecuencias. El paso siguiente suele ser
examinar la posible presencia de valores atpicos (outliers) en el conjunto de
datos. Para ello, suelen utilizarse los propios histogramas u otros tipos de
grficos ms avanzados como los grficos de caja y bigote o histogramas
digitales (grficos de tallo y hojas).

Las tcnicas de anlisis exploratorio de datos amplan la


informacin ofrecida por las medidas de concentracin, dispersin y forma de
una distribucin. Mediante las tcnicas de anlisis exploratorio se estudian
exhaustivamente las distribuciones de frecuencias y se detectan las posibles
anomalas que presentan las observaciones, su simetra y su grado de
normalidad.

211
3.6 GRFICO DE SIMETRA
El grfico de simetra (Figura 3-1) es una herramienta que
permite analizar visualmente el grado de simetra de una variable. En el eje de
abscisas se representan las distancias de los valores de la variable a la mediana
que quedan por debajo de ella, y en el eje de ordenadas se representan las
distancias de los valores de la variable a la mediana que quedan por encima de
ella. Si la simetra fuese perfecta, el conjunto de puntos resultante sera la
diagonal principal. Mientras ms se aproxime la grfica a la diagonal ms
simetra existir en la distribucin de la variable.

Para el ejemplo de la variable X, variable definida por el nmero de


litros consumidos por los automviles cada 1000 kilmetros que venimos
considerando durante todo el captulo, tenemos el grfico de simetra siguiente:

212
la mediana.

4. Se toman los valores positivos de di ordenados de menor a mayor y se les


denomina pi. Estos valores sern las distancias sobre la mediana.

5. Se toman los valores negativos de di ordenados de menor a mayor y se les


denomina ni. Estos valores cambiados de signo sern las distancias bajo
la mediana.

6. Se grafican los puntos de coordenadas (-ni, pi).

214
del rango de entrada estn organizados en filas o en columnas.

Rtulos en la primera fila y rtulos en la primera columna: si la primera fila del


rango de entrada contiene rtulos, active la casilla de verificacin Rtulos en la
primera fila. Si los rtulos estn en la primera columna del rango de entrada,
active la casilla de verificacin Rtulos en la primera columna. Esta casilla de
verificacin estar desactivada si el rango de entrada carece de rtulos;
Microsoft Excel generar los rtulos de datos correspondientes para la tabla de
resultados.

Nivel de confianza para la media: active esta casilla si desea incluir una fila
correspondiente al nivel de confianza de la media en la tabla de resultados. En el
cuadro, escriba el nivel de confianza que desee utilizar. Por ejemplo, un valor de
95% calcular el nivel de confianza de la media con un nivel de importancia del
5%.

Ksimo mayor: active esta casilla si desea incluir una fila correspondiente al
valor k-simo mayor de cada rango de datos en la tabla de resultados. En el
cuadro, escriba el nmero que va a utilizarse para k. Si escribe 1, esta fila
contendr el mximo del conjunto de datos.
Ksimo menor: active esta casilla si desea incluir una fila correspondiente al
valor k-simo menor de cada rango de datos en la tabla de resultados. En el
cuadro, escriba el nmero que va a utilizarse para k. Si escribe 1, esta fila
contendr el mnimo del conjunto de datos.

Rango de salida: introduzca la referencia correspondiente a la celda superior


izquierda de la tabla de resultados. Esta herramienta genera dos columnas de
informacin por cada conjunto de datos. La columna de la izquierda contiene los
rtulos de estadstica, y la columna de la derecha contiene las estadsticas.
Excel escribir una tabla de estadsticas de dos columnas por cada columna o
fila del rango de entrada, dependiendo de la opcin que se haya seleccionado en
el cuadro Agrupado por.

En una hoja nueva: haga clic en esta opcin para insertar una hoja nueva en el
libro actual y pegar los resultados comenzando por la celda A1 de la nueva hoja

236
de clculo. Para darle un nombre a la nueva hoja de clculo, escr balo en el
cuadro.
En un libro nuevo: haga clic en esta opcin para crear un nuevo libro y pegar los
resultados en una hoja nueva del libro creado.

Resumen de estadsticas: seleccione esta opcin si desea que Excel genere un


campo en la tabla de resultados por cada una de las siguientes variables
estadsticas: media, error tpico (de la media), mediana, moda, desviacin
estndar, varianza, curtosis, coeficiente de asimetra, rango, mnimo, mximo,
suma, cuenta, mayor (#), menor (#) y nivel de confianza.

237
Figura 3-25

Al hacer clic en Aceptar, se obtiene la pantalla Estadstica


descriptiva, cuyos campos se rellenan como se indica en la Figura 3-26. Al
hacer clic en Aceptar, se obtiene la Figura 3-27, que presenta varios de los
estadsticos pedidos en el problema. Se observa que la moda (peso ms
frecuente) y la mediana (peso tal que la mitad de los restantes pesos sean
inferior a l) coinciden y valen 106. Como el coeficiente de asimetra (0,38) y el
coeficiente de curtosis (-0,044) estn en el intervalo [-2, 2], la distribucin de los
pesos podr considerarse realmente normal.

251
Dado el valor positivo del coeficiente de asimetra de Pearson, se
concluye que la distribucin es simtrica positiva.

El coeficiente de asimetra de Fisher se calcula como sigue:

Dado el valor positivo del coeficiente de asimetra de Fisher, se


concluye que la distribucin es simtrica positiva.

Para cuantificar el grado de apuntamiento de la distribucin se calcula el


coeficiente de curtosis como sigue:

Este resultado nos dice que la distribucin es ligeramente leptocrtica,


es decir, un poco ms apuntada que la normal.

Un criterio bastante efectivo para comprobar la normalidad de los datos


es observar los valores de los coeficientes de asimetra y curtosis. Si ambos
coeficientes caen en el intervalo (-2, 2) se considera que los datos provienen de
una distribucin normal. En nuestro caso g1=1,16 y g2=1,17, valores que caen
dentro del intervalo (-2, 2), lo que indica posible presencia de normalidad en los
datos.

286
Captulo 4

VARIABLE N-DIMENSIONAL. CORRELACIN


Y REGRESIN. TABLAS DE CONTINGENCIA

287
4.1 DISTRIBUCIONES BIDIMENSIONALES DE
FRECUENCIAS
Si X e Y son dos variables observadas, la distribucin bidimen-
sional (X,Y) ser (xi,yi,nij). Cada frecuencia corresponde ahora a un par de
valores (variables cuantitativas) o modalidades (variables cualitativas): el primer
elemento del par corresponde al valor de la primera caracterstica observada, el
segundo hace referencia a la segunda de tales caractersticas, y el tercero a la
frecuencia conjunta. Evidentemente, sera posible realizar un estudio por
separado de la distribucin de X e Y, y resumir estos caracteres por medio de
sus medidas de posicin y dispersin descritas en el cap tulo anterior; tales
distribuciones recibirn el nombre de distribuciones marginales. Sin embargo,
nuestro inters en este punto se centra en el anlisis simultneo de ambas
caractersticas; es decir, en la distribucin conjunta de las mismas, con el fin de
establecer si existe relacin entre ellas y en qu grado. Los pares que contienen
los valores de las variables o atributos junto con sus correspondientes
frecuencias, suelen disponerse en una tabla de doble entrada, que recibe el
nombre de tabla de correlacin en el caso de que ambos caracteres sean
cuantitativos, y tabla de contingencia cuando son cualitativos. Estos dos tipos de
tablas sern objeto de nuestra atencin en los apartados siguientes.

288
4.2 TABLA DE CORRELACIN: DISTRIBUCIONES
MARGINALES Y DISTRIBUCIONES
CONDICIONADAS
Queremos estudiar conjuntamente dos caracteres cuantitativos, X e Y,
sobre una poblacin, apareciendo X con h niveles e Y con k. Para ello,
seleccionamos una muestra de tamao N y la sometemos a observacin,
disponiendo los resultados en una tabla de doble entrada, donde x1, ..., xh e y1,
..., yk representan los valores observados para cada variable, y nij la frecuencia
absoluta conjunta, es decir, las veces que aparecen simultneamente el valor i-
simo de X y j-simo de Y.

289
nij = frecuencia absoluta del valor (Xi,Yj) de la distribucin conjunta (X,Y).

= frecuencia absoluta del valor Xi de la variable


marginal X.

290
= frecuencia absoluta del valor Yj de la variable
marginal Y.

= frecuencia relativa del valor (Xi,Yj) de la distribucin


conjunta (X,Y).

= frecuencia relativa del valor Xi de la variable marginal X.

= frecuencia relativa del valor Yj de la variable marginal


Y.

Se cumple que:

291
En esta tabla, ni. y n.j nos proporcionan las frecuencias marginales. Es
decir, el nmero de veces que aparece el valor i-simo de X, con independencia
de cul sea el valor de Y, es ni., y el nmero de veces que aparece el valor j-
simo de Y, independientemente de cul sea el valor de X con el que se da
conjuntamente Y, es n.j. De esta forma tenemos que las distribuciones
marginales de X e Y vienen dadas por (xi; ni.) y (yj; n.j ). Estas distribuciones
marginales pueden expresarse como sigue:

Dado que estas distribuciones marginales son variables


unidimensionales, es posible calcular todo tipo de medidas de centralizacin,
dispersin y forma, mediante los procedimientos ya vistos en el captulo anterior.

292
A partir de la tabla de correlacin es posible formar un nuevo tipo de
distribuciones, que denominaremos distribuciones condicionadas debido a que
para su obtencin es preciso definir previamente una condicin. Esta condicin
har referencia a la fijacin a priori de un valor (o valores) de una de las
variables, para posteriormente calcular la distribucin de la otra variable sujeta a
esa condicin. Si fijamos la variable Y en el valor y2 (podramos fijar ms de un
nico valor), la distribucin de la variable X condicionada a que Y tome el valor
y2 vendr dada por:

Donde X/Y=y2 nos dar los valores que puede tomar la variable X cuando
Y toma el valor y2, y ni/j=2 nos da las frecuencias con que se presenta cada uno
de los valores.

En general, dado que se pueden establecer condiciones sobre Y y X


calculando posteriormente la distribucin de X o Y sujeta a esa condicin, nos
encontramos distribuciones que, de manera genrica, tendrn la forma:

293
Dado que estas distribuciones condicionadas son variables
unidimensionales, es posible calcular todo tipo de medidas de centralizacin,
dispersin y forma, mediante los procedimientos ya vistos en el captulo anterior.

Para todas las distribuciones condicionadas, ser posible trabajar con


frecuencias relativas en vez de con frecuencias absolutas. Tenemos lo siguiente:

294
Otra relacin importante entre distribuciones condicionadas, marginales y
conjunta es la siguiente:

295
4.3 COVARIANZA
Pero, puesto que no interesan nicamente las distribuciones
marginales, sino tambin la conjunta, es preciso introducir medidas que hagan
referencia a esta ltima distribucin.

El momento bidimensional de orden (r,s) centrado en el origen, se define


como:

El momento bidimensional de orden (r,s) centrado en las medias, se define


como:

Los momentos de la distribucin marginal de X se calcularn como ar0


(los centrados en el origen) y mr0 (los centrados en la media). Concretamente
a10 es la media de X, y m20 es la varianza de X. De la misma forma, los
momentos de la distribucin marginal de Y se calcularn como a0s (los
centrados en el origen) y m0s (los centrados en la media). Concretamente, a01
es la media de Y, y m02 es la varianza de Y.

De entre las medidas relativas a la distribucin conjunta, la de mayor


inters en todo anlisis estadstico es la covarianza sxy, que se define como m11.
Su frmula ser:

296
La covarianza es una medida de gran importancia por su signo, ms que
por el valor que pueda alcanzar; el signo indica el sentido de la variacin
conjunta de las variables que estamos considerando. De esta forma, si la
covarianza es positiva, quiere decir que ambas variables varan en el mismo
sentido alrededor de sus medias, mientras que si la variacin de las mismas
tiene lugar en sentido contrario, la covarianza tomar valores negativos.

En ocasiones, suele utilizarse la cuasicovarianza debido a sus


propiedades muestrales. La expresin de la cuasicovarianza es:

297
4.4 VARIABLES INDEPENDIENTES
Cmo podemos detectar la existencia de independencia entre dos
variables? qu instrumentos estadsticos son los que nos permiten sealar la
ausencia de tal relacin? Para detectar la no presencia de asociacin entre dos
caracteres analizados sobre la misma poblacin, se procede a elaborar la tabla
de correlacin (para variables cuantitativas) o de contingencia (para variables
cualitativas), y se calculan las respectivas distribuciones conjuntas, marginales y
condicionadas. Las variables son independientes si se cumple cualquiera de las
dos siguientes condiciones equivalentes:
Las frecuencias relativas condicionadas coinciden con sus respectivas
frecuencias relativas marginales, lo que nos indica que el
condicionamiento, en cuanto tal, no existe. Ha de cumplirse que fi/j = fi.= ni.
/N y fj/i =f.j= n.j /N para todo i,j.

La frecuencia relativa conjunta es igual al producto de las frecuencias


relativas marginales, es decir, nij /N = (ni. /N)*(n.j /N) fij = fi. f.j para
todo i,j.

Cuando las dos variables son independientes, la covarianza es cero,


aunque debemos sealar que el recproco no es siempre cierto (es decir, la
covarianza nula no implica necesariamente que ambas variables sean
independientes).

298
4.5 COEFICIENTE DE CORRELACIN LINEAL ENTRE
DOS VARIABLES. REGRESIN SIMPLE
MNIMO CUADRTICA
Se llama correlacin al grado de dependencia mutua entre dos
variables. El coeficiente de correlacin intenta medir la intensidad con que dos
variables estn relacionadas. Este concepto est directamente relacionado con el
concepto de curva de regresin. Mediante la regresin simple mnimo
cuadrtica, se expresa la estructura funcional de la relacin existente entre dos
variables, ajustando la nube de puntos dada por los pares de valores de las dos
variables a una curva de la forma mejor posible (minimizando la varianza del
error). El ajuste ser de la forma Y=f(x)+e o X=f(Y)+e, donde e denota el error
cometido cuya varianza debe ser mnima. El coeficiente de correlacin mide la
calidad de ese ajuste.

Cuando la curva es una recta, la regresin se llama lineal, y en


este caso el coeficiente de correlacin se llama coeficiente de correlacin lineal,
y mide el grado de asociacin lineal que existe entre las variables. El ajuste ser
de la forma Y = a + b X + e (recta de regresin de Y sobre X), o X = c + d Y + e

(recta de regresin de X sobre Y), donde a = ,b=

, c= yd = .

A los parmetros a y b se les denomina coeficientes de regresin


de Y sobre X, y a los parmetros c y d se les llama coeficientes de regresin de X
sobre Y. Tambin se pueden expresar las rectas de regresin de Y sobre X y X
sobre Y respectivamente de la forma

299
.

Si suponemos el ajuste de la forma Y = a + b X + e (recta de regresin


de Y sobre X), el criterio de mnimos cuadrados considera que la funcin que
mejor se ajusta a los datos es la que minimiza la varianza del error e, lo que es
equivalente a minimizar:

Derivando respecto de los parmetros a y b e igualando a cero


tenemos:

Las soluciones a y b de este sistema de ecuaciones normales son a

= y b= , lo que hace que la recta


de regresin de Y sobre X sea:

300
Y= a+ bX = + x

Razonando de forma similar, se obtienen la recta de regresin de X sobre


Y.

La expresin del coeficiente de correlacin lineal entre las variables X e Y


viene dado por la expresin:

Si r = 1 existe correlacin perfecta positiva, y la relacin funcional entre


ambas variables es exacta y positiva, variando las dos en el mismo sentido (al
aumentar una aumenta la otra, y al disminuir una disminuye la otra). Si r = - 1
existe correlacin perfecta negativa, y la relacin funcional entre ambas variables
es exacta y negativa, variando las dos en el sentido opuesto (al aumentar una
disminuye la otra, y al disminuir una aumenta la otra). Si r = 0 la correlacin es
nula, y las variables no estn asociadas, siendo imposible encontrar una relacin
funcional entre ellas.

Si 0 < r < 1 la correlacin es positiva, pero el grado de asociacin


entre las dos variables ser mayor a medida que r se acerca ms a 1, y ser

301
menor a medida que r se acerca ms a cero. Si - 1 < r < 0 la correlacin es
negativa, pero el grado de asociacin entre las dos variables ser mayor a
medida que r se acerca ms a -1, y ser menor a medida que r se acerca ms a
cero.

El cuadrado del coeficiente de correlacin r 2, denotado en general por


R2, se denomina coeficiente de determinacin y representa el porcentaje de
variabilidad de la variable dependiente que es explicada por la regresin. Dada
su definicin, R2 puede expresarse de forma general en funcin de la varianza de

Y y de la varianza residual como sigue:

En general, se trata de una medida de la bondad del ajuste por


regresin. Si R2 se aproxima a la unidad el ajuste es bueno y si R2 se acerca a
cero el ajuste es malo. Esta definicin e interpretacin de R2 es vlida para
cualquier tipo de ajuste aunque no sea lineal.

En cuanto a relacin entre correlacin e independencia, se observa que al


definir el coeficiente de correlacin lineal como r = Sxy /(Sx Sy), si las variables
son independientes estarn incorrelacionadas, ya que r=0 debido a que Sxy es
cero cuando hay independencia. Ahora bien, el recproco no es necesariamente
cierto, ya que dos variables pueden estar incorrelacionadas linealmente y ser
dependientes, puesto que al ser r=0, lo nico que podemos decir es que la
asociacin lineal es nula, pero esas variables pueden depender segn otro tipo

302
de asociacin (parablica, exponencial, etc.)

303
4.6 REGRESIN PARABLICA

Si suponemos el ajuste de la forma Y = a + b X + c X 2 + e (curva de


regresin parablica de Y sobre X), el criterio de mnimos cuadrados considera
que la funcin que mejor se ajusta a los datos es la que minimiza la varianza del
error e, lo que es equivalente a minimizar:

Derivando respecto de los parmetros a, b y c e igualando a cero


tenemos:

Las soluciones a, b y c de este sistema de ecuaciones normales


proporcionan la ecuacin de la parbola que mejor ajusta los datos en el sentido

304
de mnimos cuadrados.

305
4.7 REGRESIN POLINMICA

Si suponemos el ajuste de la forma Y = a + b X + c X 2 + d X 3 + + e


(curva de regresin polinmica de Y sobre X), el criterio de mnimos cuadrados
considera que la funcin que mejor se ajusta a los datos es la que minimiza la
varianza del error e, lo que es equivalente a minimizar:

Derivando respecto de los parmetros a, b, c, d, e igualando a


cero tenemos:

Las soluciones a, b, c, d, de este sistema de ecuaciones

306
normales proporcionan la ecuacin polinmica que mejor ajusta los datos en el
sentido de mnimos cuadrados.

307
4.8 REGRESIN HIPERBLICA, POTENCIAL Y
EXPONENCIAL
Si suponemos el ajuste de la forma Y = a + b / X + e (curva de regresin
hiperblica de Y sobre X), podemos realizar la transformacin Z=1/X, con lo que
la ecuacin a ajustar resulta ser Y = a + b Z + e (curva de regresin lineal de Y
sobre X), regresin que ya sabemos resolver. Una vez realizado el ajuste se
deshace el cambio en la ecuacin resultante.

Si suponemos el ajuste de la forma Y=aXb(curva de regresin potencial


de Y sobre X), podemos aplicar logaritmos, con lo que la ecuacin a ajustar
resulta ser LnY=Lna+bLnX+e (curva de regresin lineal de Y sobre X),
regresin que ya sabemos resolver. Realizado el ajuste lineal se obtienen Lna y
b, es decir, ya conocemos a y b.

Si suponemos el ajuste de la forma Y=abX (curva de regresin


exponencial de Y sobre X), podemos aplicar logaritmos, con lo que la ecuacin a
ajustar resulta ser LnY=Lna+XLnb+e (curva de regresin lineal de Y sobre X),
regresin que ya sabemos resolver. Una vez realizado el ajuste lineal se
obtienen Lna y Lb, es decir, ya conocemos a y b.

308
4.9 COEFICIENTE DE CORRELACIN POR RANGOS
Es muy tpico considerar, sobre todo en variables cualitativas, el
coeficiente de correlacin entre los rangos de los valores de las variables. Se
entiende por rango de un valor de una variable el lugar que ocupa dicho valor en
el conjunto total de valores de la variable, suponiendo una ordenacin de menor a
mayor. Sean Ai y Bi las diferentes modalidades de dos variables cualitativas X e
Y. Sean xi e yi los rangos o nmeros de orden que le corresponden a Ai y Bi,
supuestas ordenadas estas modalidades, con la escala que se determine, y de
menor a mayor. Se define el coeficiente de correlacin por rangos de Spearman
para las variables cualitativas X e Y como el coeficiente de correlacin lineal de
las variables cuyos valores son xi e yi.

Este valor se utiliza para medir el grado de asociacin de las


variables cualitativas X e Y basndonos en la concordancia o discordancia de las
clasificaciones por rangos de sus modalidades. El coeficiente de correlacin por
rangos tambin se utiliza para variables cuantitativas, con la aclaracin de que el
grado de asociacin obtenido no es el de los valores de las variables, sino el de
las clasificaciones por rangos de dichos valores. Este coeficiente viene dado por:

siendo di = xi - yi. Este coeficiente tambin se denomina coeficiente de


correlacin ordinal, y por ser un coeficiente de correlacin vara entre -1 y 1.
Cuando la concordancia entre los rangos es perfecta, entonces di = xi - yi = 0 y r
=1. Cuando la discordancia es perfecta, r = -1. Cuando no hay ni concordancia ni
discordancia, r = 0.

309
4.10 DISTRIBUCIONES DE MS DE DOS
DIMENSIONES: MATRIZ DE COVARIANZAS Y
MATRIZ DE CORRELACIONES
Cuando se tiene una variable tridimensional (X,Y,Z) o enedimensional
en general, tambin se puede realizar la descripcin y anlisis de las
distribuciones de frecuencias subyacentes. La complejidad crece cuando el
nmero de variables o factores que se analizan simultneamente aumenta, pero
conocido el procedimiento para el caso tridimensional, su gener alizacin al n-
dimensional es inmediata. El anlisis es igualmente vlido cuando los caracteres
analizados son de naturaleza cuantitativa o cualitativa.

Al igual que en las distribuciones bidimensionales, la forma ms usual de


representacin de distribuciones tridimensionales son las tablas de correlacin
(referentes a caracteres cuantitativos) o las tablas de contingencia (referentes a
caracteres cuantitativos). Como suceda en el caso de la distribucin bi-
dimensional, se pretende que las frecuencias, tanto conjuntas y marginales como
condicionadas, sean fcilmente localizables, y tambin sus respectivas
distribuciones.

Un elemento esencial en el estudio de variables enedimensionales es la


matriz de covarianzas, que resume las covarianzas para todos los posibles
pares de variables de entre n dadas X1, X2, ..., Xn. Se define como:

310
donde cada sij representa la covarianza entre Xi y Xj para todo i,j.

El signo de cada sij indica el sentido de la variacin conjunta de las dos


variables Xi y Xj que estamos considerando. Si la covarianza es positiva, quiere
decir que ambas variables varan en el mismo sentido, mientras que si la
variacin de las mismas tiene lugar en sentido contrario, la covarianza tomar
valores negativos.

Con la matriz de covarianzas analizamos simultneamente el


sentido de la variacin conjunta de todos los posibles pares de variables Xi y Xj
para todo i,j.

Otro elemento esencial en el estudio de variables enedimensionales es la


matriz de correlaciones, que resume las correlaciones para todos los posibles
pares de variables de entre n dadas X1, X2,...,Xn. Se define como:

311
donde cada rij es el coeficiente de correlacin entre Xi y Xj para todo i,j.
Si dada una serie de variables X1, X2, ..., Xn, se trata de estudiar el grado
de dependencia simultnea entre todas ellas (o bien entre grupos de ellas),
puede utilizarse la matriz de correlaciones. Si en base a la intensidad con que
dependen se puede establecer una funcin que explique una variable mediante
todas las dems, que se supone son sus causas influyentes, estamos ante un
problema de regresin mltiple, que ser estudiado en cap tulos posteriores.

Mediante el coeficiente de correlacin lineal mltiple se estudia el grado


de asociacin lineal simultnea entre todas las variables, mientras que mediante
los coeficientes de correlacin simples r ij se mide el grado de asociacin entre
las variables Xi y Xj sin tener en cuenta a las dems variables.

312
4.11 VARIABLES CUALITATIVAS: TABLAS DE
CONTINGENCIA Y DISTRIBUCIONES
MARGINALES Y CONDICIONADAS
En los apartados anteriores hemos trabajado con variables cuyos
valores son cuantificables numricamente, es decir, hemos estudiado la
denominada estadstica de variables, que incluye las diferentes tcnicas para
analizar la informacin disponible acerca de un determinado fenmeno colectivo
cuyos sucesos vienen expresados en trminos cuantitativos o numricos (renta,
salarios, precios, etc.). Sin embargo, cuando esos sucesos vienen referidos a
cualidades o caractersticas no medibles del fenmeno estudiado (color,
nacionalidad, enfermedades, etc.), estaremos hablando de lo que definimos como
estadstica de atributos, que se ocupa de las variables cualitativas.

En la estadstica de atributos, bien establecemos un determinado


orden o rango entre las observaciones (cuando estas son susceptibles de
aparecer en una determinada escala ordinal), bien procedemos al simple
recuento de las distintas modalidades en que se divide el atributo o cualidad en la
serie de objetos o individuos que se estn analizando (cuando la informacin
aparezca en escala nominal). En este ltimo caso, el carcter numrico surge al
efectuar el recuento, obtenindose de este modo la distribucin de frecuencias
del atributo o variable cualitativa correspondiente.

Pero, aunque se obtenga la distribucin de frecuencias para la


variable cualitativa, no tendra sentido el empleo de promedios, tales como la
media aritmtica o geomtrica. Cuando las observaciones aparecen en una
escala nominal, slo la moda puede utilizarse como medida resumen de posicin
o centralizacin. Si las observaciones responden a una escala ordinal, puede
determinarse, adems del valor modal, tambin la mediana.

Consideramos una poblacin (o una muestra) compuesta por N individuos


sobre los que se pretende analizar simultneamente dos atributos o factores
(variables cualitativas). Designemos como A1, ..., Ah y como B1, ..., Bk las h y k
modalidades del factor A y del factor B respectivamente, y por nij el nmero de

313
individuos que presentan a la vez las modalidades A y Bj. La tabla estadstica
que describe estos N individuos, denominada tabla de contingencia, ser una
tabla de doble entrada como la siguiente:

Al igual que en el caso de las variables cuantitativas, en esta tabla ni. y n.j
nos proporcionan las frecuencias marginales; es decir, el nmero de veces que
aparece la modalidad i-sima de A, con independencia de cul sea la modalidad
de B, es ni., y el nmero de veces que aparece la modalidad j-sima de B,
independientemente de cul sea la modalidad de A con el que se da

314
conjuntamente B, es n.j. De esta forma tenemos que las distribuciones
marginales de A y B vienen dadas por (Ai; ni.) y (Bj; n.j).

A partir de la tabla de contingencia es posible formar un nuevo tipo de


distribuciones, que denominaremos distribuciones condicionadas debido a que
para su obtencin es preciso definir previamente una condicin. Esta condicin
har referencia a la fijacin a priori de una modalidad (o modalidades) de una de
las variables cualitativas o factores, para posteriormente calcular la distribucin
de la otra variable cualitativa sujeta a esa condicin. Si fijamos la variable B en el
valor B2 (podramos fijar ms de un nico valor), la distribucin de la variable A
condicionada a que B tome el valor B2 vendr dada por:

Donde A/B2 nos dar los valores que puede tomar la variable A cuando la
B toma el valor B2, y ni/2 nos da las frecuencias con que se presenta cada uno de
los valores (modalidades).

En general, dado que se pueden establecer condiciones sobre A y B


calculando posteriormente la distribucin de A o B sujeta a esa condicin, nos
encontramos distribuciones que, de manera genrica, tendrn la forma:

315
Para todas las distribuciones ser posible trabajar con frecuencias
relativas en vez de con frecuencias absolutas.

316
4.12 INDEPENDENCIA Y ASOCIACIN DE VARIABLES
CUALITATIVAS: COEFICIENTES
En cuanto a la independencia de variables cualitativas, ya fue tratada al
hablar de la independencia de variables cuantitativas, aunque este concepto toma
aqu especial relevancia, pues en el caso de variables cualitativas la falta de
independencia suele denominarse asociacin, y el anlisis del grado de
asociacin entre variables cualitativas tiene fuerte incidencia en la estadstica de
atributos. Ya hemos visto que de forma anloga a lo que ocurre en el caso de dos
variables cuantitativas, la observacin simultnea de dos atributos da lugar a una
tabla de doble entrada, en donde nij indica el nmero de objetos o individuos que
poseen conjuntamente las modalidades indicadas en la fila i-sima y en la
columna j-sima de la tabla de contingencia. Tambin hemos visto que las
distribuciones que se refieren a uno solo de los dos atributos o variables
cualitativas se denominan igualmente distribuciones marginales.

Se dice que dos atributos A y B son independientes, cuando entre


ellos no existe ningn tipo de influencia mutua. Si dos atributos, A y B, son
independientes estadsticamente, la frecuencia relativa conjunta ser igual al
producto de las frecuencias marginales respectivas. Para que A y B sean
independientes, habr de cumplirse que nij = (ni.n.j)/N para todo i,j. En la
prctica basta con que la relacin se verifique para (h-1)(k-1) valores de nij, ya
que entonces se verificar para todos los restantes.

Si designamos como nij la frecuencia conjunta correspondiente a


las modalidades Ai del atributo A y Bj de B, y por nij la frecuencia terica que
correspondera en el caso de que ambos atributos fuesen independientes, esto
es, nij = (ni.n.j)/N, i=1,...,h, j=1,...,k, siendo N el total de elementos que se

estudian, definimos el coeficiente de contingencia (c 2)como sigue:

317
c2=

Este coeficiente tambin se denomina en la literatura estadstica


cuadrado de la contingencia, y puede expresarse de forma ms sencilla para el
clculo como sigue:

c2=

El coeficiente de contingencia c 2 se utiliza para realizar un contraste


formal para la hiptesis nula de independencia de los atributos A y B cuya
informacin muestral se recoge en la tabla de contingencia dada. La hiptesis
alternativa es la existencia de asociacin entre los atributos A y B. El contraste se
basa en que, bajo la hiptesis nula de independencia de los atributos A y B, el
estadstico c 2 se distribuye segn una chi-cuadrado con (h-1)(k-1) grados de
libertad.

Cuando el tamao muestral es pequeo (N menor que 150), se


utiliza el test exacto de Fisher para contrastar la independencia de atributos. En
este caso suele introducirse una correccin por continuidad en el estadstico de
la chi-cuadrado, tomando en su lugar para el contraste de independencia el
estadstico corregido de Yates, cuya expresin es la siguiente:

318
c2=

Como concepto contrario al de independencia tenemos el de


asociacin. Se dice que A y B estn asociados cuando aparecen juntos en
mayor nmero de casos del que cabra esperar si fuesen independientes. Segn
que esa tendencia a coincidir o no coincidir est ms o menos marcada,
tendremos distintos grados de asociacin. Para medirlos se han ideado diversos
procedimientos, denominados coeficientes de asociacin, entre los que
destacaremos los siguientes:

Cuadrado medio de la contingencia: Se trata de una medida de asociacin


sencilla, que no es ms que el cociente entre el coeficiente de
contingencia c 2 y el tamao de la muestra (N), con lo cual se elimina el
efecto del tamao muestral. Este coeficiente alcanza el valor mximo (uno)
cuando entre los dos atributos existe asociacin perfecta estricta. El valor
del coeficiente es cero si los atributos son independientes. Se trata de una
medida muy sensible a la presencia de totales marginales desequilibrados,
por lo cual, cuando esta circunstancia se presenta, los valores tomados por
esta medida pueden llevarnos a conclusiones falsas. Tanto el coeficiente de
contingencia como el cuadrado medio de la contingencia no pueden ser
nunca negativos. La expresin del cuadrado medio de la contingencia ser :

F2 = c 2/N =

319
Coeficiente de contingencia C de K. Pearson: Se trata de un coeficiente
definido como C = (c 2/(N+c 2)) 1/2. El coeficiente C tiene un campo de
variacin entre 0 y 1, de manera que su valor es cero cuando existe una
carencia absoluta de asociacin entre los atributos, o sea, cuando los
atributos son independientes. Cuando los atributos muestran una total
asociacin entre s, el coeficiente se aproxima a uno, pero slo se
alcanzara el valor uno en el caso ideal de infinitas modalidades. Se puede
demostrar que en el caso de una tabla de contingencia cuadrada (h=k), el
lmite superior de C es S=((h-1)/h) 1/2, lo que permitira calcular un nuevo
valor para esta medida, llamado coeficiente ajustado, que vendra dado por
CA=C/S. Este coeficiente ajustado podra resultar de inters, puesto que
proporciona una idea del verdadero grado de asociacin, al evaluar la
discrepancia entre el valor obtenido y el mximo que podra alcanzar para
la tabla dada. La expresin del coeficiente de contingencia C de K. Pearson
ser:

El coeficiente T de Tschuprow: Se trata de un coeficiente que depende de


c 2, del nmero de filas y columnas de la tabla de contingencia y del total de
elementos N. El coeficiente vara entre 0 y 1, pero no alcanza el mximo
valor cuando la tabla analizada es rectangular, y s cuando la tabla es
cuadrada. La expresin de este coeficiente es la siguiente:

320
Tambin se cumple que:

El coeficiente V de Cramer: Se trata de un coeficiente que toma el valor 1


cuando existe asociacin perfecta entre atributos, cualquiera que sea el
nmero de filas y columnas de la tabla de contingencia analizada. Cuando
la tabla es cuadrada se tiene V=T, y en caso contrario, se tiene V>T. Su
expresin es :

donde m = min(h-1,k-1)

Coeficientes Lambda de Goodman y Kruskall: Se trata de coeficientes que


ya no dependen de c 2. Suponiendo que se ha elegido Y como factor
explicado y X como explicativo, se evala la capacidad de X para predecir Y
mediante el coeficiente ly, cuya expresin es :

321
De la misma forma, suponiendo que se ha elegido X como factor
explicado e Y como explicativo, se evala la capacidad de Y para predecir X
mediante el coeficiente lx, cuya expresin es:

Tanto lx como ly varan entre 0 y 1, y estn especialmente


pensadas como medidas asimtricas. Por ello, cuando no es posible determinar
de manera objetiva cul de los dos factores es el explicativo o el explicado, se
debe optar por la utilizacin de la versin simtrica de estas medidas, cuyo valor
es:

322
El valor de l est comprendido entre lx y ly, y presenta como
inconveniente su gran sensibilidad a la presencia de totales marginales
desequilibrados. Si l se aproxima a uno existe asociacin entre X e Y, y si se
aproxima a cero existir independencia.

323
4.13 FUNCIONES DE EXCEL PARA CORRELACIN Y
REGRESIN SIMPLE
Excel dispone de varias funciones que permiten trabajar con
coeficientes de correlacin, regresin y otros conceptos sobre variables
multidimensionales. Ya sabemos que para ver las funciones de la categora

Estadsticas, se hace clic sobre el icono Insertar funcin, , de la barra de


frmulas (o se elige la opcin Insertar del grupo Biblioteca de funciones de la
ficha Frmulas), con lo que se obtiene la Figura 4-1, en cuyo cuadro Seleccionar
una categora se elige Estadsticas, presentndose todas las funciones de dicha
categora elegida en el cuadro Seleccionar una funcin (Figura 4-2).

Si en el cuadro Seleccionar una funcin hacemos clic con el ratn


sobre una funcin, por ejemplo la funcin COEF.DE.CORREL, se obtiene la
paleta de la funcin con su sintaxis (Figura 4-3). Una vez completados los
argumentos (variables X e Y de la Figura 4-4), se obtiene el resultado en la parte
inferior de la paleta. Al pulsar Aceptar, la frmula y su resultado se insertan en la
celda activa de la hoja de clculo.

324
325
Figura 4-1 Figura 4-2

326
327
Figura 4-3 Figura 4-4
A continuacin, se presenta una relacin de funciones de Excel
para correlacin, regresin y variables multidimensionales, acompaada de un
ejemplo referido a las variables X e Y de la hoja de clculo de la Figura 4-4
cuyos valores ocupan los rangos A2 A11 y B2:B11.

Devuelve

COVAR(x;y)
COVAR(A2:A11;B2:B11)

Devuelve

328
COEF.DE.CORREL(x;y)
COEF.DE.CORREL(A2:A11;B2:B11)

Da el coe

COEFICIENTE.R2(y;x)
COEFICIENTE.R2(B2:B11;A2:A11)

Da la pen

PENDIENTE(y;x)
PENDIENTE(B2:B11;A2:A11)

INTERSECCION.EJE(y;x) Da la orde
INTERSECCION.EJE(B2:B11;A2:A11)

PRONOSTICO(z;y;x) Halla la p
PRONOSTICO(2;B2:B11;A2:A11) variable in
TENDENCIA(y;x;z;constante) Halla las
TENDENCIA(A2:A8;B2:B8;B9:B11) para los v
Constante
especifica
CRECIMIENTO(y;x;z;constante) Halla las
CRECIMIENTO(A2:A8;B2:B8;B9: B11;0) para los v
Constante
especifica
Devuelve

329
ERROR.TIPICO.XY(y;x) error tpic
ERROR.TIPICO(B2:B11;A2:A11) para un va

Estas funciones pueden escribirse directamente sobre las celdas


de la hoja de clculo de igual modo que cualquier otra frmula. La Figura 4-5
presenta varias funciones de clculo de medidas de correlacin y regresin
situadas en las celdas de la hoja de clculo y referidas a los valores de las
variables X e Y que ocupan las dos primeras columnas de la hoja. La Figura 4-6
presenta los resultados de las frmulas.

Figura 4-5

330
Figura 4-6

A continuacin, para algunas funciones se presenta su paleta,


omitindose dicha presentacin para paletas de funciones muy similares en su
sintaxis (figuras 4-7 a 4-10).

331
Figura 4-7

332
Figura 4-8

333
Figura 4-9

334
Figura 4-10

Como ejemplo de ajuste por regresin simple con Excel


consideramos las variables R (renta personal en unidades monetarias) y H
(nmero de personas que se van de vacaciones al extranjero), cuyos valores
para un determinado pas son los siguientes:

335
a) Justificar si puede aceptarse una dependencia estadstica lineal entre R y H.
b) En caso positivo, hallar la recta de ajuste y representar la nube de puntos
ajustada.

Introducimos en la hoja de clculo las variables R y H como


columnas de la misma y, a continuacin, situamos las frmulas como se indica
en la Figura 4-11. Los resultados se presentan en la Figura 4-12.

336
Figura 4-11

Figura 4-12

Se observa que el coeficiente de correlacin entre R y H es


r=0,986, lo que asegura la fuerte dependencia lineal positiva entre las dos
variables.

337
Con vistas a realizar un ajuste entre ambas variables, lo lgico es
que el nmero de personas que se van de vacaciones al extranjero dependa de
la renta personal, con lo que hemos de hallar la funcin lineal f tal que H=f(R),
es decir, tenemos que hallar la recta de regresin de H sobre R, cuya pendiente
ha resultado ser b=0,057 y cuya ordenada en el origen ha resultado ser
a=-17,34. Por lo tanto, la recta de regresin de H sobre R es H=-17,34+0,057R,
que nos define la relacin lineal entre el nmero de personas que se van de
vacaciones al extranjero y su renta personal.

Podemos representar la recta de regresin marcando el rango de


las dos variables y haciendo clic en la opcin Dispersin slo con marcadores
del grupo Grficos de la ficha Insertar (Figura 4-13). Se obtiene la nube de
puntos de la regresin (Figura 4-14). A continuacin, se elige la opcin Agregar
lnea de tendencia del men emergente resultante al hacer clic con el botn
derecho del ratn sobre el grafo de la lnea de ajuste (Figura 4-15),
seleccionando en la solapa Tipo tendencia lineal (Figura 4-16), mientras que en
la solapa Opciones se elige presentar la ecuacin en el grfico y el valor de R-
cuadrado (Figura 4-17). Al pulsar Aceptar, se obtiene la Figura 4-18, que
presenta la nube de puntos ajustada a la recta de regresin cuya ecuacin
tambin aparece sobre el grfico. El alto valor de R2 indica un buen ajuste.

338
Figura 4-13

339
Figura 4-14

340
Figura 4-15

341
342
Figura 4-16 Figura 4-17

343
Figura 4-18
Como ejemplo adicional consideramos las variables Q
(produccin en millones de unidades monetarias) y E (exportaciones en
milllones de unidades monetarias), cuyos valores durante cuatro aos para un
determinado sector econmico son los siguientes:

344
a) Si se estima que las producciones en los ejercicios 1988, 1999 y 2000 van a
ser de 640, 690 y 720 millones, respectivamente, y que las condiciones del
mercado internacional no van a variar, cul ser el volumen de exportaciones
previsible para esos aos?

b) En qu medida esta previsin puede ser o no aceptable?

c) Cules seran las previsiones considerando una lnea de ajuste


exponencial?

Lgicamente, el volumen de exportaciones depender de la


produccin, con lo que hemos de hallar la funcin f tal que E=f(P), es decir, la
recta de regresin de E sobre P. Una vez calculada la ecuacin de esta recta,
podra usarse para predecir el volumen de exportaciones relativo a una
produccin de 640 millones. No obstante, Excel dispone de funciones para
prediccin que no necesitan del clculo previo de la ecuacin de regresin, y
que son las que utilizaremos aqu.

Comenzamos introduciendo en la hoja de clculo las variables E y


P como columnas de la misma. A continuacin, situamos las frmulas de los
coeficientes de correlacin, determinacin y error tpico como se indica en la

345
Figura 4-19. Los resultados se presentan en la Figura 4-20, e indican que el
ajuste por regresin ha sido bueno, al ser el coeficiente de correlacin muy
prximo a la unidad (0,9493) y el coeficiente de determinacin superior al 90%.

Figura 4-19 Figura 4-20


Para realizar la prediccin lineal mnimo cuadrtica mltiple (sin
constante en el modelo), se ha utilizado la funcin matricial TENDENCIA
(Figura 4-21) y se han obtenido previsiones de exportaciones de 125,6, 136,5 y
141,3 millones para los aos 1998, 1999 y 2000, respectivamente. Las

346
predicciones segn la lnea de ajuste exponencial Q = bEx se han calculado
mediante la funcin matricial CREC M ENTO (Figura 4-22), y se han obtenido
previsiones de exportaciones de 576,5, 947,3 y 1 276,1 millones para los aos
1998, 1999 y 2000, respectivamente (lgicamente mayores que para el caso de
la prediccin lineal). Los valores aceptables de los coeficientes de correlacin y
regresin y el valor bajo del error tpico indican que las predicciones realizadas
pueden ser bastante fiables.

347
Figura 4-21 Figura 4-22

348
4.14 EXCEL Y LOS AJUSTES POR REGRESIN
POLINMICA, LOGARTMICA,
EXPONENCIAL Y POTENCIAL
Consideramos la serie de inversiones realizadas por una empresa
en 10 perodos consecutivos que se presenta en la Figura 4-23. Con la finalidad
de predecir correctamente la inversin empresaril futura, se trata de ajustar la
serie a una lnea de tendencia cbica, exponencial, potencial, logartmica y de
media mvil de orden 2 para decidir finalmente cul de los modelos ofrece
mejores prediciones.

Se comienza seleccionando los datos de la serie y eligiendo la opcin


Lnea en el grupo Grficos de la pestaa Insertar (Figura 4-23). Se obtiene el
grfico de lneas de la serie de la Figura 4-24. Se hace clic con el botn derecho
del ratn sobre la lnea y en el men emergente resultante se elige Agregar lnea
de tendencia (Figura 4-25). Eligiendo las opciones indicadas en la Figuras 4-25,
4-27, 4-29, 4-31 y 4-33, se obtienen las lneas de tendencia e las Figuras 4-26, 4-
28, 4-30, 4-32 y 4-34, Se observa que la mejor linea de tendenia es la cbica
porque tiene el mayor valor de R2.

349
Figura 4-23

350
Figura 4-24

351
352
Figura 4-25 Figura 4-26

353
354
Figura 4-27 Figura 4-28

355
356
Figura 4-29 Figura 4-30

357
358
Figura 4-31 Figura 4-32

359
360
Figura 4-33 Figura 4-34

361
4.15 EXCEL Y LA CORRELACIN MLTIPLE CON
HERRAMIENTAS DE ANLISIS
Excel proporciona herramientas de anlisis para medir la relacin
entre dos conjuntos de datos. El clculo de la correlacin devuelve la covarianza
de dos conjuntos de datos dividida por el producto de sus desviaciones estndar.

Se puede utilizar la herramienta Coeficiente de correlacin para


determinar si dos conjuntos de datos varan conjuntamente; es decir, si los
valores altos de un conjunto estn asociados con los valores altos del otro
(correlacin positiva), si los valores bajos de un conjunto estn asociados con
los valores bajos del otro (correlacin negativa), o si los valores de ambos
conjuntos no estn relacionados (correlacin con tendencia a cero). Cuando se
consideran ms de dos variables, esta herramienta devuelve la matriz de
correlaciones entre ellas.

Asimismo, Excel tambin permite hallar el promedio del producto


de desviaciones de variables respecto de sus medias (covarianza) mediante la
herramienta Covarianza. La covarianza es una medida de la relacin entre dos
rangos de datos, y tambin se puede utilizar para determinar si dos rangos de
datos varan conjuntamente. Cuando se consideran ms de dos variables, esta
herramienta devuelve la matriz de covarianzas entre ellas.

362
4.15.1 Correlacin y m atriz de correlaciones
La opcin Anlisis de datos del grupo Anlisis de la ficha Datos
(Figura 4-35) nos lleva al cuadro de dilogo Anlisis de datos de la Figura 4-36.
Si en la lista Funciones para anlisis elegimos Coeficiente de correlacin, se
obtendr el cuadro de dilogo de la Figura 4-37, que permite calcular la matriz
de correlaciones de las variables especificadas en el campo Rango de entrada.

363
Figura 4-35 Figura 4-36

364
Figura 4-37

En el campo Rango de entrada introduzca la referencia de celda del


rango de datos que desee analizar (rango que contiene las variables cuya
correlacin o matriz de correlaciones se va a calcular). La referencia deber
contener dos o ms rangos adyacentes organizados en columnas o filas. En el
campo Agrupado por haga clic en el botn Filas o Columnas para indicar si los
datos del rango de entrada estn organizados en filas o en columnas. Si la
primera fila del rango de entrada contiene rtulos, active la casilla de
verificacin Rtulos en la primera fila. Si los rtulos estn en la primera columna
del rango de entrada, active la casilla de verificacin Rtulos en la primera
columna. Esta casilla de verificacin estar desactivada si el rango de entrada
carece de rtulos. Microsoft Excel generar los rtulos de datos

365
correspondientes para la tabla de resultados.

En cuanto a las Opciones de salida, en el campo Rango de salida


introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados (matriz de correlaciones). Microsoft Excel slo completar
media tabla, ya que la correlacin entre dos rangos de datos es independiente
del orden en que se procesen dichos rangos. Las celdas de la tabla de
resultados con coordenadas de filas y de columnas iguales contendrn el valor
1, ya que cada conjunto de datos est perfectamente correlacionado consigo
mismo. Haga clic en la opcin En una hoja nueva para insertar una hoja nueva
en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva
hoja de clculo.
Para darle un nombre a la nueva hoja de clculo, escrbalo en el
cuadro. Haga clic en la opcin En un libro nuevo para crear un nuevo libro y
pegar los resultados en una hoja nueva del libro creado. En la Figura 4-38, se
muestra la matriz de correlaciones de las variables X, Y y Z para las opciones
de entrada en el cuadro Coeficiente de correlacin de la Figura 4-37. Se
observa la escasa relacin existente entre las variables, ya que todos los
coeficientes de correlacin son muy pequeos.

Figura 4-38

366
4.15.2 Covarianza y m atriz de covarianzas
La opcin Anlisis de datos del grupo Anlisis de la ficha Datos
(Figura 4-35) nos lleva al cuadro de dilogo Anlisis de datos de la Figura 4-39.
Si en la lista Funciones para anlisis elegimos Covarianza, se obtendr el
cuadro de dilogo de la Figura 4-40, que permite calcular la matriz de
correlaciones de las variables del campo Rango de entrada.

Figura
4-39

367
Figura 4-40 Figura 4-41

En el cuadro Rango de entrada introduzca la referencia de celda del


rango de datos a analizar (rango que contiene las variables cuya covarianza o
matriz de covarianzas se quiere calcular). La referencia deber contener dos o
ms rangos adyacentes organizados en columnas o filas. En el campo Agrupado

368
por haga clic en el botn Filas o Columnas para indicar si los datos del rango de
entrada estn organizados en filas o en columnas.
Si la primera fila del rango de entrada contiene rtulos, active la
casilla de verificacin Rtulos en la primera fila. Si los rtulos estn en la
primera columna del rango de entrada, active la casilla de verificacin Rtulos
en la primera columna. Esta casilla de verificacin estar desactivada si el rango
de entrada carece de rtulos. Excel generar los rtulos de datos
correspondientes para la tabla de resultados.

En cuanto a las Opciones de salida, en el campo Rango de salida


introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados (matriz de covarianzas). Microsoft Excel slo completar
media tabla, ya que la covarianza entre dos rangos de datos es independiente
del orden en que se procesen dichos rangos. Las celdas de la tabla de
resultados con coordenadas de filas y de columnas iguales contendrn el valor
de la varianzas de las variables. Haga clic en la opcin En una hoja nueva para
insertar una hoja nueva en el libro actual y pegar los resultados, comenzando
por la celda A1 de la nueva hoja de clculo. Para darle un nombre a la nueva hoja
de clculo, escr balo en el cuadro. Haga clic en la opcin En un libro nuevo para
crear un nuevo libro y pegar los resultados en una hoja nueva del libro creado.
En la Figura 4-41 se muestra la matriz de covarianzas de las variables X, Y y Z
para las opciones de entrada en el cuadro Covarianza de la Figura 4-40.

369
4.16 EXCEL Y LAS TABLAS DE CONTINGENCIA
MEDIANTE TABLAS DINMICAS
En Excel es posible construir tablas de contingencia a travs de
las tablas dinmicas. Una tabla dinmica o informe de tabla dinmica es una
tabla interactiva que se puede utilizar para presentar tablas cruzadas y
distribuciones de frecuencias que resumen rpidamente grandes volmenes de
datos. Podrn elegirse las variables de sus filas y columnas a medida para ver
diferentes resmenes de los datos de origen. Las variables a tabular sern
dinmicas, es decir, a partir de un conjunto extenso de informacin previamente
almacenada de forma bruta en mltiples variables, se cruzarn entre s las
variables que se desee, filtrando los datos y mostrando los detalles de las reas
que consideremos de inters.

La informacin de las tablas dinmicas puede graficarse, dando


lugar a los grficos dinmicos o informes de grfico dinmico, que se
corresponden con los histogramas de frecuencias.

Como veremos a continuacin con ejemplos, en Excel es posible


construir tablas de contingencia para dos variables cualitativas, para una
variable cuantitativa y otra cualitativa, y para tres o ms variables.

370
4.16.1 Excel y las tablas de contingencia para dos
variables cualitativas
La tabla siguiente muestra los datos relativos a los resultados de
una encuesta de opinin (favorable o desfavorable) sobre un determinado
acontecimiento, realizada a un conjunto de hombres y mujeres pertenecientes a
una determinada clase social y con una edad conocida.

371
372
Se trata de crear una tabla de contingencia que cruce las
variables cualitativas sexo y opinin. Posteriormente, se especificar la tabla de
contingencia anterior segn los valores de la variable clase.

Para crear una tabla de contingencia, utilice el Asistente para


tablas y grficos dinmicos como gua para buscar y especificar los datos de
origen que desea analizar y para crear el diseo de la tabla. Los pasos para
crear una tabla de contingencia comienzan por abrir el libro en que se desee
crear la tabla y hacer clic en una celda de la hoja que contiene los datos.

A continuacin, haga clic en Tablas dinmicas en el grupo Tablas


de la ficha Insertar (Figura 4-42). En el Asistente para tablas y grficos
dinmicos (Figura 4-43) especifique la zona de la hoja que contiene los datos a
analizar y la esquina superior izquierda de la hoja que contendr el informe de
tabla de dinmica que se va a generar. Se obtiene la Figura 4-44.

373
Figura 4-42 Figura
4-43

374
Figura 4-44

Para disear el informe, se arrastran los campos cuyos valores


van a situarse en filas en la tabla, desde la barra de herramientas Tabla dinmica
a la zona Coloque campos de fila aqu (o a la zona Etiquetas de fila de la parte
inferior derecha encabezada por Arrastrar campos entre las reas siguientes), y
se arrastran los campos cuyos valores van a situarse en columnas a la zona
Coloque campos de columna aqu (o a la zona Etiquetas de columna). Al
arrastrar el campo por cuyos valores se tabula a la zona Coloque los campos de

375
valor aqu (o a la zona Valores), se obtiene la tabla dinmica.

Para disear nuestro informe de tabla dinmica, se arrastran los


campos cuyos valores van a situarse en filas en la tabla, desde la parte superior
derecha de la figura (encabezada por Lista de campos de tabla dinmica) a la
zona Etiquetas de fila (en nuestro caso Sexo). Tambin se arrastran los campos
cuyos valores van a situarse en columnas a la zona Etiquetas de columna (en
nuestro caso OPINION). Por ltimo, se arrastra el campo por cuyos valores se
tabula (en nuestro caso OPINION) a la zona Valores. Se obtiene la tabla
dinmica de la Figura 4-45.
La Lista de campos de tabla dinmica de la Figura 4-45 permite
agregar campos a las filas y a las columnas de la tabla de contingencia para
obtener tablas mltiples. Por ejemplo, si arrastramos a la zona de columnas el
campo Clase, se obtiene la tabla de contingencia triple de la Figura 4-46.

376
377
Figura 4-45

378
Figura 4-46

379
4.16.2 Excel y las tablas de contingencia para dos
variables, una cualitativa y otra
cuantitativa
Con los datos del ejemplo anterior, se trata ahora de obtener la
tabla de contingencia que cruza la variable cualitativa OPINION con la variable
cuantitativa EDAD. Ahora se trata de cruzar la OPINION con la EDAD para
tabular el nmero de personas que con las distintas edades tienen las diferentes
opiniones.

Para crear este tipo de tabla de contingencia, se utiliza el


Asistente para tablas y grficos dinmicos igual que en el apartado anterior, con
la nica diferencia de que en la pantalla de diseo se arrastra Edad a Etiquetas
de fila, Opinion a Etiquetas de columna y Edad a Valores. Se obtiene la tabla
dinmica de la Figura 4-47.

380
381
Figura 4-47

Como la variable que resume los datos es ahora una variable


cuantitativa (Edad), la funcin de resumen es por defecto la funcin Suma. No
obstante, puede utilizarse cualquier otra. Si se hace clic en la flecha situada a la
derecha de Suma de Edad, se obtendr el men emergente de la Figura 4-48 en
el que se elige la opcin Configuracin de campo de valor que nos permite
elegir cualquier funcin para resumir los datos (en nuestro caso la funcin
Cuenta) de las mostradas en la Figura 4-49. Se obtiene la nueva tabla de
contingencia pedida, que se muestra en la Figura 4-50.

382
383
Figura 4-48 Figura 4-49

384
Figura 4-50

385
4.16.3 Excel y las tablas de contingencia para m s
de dos variables
Con los datos del ejemplo anterior realizaremos una tabla de
contingencia tridimensional que cruce la variable EDAD (filas) con las variables
OPININ y SEXO (columnas). Posteriormente, realizar una tabla de
contingencia que cruce la EDAD con OPINION y SEXO para la clase media.

El camino para realizar tablas de contingencia de tres o ms


variables es el mismo que en los casos anteriores, teniendo presente que a la
hora de disear la tabla hay que situar en F LA y COLUMNA las variables
adecuadas.
Para realizar una tabla de contingencia tridimensional que cruza
la variable EDAD (filas) con las variables OPINION y SEXO (columnas), se
realiza el diseo de la tabla tal y como se indica en la Figura 4-51.

386
Figura 4-51

Para aumentar las dimensiones de una tabla de contingencia,


puede utilizarse tambin la zona de arrastre de campos Filtro de informe. Por
ejemplo, podemos realizar la tabla tridimensional del ejemplo anterior para cada
valor de la variable CLASE (con lo cual ya estamos introduciendo una cuarta
dimensin). Para ello, llevamos el campo CLASE a la zona Filtro de informes, y
situamos los dems campos como en el prrafo anterior. Se obtiene la tabla
dinmica de la Figura 4-52, que presta la nueva dimensin CLASE en su parte
superior. Por defecto, la tabla se realiza considerando todas las clases, pero

387
pueden obtenerse tablas que crucen EDAD con OP NION y SEXO para cada
valor de CLASE haciendo clic en el tringulo situado en la parte inferior del
campo Todas (Figura 4-53). Por ejemplo, en la Figura 4-54 se cruza EDAD con
OPINION y SEXO para la clase media.

Figura 4-52

388
Figura 4-53

389
Figura 4-54

390
4.17 EXCEL Y LOS CONTRASTES DE ASOCIACIN E
INDEPENDENCIA
En Excel es muy sencillo calcular el cuadrado de la contingencia
c2 a partir de las frecuencias absolutas Oj de las propias celdas de la tabla de
contingencia y de las frecuencias esperadas Ej = (Total Columna)(Total
Fila)/(Total General). La expresin del estadstico c2 para contrastar la
independencia es:

A partir del valor de este estadstico, podemos contrastar la


independencia de dos variables aleatorias cualitativas a un nivel alfa calculando
el valor cr tico correspondiente a ese nivel alfa segn una chi-cuadrado con (r-
1)(s-1) grados de libertad, siendo r y s el nmero de filas y columnas,
respectivamente, de la tabla de contingencia.
Una vez calculadas las frecuencias esperadas Ej, Excel dispone
de la funcin PRUEBA.CHI(rango_tabla; rango_Ej), que devuelve el valor del
estadstico c2 (cuadrado de la contingencia).

Excel tambin dispone de la funcin PRUEBA.CHI.INV(alfa;


grados), que devuelve el valor cr tico de una chi-cuadrado correspondiente al
nivel alfa y a los grados de libertad especificados.

Si el valor del estadstico es mayor que el valor cr tico, se


rechazar la hiptesis de independencia entre las dos variables cualitativas. En
caso contrario, se acepta la hiptesis de independencia.

A partir del valor del cuadrado de la contingencia pueden


calcularse el resto de las medidas de asociacin entre las variables cualitativas

391
estudiadas en este cap tulo.

Como ejemplo, con los datos anteriores estudiaremos la


independencia entre las variables cualitativas OPINION y SEXO. Adems,
cuantificaremos el grado de asociacin entre las dos variables citadas a partir
de los coeficientes de asociacin estudiados en este cap tulo.

Comenzamos creando la tabla de contingencia 2*2 a partir del


diseo de la Figura 4-55. A continuacin, construimos la tabla de frecuencias
esperadas (Figura 4-57) mediante las frmulas de la Figura 4-56.

392
Figura 4-55

393
Figura 4-56

Figura 4-57

394
A partir de los valores de la tabla de contingencia y de los valores
de la tabla de frecuencias esperadas, podemos calcular el valor del cuadrado de

la contingencia y el valor crtico al 95%. Para calcular c2, hacemos clic en ,


y en la categora Estadsticas seleccionamos la funcin PRUEBA.CHI (Figura
4-58), rellenando su paleta como se indica en la Figura 4-59 (previamente nos
hemos situado en la celda de la hoja en la que se insertar el resultado de la
funcin), para hallar el p-valor (0,456). Para hallar el valor c2 (0,554), usamos la
paleta de la funcin PRUEBA.CHI. NV de la Figura 4-60. De igual forma, se
calcula el valor crtico del 95% (3,841) con la paleta de la funcin
PRUEBA.CHI.INV de la Figura 4-61. En la Figura 4-62 se observa que el valor
del estadstico c2 es menor que el valor cr tico (3,84), con lo que se acepta la
hiptesis de independencia (adems, el p-valor es mayor que 0,05). La Figura 4-
63 muestra las frmulas.

395
Figura 4-58 Figura 4-59

396
397
Figura 4-60 Figura 4-61

Figura 4-62

398
Figura 4-63

Para calcular el resto de los coeficientes de asociacin


estudiados en este cap tulo, se utilizan las frmulas de la Figura 4-64, que
ofrecen los resultados de la Figura 4-65.

399
Figura 4-64

400
Figura 4-65

Vemos que los coeficientes de asociacin estn muy prximos a


cero, lo que indica la debilidad de la asociacin entre las dos variables SEXO y
OPINION.

El resultado anterior concuerda con la aceptacin de la hiptesis


de independencia entre ellas, ya corroborada anteriormente.

Los coeficientes de asociacin se han calculado mediante las


siguientes expresiones:

El valor del cuadrado medio de la contingencia ser:

401
F2 = c 2/N = =0,030789

El valor del coeficiente de contingencia C de K. Pearson ser:

=0,172827

El valor del coeficiente T de Tschuprow se calcula as:

=0,175468

El coeficiente V de Cramer se calcula mediante la expresin:

402
= 0,175468 donde m = min(h-1,k-1)=1

El coeficiente Lambda de Goodman y Kruskall ly se calcula de la


forma siguiente:

=-0,44444

EJERCICIOS RESUELTOS
Ejercicio 1. Se han estudiado los pesos en kg y las tallas en cm de 70 individuos
obtenindose los datos de la tabla siguiente:

403
1. Hallar el peso medio y la talla media as como el error cometido al
resumir pesos y tallas por sus valores medios Qu media es mejor?
2. Hallar la distribucin segn las tallas de los individuos que pesan 54 kilos
y la distribucin segn los pesos de los individuos que miden entre 161
cm y 167 cm. Hallar media y varianza de las dos distribuciones
condicionadas.

Si llamamos X a la variable pesos e Y a la variable tallas, los datos


pueden arreglarse en una tabla de doble entrada como sigue para realizar los
clculos:

X/Y 160 162 164 166

48 3 2 2 1

51 2 3 4 2

54 1 3 6 8

57 0 0 1 2

404
60 0 0 0 2
n.j 6 8 13 15
n.jyj 960 1296 2132 2490

n.jyj2 153600 209952 349648 413340

La tabla anterior puede obtenerse a travs de Excel mediante los clculos


que se especifican en la Figura 4-66.

Figura 4-66

Para hallar el peso medio y la talla media se calcularn las medias


de las distribuciones marginales de X e Y respectivamente. Asimismo, para
cuantificar el error cometido al resumir pesos y tallas por sus valores medios se
cuantificarn los coeficientes de variacin de Pearson para ambas marginales.
Las distribuciones marginales de X e Y son las siguientes:

X ni. Y

405
48 8 160

51 14 162

54 24 164

57 14 166

60 10 168

170
Tenemos lo siguiente:

406
Se observa que el menor coeficiente de variacin es el relativo a la talla
media, que resulta ser as un promedio ms adecuado.

La distribucin segn las tallas de los individuos que pesan 54


kilos es la distribucin de Y condicionada a X=54, y la distribucin segn los
pesos de los individuos que miden entre 161 cm y 167 cm es la distribucin de X
condicionada a Y=162,164,166.

X/Y=162,164,166 ni/j=2,3,4 Y/X=54

48 5 160

51 9 162

54 17 164

57 3 166

60 2 168

170

La tabla Excel que genera estas distribuciones se presenta en la Figura


4-67.

407
Figura 4-67

La media y la varianza de cada una de estas dos distribuciones


condicionadas se calcula de la misma forma que para cualquier distribucin de
frecuencias.

408
Ejercicio 2. Se considera la variable bidimensional (X,Y) cuya distribucin de
frecuencias se presenta en la tabla siguiente:

1. Estudiar si las dos variables son independientes utilizando la distribucin


conjunta y las marginales.
2. Estudiar si las dos variables son independientes utilizando las
distribuciones marginales y las condicionadas.
3. Hallar la covarianza de X e Y

409
Para estudiar la independencia de las dos variables utilizando la
distribucin conjunta y las marginales tenemos que comprobar que fij = fi.f.j "i,j.

La primera tarea ser construir una tabla con la distribucin conjunta (fij
= nij/N) y con las marginales (fi.= ni./N y f.j = n.j/N) como se indica en la
Figura 4-68.

X/Y 15 24

12 3 4

15 6 8

19 9 12
n.j 18 24
fij

0,03571429 0,04761905

0,07142857 0,0952381

0,10714286 0,14285714
f.j 0,21428571 0,28571429
Figura 4-68

Ya estamos en condiciones de comprobar que fij = fi.f.j "i,j. Para


ello ordenamos los clculos fi.f.j como se indica a continuacin:

0,21428*0,16666 0,28571*0,16666

0,21428*0,33333 0,28571*0,33333

0,21428*0,5 0,28571*0,5

410
Observamos que, una vez realizados estos clculos, se obtiene la
tabla de la distribucin conjunta fij.

fij 0,035714286 0,04761905

0,071428571 0,0952381

0,107142857 0,14285714

0,214285714 0,28571429

Las frmulas de Excel de la Figura 4-69 nos llevan a las


distribuciones marginales y conjuntas de la Figura 4-70.

411
412
Figura 4-69

Figura 4-70

Para estudiar la independencia de las dos variables utilizando las


distribuciones marginales y las condicionadas tenemos que comprobar que fj/i =
f.j "i,j.

fi/j=1 fi/j=2 fi/j=3

fj/i=1 3/14 4/14 2/14


fj/i=2 6/28 8/28 4/28

413
fj/i=3 9/42 12/42 6/42
f.j 18/84 24/84 12/84

Los clculos se arreglaran en Excel segn las frmulas de la Figura 4-


71.

Figura 4-71

Observamos que se cumple fj/i = f.j "i,j ya que:

3/14 = 6/28 = 9/42 = 18/84


4/14 = 8/28 = 12/42 = 24/84
2/14 = 4/28 = 6/42 =12/84
5/14=10/28=15/42=30/84

Para estudiar la independencia de las dos variables utilizando las


distribuciones marginales y las condicionadas tambin podramos comprobar
que fi/j = fi. "i,j.

fi/j=1 fi/j=2 fi/j=3

3/18 4/24 2/12

414
6/18 8/24 4/12

9/18 12/24 6/12


n.j 18 24 12

Los clculos se arreglaran en Excel segn las frmulas de la Figura 4-


72.

Figura 4-72
Observamos que se cumple fi/j = fi. "i,j ya que:

3/18 = 4/24 = 2/12 = 5/30 = 14/84


6/18 = 8/24 = 4/12 = 10/30 = 28/84
9/18 = 12/24 = 6/12 = 15/30 = 42/84

La covarianza entre X e Y viene dada por la expresin:

Luego para su clculo necesitamos las medias de las dos

415
marginales X e Y, que se calcularn con los datos de la tabla de la Figura 4-73

X/Y 15 24

12 3 4

15 6 8

19 9 12
n.j 18 24
Figura 4-73

Los clculos se arreglaran en Excel segn las frmulas de la Figura 4-


74.

Figura 4-74

416
La covarianza, que ser cero debido a la independencia, puede calcularse
como sigue:

La covarianza tambin puede calcularse de la forma siguiente:

Para realizar el clculo de


se utiliza la tabla siguiente:

X/Y 15 24 27 30 ni. xiy1n1j xiz2n2j

417
12 3 4 2 5 14 540 1

15 6 8 4 10 28 1350 28

19 9 12 6 15 42 2565 54
n.j 18 24 12 30 84 4455 95

Los clculos se arreglaran en Excel segn las frmulas de la Figura 4-


75.

Figura 4-75

Ejercicio 3. En una empresa se toma una muestra de 100 trabajadores con la


finalidad de estudiar si hay relacin entre su edad X y los das que estn de baja
en el ao Y. Se obtienen los siguientes resultados:

418
1. Es simtrica la distribucin del nmero de das de baja de los
trabadores?
2. Cul es la edad ms frecuente de los trabajadores que piden la baja?
3. Ajustar mediante un modelo exponencial los das de baja en funcin de la
edad.
4. Realizar el mismo ajuste considerando un modelo lineal.
5. Cul de los ajustes es el mejor?

Para realizar los clculos necesarios elaboramos la tabla siguiente:

X/Y 10 30 50 ni.

24 28 2 0

35 26 15 4

45 6 14 5
n.j 60 31 9
yjn.j 600 930 450

yj2n.j 6000 27900 22500

419
yj3n.j 60000 837000 1125000

N.j 60 91 100

Los clculos se arreglaran en Excel segn las frmulas de la Figura 4-


76.

Figura 4-76

Realizamos los siguientes clculos:

420
Para estudiar la asimetra del nmero de das de baja de los trabajadores
calculamos el coeficiente de asimetra de Fisher de la variable marginal Y como
sigue:

421
Se observa que hay una ligera asimetra hacia la derecha, pero
muy pequea. Los das de baja se distribuyen casi simtricamente a lo largo del
ao.

Para calcular la edad ms frecuente de los trabajadores que piden


la baja hallaremos la moda de la variable marginal X. Observamos que el
intervalo modal es [30,40] ya que es el que tiene mayor frecuencia ni. El clculo
de la moda se realiza como sigue:

aos

Ahora intentaremos ajustar los das de baja en funcin de la edad


de los trabajadores mediante un modelo de regresin exponencial de ecuacin y
= abx.

La regresin exponencial es equivalente a la regresin lineal con


variable dependiente Log(y) y con variable independiente x. Los clculos para
esta regresin se presentan en la tabla siguiente:

X/Z 1 1,4771 1,699 ni. x

422
24 28 2 0 30

35 26 15 4 45

45 6 14 5 25
n.j 60 31 9 100
z jn. j 60 45,790 15,291 121,0811

zj2n.j 60 67,6365 25,97940 153,6159

Los clculos se arreglaran en Excel segn las frmulas de la Figura 4-


77.

Figura 4-77

El parmetro Log(b) se estima por mnimos cuadrados mediante:

423
El parmetro Log(a) se estima por mnimos cuadrados mediante:

Los parmetros finales buscados a y b del modelo exponencial se


estimarn mediante:

El modelo estimado tiene la ecuacin y = 3,99(1,04)x.

Para medir la calidad de este ajuste podemos utilizar el coeficiente


de determinacin R2, que se calcula como:

424
El ajuste no es de calidad porque R2 est ms cerca de cero que
de la unidad.

El ajuste por regresin lineal es de la forma y = a + bx siendo:

El coeficiente de determinacin ser en este caso el cuadrado del


coeficiente de correlacin, que se calcula como sigue:

425
Para realizar el clculo de
se utiliza la tabla siguiente:

X/Y 10 30 50 ni. xiy1n1j xiy2n2

24 28 2 0 30 6720

35 26 15 4 45 9100

45 6 14 5 25 2700
n.j 60 31 9 100 18520

Los clculos se arreglaran en Excel segn las frmulas de la Figura 4-


78.

426
Figura 4-78

El ajuste lineal tampoco es de calidad porque R2 est ms cerca


de cero que de la unidad. Adems, el ajuste exponencial es mejor que el ajuste
lineal porque su coeficiente de determinacin es mayor (0,26 > 0,2536).

Ejercicio 4. Consideramos la siguiente variable aleatoria bidimensional:

1. Calcular medias y varianzas marginales de X e Y.


2. Relacionar la media marginal de Y y la media de las medias
condicionadas de Y a X.
3. Calcular la media y varianza condicionada de la distribucin de X
condicionada a los valores 5 y 9 de Y.
4. Calcular la recta de regresin de X sobre Y.

Comenzaremos resumiendo los datos de muestra variable


bidimensional en la tabla de doble entrada que se presenta a continuacin:

427
Para realizar los clculos necesarios elaboramos la tabla
siguiente:
X/Y 2 5 9 10

3 0 2 1 2

4 2 1 0 3

6 3 0 4 2
n.j 5 3 5 7
yjn.j 10 15 45 70

yj2n.j 20 75 405 700

Los clculos se arreglaran en Excel segn las frmulas de la Figura 4-


79.

428
Figura 4-79

Las medias y varianzas marginales se calculan como se indica a


continuacin:

429
Las distribuciones condicionadas de Y a todos los valores de X, as como
los clculos requeridos se presentan a continuacin:

Y/X=3 n.j yjn.j Y/X=4 n.j yjn.j Y/X=6 n.j

2 0 0 2 2 4 2 3

5 2 10 5 1 5 5 0

9 1 9 9 0 0 9 4

10 2 20 10 3 30 10 2

5 39 6 39 9

430
Se observa que se cumple:

luego la media marginal de Y es igual a la media de las medias condicionadas


de Y a X.

La media y la varianza de X condicionadas a los valores 5 y 9 de Y


se calcula de la misma forma que para cualquier distribucin de frecuencias.

X/Y=5,9 ni. Xini. Xi2ni.

3 3 9 27

4 1 4 16

6 4 24 144

8 37 187

431
La recta de regresin de X sobre Y tiene como ecuacin

La tabla siguiente permite el clculo de .

X/Y 2 5 9 10 ni. xiy1n1j

3 0 2 1 2 5 0

4 2 1 0 3 6 16

6 3 0 4 2 9 36
n.j 5 3 5 7 20 52

Los clculos se arreglaran en Excel segn las frmulas de la Figura 4-


80.

Figura 4-80

432
La recta de regresin de X sobre Y tiene como ecuacin

Para medir la calidad de este ajuste suele calcularse el coeficiente


de correlacin, o su cuadrado, el coeficiente de determinacin.

El coeficiente de determinacin tan bajo indica que el ajuste no es de


calidad, y el coeficiente de correlacin tan bajo indica que las variables X e Y
estn muy poco relacionadas.

Ejercicio 5. Se han obtenido datos sobre el consumo (C) y la renta mensual


(RM) de 100 familias, expresadas en 104 unidades monetarias, obtenindose la
siguiente tabla bidimensional de frecuencias:

C 15 25 35 45
RM
30 10 15
40 5 20 25
50 15 5 5

433
a) Ajustar los datos a una relacin lineal adecuada entre el consumo y la renta.
b) Medir el grado de representatividad de la relacin lineal anterior.
c) Calcular el consumo esperado para una renta de 60*104 unidades monetarias.
d) Obtener las distribuciones marginales de las variables C y RM y sus medias,
varianzas, desviaciones tpicas y coeficientes de asimetra y curtosis.

En este ejercicio es esencial la forma en que se ofrecen los datos


para su tratamiento en Excel. Observamos que los valores de las variables vienen
dados en forma de tabla bidimensional de frecuencias absolutas. La primera
tarea ser introducir adecuadamente los valores de las dos variables como dos
columnas de la hoja de clculo Excel. El par de valores RM=30 y C=15 se
introduce 10 veces, el par de valores RM=40 C=15 se introduce 5 veces, y as
sucesivamente; se introduce cada par de valores tantas veces como indique su
frecuencia absoluta.

Es lgico que el consumo de las familias dependa de su renta mensual,


con lo que hemos de hallar la funcin f tal que C=f(RM), es decir, la recta de
regresin de C sobre RM. Una vez calculada la ecuacin de esta recta, la
utilizaremos para predecir el consumo esperado para una renta de 60*104
unidades monetarias.

Una vez introducidos los datos de las variables, utilizamos las funciones
de Excel que permiten calcular el coeficiente de correlacin y la pendiente y
ordenada en el origen de la recta de regresin de C sobre RM (Figura 4-81). La
Figura 4-82 presenta los resultados.

434
Figura 4-81

Figura 4-82

Se observa que el coeficiente de correlacin entre C y RM es 0,4613, que


no es un valor lo suficientemente alto como para asegurar una dependencia
fuerte entre las dos variables.

435
No obstante, correlacin dbil no implica independencia, por lo
que puede hallarse la recta de regresin de C sobre RM, pero con la precaucin
de que dicha relacin lineal entre ambas variables puede no ser buena, y sobre
todo pueden no ser fiables las predicciones basadas en dicha relacin de
linealidad. Una vez calculadas la pendiente y la ordenada en el origen de la recta
de regresin, tenemos la relacin C=7,5+0,5RM.

Una vez calculada la ecuacin de la recta de regresin, la


utilizaremos para predecir el consumo esperado relativo a una produccin de
60*104 unidades monetarias, que vendr dado por C=7,5+0,5*60*104 = 37,5*104
unidades monetarias.
Esta prediccin puede no ser lo suficientemente buena, ya que el
contraste de ajuste por regresin aceptaba la incorrelacin entre las variables, y
el coeficiente de correlacin no es muy prximo a la unidad (0,4949).

La prediccin tambin puede calcularse mediante la funcin


PRONOSTICO de Excel, tal y como se indica en la Figura 4-83.

Figura 4-83

436
Para hallar las medias, varianzas, desviaciones tpicas y coeficientes de
variacin, asimetra y curtosis de las distribuciones marginales de C y RM,
seleccionamos la opcin Anlisis de datos del men Herramientas, y elegimos
Estadstica descriptiva en Funciones para anlisis (Figura 4-84). Rellenamos la
pantalla Estadstica descriptiva como se indica en la Figura 4-85. Al pulsar
Aceptar, se obtienen los resultados de la Figura 4-86.

437
Figura 4-84 Figura 4-85

438
Figura 4-86
Para hallar las propias distribuciones marginales de C y RM,
seleccionamos la opcin Anlisis de datos en el grupo Anlisis de la ficha Datos,
y elegimos Histograma en Funciones para anlisis (Figura 4-87). Rellenamos la
pantalla Histograma como se indica en la Figura 4-88. Al pulsar Aceptar, se
obtiene la distribucin e histograma de RM. Repitiendo el proceso para C
(Figura 4-89), se obtiene la marginal de C. Los resultados se observan en la
Figura 4-90.

439
Figura 4-87

440
441
Figura 4-88 Figura 4-89

442
Figura 4-90
Ejercicio 6. Consideramos la distribucin bidimensional de las variables presin
(P) y tiempo de aplicacin de dicha presin (T) sobre determinadas piezas para
el control de su calidad de fabricacin.

T 0 5 10 15 20

443
P

66 1 1 0 1 2
68 3 2 1 0 1
70 0 1 9 1 2
72 1 2 1 2 1
74 3 1 2 1 2

a) Estudiar el grado de dependencia lineal existente entre las dos variables.


b) Hallar las distribuciones marginales de P y T y sus coeficientes de variacin,
tercer cuartil y percentil 15.
c) Hallar la distribucin de P condicionada a que T=10, as como su esperanza,
varianza, moda, mediana, tercer cuartil y coeficiente de variacin.
d) Hallar la distribucin de T condicionada a que P=72, as como su esperanza,
varianza, moda, mediana, tercer cuartil y coeficiente de variacin.
e) Para la distribuciones de T condicionadas a P=66,68,70,72,74,
respectivamente, y las de P condicionadas a T=0,5,10,15,20, respectivamente.

La primera tarea ser introducir adecuadamente los valores de las


dos variables como dos columnas de la hoja de clculo. El par de valores P=66 y
T=0 se introduce una vez, el par de valores P=68 y T=0 se introduce 3 veces, y
as sucesivamente, se introduce cada par de valores tantas veces como indique
su frecuencia absoluta.

Una vez introducidos los datos de las variables, utilizamos la


funcin de Excel que permite calcular el coeficiente de correlacin (Figura 4-
91).

444
Figura 4-91

Tambin puede usarse la paleta de la funcin COEF DE.CORREL,

tal y como se indica en la Figura 4-92 (basta hacer clic en y hacer doble
clic en la funcin).

445
Figura 4-92

Se observa que el coeficiente de correlacin entre P y T es 0,0073,


que es un valor muy prximo a cero, con lo que el grado de dependencia entre
las dos variables es prcticamente nulo. No tendra sentido hacer un ajuste por
regresin.

La forma ms rpida de hallar las propias distribuciones


marginales de P y T, es elegir la opcin Anlisis de datos en el grupo Anlisis de
la ficha Datos y seleccionar Histograma en Funciones para anlisis (Figura 4-
93). Rellenamos la pantalla Histograma como se indica en la Figura 4-94, y al
pulsar Aceptar, se obtiene la distribucin e histograma de P. Repitiendo el
proceso para T (Figura 4-95), se obtiene la marginal de T. Los resultados se
observan en la Figura 4-96.

446
Figura 4-93

447
Figura 4-94 Figura 4-95

448
449
Figura 4-96

El camino ms sencillo para calcular coeficientes de variacin,


cuartiles y percentiles de las distribuciones marginales de P y T, es utilizar las
respectivas funciones de Excel, tal y como se indica en la Figura 4-97. La Figura
4-98 presenta los resultados.

Figura 4-97 Figura 4-98

Para hallar la distribuciones condicionadas de P a todos los


valores de T, utilizamos la opcin Tabla dinmica del grupo Tablas de la ficha

450
Insertar. La pantalla de diseo se rellena llevando la variable P a F LA, y la
variable T a COLUMNA y a VALORES, y utilizando la funcin CUENTA como
funcin de resumen. Al pulsar Aceptar, se obtiene la Figura 4-99, cuyas
columnas son distribuciones de P condicionadas al valor de T que encabeza la
columna (la tercera columna presenta la condicionada de P a T=10).

Figura 4-99 Figura 4-100

451
Para hallar la distribuciones condicionadas de T a todos los
valores de P, utilizamos la opcin Informes de tabla y grfico dinmico del men
Datos, rellenando la pantalla de diseo llevando la variable T a FILA y la variable
P a COLUMNA y a VALORES, y utilizando la funcin CUENTA como funcin de
resumen. Al pulsar Aceptar, se obtiene la Figura 4-100, cuyas columnas son
distribuciones de T condicionadas al valor de P que encabeza la columna (la
cuarta columna presenta la condicionada de T a P=72).

Para calcular estadsticos relativos a las distribuciones


condicionadas, bastara con introducir sus valores en columnas de Excel y
aplicar las frmulas correspondientes. No obstante, para calcular la media,
varianza, moda, mediana, tercer cuartil y coeficiente de variacin de la
distribucin de P condicionada a T=10, bastara fijarse en que esos valores de P
ocupan el rango A18 A21. Por lo tanto, plantearamos las frmulas de la Figura
4-101 para obtener los resultados de la Figura 4-102. En el caso del clculo de
la media, varianza, moda, mediana, tercer cuartil y coeficiente de variacin de la
distribucin de T condicionada a P=72, introducimos sus valores en una columna
de la hoja de clculo y aplicamos las frmulas de la Figura 4-103 para obtener
los resultados de la Figura 4-104.

Figura 4-101

452
Figura 4-102

453
Figura 4-103

454
Figura 4-104

Ejercicio 7. Los ahorros S y los ingresos Y mensuales en cientos de euros de


una muestra de 10 familias de una determinada regin se presentan en la tabla
siguiente:

1. Ajustar los datos anteriores a un modelo lineal que explique los ahorros
familiares en funcin de los ingresos para la regin dada.

455
2. Ajustar los datos anteriores a un modelo lineal parablico que explique
los ahorros familiares en funcin de los ingresos para la regin dada.
3. Qu ajuste es mejor?
4. Qu ahorro se puede prever para una familia de la regin que ingrese
2500 euros mensuales?

Comenzaremos elaborando una tabla de datos adecuada para los


clculos a realizar en el problema:

Si yi Siyi yi 2 Si

1,9 20,5 38,95 420,25

1,8 20,8 37,44 432,64

2 21,2 42,4 449,44

2,1 21,7 45,57 470,89

1,9 22,1 41,99 488,41

2 22,3 44,6 497,29

2,2 22,2 48,84 492,84

2,3 22,6 51,98 510,76

2,7 23,1 62,37 533,61

3 23,5 70,5 552,25

SUMAS 21,9 220 484,64 4848,38

La tabla anterior se obtiene mediante las frmulas de Excel de la Figura


4-105.

456
Figura 4-105

El modelo lineal puede ajustarse


mediante el sistema de ecuaciones normales siguiente:

457
Luego el modelo lineal ajustado ser:

Para medir la calidad del ajuste lineal utilizamos el coeficiente de


correlacin, o su cuadrado, el coeficiente de determinacin, que se calcula como
sigue:

Se observa que la calidad del ajuste es buena porque el coeficiente de


determinacin es alto (el coeficiente de correlacin vale

, que es un valor elevado


indicativo del alto grado de relacin entre el ahorro y la renta de las familias).

El modelo lineal parablico


puede ajustarse mediante el sistema de ecuaciones normales siguiente:

458
La solucin de este sistema ofrece los parmetros del modelo parablico
(b0=85,713, b1= -7,962 y b2 = 0,189). Luego el modelo ajustado ser:

Para medir la calidad del ajuste lineal utilizamos el coeficiente de


determinacin, que se calcula como sigue:

El ajuste parablico es de mayor calidad que el lineal porque tiene un


coeficiente de determinacin mayor. Por lo tanto se usar el modelo parablico
para hacer predicciones.

459
La tabla siguiente ordena los clculos para hallar

Si yi (Si-(85,713-7,962yi+0,189

1,9 20,5

1,8 20,8

2 21,2

2,1 21,7

1,9 22,1

2 22,3

2,2 22,2

2,3 22,6

2,7 23,1

3 23,5

La tabla anterior se obtiene mediante las frmulas de Excel de la Figura


4-106.

460
Figura 4-106

Para saber qu ahorro se puede prever para una familia de la


regin que ingrese 2500 euros mensuales, realizamos la correspondiente
prediccin para yi = 25 cientos de euros mediante el modelo parablico recin
estimado. Tenemos:

Ejercicio 8. Para describir la distribucin de la renta de las personas fsicas


suele utilizarse la ley de Pareto que viene definida por la siguiente ecuacin:

461
donde y es el porcentaje de personas con una renta igual o inferior a x siendo x0
la renta mnima y b un parmetro estructural. Se pide ajustar una ley de Pareto a
los datos siguientes:

Se trata de un ajuste de tipo hiperblico potencial. Todo este tipo


de ajustes se resuelve aplicando logaritmos para linealizar de la siguiente forma:

El modelo lineal puede ajustarse


mediante el sistema de ecuaciones normales siguiente:

462
Luego el modelo lineal ajustado ser:

Una tabla adecuada para los clculos sera la siguiente:

n(xi) yi Zi= Ln(1-yi) ZiLn(xi)

0,7 0,033 -0,03355678 -0,0234

1,2 0,107 -0,1131687 -0,1358

1,5 0,22 -0,24846136 -0,3726

1,8 0,373 -0,46680874 -0,8402

2,2 0,55 -0,7985077 -1,7567

2,7 0,753 -1,39836694 -3,7755

3,2 0,88 -2,12026354 -6,7848

3,5 0,96 -3,21887582 -11,266

4 1

16,8 3,876 -8,39800958 -24,955

463
Para medir la calidad del ajuste lineal utilizamos el coeficiente de
correlacin, o su cuadrado, el coeficiente de determinacin, que se calcula como
sigue:

La tabla anterior puede obtenerse mediante las frmulas de Excel de la


Figura 4-107.

Figura 4-107

Se observa que la calidad del ajuste lineal es buena porque el coeficiente

464
de determinacin es alto (el coeficiente de correlacin vale

, que es un valor elevado indicativo del alto


grado de relacin entre Zi y Ln(xi), y por tanto entre xi e yi).

Para ver la forma del modelo de Pareto deshacemos el cambio de variable


como sigue:

El modelo de Pareto ajustado ser el siguiente:

Ejercicio 9. La inversin K y el producto interior bruto y se relacionan mediante la


expresin y = aKc, (denominada en trminos econmicos funcin simple de
Cobb-Douglas). Se pide ajustar una funcin de Cobb-Douglas a los datos
siguientes:

465
Se trata de un ajuste de tipo potencial. Todo este tipo de ajustes se
resuelve aplicando logaritmos para linealizar de la siguiente forma:

El modelo lineal puede ajustarse mediante el


sistema de ecuaciones normales siguiente:

Luego el modelo de Cobb-Douglas ajustado ser:

Una tabla adecuada para los clculos sera la siguiente:

Ki yi Zi = log(yi) xi

0,6 2,6 0,41497335

0,6 2,9 0,462398

466
0,8 3,4 0,53147892

1 4,1 0,61278386

1,3 5,1 0,70757018

1,4 6 0,77815125

1,6 7,2 0,8573325

1,9 9,2 0,96378783

2,2 11,2 1,04921802

2,5 13,1 1,1172713

2,9 15,2 1,18184359

3,5 17,3 1,2380461

3,9 19,9 1,29885308

SUMAS 11,213708

La Figura 4-108 muestra las frmulas de Excel adecuadas a la tabla


anterior.

467
Figura 4-108
Para medir la calidad del ajuste potencial medimos la del ajuste
lineal al que es equivalente utilizando el coeficiente de correlacin, o su
cuadrado, el coeficiente de determinacin, que se calcula como sigue:

Se observa que la calidad del ajuste lineal es muy buena porque el


coeficiente de determinacin es alto (el coeficiente de correlacin vale

468
, que es un valor muy prximo a 1 indicativo del
alto grado de relacin entre Zi y xi, y por tanto entre xi e yi).

Ejercicio 10. Consideramos las variables X, Y ,Z cuyos valores son los


siguientes:

6. Hallar la matriz de correlaciones deduciendo el grado de dependencia de


las variables.
7. Hallar la matriz de covarianzas e interpretar el resultado.

En primer lugar introducimos como tres columnas de Excel las


variables X, Y y Z. A continuacin, seleccionamos la opcin Anlisis de datos del
grupo Anlisis del men Datos, y elegimos Estadstica descriptiva en Funciones
para anlisis (Figura 4-109). Rellenamos la pantalla Estadstica descriptiva
como se indica en la Figura 4-110. Al pulsar Aceptar, se obtienen los resultados
de la Figura 4-111.

469
Figura 4-109

470
Figura 4-110

471
Figura 4-111

Para calcular la matriz de correlaciones, seleccionamos la opcin


Anlisis de datos del grupo Anlisis del men Datos, y elegimos Coeficiente de
correlacin en Funciones para anlisis (Figura 4-112). Rellenamos la pantalla
Coeficiente de correlacin como se indica en la Figura 4-113 Al pulsar Aceptar,
se obtiene la matriz de correlaciones de la Figura 4-114.

472
Figura 4-112 Figura 4-113

473
Figura 4-114

En la salida anterior, se observa que el coeficiente de correlacin entre


las variables X e Y es 0,9899, entre X y Z es 0,9802, y entre Y y Z es 0,9830, lo
que indica la fuerte dependencia lineal positiva entre cada par de variables. La
matriz de correlaciones tiene la forma siguiente:

Para hallar la matriz de covarianzas, seleccionamos la opcin


Anlisis de datos del grupo Anlisis del men Datos, y elegimos Covarianza en
Funciones para anlisis (Figura 4-115). Rellenamos la pantalla Covarianza
como se indica en la Figura 4-116. Al pulsar Aceptar, se obtiene la matriz de
covarianzas de la Figura 4-117.

474
Figura 4-115 Figura 4-116

475
Figura 4-117

A la vista de los resultados, podemos decir que como todas las


covarianzas son positivas, los pares de variables varan en el mismo sentido
alrededor de sus medias.

Por otro lado, como la covarianza entre X e Y es 12, entre X y Z es 7,96 y


entre Y y Z es 10,8 y adems las varianzas de X, Y y Z son respectivamente 8,96,
16,4 y 7,36 la matriz de covarianzas tiene la forma siguiente:

Ejercicio 11. Se pregunta a 50 economistas, 40 ingenieros y 10 abogados si


creen que la bolsa en el prximo mes va a bajar, subir o permanecer igual. El 20
% de los economistas opina que subir, mientras que el 40% de ellos piensa
que bajar. El 50 % de los ingenieros se inclina porque permanecer igual, y tan
slo el 5% cree que bajar. Por ltimo, la mitad de los abogados se decanta por
la subida y la otra mitad cree que bajar.

a) Resumir los datos en la variable bidimensional que cruza la profesin con el

476
pronstico y presentar la tabla de contingencia correspondiente.
b) Hallar las distribuciones marginales del atributo profesin y del atributo
pronstico y realizar un diagrama de barras para el atributo F.
c) Hallar la distribucin de la profesin condicionada al valor igual del atributo
pronstico.
d) Existe relacin entre los pronsticos sobre la evolucin del mercado burstil
y la profesin del encuestado?

Comenzaremos calculando la tabla de contingencia relativa al


problema (Figura 4-118).

Figura 4-118

La siguiente tarea ser introducir los datos de los dos atributos como
dos variables en la hoja de clculo. Denominamos P a la variable pronstico, y F
a la variable profesin. P puede tomar los valores B (baja), I (igual) y S (sube). F
puede tomar los valores E (economista), I (Ingeniero) y A (abogado). El valor EB
de la variable bidimensional lo introducimos 20 veces (la E en la columna de la
varible F y la B en la columna de la variable P), el valor EI 20 veces, el valor ES
10 veces, el valor IB 10 veces, el valor II 20 veces, el valor IS 18 veces, el valor
AB 5 veces, y el valor AS 5 veces.

Para crear la tabla de contingencia 3*3, utilizamos el Asistente


para tablas y grficos dinmicos (opcin Tablas dinmicas del grupo Tablas de
la ficha Insertar) rellenando la pantalla de diseo situando la variable P en
COLUMNA y la variable F en F LA y VALORES, para obtener la tabla de

477
contingencia de la Figura 4-119.

Figura 4-119

La distribucin marginal de F ya se observa sobre la tabla de


contingencia (zona en negrita de la Figura 4-120). Lo mismo ocurre con la
distribucin marginal de P (zona en negrita de la Figura 4-121). Para hallar un

diagrama de barras para el atributo F, basta pulsar el icono (opcin


Columna del grupo Grficos de la ficha Insertar) estando posicionados sobre
cualquier celda de la tabla de contingencia. Se obtiene el grfico dinmico de la
Figura 4-122, que presenta un diagrama de barras para F subdividido por
clases correspondientes a los valores de P.

478
Figura 4-120 Figura 4-121

479
Figura 4-122

480
La distribucin de la Profesin condicionada al valor Igual del atributo
Pronstico, est formada por la zona en negrita de la figura 5-123. Para ver si
existe relacin entre los atributos Pronstico y Profesin, calculamos medidas
de asociacin y realizamos el contraste de independencia de la chi-cuadrado
segn las frmulas de la Figura 4-124. Se obtienen los resultados de la Figura
4-125.

Figura 4-123

481
Figura 4-124

482
Figura 4-125
Se observa que el p-valor del contraste de la chi-cuadrado es menor que
0,05, lo que indica que las variables no son independientes. Adems, el valor del
estadstico de la chi-cuadrado es superior al valor crtico al 95%, lo que
corrobora la dependencia de las variables.

Como ya sabemos que no hay independencia, la siguiente tarea


es medir el grado de asociacin de P y F. Para ello, utilizamos los valores de las
diferentes medidas de asociacin, que como es lgico son bastante altos (se
alejan bastante de cero), lo que nos muestra que existe un cierto grado de

483
asociacin entre las variables.

484
Captulo 5

NMEROS NDICES Y MEDIDAS DE


CONCENTRACIN

485
5.1 NMEROS NDICES SIMPLES
En los captulos anteriores se han caracterizado las distribuciones
de una y varias variables por una serie de medidas que intentaban sintetizar el
conjunto de toda la informacin disponible (medidas de posicin), pasando
despus al estudio de la variabilidad (medidas de dispersin) y de las medidas de
forma (asimetra y curtosis). El problema que ahora se nos presenta es la
comparacin de magnitudes simples o complejas referidas a una situacin
inicial, que se fijar previamente de la forma ms adecuada posible a los
objetivos que se persigan y que condiciona la comparacin. En cuanto a las
magnitudes complejas, habr que tener en cuenta la homogeneidad de las
unidades y el problema de la agregacin. Tambin se estudiar en este captulo
la deflactacin de series estadsticas y los ndices o medidas de concentracin.

Consideraremos un nmero ndice simple como una medida que


nos da la evolucin de una magnitud en el tiempo. Ms formalmente, definiremos
un nmero ndice como aquella medida estadstica que nos permite estudiar los
cambios que se producen en una magnitud simple o compleja con respecto al
tiempo o al espacio; es decir, vamos a comparar dos situaciones, una de las
cuales se considera de referencia. Si la magnitud estudiada es simple, el ndice
se llama simple, y si la magnitud estudiada es compleja, el ndice se llama
complejo.

Sea Xi una magnitud simple y sean xi0 y xit los valores de dicha magnitud
en los perodos base y actual respectivamente. El nmero ndice simple Ii para la
magnitud citada se define como:

Ii = I0t(i) = xit / xi0

que mide la variacin en tanto por uno que ha sufrido la magnitud Xi entre los
dos perodos considerados. Generalmente, estos ndices se suelen expresar en
porcentajes, multiplicndolos por cien.

ndices simples de precios, cantidad y valor

486
Entre los nmeros ndices simples ms usuales tenemos los ndices de
precios, los ndices de cantidades, de produccin o cunticos, y los ndices de
valor. Un ndice simple de precios, o precio relativo, es la razn entre el precio de
un bien en el perodo actual pit y el precio del mismo en el perodo base pio. Se
puede escribir:

P0t = pit / pi0

De la misma forma, un ndice simple de cantidad, produccin, cuntico o


cantidad relativa, puede definirse como la razn entre la cantidad producida o
vendida de un bien en sus perodos actual qit y base qio. Se puede escribir:

Q0t = qit / qi0

Un ndice simple de valor, o valor relativo, se define como el cociente entre


el valor de un bien en el perodo actual (producto del precio de ese bien y la
cantidad producida en el perodo actual pit*qit) y el valor de ese bien en el perodo
base (pi0*qi0). Tendremos que:

V0t = pit*qit / pi0*qi0 = (pit/pi0) * (qit/qi0)

Por lo tanto, se cumple que el ndice de valor es igual al ndice de precios


por el ndice de cantidades, o, lo que es lo mismo, que el valor relativo de un bien
es igual al producto de su precio relativo y su cantidad relativa.

487
5.2 NMEROS NDICES COMPLEJOS NO
PONDERADOS
En la prctica, los nmeros ndices simples no suelen utilizarse
aisladamente. Por lo general, no estamos interesados en comparar precios,
cantidades o valores de bienes individuales, sino en comparar dichas magnitudes
para grandes grupos de bienes. Como consecuencia de ello, la informacin
suministrada por los ndices simples de cada uno de los diferentes bienes debe
ser resumida en un nico ndice al que vamos a denominar complejo.
Un ndice complejo ha de ser sencillo, pero a la vez ha de reunir la
mayor cantidad posible de informacin. As, podemos considerar dos tipos de
ndices complejos, en los que va a primar, en mayor o menor medida, cada una de
las caractersticas anteriores. Si se prefiere sencillez, tendremos los ndices
complejos no ponderados, y si, por el contrario, lo que se desea es que
contengan la mayor cantidad de informacin posible, se utilizarn los ndices
complejos ponderados.

Los ndices complejos no ponderados van a ser medias aritmticas,


geomtricas, armnicas y agregativas de los ndices simples. Pero todas las
medias calculadas sern no ponderadas. Esto es lgico, pues para resumir la
informacin obtenida a travs de los ndices simples, lo natural es promediar
stos. En los apartados siguientes se definirn los ndices complejos sin
ponderar ms usuales.

ndice media aritmtica, geomtrica y armnica de ndices simples

Sea la magnitud compleja X formada por las magnitudes simples X1, X2,
..., Xi, ..., XN que toman los siguientes valores:

Perodo base Perodo actual ndices simples

x10 x1t I1 = x1t / x10


. . .
. . .

488
xi0 xit Ii = xit / xi0
. . .
. . .
xN0 xNt IN = xNt / xN0

El ndice complejo sin ponderar media aritmtica resume los diferentes


ndices simples Ii considerando su media aritmtica sin ponderar, con lo que su
expresin ser:

El ndice complejo sin ponderar media geomtrica resume los diferentes


ndices simples Ii considerarando su media geomtrica sin ponderar, con lo que
su expresin ser:

El ndice complejo sin ponderar media armnica resume los diferentes


ndices simples Ii considerando su media armnica sin ponderar, con lo que su
expresin ser:

489
ndice media agregativa

Este tipo de ndice considera, en vez de las medias entre los diferentes
ndices simples, la relacin por cociente entre las sumas de los diferentes
valores de la magnitud en los dos perodos. Su expresin es:

490
5.3 NMEROS NDICES COMPLEJOS DE PRECIOS NO
PONDERADOS
En los epgrafes siguientes se tratan los ndices complejos de
precios no ponderados ms habituales. Estos indices van a tener la ventaja de su
sencillez de clculo, pero tienen la desventaja de no tener en cuenta la
importancia relativa de cada uno de los diferentes bienes en el conjunto total, ya
que no son ponderados. Tambin es una desventaja el hecho de que las unidades
utilizadas para medir los precios de cada bien afectan al valor de los ndices, con
lo que estos no resultan homogneos.

ndice de Sauerbeck

Se trata de una media aritmtica no ponderada de ndices simples de


precios Ii=pit /pi0. Con lo que el ndice de Sauerbeck ser:

que es simplemente la media aritmtica de los precios relativos de los bienes


considerados.

ndice de Bradstreet-Dtot

Es la media agregativa sin ponderar de los precios, y su expresin es la


siguiente:

491
492
5.4 NMEROS NDICES COMPLEJOS PONDERADOS
Los nmeros ndices complejos ponderados tienen en cuenta la
diferente importancia relativa de cada una de las magnitudes simples dentro del
conjunto de todas ellas. Para ello, es necesario afectar a cada magnitud simple, y
por tanto a sus ndices, de unas ponderaciones que midan su peso relativo dentro
del conjunto en que se consideren.

ndice media aritmtica, geomtrica y armnica de ndices simples

Supongamos que las diferentes ponderaciones o pesos asignados a los


ndices simples que van a constituir el ndice complejo son w1, w2,..., wi,...wn.
Segn el tipo de media ponderada utilizado para calcular el ndice complejo
obtendramos los siguientes nmeros ndices:

El ndice complejo ponderado media aritmtica resume los diferentes


ndices simples Ii considerando su media aritmtica ponderada, con lo que su
expresin ser:

El ndice complejo ponderado media geomtrica resume los diferentes


ndices simples Ii considerando su media geomtrica ponderada, con lo que su
expresin ser:

493
El ndice complejo ponderado media armnica resume los diferentes
ndices simples Ii considerando su media armnica ponderada, con lo que su
expresin ser:

ndice media agregativa

Este tipo de ndice considera, en vez de las medias ponderadas entre los
diferentes ndices simples, la relacin por cociente entre las sumas de los
diferentes valores ponderados de la magnitud en los dos perodos. Su expresin
es:

494
495
5.5 NMEROS NDICES COMPLEJOS DE PRECIOS
PONDERADOS
En el trabajo con los ndices complejos de precios ponderados es
fundamental el tipo de ponderaciones utilizado. Entre los sistemas de
ponderaciones propuestos tradicionalmente, tenemos:

wi = pi0*qi0, que es el valor de la cantidad consumida del bien i-simo en


el perodo base, a precios de dicho perodo.

wi = pit*qit, que es el valor actual de la cantidad consumida del bien i-


simo, a precios actuales.

wi = pi0*qit, que es el valor de precios del perodo base de la cantidad


consumida del bien i en el perodo actual.

wi = pit*qi0, que es el valor actual de la cantidad consumida del bien i en el


perodo base.

Las diferentes ponderaciones dan lugar a los diferentes ndices


complejos de precios ponderados. Los ms habituales se estudian en los
epgrafes siguientes.

ndice de Laspeyres

Es la media aritmtica ponderada de los ndices simples de precios. El


criterio de ponderacin seguido es wi=pi0*qi0; luego la expresin del ndice
ser:

496
ndice de Paasche

Es tambin una media aritmtica ponderada de ndices simples de


precios, pero en este caso el coeficiente de ponderacin es wi=pi0*qit, con lo
que la expresin del ndice ser:

La frmula de Paasche exige calcular las ponderaciones qit para cada


perodo corriente. El clculo de este ndice es laborioso, y presenta el
inconveniente adicional de que el ndice de precios de cada ao slo se puede
comparar con el del ao base, debido a que las ponderaciones varan de perodo
en perodo, siendo por tanto distintas en los diferentes ndices calculados.

ndice de Edgeworth

497
Es una media agregativa ponderada de precios cuyo coeficiente de
ponderacin es wi=qi0+qit. Su expresin ser:

ndice ideal de Fisher

Se trata de la media geomtrica de los ndices de precios complejos


ponderados de Laspeyres y Paasche; es decir:

498
5.6 NMEROS NDICES COMPLEJOS PONDERADOS
CUNTICOS O DE PRODUCCIN
La evolucin de las magnitudes tambin puede estudiarse a travs
de sus cantidades fsicas. Los nmeros ndices cunticos o de produccin tienen
como objetivo estudiar las variaciones habidas en la produccin fsica de un
conjunto de bienes y servicios, para medir su evolucin en el tiempo. Los ms
importantes se ven en los epgrafes siguientes.

ndice cuntico de Laspeyres

Es la media aritmtica ponderada de los ndices simples de cantidades. El


criterio de ponderacin seguido es wi=pi0*qi0; luego la expresin del ndice
ser:

ndice cuntico de Paasche

Es tambin una media aritmtica ponderada de ndices simples de


cantidades, pero en este caso el coeficiente de ponderacin es wi=pit*qi0, con lo
que la expresin del ndice ser:

499
ndice ideal de Fisher

Se trata de la media geomtrica de los ndices cunticos complejos


ponderados de Laspeyres y Paasche; es decir:

Lo mismo que para los ndices de precios, el ndice cuntico de


Laspeyres es el que ms se utiliza.

500
5.7 PROPIEDADES DE LOS NMEROS NDICES
Existen determinadas propiedades que seran deseables para todo
nmero ndice. Las ms importantes son las siguientes:

Existencia: Todo nmero ndice debe existir, ha de tener un valor finito


distinto de cero. Por ejemplo, los ndices de media geomtrica y armnica
se anulan si algn xit es cero y, por lo tanto, en este caso, no estn
determinados.

Identidad: Si se hacen coincidir el perodo base y el perodo actual, el


nmero ndice debe ser igual a la unidad. Esta propiedad debe cumplirse
necesariamente, puesto que los nmeros ndices miden variaciones entre
dos perodos, y al hacer coincidir stos, el nmero ndice no debe reflejar
ninguna variacin.

Inversin: Si designamos como I0t un nmero ndice con base 0 y perodo


actual t, al intercambiar los perodos entre s (It0), el nuevo ndice debe
cumplir que I0t = 1/It0 => It0*I0t = 1.

Circular: Si consideramos los perodos 0, t, t , t , se debe cumplir que


I0t*Itt *It 0=1 y I0t*Itt *It t *It 0=1. Como consecuencia de esta propiedad
y de la inversin, tenemos que I0t*Itt = I0t y I0t*Itt *It t = I0t

Proporcionalidad: Si en el perodo actual todas las magnitudes sufren una


variacin proporcional, el nmero ndice debe quedar lgicamente afectado
por la misma variacin, es decir, si los valores xit sufren una variacin
proporcional de orden k, de forma que los nuevos valores en el perodo t
son xit = xit + kxit = (1+k)xit, el nuevo ndice simple ser I i = xit /xi0 =
(1+k)xit /xi0=(1+k)Ii.

Homogeneidad: Un nmero ndice no debe venir afectado por un cambio en

501
las unidades de medida.

Sera deseable que estas propiedades que, en general, se cumplen para


los ndices simples, se verificasen tambin en los complejos, pero esto no
siempre ocurre. La idoneidad de un ndice puede basarse en el grado de
cumplimiento de las propiedades citadas, y por esta va puede intentarse
determinar cul de todos los ndices ya definidos es el ms idneo para ser
utilizado en la medicin de las variaciones de los precios o las cantidades. Las
propiedades de existencia y unicidad las cumplen todos los ndices definidos. Las
propiedades de inversin y circularidad las verifican solamente los ndices de
Bradstreet-Dtot, Edgeworth y Fisher. La proporcionalidad la satisfacen todos los
ndices algebraicamente, si bien desde el punto de vista econmico hay que
hacer algunas objeciones para los ndices de Paasche, Edgeworth y Fisher.

502
5.8 NDICES EN CADENA
Los ndices en cadena son une serie de ndices en los que la base es
siempre el perodo precedente, con lo que cada uno de ellos ofrece una
comparacin porcentual respecto al perodo anterior. A travs de este
procedimiento, y partiendo de una serie de enlaces relativos, podemos conseguir
una serie de ndices referidos a una base comn aplicando la propiedad circular.
La nueva serie obtenida nos permitir efectuar comparaciones a medio y largo
plazo.

Si tenemos datos sobre una magnitud, referidos a los instantes


consecutivos en el tiempo 0, 1, 2,..., t -1, t, podemos expresar el nmero ndice en
el instante t con base en el instante 0 como producto de una cadena de ndices
cuyas bases son los instantes consecutivos, de la siguiente forma:

I0,1*I1,2*It-1,t = I0,t

503
5.9 CAMBIO DE BASE Y ENLACES DE NMEROS
NDICES
A medida que pasa el tiempo, mantener el perodo base de un
ndice puede resultar inadecuado. Existe prdida de representatividad de los
ndices al irnos alejando del perodo base, sobre todo cuando para ponderar
magnitudes actuales se utilizan pesos relativos referidos al perodo base. Este
problema se resuelve haciendo un cambio de base a un perodo ms cercano al
actual. Para poder relacionar series de ndices referidos a distintos perodos
base, se utilizan los enlaces tcnicos entre ambas series. Para efectuar el
cambio de base nos basaremos en la propiedad de inversin de los nmeros
ndices.

Sea la siguiente serie de nmeros ndices referidos al perodo de base 0.


Supongamos que deseamos efectuar un cambio de perodo base desde el
perodo 0 al h. Obtenemos as una nueva serie referida a dicho perodo base h.

Perodo ndice base 0 ndice base h

0 I00 I0h
1 I10 I1h
. . .
. . .
i Ii0 Iih
. . .
. . .
h Ih0 Ihh
. . .
. . .
t It0 Ith

La nueva serie de ndices se obtendr teniendo en cuenta que

504
Iih = Ii0/Ih0 * Ihh = Ii0 / Ih0

donde Ih0 es el ndice que hace de enlace tcnico entre las dos series.

505
5.10 DEFLACTACIN DE SERIES ESTADSTICAS

De forma muy simple, puede decirse que deflactar es eliminar el efecto de


los precios que puede existir en la variacin total de una magnitud. De este
modo, puede conocerse la alteracin de la magnitud debida exclusivamente al
cambio en las cantidades (variacin en trminos reales o a precios constantes).
As, deflactando una serie a precios corrientes (serie en la que las
modificaciones de sus trminos recogen el efecto de los precios y de las
cantidades), se obtiene otra a precios constantes o en trminos reales (serie en
la que las variaciones de sus elementos son debidas nicamente al efecto de las
cantidades). Para pasar de una serie en pesetas corrientes a una en pesetas
constantes, dividiremos la serie primitiva por un ndice de precios adecuado, ya
que de esta forma se puede eliminar la influencia de los precios. El paso de una
serie de valores corrientes a constantes se conoce con el nombre de deflactacin
de la serie, y al ndice elegido para efectuar dicha transformacin se le llama
deflactor.

En el caso de las magnitudes complejas, los deflactores son ndices de


precios que se obtienen mediante ponderaciones de la evolucin de los precios
de los bienes y/o servicios que integran la magnitud estudiada. No existe un
deflactor nico que pueda utilizarse con cualquier serie. La utilizacin de uno u
otro depender de la magnitud econmica que est recogida en la serie. As, por
ejemplo, si se pretende deflactar una serie temporal de consumo privado o medir
la variacin de la capacidad adquisitiva de los trabajadores, lo ms indicado ser
tomar como deflactor el ndice de precios al consumo, y si la serie fuese el
producto interior bruto habra que emplear el deflactor implcito del PIB.

506
5.11 PARTICIPACIN Y REPERCUSIN
Supongamos que todas las magnitudes simples que componen un
ndice complejo sufren una variacin que podemos expresar por Dp1t, Dp2t,..,
DpNt. El ndice presentar una variacin total debida a todas estas variaciones, y
cada una de sus componentes contribuir con una variacin particular,
denominada repercusin, a la variacin del ndice general. La suma de todas las
repercusiones individuales de cada componente es igual a la variacin total del
ndice general.

Se entiende por participacin de la componente i en la variacin del ndice


general, la relacin por cociente entre la repercusin de la componente i y la
suma de repercusiones de todas las componentes.

lustraremos estos conceptos aplicndolos al ndice de Laspeyres de


precios. Si todas las magnitudes simples que componen el ndice complejo de
Laspeyres de precios sufren una variacin que podemos expresar por Dp1t,
Dp2t, ..., DpNt, el nuevo ndice ser:

donde

507
La variacin en porcentaje del ndice general se expresa como:

Llamaremos repercusin, en valor absoluto, de la variacin de la


componente i en el ndice general, a la expresin:

En porcentaje, la variacin de la componente i en el ndice general ser:

508
La participacin en porcentaje de la componente i en la variacin del
ndice general ser la relacin por cociente entre la repercusin en porcentaje y
la suma de repercusiones en porcentaje de todas las componentes, expresada en
tanto por ciento. Su expresin ser:

509
5.12 NDICES OFICIALES
ndice de precios al consumo

Entre los ndices de precios de mayor importancia se encuentra el ndice


de precios al consumo ( PC), que tiene por objeto medir la evolucin en el tiempo
de los precios, basndose en un conjunto determinado de bienes y servicios, que
componen la llamada cesta de la compra, para un determinado estrato de
poblacin convenientemente elegido.

En casi todos los pases el ndice elegido para el PC es un ndice tipo


Laspeyres. En Espaa, para determinar la cesta de la compra, se obtiene a travs
de la Encuesta de Presupuestos Familiares, y referido a un determinado estrato
de poblacin, el conjunto de bienes y servicios que dicho grupo adquiere
normalmente, y que le proporciona el mismo nivel de vida a lo largo de un perodo
de tiempo no demasiado amplio. Una vez determinada la cesta de la compra, se
valoran las correspondientes cantidades consumidas a precios del perodo base
y del actual. Su cociente nos dar el ndice del coste de la vida.

ndices de produccin y precios industriales

Recogen las variaciones de la oferta industrial dentro de la mayora de las


ramas de la actividad econmica. El ndice de produccin industrial ( PI) tiene
por objeto indicar la evolucin en volumen de la parte del Producto Interior Bruto
(P B) que tiene su origen en la industria, es decir, el valor aadido bruto al coste
de los factores de las diversas ramas industriales y del conjunto del sector
industrial. De esta forma, el IPI sintetiza en un nmero restringido de cifras o,
an mejor, en una nica serie estadstica, la multitud de informaciones
estadsticas sobre las cantidades de bienes producidos por la industria de un
pas. Este ndice es uno de los principales instrumentos con que se cuenta para
el anlisis econmico coyuntural, especialmente cuando se utiliza en
combinacin con otros indicadores, tales como los relativos al comercio exterior,
el empleo o el paro. Se utiliza, asimismo, para la actualizacin a corto plazo de
las cifras relativas al producto interior bruto (en las cuentas nacionales
trimestrales o en las primeras estimaciones de las cuentas nacionales anuales).
Para su clculo se utiliza la frmula del ndice complejo ponderado de Laspeyres

510
para cantidades.
El ndice de precios industriales ( PRI) es un indicador que mide la
evolucin de los precios en el primer paso de comercializacin de los productos,
es decir, en la fase de venta de stos a los precios de produccin, esto es, sin
incluir los impuestos indirectos que los gravan. Se refiere nicamente a
productos industriales de produccin nacional, con exclusin de los servicios,
tales como instalaciones, transportes, comercializacin, reparaciones, etc.

Este ndice sirve de indicador de la evolucin coyuntural de los


precios de produccin, tanto en general, como por sectores. Tambin sirve de
base para el estudio y determinacin de la poltica de precios ms conveniente en
relacin con la redistribucin de las rentas. Tambin se usa como un instrumento
para las revisiones de precios en la contratacin a largo plazo, as como para
detectar en sus inicios las presiones inflaccionistas o deflaccionistas. Tambin
sirve como instrumento tcnico para la deflaccin de ciertos indicadores
coyunturales de la industria, y de los datos relativos a las transacciones sobre
productos industriales en el marco de las tablas Input Output y de la contabilidad
nacional. Para su clculo se utiliza la frmula del ndice complejo ponderado de
Laspeyres para precios.

ndices de salarios

Reflejan las variaciones del salario total de los trabajadores por unidad de
tiempo. Suelen ser del tipo media aritmtica ponderada, recogiendo la variacin
de la relacin por cociente entre las remuneraciones en el perodo base y el
actual.

ndices de comercio exterior

Este tipo de ndices suele analizar la evolucin de la balanza comercial, e


involucra un gran volumen de transacciones. Los ms importantes son los
siguientes:

ndices de ventaja comparativa revelada: Analizan el comercio exterior por


sectores, y los ms usuales son el saldo comercial relativo (SCR) y el
ndice de contribucin al saldo (ICS). Ambos ndices se construyen a partir

511
del saldo comercial de cada sector. Si llamamos Xi y M i a las exportaciones
e importaciones del sector i, sus expresiones son:

ndices de especializacin (IE) y dependencia (ID) comercial: Comparan


la estructura comercial espaola con la de una agrupacin de pases de
referencia, por ejemplo la Unin Europea, considerando por separado la
vertiente exportadora de la importadora. Si consideramos las exportaciones
e importaciones del sector i (Xi y M i) relativas a Espaa (ESP) y a la Unin
Europea (UE), estos ndices se expresan de la siguiente manera:

512
ndice de comercio intraindustrial: Se utiliza cuando en los diferentes
sectores se produce simultneamente la exportacin e importacin de un
mismo tipo de productos. Su expresin es:

513
ndices de competitividad: Se utilizan para medir la competitividad de las
economas, y se basan en la evolucin de los precios y los tipos de cambio.
Los ms importantes son el tipo de cambio efectivo nominal (TCEN), que
se utiliza para medir la evolucin de una moneda en un perodo determinado
(marcado por el ao 0 que es el base y el ao t que es en el que se realiza
el clculo) frente a un conjunto de monedas correspondientes a una
agrupacin de pases con los que mantiene intercambios, y el tipo de
cambio efectivo real (TCER), que es un ajuste del anterior introduciendo
un factor que refleja las variaciones de precios relativos entre el pas que
elabora el ndice y los dems a lo largo de un perodo determinado. Sus
expresiones son las siguientes:

donde W i = (Xi+M i)/(X+M), siendo Xi las exportaciones espaolas con


destino al pas i, M i las importaciones espaolas procedentes del pas i, X

514
el total de exportaciones espaolas destinadas al conjunto de pases en
cuestin, y M el total de importaciones espaolas procedentes del conjunto
de pases. Ci0 y Cit representan las cotizaciones oficiales de la peseta
frente a la moneda del pas i en el ao base y en el ao t respectivamente. Pt
y P0 son los ndices de precios de Espaa en los instantes base, y t, y Pi0 y
Pit son los ndices de precios del pas i en el ao base y en el ao t.

ndice de relaciones de cambio: Tambin se denomina relacin real de


intercambio, y viene expresada por R = Pp(X) / Pp(M); es decir, es el
cociente de ndices de precios de Paasche de exportaciones y de
importaciones.

ndices de cotizacin de valores en bolsa

Miden las fluctuaciones en la cotizacin que se registran diariamente, y


hacen referencia a la cotizacin de los valores en el momento de cierre de la
sesin.

Indicadores de la coyuntura

Son un conjunto de ndices (precios, produccin, salarios, etc.) que nos


dan una idea aproximada sobre la evolucin de la economa de un pas, y permiten
un anlisis a corto plazo de sus distintos aspectos.

515
5.13 TASAS DE VARIACIN
Expresan el porcentaje que representa la variacin absoluta de
una magnitud, en un intervalo temporal determinado, sobre el valor inicial de
dicha magnitud, que normalmente se corresponde con el del ao anterior. Esto
es:

Donde v es una magnitud cualquiera, i es el perodo inicial de intervalo de


variacin, f es el perodo final de intervalo de variacin, vf - vi es la variacin
absoluta, y TV es la tasa de variacin expresada en tantos por uno.
Evidentemente, se cumple que:

Otro concepto muy utilizado es el de tasa de variacin media acumulativa,


que expresa el porcentaje de variacin que una magnitud debera haber
experimentado perodo tras perodo para, desde su valor inicial, alcanzar su valor
final. Se define como:

Donde n es el nmero de perodos entre el ao inicial y el final, o bien el


nmero de datos de la serie menos uno. Evidentemente, se cumple que:

516
517
5.14 MEDIDAS DE CONCENTRACIN
Las medidas de concentracin tratan de poner de relieve el mayor o menor
grado de igualdad en el reparto del total de los valores de una variable. Son, por
tanto, indicadores del grado de equidistribucin de la variable. Estos indicadores
no deben confundirse con las medidas de dispersin, ya que desde el punto de
vista estadstico la dispersin hace referencia a la variabilidad de los datos, a las
diferencias que entre ellos existen y, por tanto, a la mayor o menor
representatividad de los promedios.

Estas medidas tienen especial aplicacin a variables econmicas


(rentas, salarios, etc.). En una distribucin estadstica, de rentas por ejemplo,
desde el punto de vista de la equidad econmica, ni la media, ni siquiera la
varianza son significativas. Lo que verdaderamente interesa es la mayor o menor
igualdad en su reparto entre los componentes de la poblacin, es decir, que est
equitativamente repartida. Para este fin, estn concebidos los estudios sobre
concentracin, entendindose por concentracin la mayor o menor equidad en el
reparto de la suma total de la variable considerada. Es decir, si suponemos que
la distribucin es de rentas, y que tenemos n rentistas cuyas rentas son x1 x2
x3 ... xn, nos interesa estudiar hasta qu punto la suma total de rentas
x1+x2+...+xn est equitativamente repartida.

Las situaciones extremas se producen (a) cuando de los n


rentistas, slo uno percibe el total de renta y los dems nada (concentracin
mxima, es decir, x1= x2 = x3 = ... = xn-1= 0 y xn 0), y (b) cuando todos los
rentistas perciben la misma cantidad (concentracin mnima o equidistribucin,
es decir x1 = x2 = x3 = ... = xn).

Las medidas de concentracin ms utilizadas en el reparto de la renta


son el ndice de Gini, la curva de Lorentz, y el porcentaje de poblacin bajo el
umbral de pobreza.

518
5.15 NDICE DE CONCENTRACIN DE GINI

Sea una distribucin de frecuencias relativa a rentas (xi,ni), de la que


vamos a considerar las siguientes caractersticas:

Los productos xi*ni, que nos indicarn la renta total percibida por los ni
rentistas de renta individual xi.

Las frecuencias absolutas acumuladas Ni.


Los totales acumulados ui de los productos xi*ni, o sea, u1 = x1n1, u2 =
x1n1 + x2n2, ..., un = x1n1 + x2n2 + ... + xnnn. De esta forma, ui ser la
renta total percibida por los Ni primeros rentistas.

Las frecuencias acumuladas relativas, que expresaremos en tantos por


ciento, y que aqu llamaremos pi, es decir, pi = (Ni/N)*100.

Una medida que expresa cada ui en tantos por ciento de un. A este
porcentaje le llamamos qi. Tendremos que qi = (ui/un) *100.

Se define el ndice de concentracin de Gini mediante la expresin:

519
Sabemos que si la concentracin es mnima, es decir, si la renta est
repartida por igual, pi = qi, con lo que IG =0. En el caso de concentracin
mxima, solamente el ltimo trabajador percibe renta, por lo que, q1 = q2 = ... =
qn-1 = 0, con lo que IG =1. El campo de variacin de IG va, pues, de cero a uno, y
su valor responder a una distribucin tanto ms justa de la renta o del salario
cuanto ms prximo est a cero.

520
5.16 CURVA DE CONCENTRACIN DE LORENTZ
La distribucin de salarios, o de rentas, se puede materializar
grficamente, obtenindose la llamada curva de concentracin o curva de
Lorentz. Para construirla, dibujamos un cuadrado cuyos lados estn divididos en
una escala de 1 a 100. En el vrtice inferior izquierdo est el origen de
coordenadas, en el eje de abscisas representamos los valores pi, y en el de
ordenadas los valores qi. A continuacin, representamos los puntos (pi,qi), que,
al unirlos entre s, nos determinan una poligonal llamada curva de Lorentz.

La curva de Lorentz es siempre creciente, resultando que la curva que


indica la concentracin mnima (equidistribucin) es la diagonal del cuadrado
(ya que pi = qi para concentracin mnima). Cuanto ms prxima est la curva a
la diagonal del cuadrado que parte del orgen, mayor equidistribucin existir. La
curva de Lorentz es ms curvada cuanto ms desigual sea la distribucin y ms
fuerte la concentracin.

PROBLEMAS RESUELTOS
Ejercicio 1. La evolucin de las ganancias de una empresa del ramo del
automvil desde el ao 1950 hasta 1960 se presenta en la tabla siguiente:

3. Hallar los ndices de ganancias tomando como base el ao 1950.


4. Cambiar de base los ndices anteriores tomando como nuevo perodo
base el ao 1960.

Los nmeros ndices simples de ganancias con base en 1950 se


calcularn de acuerdo a la tabla siguiente, cuya estructura puede implementarse
en Excel):

521
Ao Ganancias ndices simples

1950 g0 100

1951 g1 (g1/g0)*100

1952 g2 (g2/g0)*100

1953 g3 (g3/g0)*100

1954 g4 (g4/g0)*100

1955 g5 (g5/g0)*100

1956 g6 (g6/g0)*100

1957 g7 (g7/g0)*100

1958 g8 (g8/g0)*100

1959 g9 (g9/g0)*100

1960 g10 (g10/g0)*100

Una vez realizados los clculos de la tabla anterior tenemos los


siguientes resultados para los ndices simples:

Ao Ganancias ndices simples

1950 12 100

1951 14 116,6666667

1952 18 150

1953 18 150

1954 19 158,3333333

1955 15 125

522
1956 12 100

1957 16 133,3333333

1958 20 166,6666667

1959 24 200

1960 35 291,6666667

Para realizar el cambio de base desde base 0 a base i tendremos en


cuenta las siguientes transformaciones de ndices simples Ii.

t ndices en base 0 ndices en base i

0 0 ( 0/Ii)*

1 I1 (I1/Ii)*

2 I2 (I2/Ii)*

3 I3 (I3/Ii)*

4 I4 (I4/Ii)*

5 I5 (I5/Ii)*

6 6 ( 6/Ii)*

7 I7 (I7/Ii)*

8 I8 (I8/Ii)*

9 I9 (I9/Ii)*

10 I10 (I10/Ii)*

La estructura de la tabla anterior puede implementarse fcilmente


en frmulas de Excel.

523
Una vez realizados los clculos de la tabla anterior tenemos los
siguientes resultados para los ndices simples en base 1960:

ndices simples
Ao Ganancias
en base 1950
1950 12 100

1951 14 116,6666667

1952 18 150

1953 18 150

1954 19 158,3333333

1955 15 125

1956 12 100

1957 16 133,3333333

1958 20 166,6666667

1959 24 200

1960 35 291,6666667

Ejercicio 2. El precio de un artculo de consumo descendi en 1964 un 20% con


respecto al ao anterior, pero aument un 50% respecto al ao 1959. Hallar el
nmero ndice de precios de 1963 tomando como ao base 1959.

Los datos del problema nos dicen que:


I 63,64 = 80
I59,64 = 150

524
Por las propiedades de los ndices podemos hacer lo siguiente:

Ejercicio 3. En 1960 el precio de un bien de consumo aument en un 60% por


encima del que tena en 1953, mientras que su produccin disminuy en un 40%.
En qu porcentaje aument o disminuy el ndice de valor de dicho bien en 1960
con respecto a 1953?

Segn el enunciado del problema tenemos que:

Ahora calculamos el ndice de valor de la siguiente forma:

Como la base en 1953 es 100 y el ndice de valor en 1960 es 96, dicho ndice de
valor ha disminuido en un 4%.

Ejercicio 4. Hallar los nmeros ndices de precios de Laspeyres, Paasche y


Edgeworth con base 1980 = 100 de tres artculos de consumo, A , B y C, dados
los precios y cantidades correspondientes a los aos 1980 a 1984 que se
presentan en la siguiente tabla:

525
Artculo A Artculo B Artculo C
Aos
Precio Cantidad Precio Cantidad Precio
Cantidad

1980 2 10 5 12
10 3
1981 2 12 6 10
11 2
1982 3 15 6 5
12 3
1983 4 20 7 6
12 1
1984 4 18 8 5
13 2

Para calcular los ndices de precios de Laspeyres, Paasche y Edgeworth


nos basaremos en sus expresiones generales definidas mediante:

526
Para hallar el ndice de precios de Laspeyres en el ao 1981 con
base en 1980 (Lp81,80) es necesario hallar (P81*Q80)/ (P80*Q80)*100. De la
misma forma se calculan los ndices de precios de Laspeyres en los aos 1982,
1983 y 1984 con base en 1980 (Lp82,80; Lp83,80 y Lp84,80) usando las
expresiones: (P82*Q80)/(P80*Q80)*100, (P83*Q80)/(P80*Q80)*100 y
(P84*Q80)/(P80*Q80)*100.

La Figura 5-1 presenta las frmulas de Excel adecuadas, y la


Figura 5-2 los resultados.

527
Figura 5-1

Figura 5-2

Para hallar los ndices de precios de Paasche en los aos 1981,


1982, 1983 y 1984 con base en 1980 (Pp81,80; Pp82,80; Pp83,80 y Pp84,80),
usamos: (P81*Q81)/ (P80*Q81)*100, (P82*Q82)/(P80*Q82)*100,
(P83*Q83)/(P80*Q83)*100 y (P84*Q84)/ (P80*Q84)*100, para conseguir los
valores 112,8, 130,6, 167,5 y 170,4 respectivamente.
La Figura 5-3 muestra las frmulas de Excel, y la Figura 7-4 los
resultados.

528
Figura 5-3

Figura 5-4

Para hallar los ndices de precios de Edgeworth en los aos 1981,


1982, 1983 y 1984 con base en 1980 (Ep81,80; Ep82,80; Ep83,80 y Ep84,80), se
usan las expresiones: (P81*(Q80+Q81))/(P80*(Q80+Q81))*100, (P82*
(Q80+Q82))/(P80*(Q80+Q82))*100, (P83*(Q80+Q83))/(P80*
(Q80+Q83))*100 y (P84*(Q80+Q84))/(P80*(Q80+Q84))*100, para obtener los
valores 113,2, 127,7, 154,7 y 163,9 respectivamente.

529
La Figura 5-5 muestra las frmulas, y la Figura 5-6, los
resultados.

Figura 5-5

Figura 5-6

Para realizar clculos con nmeros ndices siempre es conveniente


introducir como columnas los datos de los diferentes aos.

530
Ejercicio 5. Con los datos del producto interior bruto a precios de mercado
(P Bpm) y del deflactor implcito del P Bpm (D Ppm) de la economa espaola
recogidos en el cuadro presentado a continuacin:

PIBpm D Ppm
P Bpm DIPpm
Aos corriente Base 1980 Aos corriente
Base 1980

1970 2574,6 24,3 1982 19562,3 127,2


1971 2911,2 26,2 1983 22531,8
143,7
1972 3417,3 28,6 1984 25519,5
160,7
1973 4156,3 32,1 1985 28200,9
173,1
1974 5102,0 37,2 1986 32324,0
192,2
1975 6018,3 43,6 1987 36144,0
203,3
1976 7234,2 51,0 1988 40158,7
214,8
1977 9178,4 62,5 1989 45006,0
230,1
1978 11230,7 75,2 1990 50125,3
247,0
1979 13157,7 87,7 1991 54791,1
263,9
1980 15209,1 100,0 1992 58677,2 279,8

1. Hallar P B a precios del mercado en pesetas constantes del ao 1980


para 1970-1992.
2. Calcular las tasas de variacin interanual del P Bpm en pesetas
constantes del ao 1980.

531
3. Hallar ndices con base 1974 de la serie P Bpm en pesetas constantes del
ao 1980.
4. Hallar P B a precios del mercado en pesetas constantes del ao 1986
para 1970-1992.

Como la serie del deflactor que el enunciado proporciona ya est


expresada tomando como base el ao 1980 (obsrvese que el valor del DIP en
1980 es igual a 100), no habr que realizar ninguna transformacin previa. As,
dividiendo cada uno de los trminos de la serie del PIBpm en trminos corrientes
entre el deflactor correspondiente y multiplicando por cien el resultado, se
obtendr la serie del PIBpm expresada en pesetas constantes del ao 1980.

Comenzamos introduciendo los datos del problema como dos variables


(columnas) de la hoja de clculo llamadas PIBpmC y DIPpm80. A su vez,
creamos la columna llamada PIBpmK80 con la frmula (PIBpmC/DIPpm80)*100
(Figura 5-7).

Los datos as obtenidos expresan cul fue la produccin de cada ao


valorada a precios del ao 1980 (Figura 5-8). As pues, cualquier variacin en
los elementos de la serie obtenida ser producto de modificaciones slo en las
cantidades producidas, y no en los precios.

532
533
Figura 5-7 Figura 5-8

Los datos as obtenidos expresan cul fue la produccin de cada


ao valorada a precios del ao 1980. As pues, cualquier variacin en los
elementos de la serie obtenida ser producto de modificaciones slo en las
cantidades producidas, y no en los precios. Analizando la serie P BpmK80
obtenida, se observa que en la economa espaola, a lo largo del perodo 1970-
1992, el producto interior bruto a precios de mercado creci en trminos reales

534
de modo generalizado, excepto en el ao 1981.

Para calcular las tasas de variacin interanual del PIBpmK80


creamos la columna de nombre TVP BpmK80 con la expresin PIBpmK80/
P BpmK80(-1)*100 tal y como se indica en la Figura 5-9. La nueva serie
TVPIBpmK80 que, contempla las tasas porcentuales de variacin interanuales de
la serie del producto interior bruto a precios de mercado en pesetas constantes
de 1980, tal y como se observa en la Figura 5-10.

535
Figura 5-9 Figura 5-10

Analizando la nueva serie TVPIBpmK80, se observa el ritmo al que ha ido


creciendo el P Bpm espaol a precios constantes durante el perodo 1970-1992.
El perodo 1970-1974 pertenece a una etapa de desarrollo de la economa
espaola; el perodo 1975-1985 constituye un perodo de crisis; el perodo 1986-
1990 es un perodo de recuperacin; y en el perodo 1991-1992 aparece una
nueva etapa de crisis.

536
Para calcular los nmeros ndices con base en el ao 1974 de la
serie TVPIBpmK80 creamos la columna Ind74 mediante la expresin
(P BpmK80/13715,1)*100, donde 13715,1 es el valor del PIBpm de 1974 en
pesetas constantes de 1980 (Figura 5-11). Se obtiene la nueva serie Ind74, que
contempla la serie de nmeros ndices pedidos (Figura 5-12).

Figura 5-11

537
Figura 5-12
Para hallar la serie del PIBpm a precios constantes del ao 1986,
necesitamos los datos del deflactor del P B en base 1986. Como el enunciado

538
nos proporciona la serie del deflactor en base 1980, ser necesario realizar el
cambio de base. Para ello, creamos la columna llamada D Ppm86 con la
expresin (DIPpm80/192,2)*100 (Figura 5-13), donde192,2 es el deflactor
implcito del PIBpm de 1986 en base 1980. Se obtiene la nueva serie DIPpm86
con los datos del deflactor del PIBpm en base 1986 (Figura 5-14).

539
Figura 5-13

540
Figura 5-14

541
Ahora ya podemos hallar la serie del P Bpm a precios constantes
de 1986. Para ello creamos la columna de nombre P BpmK86 con la expresin
(P BpmC/DIPpm86)*100 (Figura 5-15) para obtener los datos de la Figura 5-16.

542
543
Figura 5-15

544
545
Figura 5-16
Ejercicio 6. Una fbrica de automviles produce cuatro modelos, cuyos precios
de venta, costes de materiales empleados y nmeros de unidades producidas en
los ltimos tres aos fueron los siguientes:

_________1985_______ _________1986________
_________1987________
Modelos Precio N de Precio N de Precio
N de
venta Coste unidades venta Coste unidades venta
Coste unidades

205 0,9 0,4 3 200 1,1 0,5 4 100 1,2


0,6 5 600
309 1,3 0,6 4 200 1,3 0,7 3 000 1,5
0,7 4 300
405 1,9 1,0 2 300 2,0 1,1 2 400 2,1
1,3 2 000
605 3,8 2,2 1 700 4,1 2,5 1 500 4,3
2,8 1 200

1. Hallar el ndice de produccin de Laspeyres para 1986 y 1987, con base


1985.
2. Hallar los ndices cunticos de Paasche, con la misma base.
3. Hallar los ndices de precios de Laspeyres, con la misma base.

En los ndices de cantidades, las ponderaciones han de ser valores


aadidos, para evitar dobles contabilizaciones y sobreestimaciones. Luego las
ponderaciones sern los valores precio de venta-coste.

El ndice de produccin de Laspeyres tiene la siguiente expresin:

546
Para calcularlo construiremos una tabla con variables (columnas)
que reflejan los precios de venta, costes y cantidades para los cuatro modelos de
automviles. Para calcular el ndice de produccin de Laspeyres en el ao 1986
con base en 1985 usamos la expresin definida como Lq86,85 = (Q86*(P85 -
C85)) /SUM(Q85*(P85 - C85))*100. Se obtiene el valor 93,3. De la misma forma
se calcula el ndice de produccin de Laspeyres en el ao 1987 con base en
1985, utilizando la expresin Lq87,85 = (Q87*(P85 - C85))/SUM(Q85*(P85 -
C85))*100, para obtener el valor 102,1. La Figura 5-17 muestra las frmulas y la
Figura 5-18 los resultados.

Figura 5-17

547
Figura 5-18

El ndice de cantidades de Paasche tiene la siguiente expresin:

Para calcular los ndices de cantidades de Paasche en los aos 1986 y


1987 con base 1985, usamos: Pq86,85 = (Q86*(P86-C86))/SUM(Q85*(P86-
C86))*100 y Pq87,85 = (Q87*(P87 - C87)) /SUM(Q85*(P87 - C87))*100, para
obtener los valores 95,6 y 105,5 respectivamente. La Figura 5-19 muestra las
frmulas de Excel y la Figura 5-20 muestra los resultados.

548
Figura 5-19

Figura 5-20

549
El ndice de precios de Laspeyres se calcula mediante la siguiente
expresin:

Para calcular los ndices de precios de Laspeyres en los aos 1986 y


1987 con base en 1985, utilizaremos las expresiones definidas por Lp86,85 =
(P86*Q85)/SUM(P85*Q85)*100 y Lp86,85 = (P87*Q85)/SUM(P85*Q85)*100,
para obtener los valores 107,2 y 116,2 respectivamente. La Figura 5-21 muestra
las frmulas de Excel y la Figura 5-22 muestra los resultados.

550
Figura 5-21 Figura 5-22

Ejercicio 7. Consideremos cuatro productos de una industria, cuyos precios de


venta y produccin son los siguientes:

1979 1988
Productos
Precio Cantidad Precio
Cantidad

Producto A 225 200 314 320


Producto B 75 15 82
21
Producto C 68 10 75
14
Producto D 109 34 120 50

Hallar el ndice de valor para 1988 con base en 1979.

En este problema suponemos que los precios que nos dan representan
tambin el valor aadido de cada producto, que es tanto como decir que el coste
de las materias primas empleadas es cero. Pueden asimilarse a este caso, en

551
parte, las industrias integrales y las industrias de la primera fase del proceso
productivo.

Comenzamos introduciendo los datos en una tabla creando variables


(columnas) que reflejan los precios y cantidades para los cuatro productos. Para
hallar el ndice de valor de la produccin para 1988 base 1979, utilizamos Iv87,86
= (P88*Q88)/ (P79*Q79)*100. Se obtiene el ndice de valor 216,29. La Figura
5-23 muestra las frmulas de Excel y la Figura 5-24 muestra los resultados.

Figura 5-23

552
Figura 5-24

Ejercicio 8. A partir de los datos que se exponen a continuacin, calcular el tipo


de cambio efectivo nominal TCEN de la peseta frente al conjunto de pases de la
Unin Europea.

Pases CO85 CO91 X


M P91

Francia 19,00 18,42 1244,354,9 1467,708,8


120,2
Alemania 57,99 62,64 992,575,6 1565,523,7
110,7
Italia 8,92 8,38 706,740,4 971,727,0
140,0
Reino Unido 219,46 183,29 477,873,8
728,191,2 141,3
Pases Bajos 51,41 55,58 267,741,4
339,545,9 107,7
Blgica-Luxemburgo 287,41 304,23 193,745,9

553
287,477,0 114,6
Portugal 98,96 71,93 410,428,3
263,276,2 190,6
Dinamarca 16,10 16,24 54,288,1
75,441,8 124,1
Irlanda 180,53 167,31 21,658,3
74,245,1 121,4
Grecia 123,43 5 7,09 47,621,1
24,182,1 265,9

La expresin del TCEN es la siguiente:

donde W i = (Xi+M i)/(X+M), siendo Xi las exportaciones espaolas con destino


al pas i, M i las importaciones espaolas procedentes del pas i, X el total de
exportaciones espaolas destinadas al conjunto de pases en cuestin, y M el
total de importaciones espaolas procedentes del conjunto de pases. Ci0 y Cit
representan las cotizaciones oficiales de la peseta frente a la moneda del pas i
en el ao base y en el ao t respectivamente. Pt y P0 son los ndices de precios
de Espaa en los instantes base, y t, y Pi0 y Pit son los ndices de precios del
pas i en el ao base y en el ao t.

Comenzamos introduciendo los datos ordenadamente en una tabla


creando variables (columnas) que reflejan las magnitudes del problema. Para
calcular el indicador TCEN, generamos la variable de expresin:

554
Para hallar el TCEN basta con hacer el producto de los elementos
de la columna TCENt y multiplicar por 100; es decir, elevaremos a la potencia 10
la media geomtrica de la variable TCENt y multiplicaremos por 100. La Figura
5-25 muestra las frmulas, y la Figura 5-26, los resultados.

Figura 5-25

555
Figura 5-26

Ejercicio 9. Dada la tabla de exportaciones (X) e importaciones (M) espaolas y


comunitarias por sectores del ao 1989 que se presenta a continuacin:

Espaa 1989
UE 1989
Sector

X M X M

1. Productos alimenticios 5424 .418


87820 97225
2. Bebidas y tabaco 686 741

556
16380 11633
3. Materias primas 1634 4824
31401 65480
4. Productos energticos 1906 7148
34794 86508
5. Aceites y grasas 383 217
4002 4266
6. Productos qumicos 3902 6307
124782 108157
7. Productos manufacturados 9001 8178
197244 194880
8. Maquinaria y material de transporte 15230 24.112
393977 348614
9. Artculos diversos 4514 5996
127949 130465
Total 42680 62941
1018349 1047228

1. Hallar los indicadores de ventaja comparativa revelada, saldo comercial


relativo (SCR) e ndice de contribucin al saldo (ICS).
2. Hallar los ndices de especializacin (IE) y de dependencia ( D).
3. Hallar el ndice de comercio intraindustrial (ICI).

Los indicadores de ventaja comparativa revelada analizan el


comercio exterior por sectores, y los ms usuales son el saldo comercial relativo
(SCR) y el ndice de contribucin al saldo (ICS). Ambos ndices se construyen a
partir del saldo comercial de cada sector. Si llamamos Xi y M i a las
exportaciones e importaciones del sector i, sus expresiones son:

557
Para resolver este problema comenzamos construyendo una tabla
con los datos en las columnas XE (exportaciones espaolas), ME (importaciones
espaolas), XUE (exportaciones de la Unin Europea), y MUE (importaciones de
la Unin Europea). Para hallar el saldo comercial relativo, creamos la columna
llamada SCR con la expresin (XE-ME)/(XE+ME)*100. Sectores con SCR
positivo indican que el pas presenta ventaja comparativa para el sector en
cuestin.

Para hallar el ndice de contribucin al saldo, creamos la columna


llamada ICS, con la expresin ((XE-ME)/(XE+ME) - (XE-ME) / (XE+ME))
*100. Para simplificar las expresiones usamos como apoyo S = XE+ME y D=XE-
ME. Sectores con ICS positivo contribuyen positivamente al saldo comercial
espaol, dado que su saldo comercial relativo es superior al de la economa
espaola en su conjunto.

Los ndices de especializacin (IE) y dependencia ( D) comercial


comparan la estructura comercial espaola con la de una agrupacin de pases
de referencia, por ejemplo la Unin Europea, considerando por separado la
vertiente exportadora de la importadora. Si consideramos las exportaciones e
importaciones del sector i (Xi y M i) relativas a Espaa (ESP) y a la Unin
Europea (UE), estos ndices se expresan de la siguiente manera:

558
El ndice de comercio intraindustrial se utiliza cuando en los
diferentes sectores se produce simultneamente la exportacin e importacin de
un mismo tipo de productos. Su expresin es:

559
Para hallar el ndice de especializacin, que ya es un indicador de
comparacin de la estructura comercial espaola con la de la Unin Europea,
creamos la columna llamada E mediante la frmula ((XE/(XE))/(XUE/
(XUE)))*100. Para sectores con IE superior a 100, sus exportaciones tienen
una representacin mayor en Espaa que en el conjunto de la Unin Europea.

Para hallar el ndice de dependencia, que es otro indicador de


comparacin de la estructura comercial espaola con la de la Unin Europea,
creamos la columna llamada D, mediante la frmula ((ME/(ME))/(MUE/
(MUE)))*100. Para sectores con D inferior a 100, sus importaciones tienen
una representacin menor en Espaa que en el conjunto de la Unin Europea.

Para hallar el ndice de comercio intraindustrial, que es otro


indicador de comparacin de la estructura comercial espaola con la de la Unin
Europea cuando se produce simultneamente la exportacin y la importacin de
un mismo tipo de productos, creamos la columna llamada ICI mediante la frmula
(1-| XE-ME| /(XE+ME))*100. Para sectores con ICI prximo a 100, existe un
elevado ndice de comercio intraindustrial.

La Figura 7-27 muestra todas las frmulas para la generacin de todas las
series utilizas durante el problema, y la Figura 7-28 presenta los resultados, en
los que pueden analizarse los comentarios realizados a lo largo del problema.

560
Figura 7-27

561
Figura 7-28

Ejercicio 10. Tenemos los siguientes datos sobre el ndice de precios al


consumo (IPC) con base 1983 = 100:

Grupos ndices Ponderaciones


ndice mensual
base 1983 = 100 medio
de 1986

1. Alimentos, bebidas y tabaco 100 330,3


136,9
2. Vestido y calzado 100 87,4
134,1
3. Vivienda 100 185,7
122,1

562
4. Menaje 100 74,1
131,5
5. Servicios mdicos y sanitarios 100
23,9 123,8
6. Transportes y comunicaciones 100 143,8
121,3
7. Esparcimiento, enseanza y cultura 100 69,6
129,6
8. Otros bienes y servicios 100
85,2 137,9

Total 100 1000,0


130,5

1. Hallar las repercusiones y participaciones de cada uno de los grupos del


PC en la variacin sufrida por el ndice general en 1986.
2. Qu grupos son los ms y los menos afectados por la subida de
precios?

La serie de repercusiones en la variacin global del IPC desde 1983 a


1986 para los distintos grupos, viene dada por la frmula Ri=DIiW i/W i. Para
resolver este problema comenzamos creando una tabla e introduciendo los datos
del problema en las columnas de nombres IPC83, W e IPC86. Para hallar las
repercusiones creamos la columna llamada REP con la frmula (IPC86 -
PC83)*W/(W). Se obtiene la nueva serie REP de repercusiones en la variacin
global del IPC desde 1983 a 1986 para los distintos grupos.

Para hallar la participacin de cada grupo en la variacin del PC,


utilizamos la frmula Pi=Ri/DLp. Pero DLp es un dato del problema en su fila de
totales, que vale 130,5 - 100 = 30,5. Si este dato no fuese dado, se calculara
mediante la frmula de Laspeyres Lp = IiWi/Wi.

Para hallar las participaciones, creamos la columna llamada PAR


con la frmula (REP/30,5)*100. Se obtiene la nueva serie PAR de participaciones
de cada grupo en la variacin global del IPC desde 1983 a 1986. La Figura 7-29

563
presenta las frmulas, y la Figura 7-30 presenta los resultados.

Figura 7-29

Figura 7-30

Ejercicio 11. Hallar el ndice burstil para 1986, con base 1980=100, de la

564
siguiente cartera de valores (volumen de negocio en 109 pesetas):

1980 1986

Cotizacin Volumen negociado Cotizacin

Bancos 230 25,4 614


Elctricas 94 10,3 153
Inmobiliarias 112 7,1 510
Monopolios 125 8,9 325
Qumicas 82 2,1 184
Metalrgicas 75 0,8 415
Inversin mobiliario 60 3,4 825
Varios 107 0,5 407

Como norma general, los ndices de cotizaciones de bolsa suelen ser


medias ponderadas de ndices simples de cotizaciones Ct/C0 del tipo Laspeyres,
usando como ponderaciones W los volmenes de contratacin de cada ttulo en el
ao base, con lo que IB=(Cit/Ci0)W i0/W i0.

Comenzamos introduciendo los datos en la hoja de clculo creando las


variables con los datos del problema. Para calcular el ndice de cotizaciones en
bolsa en el ao 1986 con base en 1980, utilizamos la expresin definida mediante
SUM((CO86/CO80)*W80)/SUM(W80)*100. Para facilitar los clculos se
introduce la abreviatura B=(CO86/CO80)*W80. La Figura 7-31 muestra todas
las frmulas para la generacin de todas las series utilizadas durante el
problema, y la Figura 7-32 presenta los resultados.

565
Figura 7-31 Figura 7-32
El resultado nos indica que desde el ao 1980 al ao 1986, el valor de la
cartera de valores aument en un 238,175 por ciento.

Ejercicio 12. Se consideran dos distribuciones de salarios en dos fbricas A y B


por da y trabajador. Los datos son los siguientes:

Fbrica A Fbrica B

566
Salario N de trabajadores Salario N de
trabajadores

800 20 800 10
1 000 10 1 000 30
1 200 10 1 200 30
1 500 10 1 500 20
7 500 50 7 500 10

1. Analizar ambas distribuciones de salarios mediante el ndice de


concentracin de Gini. Cul de los dos salarios es ms equitativo?
2. Hallar los puntos de las curvas de Lorentz para analizar la concentracin
de las distribuciones de salarios en las dos fbricas y comentar los
resultados.

Comenzamos creando una tabla con los datos de las dos distribuciones
de salarios en sus columnas. Para calcular los ndices de Gini relativos a ambas
distribuciones, creamos las columnas de nombres pA, pB, pTnA y pTnB (sumas
acumuladas de nA, nB, T*nA y T*nB respectivamente).

Luego, creamos las columnas qA = pTnA)/(TnA)*100 y qB =


pTnB)/(TnB)*100 respectivamente.

Para calcular el ndice de Gini de la distribucin A, utilizamos la


frmula dada por (pA-qA)/((pA) -100). Se obtiene el ndice 0,778.

Para calcular el ndice de Gini de la distribucin B, utilizaremos la


frmula dada por (pB - qB)/((pB) -100). Se obtiene el ndice 0,404.

Dado que el ndice de Gini de la empresa A es mayor que el de la empresa


B, la concentracin de salarios es mayor en la empresa A, luego la mejor
distribucin de salarios entre sus trabajadores la tiene la empresa B.

La Figura 7-33 presenta las frmulas para el clculo de los ndices de Gini
de las empresas A y B, y la Figura 7-34 presenta los resultados.

567
Figura 7-33

Figura 7-34

Para representar las curvas de Lorentz de las empresas A y B,


graficaremos los pares de puntos (pA,qA) y (pB, qB).

Para representar la curva de Lorenz de la empresa A, seleccionamos las


dos columnas pA y qA en la hoja de clculo (Figura 7-35), hacemos clic en la

568
opcin Dispersin con lneas suavizadas del grupo Grficos de la ficha Insertar
y obtenemos la curva de Lorenz de la empresa A (Figura 7-36). Realizando
pasos similares para la empresa B, se obtiene su curva de Lorenz (Figura 7-37).

Figura 7-35

569
Figura 7-36 Figura 7-37
La curva de Lorentz de la empresa A est ms alejada de la diagonal que la
de la empresa B, luego la distribucin de la renta es mejor en la empresa B,
siendo la concentracin menor en dicha empresa. No olvidemos que la curva de
Lorentz es ms curvada (se aleja ms de la diagonal) cuanto ms desigual sea
la distribucin y ms fuerte la concentracin.

570
571

Das könnte Ihnen auch gefallen