Estadistica LECTURA

Lectura
FUNDACIN UNIVERSITARIA IBEROAMERICANA
ESTADSTICA
PARA LA TOMA DE DECISIONES

ndice
Introduccin
Captulo 1 Criterio estadstico para la toma de decisiones
1.1. Introduccin .................................................................................................. 3

1.2. Poblacin y muestra ....................................................................................... 5
1.2.1. Tamao de la muestra ......................................................................... 6
1.2.2. Tcnicas de muestreo .......................................................................... 6
1.3. Etapas de un proceso de toma de decisiones .................................................... 7

1.3.1. Definicin del problema y objetivos ...................................................... 7
1.3.2. Planificacin de la investigacin ............................................................ 8
1.3.3. Recogida de datos ............................................................................... 9
1.3.4. Anlisis de datos ................................................................................. 9
1.3.5. Resultados .......................................................................................... 9
1.3.6. Conclusiones ....................................................................................... 9
1.4. Variables y datos ............................................................................................ 10

1.4.1. Tipos de variables ............................................................................... 11
Captulo 2 Variables cualitativas
2.1. Introduccin .................................................................................................. 15

2.2. distribucin de frecuencias .............................................................................. 15
2.3. Representacin grfica ................................................................................... 18
2.3.1. Diagrama de barras ............................................................................. 18
2.3.2. Diagrama circular o de sectores ............................................................ 19
2.3.3. Grfico de barras mltiples .................................................................. 20
2.4. Tablas de contingencia o de doble entrada ....................................................... 20
ESTADSTICA PARA LA TOMA DE DECISIONES I

Captulo 3 Variables cuantitativas
3.1. Introduccin ................................................................................................... 27

3.2. Variables discretas .......................................................................................... 28
3.3. Variables continuas ......................................................................................... 29
3.3.1. El diagrama de puntos ......................................................................... 29
3.3.2. La tabla de frecuencias ........................................................................ 31
3.3.3. Histograma ......................................................................................... 33
3.3.4. Polgono de frecuencias ........................................................................ 34
3.4. Observaciones a lo largo del tiempo ................................................................. 36
Captulo 4 Estadstica descriptiva
4.1. introduccin ................................................................................................... 41

4.2. Media, varianza y moda .................................................................................. 42
4.2.1. Media aritmtica .................................................................................. 42
4.2.2. Varianza y desviacin tipo .................................................................... 44
4.2.3. Frmula alternativa para el clculo de la desviacin tipo ......................... 46
4.2.4. Moda .................................................................................................. 48
4.3. Medidas basadas en la ordenacin de los datos ................................................. 49
4.3.1. La mediana ......................................................................................... 50

4.3.1.1. Comparacin entre la media y la mediana ............................... 51
4.3.2. Los cuantiles y los extremos ................................................................. 52
Captulo 5 Modelamiento estadstico de las variables
5.1. Introduccin ................................................................................................... 57

5.2. La distribucin normal ..................................................................................... 59
5.2.1. La funcin de densidad o ley normal ..................................................... 60
5.2.2. La funcin de distribucin ..................................................................... 61
5.2.3. Distribucin normal tipificada ................................................................ 62
5.2.4. Comprobacin de la normalidad: prueba de Kolgomorov ......................... 65
5.3. La distribucin t-student .................................................................................. 67
II ESTADSTICA PARA LA TOMA DE DECISIONES

5.4. La distribucin chi-cuadrado ............................................................................ 70
5.4.1. Prueba de calidad o bondad del ajuste
para variables aleatorias discretas ........................................................ 72
5.4.2. Prueba de homogeneidad .................................................................... 73
5.4.3. Prueba de la independencia ................................................................. 76
5.5. Distribucin muestral de medias ...................................................................... 77
5.6. distribucin muestral de proporciones .............................................................. 78
5.7. Funcin de probabilidad binomial .................................................................... 79
5.7.1. Aproximacin normal para binomial ...................................................... 81
Captulo 6 Estadstica inferencial
6.1. Introduccin .................................................................................................. 85

6.2. La valoracin o estimacin .............................................................................. 86
6.2.1. Definicin ........................................................................................... 86

6.2.2. Cualidades de un buen estimador ......................................................... 86
6.2.3. Aleatoriedad de la muestra .................................................................. 87
6.2.4. Estimacin del tamao de la muestra .................................................... 88
6.2.5. Tipos de estimacin ............................................................................. 89
6.2.5.1. Estimaciones puntuales ......................................................... 89
6.2.5.2. Estimacin por intervalo ........................................................ 89
6.3. contraste o prueba de hiptesis ....................................................................... 92

6.3.1. Introduccin ....................................................................................... 92
6.3.2. Pasos a seguir para la prueba de hiptesis ............................................ 94
6.3.3. Errores en el contraste de hiptesis ...................................................... 94
6.3.4. Contraste de hiptesis para la media .................................................... 95
6.3.4.1. Contraste bilateral ................................................................ 95
6.3.4.2. Contraste unilateral .............................................................. 98
6.3.5. Contraste de hiptesis para proporciones .............................................. 101
6.3.5.1. Contraste bilateral ................................................................ 101
6.3.5.2. Contraste unilateral .............................................................. 103
ESTADSTICA PARA LA TOMA DE DECISIONES III

Captulo 7 Igualdad estadstica entre dos o ms poblaciones
7.1. Introduccin ................................................................................................... 107

7.2. Comparacin de dos medias poblacionales ....................................................... 108
7.2.1. Diferencia entre medias empleando la distribucin normal ...................... 108
7.2.2. Diferencia entre medias empleando la t-student ..................................... 111
7.3. Comparacin de dos varianzas poblacionales .................................................... 112
7.4. Condiciones necesarias para la toma de decisiones estadsticas .......................... 115
7.5. Comparacin de ms de dos medias poblacionales (ANOVA) .............................. 115
7.6. Comparacin de ms de dos varianzas poblacionales ......................................... 119
7.6.1. Prueba F del cociente mximo .............................................................. 119
Captulo 8 Correlacin y regresin

8.1. Variables correlacionadas ................................................................................ 125
8.2. Diagramas de dispersin ................................................................................. 126
8.3. El coeficiente de correlacin lineal de Pearson ................................................... 129
8.3.1. Clculo de r ......................................................................................... 134
8.4. Regresin lineal simple .................................................................................... 134
8.4.1. Modelo de regresin ............................................................................ 136
8.4.1.1. Estimacin de los parmetros y ........................................ 137
Bibliografa
IV ESTADSTICA PARA LA TOMA DE DECISIONES

INTRODUCCIN
IN T RO D U CC I N
La interpretacin de las decisiones gerenciales bajo incertidumbre y, en general, de las

distintas ciencias, dependen en gran parte de los mtodos estadsticos. Por ello, es
fundamental que los gerentes se familiaricen con los razonamientos estadsticos como
una herramienta ms de marketing, de diferenciacin respecto de la competencia.
La calidad en los productos y servicios emplea la estadstica para mejorar y optimizar los
procesos de produccin y, de esta manera, ahorrar tiempo y dinero.
La estadstica ayuda a corroborar hiptesis proporcionando un soporte matemtico a las

observaciones realizadas. Es una ciencia probabilstica, por lo que no hay lugar para las
afirmaciones categricas o negaciones rotundas, que siempre deben estar enmarcadas
en un nivel de significacin o dentro de un margen de error.
Este texto responde a la necesidad de justificar las decisiones gerenciales en base a la

informacin proporcionada por datos que, con demasiada frecuencia, resultan escasos.
Se trata pues de un compendio de tcnicas para la recopilacin y presentacin de
informacin, intervalos de confianza y pruebas de hiptesis.
Los pasos a seguir para realizar un experimento son:
Planteamiento de la hiptesis que se pretende demostrar.
Definicin de las variables a estudiar.
Recogida y recopilacin de datos (tipos de muestreo).
Eleccin del mtodo estadstico ms apropiado para demostrar la hiptesis de

trabajo de la mejor forma posible.
ESTADSTICA PARA LA TOMA DE DECISIONES 1

INTRODUCCIN
A continuacin se detallan los objetivos y el contenido de cada uno de los captulos que
componen este manual:
RESUMEN
CAPTULO OBJETIVO PARTICULAR APORTACIN Y RESULTADO CONSEGUIDO
DEL CAPTULO
Conocimiento de la estadstica como una
Introduccin a la toma de
herramienta diferenciadora para aproximarse a la
decisiones.
solucin de las necesidades de empresa.
Proporcionar al gerente una
serie de criterios Etapas en la toma de Establecimiento de las etapas a seguir para la toma
Captulo 1 decisiones. de decisin ante un determinado problema.
estadsticos para la toma de
decisiones en la empresa. Poblacin y muestra. Distincin entre poblacin y muestra aleatoria.
Conocimiento de los tipos de variables existentes y
Datos y variables.
los datos y categoras a que dan lugar.
Distribuciones de Organizacin de los datos de acuerdo con las

Analizar las formas de frecuencias de datos pautas de comportamiento de los diferentes
Captulo 2 representacin de las categorizados. resultados observados.
variables cualitativas. Representaciones grficas Anlisis grfico alternativo de las pautas de
de las variables cualitativas. comportamiento de los datos.
Organizacin de los datos de acuerdo con las

Variables discretas y
pautas de comportamiento de los diferentes

Analizar las formas de variables continuas.
resultados observados.
Captulo 3 representacin de las
variables cuantitativas. Representaciones grficas
Anlisis grfico alternativo de las pautas de
de las variables
comportamiento de los datos.
cuantitativas.
Describir las caractersticas

Realizacin de descripciones concisas de un gran
de una serie de datos Estadsticos de tendencia
Captulo 4 conjunto de datos que, debido a su volumen,
correspondientes a una central y de dispersin.
resulta complicado procesar en bruto.
poblacin o muestra.
Adquirir los conocimientos Distribuciones de variable Conocimiento de las funciones de distribucin

necesarios de clculo de continua (normal, t-student, normal y t-student y su importantsimo papel que
probabilidades para su chi-cuadrado). desempean en el modelamiento estadstico.

Captulo 5
posterior utilizacin en Conocimiento de la funcin de probabilidad
situaciones de Distribuciones de variable
binomial en las decisiones bajo incertidumbre que
incertidumbre. discreta (binomial).
implican nicamente dos resultados posibles.
Utilizar los conocimientos Determinacin de estimaciones puntuales e

Estimacin de parmetros.
fundamentales tericos intervalos de confianza para medias y proporciones.
sobre la estimacin y los
Captulo 6 contrastes de hiptesis, Realizacin de inferencias sobre la poblacin a
para la resolucin de Contrastes de hiptesis. partir de una muestra aleatoria mediante el
situaciones prcticas en la planteamiento de la hiptesis nula.
empresa.
Anlisis de la existencia o no de diferencias

Elaborar los razonamientos Comparacin de dos o ms
significativas entre varias poblaciones por medio del
lgicos para la eleccin del medias poblacionales.
planteamiento de la hiptesis nula.
Captulo 7 modelo ms adecuado a la
hora de comparar dos o Anlisis de la homocedasticidad de diferentes
Comparacin de dos o ms
mas poblaciones. poblaciones como condicin indispensable para la
varianzas poblacionales.
aplicacin de los estadsticos.
Determinacin del coeficiente de correlacin lineal

Analizar la relacin entre Correlacin.
de Pearson de dos variables cuantitativas.
Captulo 8 dos o ms variables
cuantitativas. Establecimiento de un modelo de regresin y
Regresin lineal simple.
estimacin de los parmetros correspondientes.
2 ESTADSTICA PARA LA TOMA DE DECISIONES

CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES
Captulo 1
CRITERIO ESTADSTICO
P A RA L A T O M A
DE DECISIONES
1.1. INTRODUCCIN
En todo proceso de decisin se necesita recabar informacin que sea capaz de
responder a nuestras indagaciones. Para que los resultados sean fiables, tanto la
recogida de datos como su anlisis deben ser realizados con criterio y de forma
objetiva.
Las herramientas estadsticas permiten recolectar, analizar e interpretar de forma

inteligente los datos relevantes en el proceso de toma de decisin. De esta manera,
para que la utilizacin de los resultados estadsticos se haga de una forma correcta,
resulta necesario que el gerente conozca los principios bsicos de las tcnicas usadas.
Los gerentes y profesionales, en general, necesitan justificar sus

decisiones basndose en la informacin proporcionada por los datos.
La estadstica ayuda a tomar decisiones econmicas bajo incertidumbre, a predecir con

eficacia pautas de comportamiento de las variables, en definitiva, a crear modelos sobre
los que basar dichas decisiones.

Los modelos estadsticos (p.e. el anlisis de regresin) se emplean actualmente en

varios campos de negocio y de la ciencia, permiten predecir o identificar los factores
ms influyentes, adems de estudiar el impacto sobre las variables dependientes para
cualquier cambio en sus valores actuales.
A diferencia del modelo determinista, en los procesos de toma de decisiones bajo

incertidumbre, las variables son ms numerosas y ms difciles de medir y controlar, por
lo que las nuevas tecnologas resultan hoy da imprescindibles para encontrar un modelo
que responda a nuestras necesidades como gerentes.
En este sentido, la utilidad de la estadstica de negocio puede reflejarse en numerosos

campos y aplicaciones:
- Empleo de tcnicas de muestreo aleatorio en el mbito de la auditora.

- Aseguramiento de la calidad de los productos, gracias al empleo de tcnicas
estadsticas de control de la calidad.
- Empleo de mtodos de regresin y correlacin para entender las relaciones

entre variables y predecir comportamientos.
- Utilizacin de pruebas de significancia para aceptar o rechazar una hiptesis.
- Empleo de tcnicas estadsticas para la prediccin, por ejemplo, en el mbito de
las ventas.
En definitiva, se trata de utilizar la estadstica como una herramienta diferenciadora

respecto de la competencia para aproximarse a la solucin que satisfaga las
necesidades de empresa, y as crear una oportunidad de negocio que nos permita
posicionarnos en el mercado de manera estratgica.

La Estadstica para la toma de decisiones puede dividirse en:
- Estadstica Descriptiva. Aquella que describe las caractersticas de una serie de

datos pertenecientes a una poblacin o a una muestra (recogida, descripcin,
anlisis y sumatorio de datos).
- Estadstica Inferencial. Dado el desconocimiento de la poblacin, en la prctica,
el profesional buscar hacer inferencias para la toma de decisiones, es decir,
predicciones sobre ciertas caractersticas de la poblacin, basndose en la
informacin contenida en una muestra al azar1 (o aleatoria) de la poblacin
entera.
La estadstica inferencial puede utilizarse para explicar un fenmeno o para
comprobar la validez de una proposicin. En el primer caso, se denomina
anlisis exploratorio de datos y, en el segundo, anlisis confirmatorio de datos.
1. Esta condicin es fundamental para asegurarse que una muestra es representativa con respecto a la poblacin.

La Estadstica Descriptiva es la base de la Estadstica Inferencial.
1.2. POBLACIN Y MUESTRA
La poblacin se podra definir como el conjunto de todos los individuos (personas,

animales, plantas, cosas) de los que nos interesa estudiar ciertos datos. Algunos
ejemplos de poblacin son: la edad de los habitantes de un pas o regin, la vida media
de las bombillas, el nmero de alumnos que cursa primaria, entre otros.
Debido a la prctica imposibilidad de estudiar todos los individuos que componen una
poblacin por su coste en tiempo y dinero, en la prctica, se recurre a utilizar una
muestra aleatoria, que no es ms que un subconjunto de la poblacin, y que nos servir
para hacer inferencias sobre la misma.
A partir de una muestra escogida al azar de una poblacin, pueden sacarse

conclusiones sobre sus caractersticas particulares. La muestra debera ser
representativa de la poblacin.
Generalmente, se asocia la palabra parmetro a las medidas que provienen de la

poblacin y estadstico a las originarias de la muestra. De esta manera, nos referimos
a la media poblacional como el parmetro () y a la desviacin tipo o estndard como el
parmetro (). Anlogamente, se hablara de la media muestral como el estadstico X y

de la desviacin tipo de la muestra como el estadstico S.
Las letras griegas representan parmetros y las latinas simbolizan estadsticos.
En resumen, la media (desviacin tipo) muestral es una estimacin imparcial de la media

(desviacin tipo) poblacional. Por extensin, la funcin de distribucin emprica es una
estimacin imparcial de la funcin de distribucin de la poblacin F(x).

1.2.1. TAMAO DE LA MUESTRA
El tamao de la muestra (n) debe definirse en la etapa de planificacin de la toma de

decisiones. Normalmente, como aproximacin, puede utilizarse la expresin:
0 ,5
n = N + 1
donde:
n= tamao de la muestra.
N= poblacin finita de tamao N.
El valor de n resultante se redondea al nmero entero ms cercano. Naturalmente,

mientras ms grande sea la muestra, mayor ser la informacin que proporcione y, en
consecuencia, la estimacin ser ms exacta.
La eleccin del tamao de la muestra es un paso muy importante que se ver con

detalle ms adelante.
1.2.2. TCNICAS DE MUESTREO
Un problema tpico que se plantea a la hora de tomar decisiones sucede cuando se debe
hacer inferencias sobre una poblacin determinada y se encuentra que el coste en
tiempo y dinero supera todas las previsiones.

Tal y como se ha mencionado con anterioridad, el procedimiento consisitira en escoger
una muestra y adoptar una solucin de compromiso, puesto que los resultados
obtenidos seran nicamente una estimacin del valor real que deseamos encontrar. Eso
s, nos habramos ahorrado gran cantidad de recursos.
No obstante, nos quedara la duda de si nuestra estimacin es la mejor de todas las

posibles, y ello est relacionado con los mtodos comunes de muestreo estadstico
empleados en los negocios:
- Muestreo de grupos: se requiere que la poblacin sea homognea, pero puede

estar agrupada en diferentes lugares. Por ejemplo, una empresa que tenga
sucursales en diferentes pases no hace falta que recoja datos de todas y cada
una de ellas, sino que puede realizar un muestro aleatorio de un pequeo grupo
de dichas sucursales para sacar conclusiones sobre el total.
- Muestreo estratificado: se utiliza siempre que la poblacin pueda ser

particionada en subpoblaciones ms pequeas.

- Muestreo aleatorio: sin lugar a dudas, es el ms empleado en la toma de

decisiones de hoy da. Es importante que el muestro aleatorio se realice con la
ayuda de un ordenador.
- Muestreo de seleccin cruzada: estudia las observaciones de una poblacin

definida en un momento o intervalo de tiempo determinado.
1.3. ETAPAS DE UN PROCESO DE TOMA DE

DECISIONES
La figura 1.1 ilustra las principales etapas de un proceso de toma de decisiones

estadsticas.
Figura 1.1: Etapas usuales de un proceso de toma de decisiones estadsticas.
1.3.1. DEFINICIN DEL PROBLEMA Y OBJETIVOS
Es muy importante definir claramente el problema y formular los objetivos que se

quieren conseguir, ya que stos servirn para desarrollar las etapas posteriores de la
investigacin.
Esta etapa debe responder a preguntas clave tales como: cul es el objetivo del estudio
o de las preguntas a responder? A qu poblacin va dirigida el proceso de toma de
decisiones?

Por ejemplo, como objetivo general, a un gerente le convendra conocer el perfil de

trabajo de los funcionarios de una determinada empresa, para orientar la poltica de
recursos humanos. En este caso, deberamos especificar mejor lo que queremos
conocer dentro de la poblacin de funcionarios, es decir, los objetivos especficos:
- conocer el tiempo medio de servicio de los funcionarios de la empresa;
- conocer el grado de instruccin de los funcionarios;
- verificar el inters de los funcionarios en participar en programas de

entrenamiento;
- evaluar el grado de satisfaccin de los funcionarios en el trabajo que ejercen

dentro de la empresa; y,
- verificar si existe asociacin entre el grado de satisfaccin del funcionario y su

productividad.
La elaboracin de los objetivos especficos debe realizarse de tal manera que indiquen

una primera aproximacin de las caractersticas que se necesite observar o medir. De
esta manera, se precisaran observar las siguientes variables de cada funcionario de la
empresa:
- tiempo de servicio;
- grado de instruccin;
- inters en la participacin de programas de entrenamiento; y,
- grado de satisfaccin del trabajo y productividad.

1.3.2. PLANIFICACIN DE LA INVESTIGACIN
Los datos deben ser recogidos segn un plan que garantice que la informacin es vlida.
El plan debe identificar las variables importantes relacionadas con el problema, y
especificar cmo stas van a ser medidas (modelo estadstico).
Previamente a la recogida de la muestra, es importante que la poblacin sea definida de

forma cuidadosa y en su integridad.
En este contexto se responder a preguntas tales como: cmo es la muestra que se

seleccionar? Existen posibles fuentes de seleccin que haran la muestra no
representativa? Qu previsiones deben hacerse para trabajar en caso de anomalas?
entre otras.

1.3.3. RECOGIDA DE DATOS
En esta fase se proceder a la recogida de datos. Tal y como se ver a continuacin, en

estadstica, la informacin puede recogerse usando datos cualitativos o cuantitativos.
En este contexto, deber reflexionarse acerca si el mtodo de medida o clasificacin

cubre los objetivos, si existen posibles irregularidades en las mediciones (y/o conteo) o
si las observaciones son confiables, entre otras.
1.3.4. ANLISIS DE DATOS
En el anlisis exploratorio de los datos se emplean tcnicas grficas y numricas, que

proporcionan las pautas de conducta y el origen de los mismos. Dichas tcnicas sern
objeto de estudio a lo largo de los siguientes captulos.
A resultas del anlisis se conocer la forma, ubicacin, variablidad y anomalas

detectadas y se establecern conjeturas acerca de las relaciones entre variables. En

este sentido, el hecho de cmo una variable se encuentra relacionada con otra se podr
observar, por ejemplo, mediante comparaciones simples de proporciones a travs de la
regresin lineal.
1.3.5. RESULTADOS
Los resultados se deben representar de una forma clara y objetiva, sin caer en
demasiados tecnicismos, para permitir a los responsables de la toma de decisiones

entenderlos y juzgarlos. De lo contrario, todo el esfuerzo no habr servido para nada.
1.3.6. CONCLUSIONES
En este apartado se harn reflexiones sobre los resultados y se estudiar si son

relevantes en referencia a los objetivos propuestos.

1.4. VARIABLES Y DATOS
Se denomina variable a las caractersticas que pueden ser observadas (o medidas) en

cada elemento de la poblacin y que puede tomar diferentes valores en diferentes
individuos, bajo las mismas condiciones.
Las variables surgen cuando preguntamos qu vamos a observar

o medir en los elementos de una poblacin.
Por ejemplo, retomando el caso de los funcionarios mencionado con anterioridad,

algunos ejemplos de variables seran el tiempo de servicio, estado civil, productividad,
entre otras.
En este contexto, podramos pensar en formular preguntas del tipo:

- Desde cundo el Sr. (o Sra.) trabaja en esta empresa?___________________
- Cul es su estado civil?________________________
Sin embargo, estas preguntas no estn identificando de forma correcta las variables que
nos interesan, pues los funcionarios podran interpretarlas de diferentes maneras; por
ejemplo, para la primera pregunta pueden surgir respuestas tales como: hace poco ms
de 12 aos, hace mucho tiempo, entre otras. Es decir, las variables no estn siendo
observadas de una forma homognea.

En consecuencia, para que las observaciones sobre el tiempo de servicio se realicen de
una manera homognea, es preciso establecer una unidad de medida, por ejemplo, aos
completos de trabajo en una empresa:
- Desde cundo el Sr. (o Sra.) trabaja en esta empresa?
______aos completos.
En referencia a la variable estado civil, las posibles respuestas son atributos. Con el
fin de evitar alguna respuesta anmala, se pueden establecer previamente las posibles
alternativas de respuesta. De esta manera, la pregunta se reescribira:
- Cul es su estado civil? ( ) soltero ( ) casado
( ) viudo ( ) separado ( ) divorciado

1.4.1. TIPOS DE VARIABLES
Existen dos tipos de variables: cualitativas y cuantitativas.
Las variables cualitativas o categricas no se pueden medir por relaciones aritmticas, y

sus resultados son atributos o cualidades. Por ejemplo, variables de este estilo seran: el
estado civil de los funcionarios, el color, modelo y marca de los coches, entre otras.
Las variables cuantitativas se muestran como nmeros pertenecientes a una cierta

escala, por ejemplo, el tiempo de servicio (en aos completos), el peso, las
dimensiones, velocidad mxima de un vehculo, entre otras. En este grupo, indicadores
tales como la media y la desviacin tipo tiene sentido. A su vez, las variables
cuantitativas se pueden dividir en discretas y continuas.
Las variables cualitativas reflejan una cualidad del individuo, mientras que las
cuantitativas corresponden a caractersticas que reflejan cantidades.
Las variables cualitativas tambin pueden utilizar nmeros, aunque no por ello tienen
que reflejar cantidades. Por ejemplo, el nmero de telfono, el nmero de la calle donde
se vive o el DNI, son variables cualitativas que, por comodidad, emplean nmeros en
vez de nombres para definir los diferentes valores.
En la figura 1.2 se ilustra la clasificacin de las variables y datos en trminos de nivel de

medida.
Figura 1.2: Clasificacin de las variables y datos.
Siempre que una variable pueda ser medida correctamente de forma cuantitativa, se
debe usar este tipo de medida, porque las cuantitativas son, en general, ms
informativas que las cualitativas. Por ejemplo, decir que un funcionario hace 30 aos
que trabaja en la empresa proporciona mucha ms informacin que decir que hace
mucho tiempo que trabaja en la empresa.



Resumen



VA R I A B L E S CUALITATIVAS
Captulo 2
VAR I A B L E S C U A L I T A T I VA S
2.1. INTRODUCCIN
Tal y como se ha mencionado en el captulo anterior, los resultados de las variables

cualitativas (nivel de estudios, sexo, estado civil...) se estructuran en forma de
categoras. Por ejemplo, la variable color del pelo puede tener varias categoras como
rubio, moreno, canoso, entre otras, o al referirnos a la variable sexo (gnero) en un
conjunto de individuos, estaremos clasificando cada individuo en una categora
masculina y en otra categora femenina.
Si las variables cualitativas nicamente pueden tomar dos categoras, se denominan

dicotmicas: sexo, pertenencia a una organizacin (s-no), tener hijos (s-no), entre
otras.
Si las variables cualitativas pueden tomar ms de dos categoras, se denominan

politmicas: color del pelo, marca de un vehculo, entre otras.
2.2. DISTRIBUCIN DE FRECUENCIAS
Uno de los primeros pasos para entender el comportamiento de una variable es la

construccin de una distribucin de frecuencias.

La distribucin de frecuencias comprende la organizacin de los datos de

acuerdo con las pautas de comportamiento de los diferentes resultados
observados. Puede ser representada de forma tabular o grfica.
Para ilustrar la construccin de una distribucin de frecuencias, se considerar una

muestra de 40 familias pertenecientes a un conjunto residencial en Monte Verde
(Florianpolis). En concreto, se estudiar como variable el nivel de estudios del padre de
familia, en funcin de los siguientes cdigos o categoras:
1 = ninguno.
2 = nivel bsico.
3 = nivel medio.
Los resultados son:
DATOS

33223133322122323333
33322313233231113333
Con el fin de construir una distribucin de frecuencias con datos relativos a una variable
cualitativa, basta con contar la cantidad de resultados observados en cada categora
(tabla 2.1).

NIVEL DE FRECUENCIA
PORCENTAJE
ESTUDIOS ABSOLUTA
Ninguno 6 15
Nivel Bsico 11 27,5
Nivel Medio 23 57,5
Total 40 100
Tabla 2.1. Distribucin de frecuencias del nivel de estudios de los patriarcas de una muestra de 40
familias del conjunto residencial Monte Verde, Florianpolis - SC, 1988.
La primera columna de la tabla 2.1 muestra todas las categoras previamente

establecidas de la variable nivel de estudios. La segunda columna proporciona el
cmputo del nmero de observaciones identificadas en cada una de las categoras
(frecuencia absoluta). Por ltimo, la tercera columna presenta una medida relativa de la
frecuencia de cada categora. Los porcentajes se obtienen de dividir la frecuencia

absoluta de cada categora por el nmero total de observaciones (frecuencia relativa) y

multiplicar por 100.
Los porcentajes son particularmente importantes para

comparar distribuciones de frecuencia entre si.
La tabla 2.2 muestra tres distribuciones de frecuencias. La primera corresponde a la del

ejemplo anterior y, las restantes, a un estudio similar en dos localidades prximas.
LOCALIDAD
NIVEL DE ESTUDIOS ENCOSTO DO
MONTE VERDE PQ. DA FIGUEIRA
MORRO
Ninguno 6 (15,0)a 14 (32,6) 18 (48,7)
Nivel Bsico 11 (27,5) 14 (32,6) 13 (35,1)

Nivel Medio 23 (57,5) 15 (34,8) 6 (16,2)
Total 40 (100) 43 (100) 37 (100)
a. Los nmeros entre parntesis corresponden a los porcentajes en relacin al total de familias observadas en cada
localidad.
Tabla 2.2. Distribucin de frecuencias referida al nivel de estudios de los patriarcas de una muestra de
120 familias de tres localidades diferentes del barrio de Saco Grande II, Florianpolis - SC,
Brasil, 1988.
En la tabla 2.2 se puede observar que los patriarcas de las familias investigadas en el
Conjunto Residencial Monte Verde presentan los mejores resultados; por otro lado, en
Encosta do Morro se dan los peores resultados con casi un 50% de patriarcas con
ningn nivel de estudios.
El lector debe observar que al organizar y resumir los datos de una distribucin de
frecuencias, normalmente no se proporciona la informacin de cuntos elementos
pertenecen a cada categora, ya que para entender el comportamiento general de una
variable esa informacin no suele ser relevante.

2.3. REPRESENTACIN GRFICA
Las representaciones grficas ofrecen, en general, una mejor visualizacin de las pautas
de comportamiento de los datos que las tablas: por ello, constituyen una forma
alternativa de presentacin de las distribuciones de frecuencias.
Existen diferentes maneras de representar las variables cualitativas politmicas

(diagrama de puntos, diagrama de columnas, diagrama de barras, diagrama circular o de
sectores, entre otras).
A continuacin se presentarn los grficos de barra y de sectores, que son los ms

importantes a la hora de representar las distribuciones de frecuencias de los datos
categorizados.
2.3.1. DIAGRAMA DE BARRAS

La figura 2.1 representa la distribucin de frecuencias de la tabla 2.1 expresada por un
grfico de barras. Cada categora se representa por una barra proporcional a su
frecuencia (nmero de familias) dispuesta a lo largo del eje de abcisas, en tanto que en
el eje vertical se recogen los valores de la variable o categoras.
Figura 2.1: Distribucin de frecuencias del nivel de estudios de los padres de familia de una muestra de 40
Opcionalmente, se pueden presentar las categoras en el eje horizontal y la frecuencia

en el eje vertical. En este caso, el grfico se denomina diagrama de columnas.

2.3.2. DIAGRAMA CIRCULAR O DE SECTORES
Consiste en un circulo dividido en sectores, cada uno asignado a un valor de la variable,

y cuya superficie es proporcional a la frecuencia con que aparece dicho valor.
Con el fin de calcular el ngulo que abarca cada sector, basta con plantear una regla de
tres entre el ngulo (en grados) desconocido, la frecuencia total y la frecuencia
observada para cada categora, barriendo un ngulo de 360, segn:
1 6
=
360 40
donde:
6
1 = (360 ) = 54
40
Realizando el mismo procedimiento, se tiene:
Categora 1 (ninguno) sector de tamao 1= 54

Categora 2 (nivel bsico) sector de tamao 2= 99
Categora 3 (nivel medio) sector de tamao 3= 207
Con lo que el grfico de sectores quedar segn se ilustra en la figura 2.2.
Figura 2.2: Distribucin de frecuencias del nivel de estudios de los padres de familia de una muestra de 40

2.3.3. GRFICO DE BARRAS MLTIPLES
Con el fin de efectuar un anlisis comparativo de varias distribuciones, podemos

construir varios grficos de sectores o un grfico de barras mltiples, como el que se
ilustra en la figura 2.3, que representa grficamente las distribuciones de frecuencia de
la tabla 2.2.

Figura 2.3: Distribucin de frecuencias referida al nivel de estudios de los patriarcas de una muestra de
120 familias de tres localidades diferentes del barrio de Saco Grande II, Florianpolis - SC,
1988.
2.4. TABLAS DE CONTINGENCIA O DE DOBLE

ENTRADA
Las ciencias sociales y humanas tienen un inters comn en verificar la asociacin de

dos variables ante un cierto conjunto de elementos. Por ejemplo, puede ser interesante
descubrir cmo vara el tanto por ciento de los usuarios acogidos a un programa de
alimentacin popular con el nivel de renta de los mismos.

Este tipo de anlisis generalmente se presenta en tablas de contingencia o de doble

entrada, tal y como se ver a continuacin.
Con el fin de construir una distribucin conjunta de frecuencias, se deben observar

simultneamente las dos variables implicadas en el estudio.
La figura 2.4 muestra la construccin de una distribucin conjunta, tomando como

variables el nivel de estudios del patriarca de la familia y el uso de programas de
alimentacin popular.
CDIGOS DEL NIVEL DE ESTUDIOS
1. Ninguno
2. Nivel Bsico
3. Nivel medio
CDIGOS DE USO DEL PROGRAMA

DE ALIMENTACIN POPULAR
0. S
1. No
Figura 2.4: Construccin de la tabla de distribucin conjunta de frecuencias.
Para la construccin de la tabla de distribucin conjunta de frecuencias, cada elemento

(familia) debe pertenecer a una y solamente una celda de la tabla.
Realizando la clasificacin de todas las familias observadas y contando las frecuencias

de cada celda, se llega a la tabla 2.3.

USO DE NIVEL DE ESTUDIOS DEL PATRIARCA

TOTAL
PROGRAMAS NINGUNO BSICO MEDIO
S 31 22 25 78
NO 7 16 19 42
Total 38 38 44 120
Tabla 2.3. Distribucin conjunta de frecuencias de nivel de estudios del patriarca y uso de programas de
En la tabla 2.3 se puede observar que los totales por columnas proporcionan la
distribucin de frecuencias de la variable nivel de estudios del patriarca, mientras que el
el total por filas constituye la distribucin de frecuencias de la variable programas de
Para facilitar el anlisis de una tabla de contingencia, se pueden incluir las frecuencias

relativas (porcentajes), que pueden ser calculadas en relacin con los totales de las filas
y las columnas, dependiendo del objetivo.
En la tabla 2.4 se incluyen los porcentajes en relacin con los totales de las columnas.
Esta tabla evidencia los perfiles de uso de los programas de alimentacin popular,
considerando las familias separadas por nivel de estudios del patriarca (perfiles por
columnas).

TOTAL
S 31 (81,6)a 22 (57,9) 25 (56,8) 78 (65,0)
NO 7 (18,4) 16 (42,1) 19 (43,2) 42 (35,0)
Total 38 (100) 38 (100) 44 (100) 120 (100)
a. Los nmeros entre parntesis son los porcentajes en relacin con los totales de las columnas.
Tabla 2.4. Distribucin del uso de programas de alimentacin popular, segn el nivel de estudios del
patriarca.
Se puede observar que a un nivel de estudios ms bajo, la gran mayora de las familias
investigadas usan los programas (81,6%), mientras que a un nivel de instruccin ms
alto, poco ms de la mitad emplean dichos programas (56,8%).

La tabla 2.5 muestra los porcentajes en relacin con los totales de las filas. Esta tabla
evidencia los perfiles del nivel de estudio del patriarca (perfiles por fila), considerando la
muestra dividida en familias que usan y familias que no usan los programas. Se deja la
interpretacin de la tabla para el lector.

TOTAL
S 31 (39,7)a 22 (28,2) 25 (32,1) 78 (100)
NO 7 (16,7) 16 (38,1) 19 (45,2) 42 (100)
Total 38 (31,7) 38 (31,7) 44 (36,7) 120 (100)
a. Los nmeros entre parntesis son los porcentajes en relacin con los totales de las columnas.
Tabla 2.5. Distribucin del nivel de estudios del patriarca, segn el uso de programas de alimentacin
popular.



Resumen



VA R I A B L E S CUANTITATIVAS
Captulo 3
VAR I AB L E S
C U A N T I T A T I VA S
3.1. INTRODUCCIN
Cuando se estudia una variable que es posible medir de forma numrica, se tiene mucho
ganado en referencia a las tcnicas de anlisis exploratorio de datos. Este captulo trata
de la construccin de distribuciones de frecuencia de variables cuantitativas y sus
interpretaciones.
Una variable cuantitativa se denomina discreta cuando sus posibles valores pueden ser
listados. Por ejemplo, el nmero de hijos de una pareja o el nmero de habitaciones de
una casa, son ejemplos de variables discretas porque pueden asumir valores {0,1,2,...}
en referencia al primer caso o {1,2,3,...} por lo que respecta al segundo caso. Las
variables discretas generalmente resultan de un conteo.
Una variable cuantitativa se denomina continua cuando puede tomar cualquier valor en
un intervalo. Por ejemplo, el peso de un individuo es una variable continua, pues puede
asumir cualquier valor en un intervalo, digamos, de 0 a 300 kg. La variables continuas
acostumbran a ser generadas por un instrumento de medida.

VA R I A B L E S CUA NT IT AT IVAS
3.2. VARIABLES DISCRETAS
La construccin de distribuciones de frecuencias de datos de variable discreta puede ser

hecha de la misma forma que una frecuencia de datos categorizados, siempre que no
exista una gran cantidad de diferentes valores observados1.
Como ejemplo, se considerar el nmero de personas residentes en el domicilio,

considerando una muestra de 40 residencias del Conjunto Residencial Monte Verde.
DATOS
4 4 4 5 4 1 2 3 6 4 6 4 4 6 3 5 3 4 4 4
5 5 5 4 8 4 5 3 4 5 5 2 5 2 6 8 3 5 5 3
La tabla 3.1 representa la distribucin de frecuencias de los datos, construida en base a

contabilizar el nmero de repeticiones de cada valor.

NMERO FRECUENCIA PORCENTAJE
DE PERSONAS DE RESIDENCIAS DE RESIDENCIAS
1 1 2,5
2 3 7,5
3 6 15,0
4 13 32,5

5 11 27,5
6 4 10,0
7 0 0,0
8 2 5,0
Tabla 3.1. Distribucin de frecuencias del nmero de personas residentes para una muestra de 40
residencias del Conjunto Residencial Monte Verde, Florianpolis - SC, 1988.
Con el fin de representar grficamente la distribucin de frecuencias de una variable

cuantitativa, se deben construir un par de ejes cartesianos. En abcisas (eje horizontal),
se ubicar una escala para representar los valores de la variable de estudio y, en
ordenadas (eje vertical), se representar la frecuencia de cada valor.
1. Cuando una variable discreta presenta un gran nmero de diferentes valores observados, se pueden emplear artificios
propios para variables continuas, tal y como se ver ms adelante.

En la figura 3.1 se ilustran dos formas alternativas de representacin grfica de la

distribucin de frecuencias mostrada en la tabla 3.1. La primera consiste en realizar
trazos verticales sobre los valores efectivamente observados (figura 3.1A). En la
segunda representacin se sustituyen los trazos por barras (figura 3.1B). Las barras
deben tener todas ellas la misma anchura.
El eje vertical (frecuencias) siempre debe partir de cero, mientras que el horizontal
(valores de la variable) puede iniciarse con el valor mnimo que sta pueda tomar.
Figura 3.1: Representaciones grficas de la distribucin de frecuencias de la tabla 3.1.
3.3. VARIABLES CONTINUAS
En este caso carece de sentido contar las veces que se repite cada valor, ya que
considerando que difcilmente los valores se repiten, no se llegara a unas conclusiones
apropiadas.
3.3.1. EL DIAGRAMA DE PUNTOS
Cuando se tiene un conjunto de pocos datos, se pueden analizar a travs de un

diagrama de puntos, es decir, representando cada resultado (valor) por un punto en una
recta de nmeros reales (figura 3.2).

Figura 3.2: Construccin de un diagrama de puntos.
Es posible colocar dos o ms distribuciones en un mismo grfico, basta con identificar

los puntos con smbolos diferentes y ubicarlos a otro nivel, tal y como se indica en la
figura 3.3.

Figura 3.3: Diagrama de puntos del ndice de Desarrollo Humano (IDH), pertenecientes a dos muestras
aleatorias de catorce municipios de la regin del sur y de la regin del norte2.
Los municipios de la muestra de la regin del sur presentan, en general, unos valores de
IDH mayores que los municipios de la muestra de la regin del norte. Tambin se
observa que ambas muestras de municipios se diferencian en cuanto a la dispersin de
los datos. En este sentido, en la regin del sur los municipios presentan valores de IDH
relativamente prximos (mayor homogeneidad), mientras que en la muestra de la regin
del norte, los valores varan bastante de municipio a municipio (mayor heterogeneidad).
2. Datos extrados del Atlas do Desenvolvimiento Humano (http://www.pnud.org.br/atlas). El IDH, calculado para cada
municipio, fue construido en base al censo demogrfico de 2000. Observe que en este ejemplo los elementos de las
muestras son municipios.

3.3.2. LA TABLA DE FRECUENCIAS
Sin embargo, lo ms usual es que trabajemos con un conjunto de un centenar o millares

de datos observados, haciendo impracticable la utilizacin del diagrama de puntos. En
este caso, podremos construir distribuciones de frecuencias, agrupando los resultados
en clases preestablecidas.
Las clases son pequeos intervalos mutuamente exclusivos que, agrupados todos
juntos, abarcan todo el conjunto de datos. En otras palabras, las clases deben ser
construidas de tal manera que todo valor observado pertenezca a una y solamente una
clase. Por simplicidad, y para facilitar la interpretacin, se considerarn todas las clases
con una misma amplitud.
Como ejemplo, se emplearn las tasas de alfabetizacin de una muestra aleatoria de 40

municipios de Brasil3.
DATOS
57,25 76,85 92,90 89,07 75,49 84,33 65,28 94,59 71,20 82,30
72,81 66,01 90,52 87,94 58,88 86,34 45,37 81,15 94,83 81,42
54,70 67,95 69,91 95,03 77,62 57,14 91,22 64,65 85,70 81,34
59,07 68,04 73,22 95,34 88,40 83,52 64,19 64,17 95,34 84,66
Se puede observar que todos los valores se encuentran en un intervalo de 40 a 100 (el
menor valor es de 45,37 y el mayor es de 95,34). Se tienen que definir un conjunto de
clases mutuamente exclusivas, tales que, todas agrupadas, contengan todos los
valores. Una posible opcin sera construir 6 (seis) clases con una amplitud aproximada
de 10, tal y como se muestra a continuacin:
de 40,00 a 49,99; de 50 a 59,99;.....; de 90,00 a 99,99.
Para simplificar la notacin, estas clases se representarn por:
40,00 | 50,00; 50,00 | 60,00;...; 90,00 | 100,00
donde el smbolo | representa el intervalo entre dos variables, incluyendo el valor del
lado izquierdo y excluyendo el valor del lado derecho.
La tabla de frecuencias se construye a travs de la contabilizacin de la frecuencia de

observaciones de cada clase, tal y como se muestra en el cuadro siguiente:
3. Datos del censo demogrfico, 2000 (http://www.ibge.gov.br).

CLASES CONTABILIZADO FRECUENCIA
40 | 50 | 1
50 | 60 ||||| 5
60 | 70 ||||| ||| 8
70 | 80 ||||| | 6
80 | 90 ||||| ||||| || 12
90 | 100 ||||| ||| 8
En la representacin de una tabla de frecuencias es comn colocar tambin los puntos

medios de las clases, es decir, para cada clase, la media de sus lmites. Por ejemplo,
para la clase 40 | 50 el punto medio es 45. El punto medio representa el valor tpico
de la clase.
En la tabla 3.2 se representa la distribucin de frecuencias de los datos en cuestin.

CLASES DE TASA DE PUNTO FRECUENCIA DE PORCENTAJE DE
ALFABETIZACIN MEDIO MUNICIPIOS MUNICIPIOS
40 | 50 45 1 2,5
50 | 60 55 5 12,5
60 | 70 65 8 20,0

70 | 80 75 6 15,0
80 | 90 85 12 30,0
90 | 100 95 8 20,0
TOTAL - 40 100,0
Tabla 3.2. Distribucin de frecuencias de las tasas de alfabetizacin de una muestra aleatoria de 40
municipios brasileos.
El nmero de clases empleado en la tabla de frecuencias se escoge de manera arbitraria.

En este sentido, cuanto mayor es el conjunto de datos, pueden ser usadas un mayor
nmero de clases. Hay que tener presente que una tabla con pocas clases presenta una
distribucin de forma bastante pobre, pudiendo no evidenciar algunas caractersticas
relevantes. Por otro lado, si se emplean muchas clases, la tabla puede adquirir grandes
dimensiones y enmascarar los aspectos relevantes de la distribucin de frecuencias
dentro de la maraa de datos.

En general, un nmero adecuado de clases oscila entre cinco y veinte, dependiendo de

la cantidad de datos y de los objetivos. Una sugerencia es emplear n clases, donde n
es la cantidad de valores4.
Siguiendo con nuestro ejemplo, n=40, resultando as un valor de 6,32. Esto sugiere
emplear seis o siete clases. Nos quedamos con seis clases. Dado que los datos
extremos son 45,37 (menor) y 95,34 (mayor), se tiene una amplitud total de 95,34-
45 ,37 50 . Asimismo, si las clases se inician por el valor menor, cada clase debe tener
una amplitud de: 50/6=8,33. Para facilitar la lectura de la tabla de frecuencias, se
optar por iniciar en 40 y usar intervalos de clase iguales a 10.
En la figura 3.4 se ilustra, de forma esquemtica, el intervalo donde se encuentran los

datos.
Figura 3.4: Intervalo donde se encuentran las tasas de alfabetizacin de la muestra de 40 municipios
brasileos.
Una forma alternativa de presentar las distribuciones de frecuencia de variables

cuantitativas es a travs de grficos, tales como los histogramas o los polgonos de
frecuencia, los cuales se presentan a continuacin.
3.3.3. HISTOGRAMA
La figura 3.5 muestra un histograma construido a partir de la tabla 3.2. Se puede

observar que la altura de cada rectngulo es proporcional a la frecuencia observada de
la correspondiente clase5.
4. Cuando se tienen valores discrepantes dentro de un conjunto de datos, se recomienda que el nmero de clases sea
mayor.

Figura 3.5: Distribucin de frecuencia de las tasas de alfabetizacin de una muestra de municipios
brasileos, ao 2000.
Los histogramas son representaciones similares a los diagramas de columnas, pero

utilizan rectngulos contiguos en vez de columnas separadas.
En la figura se observa un contingente razonable de municipios cuyas tasas de

alfabetizacin se encuentran por encima de 80, es decir, dentro de la poblacin adulta,
existe un porcentaje superior al 80% de alfabetizados. Por otro lado, tambin se tienen
municipios con tasas de alfabetizacin muy bajas (entre 50 y 80). Un anlisis similar por
regin demogrfica podra aportar nuevo tipo de informacin relevante.
Uno de los usos principales de los histogramas es determinar su unimodalidad, como

condicin necesaria para la homogeneidad de la poblacin, en vistas a realizar cualquier

anlisis estadstico significativo.
3.3.4. POLGONO DE FRECUENCIAS
El polgono de frecuencias es una representacin grfica alternativa. Para construirlo, se

toma el punto medio (x) que corresponde a la frecuencia (f) de cada clase. Se colocan
los pares (x, f) como puntos en un par de ejes cartesianos.
La figura 3.6 muestra el polgono de frecuencias construido a partir de la tabla 3.2. El

lector observar que la informacin ofrecida por el polgono de frecuencias es
equivalente a la proporcionada por el histograma.
5. Cuando las clases no tienen la misma amplitud, resulta necesario realizar algunos ajustes. Vase, por ejemplo, Bussab
e Morettin (2002, p.27). El histograma tambin podra ser realizado en base a porcentajes en el eje vertical, aunque
su forma no cambiara.

Figura 3.6: Distribucin de frecuencia de las tasas de alfabetizacin de una muestra de municipios
brasileos, ao 2000.
La figura 3.7 presenta dos polgonos de frecuencias en un mismo grfico. El uso de

porcentajes en lugar de frecuencias absolutas es adecuado porque facilita las
comparaciones entre ambas distribuciones de renta.
Figura 3.7: Distribucin de frecuencias de las rentas familiares de Monte Verde (muestra de 40 familias) y
Encosta do Morro (muestra de 37 familias), Barrio Saco Grande II, Florianpolis -SC, 1988.

El lector debe observar que un grfico como el de la figura 3.7 permite explorar posibles
relaciones entre una variable cuantitativa (renta) y una variable cualitativa (localidad). Al
comparar histogramas o polgonos de frecuencias, se debe observar su posicin
respecto el eje horizontal, su dispersin y su asimetra.
Se dice que una distribucin es simtrica cuando un lado

de la distribucin es el reflejo del otro lado.
En las medidas fsicas resulta habitual tener distribuciones razonablemente simtricas.

Esto no ocurre, por ejemplo, en las distribuciones de renta, ya que existen por regla
general un mayor nmero de personas con baja renta que con alta (figura 3.8).

Figura 3.8: Diferentes formas de distribuciones de frecuencias.
3.4. OBSERVACIONES A LO LARGO DEL TIEMPO
En muchas ocasiones los datos se recogen en diferentes momentos o intervalos de

tiempo, siendo el objetivo evaluar la variacin temporal de aquellos. El trazado, con la
variable de inters colocada en el eje vertical y el tiempo en el eje horizontal, puede
evidenciar una tendencia a la estacionalidad o bien descubrir algn valor relevante.

El grfico de la figura 3.9 ilustra la variacin media del caudal de un ro a lo largo diez
aos consecutivos.
Figura 3.9: Variacin media del caudal de un ro a lo largo del tiempo.
En el grfico de la figura 3.9 se evidencia un valor relevante en el ao 1996, mostrado

como atpico, ya que la variacin es sensiblemente superior al de los otros aos. Ya
veremos en los prximos captulos qu hacer cuando se presenten datos de este estilo,
pues deben investigarse antes de descartarlos por algn tipo de error en la medida.



Resumen



ESTADSTICA DESCR IPT IVA
Captulo 4
ESTADSTICA
D E S C R I P T I VA
4.1. INTRODUCCIN
En captulos anteriores aprendimos a organizar los datos en distribuciones de

frecuencias donde era posible visualizar la forma en que una variable se distribua en
trminos de elementos observados.
En este captulo se emplear otra estrategia que puede ser usada de forma alternativa
para complementar, describir y explorar datos cuantitativos.
En efecto, cuando la variable de estudio es cuantitativa, se pueden utilizar estadsticos

que proporcionan informacin especfica sobre el conjunto de valores que puede tomar
una cierta variable.
De esta manera, se tienen las medidas de posicin, que son parmetros que indican
dnde se sita o posiciona una serie, hacia dnde tiende y alrededor de qu valor se
sitan los datos observados; y las medidas de dispersin, que indican cmo se sitan
los valores, es decir, si se agrupan alrededor de las medidas centrales o, por el
contrario, se encuentran dispersos, alejados de su centro.

ESTADSTICA DESCRIPTIVA
Entre las medidas de posicin, las ms importantes son las de tendencia central, y entre
stas, la media, la mediana y la moda. Entre las medidas de dispersin se encuentra la
varianza y la desviacin tipo.
Por ejemplo, para conocer el peso de los recin nacidos de una comunidad, se puede
calcular la media o mediana de los pesos de dichas criaturas al nacer y, para tener una
idea de la magnitud de variacin del peso de los neonatos, podemos calcular la
desviacin tipo.
4.2. MEDIA, VARIANZA Y MODA
4.2.1. MEDIA ARITMTICA
El concepto de media aritmtica - o simplemente media - es bastante familiar. Desde el

punto de vista matemtico se define como la suma de un conjunto de valores dividida
por el nmero de valores observados.
Por ejemplo, dada la nota final de ocho alumnos (4,5,5,6,6,7,7 y 8), se puede calcular
la media por:
4 +5+5+6+6+7 +7 +8
=6
8
De modo general, dado un conjunto de n valores observados de una cierta variable X, se

puede definir la media por:
x
X =
n
donde:
X= suma de los valores observados de la variable X.
En la tabla 4.1 se muestran las notas finales de los alumnos pertenecientes a tres aulas
dentro del mismo curso escolar.

MEDIA POR
AULA NOTAS DE LOS ALUMNOS
AULA
A 4 5 5 6 6 7 7 8 6,00
B 1 2 4 6 6 9 10 10 6,00
C 0 6 7 7 7 7,5 7,5 6,00
Tabla 4.1. Notas finales de los alumnos por aula y su media.
La media aritmtica es la medida de tendencia central

ms comn para las variables cuantitativas.
En la figura 4.1 se muestran estos tres conjuntos de valores representados por un

diagrama de puntos.
Figura 4.1: Representacin de la distribucin de las notas en las tres aulas y sealizacin de las medias
respectivas.
En la figura 4.1 se ilustra que en cada uno de los diagramas de puntos, la media
aritmtica se presenta, de alguna forma, en la posicin central de los valores
observados. Ms propiamente, se puede decir que la media seala el centro de un
conjunto de valores. Haciendo una similitud con el concepto fsico de punto de
equilibrio, la media sera la posicin que equilibrara los pesos repartidos sobre una
tabla.
En esta figura tambin se observa que los tres conjuntos de valores, a pesar de estar
distribuidos de diferentes maneras, tienen la misma media aritmtica. Este hecho indica
que este estadstico resume un conjunto de datos alrededor de una posicin central,
pero no aporta ninguna otra informacin sobre otros aspectos de la distribucin.

Si comparamos las notas del aula A con la notas del aula B, se verifica que en esta
ltima existe una mayor dispersin de los datos, lo que indica que el aula B es ms
heterognea en cuanto a las notas obtenidas. Por otro lado, en el conjunto de notas del
aula C se observa una nota extremadamente baja, un punto discrepante o anomala, que
acarrea que la media de este grupo baje sensiblemente1.
Con el fin de explicar mejor el conjunto de datos, aparte de la media aritmtica, se debe
acompaar una medida de la dispersin de los datos, y que se conoce como varianza, o
bien, desviacin tipo.
4.2.2. VARIANZA Y DESVIACIN TIPO
Tanto la varianza como la desviacin tipo son medidas que proporcionan informacin
complementaria a la aportada por la media aritmtica. En concreto, explican la
dispersin de los datos, es decir, cunto se dispersa un conjunto de valores con
respecto a la media . Estamos midiendo variabilidad.

Una variabilidad grande indica una baja calidad de los datos. Cuanto
ms grande sea la varianza, menor ser la calidad de los datos.
Con el fin de calcular la varianza, se puede considerar la suma de las desviaciones de

cada valor en relacin con la media aritmtica, elevar al cuadrado, y dividir la suma de
los cuadrados por (n-1).

En el siguiente cuadro se describen las etapas a seguir para el clculo de la varianza.
DESCRIPCIN NOTACIN RESULTADOS NUMRICOS
Valores (notas de los alumnos) X 4 5 5 6 6 7 7 8
Media X 6
Desvos en relacin a la media X- X -2 -1 -1 0 0 1 1 2
Desvos cuadrticos (X X ) 2 4 1 1 0 0 1 1 4
1. En este caso, la media no es una estimacin fiable del conjunto de datos. En un prximo apartado se ver el
tratamiento ms adecuado para variables que contengan anomalas o valores discrepantes.

Para evitar el problema de los desvos negativos2 , se elevarn stos al cuadrado

( X X ) 2 . La varianza ser definida como la media aritmtica de los desvos
cuadrticos3. Por conveniencia, se calcular esta media, usando como denominador (n-
1) en lugar de n.
Finalmente, la varianza de un conjunto de valores se define por la expresin:
(X - X)2
S2 =
n 1
donde:
s2= varianza de la muestra.
(X X ) 2 = suma de los desvos cuadrticos.
n= n de valores del conjunto de datos.
De esta manera, el conjunto de notas del aula A tiene como varianza:

4 +1+1+ 0 + 0 +1+1+ 4
S2 = = 1,71
8 1
Debido a que la varianza de un conjunto de valores se calcula en funcin de sus desvos

cuadrticos, las unidades de medida estn al cuadrado. En este contexto, resulta ms
cmodo trabajar con la raz cuadrada positiva de la varianza. Esta medida se conoce
como desviacin tipo, la cual se expresa en la misma unidad de medida de los datos del
anlisis.
En consecuencia, la desviacin tipo de un conjunto de valores se puede calcular:
(X - X )2
S=
n 1
Siguiendo con el ejemplo, la desviacin tipo del conjunto de notas del aula A sera:
S= 1,71 = 1,31
2. Las desviaciones se elevan al cuadrado porque, de lo contrario, siempre se obtendra un valor nulo a resultas de la
suma.
3. Muchos autores acostumbran a diferenciar en la frmula de la varianza cuando los datos se refieren a una poblacin
o a una muestra. Desde este enfoque, cuando los datos representan una poblacin de N elementos, el denominador
es N. Si los datos se refieren a una muestra de n elementos, se recomienda usar como denominador n-1. Nosotros
utilizaremos por simplicidad este segundo caso.

Si comparamos las desviaciones tipo de varios conjuntos de datos, podremos evaluar si

se distribuyen de forma ms o menos dispersa. La desviacin tipo es siempre positiva y
tanto mayor cuanto ms lo sea la dispersin de los valores observados.
X y S 2 son los mejores estimadores para y 2.
La tabla 4.2 muestra la desviacin tipo de las notas de cada una de las tres aulas.
NMERO DE DESVIACIN
AULA MEDIA
ALUMNOS TIPO
A 8 6,00 1,31
B 8 6,00 3,51
C 7 6,00 2,69
Tabla 4.2. Media y desviacin tipo respectiva de las notas finales de los alumnos por aulas.

Al analizar la tabla 4.2 se verifica que los alumnos de las tres aulas tienen sus medias
alrededor de 6, pero si analizamos las desviaciones tipo correspondientes, se observa
que las notas de los alumnos del aula A tienen sus notas relativamente prximas las
unas de las otras, mientras que las de los alumnos del aula B se presentan de una forma
ms heterognea. A estas mismas conclusiones se puede llegar si se observa la grfica
de la figura 4.1.
4.2.3. FRMULA ALTERNATIVA PARA EL CLCULO DE LA DESVIACIN TIPO
Al calcular las desviaciones X - X , en ocasiones en que la media pueda tener un valor

fraccionario, se pueden producir errores de redondeo que podran comprometer el
resultado final. Para evitar este inconveniente, se puede utilizar la siguiente expresin de
clculo de la desviacin tipo y que es matemticamente equivalente a la vista con
anterioridad:
2
X2 nX
S=
n -1
donde:
- X2= suma cuadrtica de los valores.

- X2 = valor de la media elevada al cuadrado.
- n= nmero de valores del conjunto de datos.

Ilustraremos el empleo de esta nueva frmula con el ejemplo de las notas obtenidas por
los alumnos del aula A:.
Valores (notas) X 4 5 5 6 6 7 7 8 ( X =6)

Valores al cuadrado X2 16 25 25 36 36 49 49 64 (X2 =300)
donde:
300 - 8.(6)2 300 288 12

S= = = = 1,31
7 7 7
Tal y como era de esperar, se llega al mismo resultado obtenido con anterioridad.
Otro aspecto relativo al clculo de la desviacin tipo es el referente a los valores

repetidos. Por ejemplo, para calcular el sumatorio de las notas de los alumnos del aula
A, fijmonos en la siguiente expresin:
(X) = 4 + 5 + 5 + 6 + 6+ 7 + 7 + 8,
que es equivalente a
4(1) + 5(2) + 6(2) + 7(2) + 8(1) = (X)
donde consideramos solamente los valores diferentes de X y ponderamos por sus

respectivas frecuencias f de ocurrencia de dichos valores. Anlogamente, podemos
calcular la suma cuadrtica de los valores de X por:
(X2)= 42 + 52(2) + 62(2) + 72(2) + 82
Con esta nueva notacin, la frmula de medida de la desviacin tipo es:
X=
X e S=
(X ) nX
2
n n 1
En la tabla 4.3 se muestra la secuencia de clculo para la obtencin de la desviacin

tipo, usando las notas finales de los alumnos del aula A.

NOTA FRECUENCIA
Xf X2f
(X) (f)
4 1 4 16
5 2 10 50
6 2 12 72
7 2 14 98
8 1 8 64
Total 8 48 300
Tabla 4.3. Clculos auxiliares para la obtencin de X y S.
donde:
48 300 - 8(6)2
X= =6 e S= = 1,31
8 7
En las situaciones en que existan muchos valores repetidos, el procedimiento expuesto

facilita el clculo de X y S, como tambin reduce la posibilidad de errores
computacionales.
4.2.4. MODA
La moda (Mo) es el valor que ocurre con mayor frecuencia dentro de un sistema de
observaciones. Es una medida de tendencia central adecuada a escalas nominales,
aunque tambin se calcula para escalas numricas.

Una distribucin puede tener ms de una moda, en ese caso se dice que los datos son
bimodales, trimodales, etc.
Una poblacin homognea es una poblacin estadstica que tiene una nica moda. Con
el fin de determinar si una poblacin dada es o no homognea, debe construirse el
histograma de una muestra escogida al azar de la poblacin. En el caso de que haya
ms de una moda, se tiene una mezcla de diferentes poblaciones.
Para cualquier prueba estadstica que queramos realizar, siempre debemos

cercionarnos de que estamos tratando con poblaciones homogneas.
En la prctica totalidad de los anlisis estadsticos se asume que la poblacin es

homognea, es decir, su densidad (para variables aleatorias continuas) o la funcin total
de la probabilidad (para variables aleatorias discretas) es unimodal.

4.3. MEDIDAS BASADAS EN LA ORDENACIN DE LOS

DATOS
La media y la desviacin tipo son los estadsticos ms empleados para evaluar la

posicin central y la dispersin de un conjunto de valores. No obstante, estas medidas
estn fuertemente influenciadas por las anomalas. Por ejemplo, en las notas del aula C
el valor discrepante 0 (cero) tira de la media hacia abajo, tal y como se ilustra en la
figura 4.2.
Figura 4.2: La influencia de una anomala en el clculo de la media aritmtica.
A pesar de que la media aritmtica es 6 (seis), el diagrama de puntos sugiere que el

valor 7 (siete) sera una mejor estimacin para representar las notas del aula C, pues
adems de ser el valor ms frecuente, deja la mitad de las notas por encima y la otra
mitad por debajo.
DETECCIN DE ANOMALAS
Una varianza potencialmente grande es indicativa de la posible presencia de

una anomala, resultado de errores administrativos o de la propia recogida de
datos. Se debe ser muy cuidadoso y antes de clasificar una anomala como tal,
debe descubrirse por qu y de qu manera ocurri tal observacin.
Si no existe ninguna duda, la anomala debe ser quitada y el modelo

reformulado.
El procedimiento para descubrir una anomala es el siguiente:
1. Calcular la media X y la desviacin tipo S de la muestra entera.

2. Fijar los lmites: X k S, X + k S , donde un valor tpico de k es 2,5.
3. Eliminar todos los valores que se encuentren fuera de lmites.

4. Volver al paso 1.
5. En la mayor parte de los casos, se necesitar iterar con este mismo
algoritmo hasta que todas las anomalas queden eliminadas.
A continuacin se presentarn una serie de estadsticos que se ven menos afectados

por la presencia de anomalas y que, en consecuencia, son ms recomendables para
analizar variables que contengan este tipo de valores.
4.3.1. LA MEDIANA
Al igual que la media, la mediana es una medida de tendencia central que se caracteriza
por dividir la distribucin por la mitad, dejando el 50% de los valores menores a un lado
y el 50% de los valores mayores al otro lado. Por ejemplo, el conjunto de valores
{2,3,4,5,8} tiene como mediana el valor de 4 (cuatro), pues la cantidad de valores cuya

magnitud es inferior a 4 es la misma que la cantidad de valores cuya magnitud es
superior a 4.
Sin embargo, no todos los conjuntos de datos tienen un valor central tan ntido como el
expuesto en el ejemplo4. En este sentido, se precisa una definicin ms detallada de la
mediana.
Se define la mediana de un conjunto de valores como aquel valor que ocupa la posicin
n +1
2
, considerando los datos ordenados en orden decreciente. Si el valor n +1 es
2

fraccionario, se toma como mediana la media de los dos valores cuya posicin sea ms
prxima a n 2+1 . La mediana se representa por Md.
Algunos ejemplos son:
a) Conjunto de notas del aula C: {0; 6; 7; 7; 7; 7,5 7,5}

n+1
Posicin = 4 Md = 7
2
b) m5,3,2,8,4q m2,3,4,5,8q, Posicin n2+ 1 = 3 M = 4

Ordenado
d
c) m3,5,6,7,10,11q Posicin n2+ 1 = 3,5 M d =

6+7
2
= 6,5
4. En el conjunto de datos {3,5,6,7,10,11}, cualquier valor entre 6 y 7 podra ser usado como mediana.

4.3.1.1. Comparacin entre la media y la mediana
En la figura 4.3 se ilustran los valores de la media y de la mediana de un diagrama de

puntos. Ntese que la anomala 62 tira ms de la media que no de la mediana.
Figura 4.3: Ilustracin de la posicin de la media y la mediana en un diagrama de puntos.

La mediana proporciona una mejor medida de localizacin que la media cuando

existen algunas observaciones extremadamente grandes o extremadamente
pequeas, es decir, cuando los datos se sesgan a derecha o a izquierda.
La figura 4.4 ilustra la posicin de la media y la mediana en distribuciones con

diferentes formas: simtrica y asimtrica. En el primer caso, la media y la mediana
coinciden en la misma posicin5. Tal y como se muestra en el segundo caso, si el valor
de la mediana es menor que la media, los datos estn sesgados a la derecha (existe un
mayor nmero de individuos a la derecha de la curva), en caso contrario, los datos
estaran sesgados a la izquierda.
5. Se debe aclarar que para variables que supuestamente tengan distribuciones razonablemente simtricas, la media y
la mediana pueden no ser iguales ya que, en general, estamos considerando solamente algunos valores (muestras)
de estas variables. Para variables con distribuciones razonablemente simtricas, la media es la medida de posicin
central ms adecuada, por usar el mximo de informacin contenida en los datos. La media se calcula usando
propiamente la magnitud de los valores, mientras que la mediana utiliza solamente la ordenacin de los valores.

Figura 4.4: Posiciones de la media y de la mediana en funcin de la forma (simtrica o asimtrica) de la

distribucin.
En general, dado un conjunto de valores, la media es la medida de tendencia central ms

adecuada cuando se supone que estos valores tienen una distribucin razonablemente
simtrica, mientras que la mediana surge como alternativa para representar la posicin

central en distribuciones muy asimtricas. Muchas veces se calculan ambas medidas
para evaluar la posicin central bajo dos enfoques diferentes, como para tambin tener
una primera evaluacin sobre la asimetra de la distribucin.
4.3.2. LOS CUANTILES Y LOS EXTREMOS
En la prctica, el investigador est interesado en conocer los aspectos relativos al

conjunto de valores, aparte de los estadsticos de tendencia central. En este sentido, se

pueden obtener algunas informaciones relevantes a travs de un conjunto de medidas
denominados cuantiles: mediana, cuartiles, deciles, centiles o percentiles.
Los cuantiles nos indican los valores de las variables que ocupan determinados lugares
en el conjunto ordenado.
- La mediana, Md, tal y como se ha visto con anterioridad, es aquel valor de la

variable que divide la distribucin en dos partes iguales. En consecuencia, sera
un cuantil de orden 2.
- Los cuartiles son aquellos valores de la variable que dividen la distribucin en
cuatro partes iguales.
- El primer cuartil o cuartil inferior, QI, es el valor que delimita el 25% de los
valores menores.
- El segundo cuartil o cuartil medio, Q2 o Md, es propiamente la mediana.
- El tercer cuartil o cuartil superior, QS, es el valor que separa el 25% de los
valores mayores.

Figura 4.5: Los cuartiles dividen la distribucin en cuatro partes iguales.
- Los deciles son aquellos valores de la variable que dividen la distribucin en

diez partes iguales. Los deciles son cuantiles de orden 10. Existen nueve
deciles: D1, D2,..., D9.
- Los centiles o percentiles son aquellos valores de la variable que dividen la
distribucin en cien partes iguales. Los centiles son cuantiles de orden 100.
Existen 99 centiles: C1, C2,..., C99.
Se denomina extremo inferior, E1, al menor valor del conjunto de valores. El extremo
superior, ES, estara constituido por el mayor valor. Por ejemplo, dado el conjunto de
valores {5,3,6,11,7}, tenemos E1=3 y ES=11.
Dado un conjunto de valores ordenados, se puede obtener de forma aproximada el

cuartil inferior, Q1, como la mediana de los valores cuya posicin es menor o igual a la
posicin de la mediana de la distribucin. Anlogamente, se puede obtener el cuartil

superior, QS, como la mediana de los valores cuya posicin es igual o superior a la
posicin de la mediana de la distribucin6.
Algunos ejemplos sobre lo expuesto se ven a continuacin:
a) Datos: 2, 0, 5, 7, 9, 1, 3, 4, 6, 8. Ordenando:
6. Dado un conjunto de valores, no siempre se consigue dividirlos exactamente en cuatro partes iguales. El
procedimiento expuesto ofrece una solucin aproximada, muy satisfactoria cuando las cantidades de valores son
grandes y con pocas repeticiones.

b) Datos:
En el ejemplo (b), donde la mediana coincide con un valor del conjunto de datos, por
convencin se toma este valor, tanto para la obtencin de QI como para la de QS.


Resumen



MODELAMIENTO ESTADSTICO DE LAS VARIABLES
Captulo 5
MODELAMIENTO
ESTADSTICO
D E L A S VAR I A B L E S
5.1. INTRODUCCIN
Al analizar los datos medidos por una variable cuantitativa continua, veremos que
existen dos clases de pruebas estadsticas: las paramtricas y las no paramtricas.
Las pruebas paramtricas exigen una serie de condiciones a los datos a los que se
aplican:
- Que los valores de la variable dependiente sigan una distribucin de

probabilidad determinada, por lo menos en la poblacin a la que pertenezca la
muestra en la que se hizo la investigacin.
- Que las varianzas de los grupos que se comparan en una variable dependiente
sean aproximadamente iguales (homocedasticidad u homogeneidad de las
varianzas).
Las pruebas paramtricas ms conocidas y usadas son: la prueba t-student, la F de

Snedecor y el coeficiente de correlacin de Pearson. stas se basan en la distribucin
de probabilidad normal, y al estimar los parmetros del modelo, se supone que los datos
constituyen una muestra aleatoria de dicha distribucin, por lo que la eleccin del

MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES
estimador y el clculo de la precisin de la estimacin, elementos bsicos para construir

intervalos de confianza y contrastar hiptesis, dependen del modelo probabilstico
supuesto.
En el momento en que las condiciones anteriormente expuestas no resulten vlidas, o

bien no sea fcil su comprobacin por tratarse de muestras pequeas, se dispone de
dos posibles mecanismos: transformar los datos para que sigan una distribucin normal,
o bien se puede recurrir a pruebas estadsticas de libre distribucin, es decir, a aquellas
que no se basan en ninguna suposicin en referencia a la distribucin de probabilidad a
partir de la que fueron obtenidos los datos (pruebas no paramtricas).
Las pruebas no paramtricas ms conocidas y usadas son la chi-cuadrado de Pearson, la

prueba de la probabilidad exacta de Fisher y el coeficiente de rangos de Spearman, entre
otras.
En este documento se har especial nfasis en las familias de distribuciones

paramtricas, ampliamente utilizadas para resumir gran cantidad de datos, obtener
predicciones y determinar la calidad del ajuste, entre otras. De esta manera, la

estadstica de negocios nos proveer de las tcnicas necesarias para hacer inferencia
inductiva sobre la poblacin a partir de una muestra y medir el grado de incertidumbre
de tal inferencia (tabla 5.1).
Se trata de variables medibles (altura, peso,...).

Caractersticas
Pueden tomar valores enteros o con decimales.
VARIABLES
t- student.

CUANTITATIVAS
Tratamientos
Anlisis de la varianza (ANOVA).
estadsticos
Correlacin/Regresin.
Se trata de variables de cualidad agrupadas en categoras.
Caractersticas Los datos que toman son el nmero de individuos que presentan
VARIABLES dicha cualidad (frecuencia de aparicin) y, por tanto, nmeros
CUALITATIVAS enteros.
Tratamientos Contraste de homogeneidad.

estadsticos Contraste de independencia.
Tabla 5.1. Principales tcnicas empleadas en la estadstica de negocios para realizar inferencias sobre la
poblacin a partir de una muestra.

5.2. LA DISTRIBUCIN NORMAL
En el siglo XIX, Adolphe Qutelet observ que en muestras suficientemente grandes,

las representaciones grficas de diferentes variables eran muy semejantes.
En sus estudios comprob que muchas variables asociadas a fenmenos naturales y

aleatorias seguan el modelo de la normal, es decir, se encontraban distribuidas
uniformemente alrededor de una valor central, promedio o norma. Por ejemplo:
- Caracteres morfolgicos aleatorios de individuos (personas, animales,

plantas,...) de una especie de ocurrencia natural: tallas, pesos, envergaduras,
dimetros, permetros, entre otros;
- Caracteres fisiolgicos: efecto de una misma dosis de un frmaco o de una

misma cantidad de abono;
- Caracteres sociolgicos: consumo de cierto producto por un mismo grupo de

individuos, puntuaciones de examen;
- Caracteres psicolgicos: cociente intelectual, grado de adaptacin a un medio,

entre otros;
- Errores cometidos al medir ciertas magnitudes;

- Valores estadsticos muestrales como la media;
- Otras distribuciones como la binomial o la de Poisson son aproximaciones

normales; y,
- En general, cualquier caracterstica que se obtenga como suma de muchos
factores.
En este sentido, el Teorema Central del Lmite dice que si tenemos un grupo numeroso
de variables independientes (>30) y todas ellas siguen el mismo modelo de distribucin
(cualquiera que ste sea), la suma de ellas se distribuye segn una distribucin normal1.
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.
La distribucin normal describe la forma en la que ciertos estimadores

de caractersticas de la poblacin varan de una muestra a otra.
Resulta difcil explicar por qu se produce este fenmeno, pero lo cierto es que la curva
de Distribucin Normal (denominada tambin Gaussiana) juega un papel fundamental en
1. Por ejemplo, si lanzamos una moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre
s), se distribuye segn una distribucin normal.

el anlisis estadstico, ya que adems de explicar la distribucin de las variables

apuntadas con anterioridad, tambin sirve para establecer una aproximacin a otras
distribuciones mucho menos manejables.
5.2.1. LA FUNCIN DE DENSIDAD O LEY NORMAL
La ley normal es un modelo de distribucin que responde a la frmula:
(x- )2
1
f(x)= e 2 2
. 2
donde:
= media poblacional.
= desviacin tipo poblacional.

2= varianza poblacional.
Su representacin grfica se ilustra en la figura 5.1.
Figura 5.1: Representacin grfica de la ley normal.
La funcin normal queda definida por dos parmetros, su media y su desviacin tipo. Se
representa mediante la notacin N (, ), donde para cada valor de y se tendr una
funcin de densidad distinta, y en consecuencia, una familia de distribuciones normales.
A resultas de la figura 5.1 de pueden observar las siguientes premisas:
- La curva tiene solamente un pico, por consiguiente es unimodal.

- La media de una poblacin distribuida normalmente se encuentra en el centro

de su curva normal (simetra).
- A causa de la simetra de la distribucin normal de probabilidad, la mediana y la

moda de la distribucin tambin se hallan en el centro, por tanto, en una curva
normal, la media, la mediana y la moda poseen el mismo valor.
- Las dos colas (extremos) de una distribucin normal de probabilidad se

extienden de manera indefinida y nunca tocan el eje horizontal.
- El rea total bajo la curva normal ser de 1 (normal tipificada), en
consecuencia, se puede considerar que las reas bajo la curva son
probabilidades.
- El 68% de todos los valores bajo la curva se encuentran dentro de una
desviacin estndar con respecto a la media (entre - y +), mientras que el
95% se localiza dentro de dos desviaciones estndar (entre -2 y +2).
5.2.2. LA FUNCIN DE DISTRIBUCIN

La funcin de distribucin F(x) representa el rea contenida bajo la curva de la funcin

de densidad:
z
x (x- )2
1
F(x)= e 2 2
dx
2
- < x <
La representacin grfica puede verse en la figura 5.2.
Figura 5.2: Funcin de distribucin F(x).

Cuando se conoce la media y la varianza de una ley normal, se est en condiciones de

encontrar probabilidades. En efecto, el rea bajo la curva proporciona la probabilidad de
ocurrencia de un evento, tal y como se ilustra en la figura 5.3.
F(x) = P (X x)

Figura 5.3: El rea bajo la curva proporciona la probabilidad de encontrar un valor de la distribucin normal
comprendido entre a y b.
5.2.3. DISTRIBUCIN NORMAL TIPIFICADA
Cuando la media de la distribucin es 0 y la varianza es igual a 1, la distribucin se

denomina normal tipificada, y su ventaja reside en que existen tablas donde se recoge
la probabilidad (rea) para cada punto de la curva de esta distribucin.

Otra caracterstica importante de la ley normal unitaria o tipificada es que toda el rea
comprendida entre ella y el eje horizontal es igual a la unidad.
De esta manera, toda distribucin normal se puede transformar en una tipificada

mediante el cambio de variable:
Xi
Zi =

donde:
zi= variable tipificada de x.

xi= variable aleatoria.
= media poblacional.
= desviacin tipo poblacional.

Esto ser muy til a la hora de hacer comparaciones. En este caso, la funcin de
densidad unitaria quedara:
Z 2i
1
f(z ) = e 2
2p
Siendo su representacin grfica la mostrada en la figura 5.4.
F (z) = P (Z z)
Figura 5.4: Representacin de la ley normal unitaria.
Empleando la funcin de densidad unitaria, resultara sencillo realizar el clculo de reas

comprendidas entre la curva y el eje horizontal. Sin embargo, tal y como se muestra, el
uso de la frmula requerira conocimientos de clculo integral.
z z2
z
1
F(z) = e 2
dz
0 2
Por este motivo, an a costa de cometer un cierto error, se suelen utilizar tablas que
proporcionan directamente estos valores.
Atencin a la consulta de las tablas. No todas se presentan en el mismo

formato, las hay que proporcionan el rea entre z=0 y un valor de z i, mientras
que otras proporcionan directamente el rea de la cola que deja ese valor z i.

En las tablas de la distribucin normal que se pueden encontrar en el Apndice, la

puntuacin zeta se busca localizando la cifra de las unidades y el primer decimal en la
columna de la izquierda, y la cifra de las centsimas en la fila superior. La tabla
proporcionar el valor del rea comprendida entre z=0 y el valor de zi (sea ste positivo
o negativo). Sin embargo, habitualmente nos interesa el rea de una de las colas, que se
suele notar por /2 (figura 5.5), por lo que:
/2= 0,5 - (valor del rea comprendida entre z=0 y zi). Este valor tambin
recibe el nombre de p-valor.

Figura 5.5: Representacin de la ley normal unitaria con el rea de las colas representadas por /2.
VEAMOS UN EJEMPLO

El peso de unas piezas de plomo para automocin se distribuye normalmente.
Si sabemos que el peso medio es de 3,25 kg y la desviacin tpica es de 0,82
kg, cul es la probabilidad de que el peso de las piezas sea superior a 4 kg?
Lo que se debe hacer en primer lugar es tipificar la variable aleatoria X, peso de

las piezas de plomo:
xi 4 3,25
Zi = = = 0,9146
0,82
Buscando en la tabla para un valor de z=0,91 el valor resultante del rea

comprendida entre 0 y dicho valor es de 0,3186. Sin embargo, a nosotros nos
interesa el p-valor, tal y como se indica en la figura 5.6.

Figura 5.6: Tipificacin de la variable aleatoria X.
En consecuencia, la probabilidad de que el peso de la pieza sea superior a 4 kg

ser:
/2=p(X>4)=p(z>0,9146)=0,5-0,3186=0,18 (p-valor)
5.2.4. COMPROBACIN DE LA NORMALIDAD: PRUEBA DE KOLGOMOROV
En ocasiones resulta til comprobar si una determinada distribucin sigue el modelo de

la ley normal.
La prueba de Kolgomorov calcula las diferencias entre las frecuencias relativas

acumuladas (Hi) en cada uno de los intervalos y las que les correspondera en caso de
seguir fielmente la ley normal.
Una vez calculada, se escoge la diferencia mayor y se compara con la que proporciona
la tabla 5.2.

TAMAO DE LA TAMAO DE LA
MUESTRA VALOR MUESTRA VALOR
N N
1 0,975 14 0,349
2 0,842 13 0,361
3 0,708 14 0,349
4 0,624 15 0,338
5 0,565 16 0,328
6 0,521 17 0,318
7 0,486 18z 0,309
8 0,457 19 0,301
9 0,432 20 0,294
10 0,410 25 0,27
11 0,391 30 0,24

12 0,375 35 0,23
13 0,361 Ms de 35 1,36/n0.5
Tabla 5.2. Tabla de referencia para la prueba de Kolgomorov2.
Si la diferencia es superior al valor que proporcione la tabla, se supone que la

distribucin no sigue el modelo de la ley normal. En caso contrario, nada se opone a
rechazar esta suposicin.
Es importante mencionar que, a resultas de esta prueba, nunca se puede afirmar que
una distribucin sea normal , sino que la diferencia encontrada no ha sido lo
suficientemente grande para decir que no es normal.
PRUEBA DE KOLGOMOROV
1. Se calculan las columnas:
lsi: lmite superior de cada intervalo.

zi: puntuacin zeta correspondiente a lsi.
2. La tabla tiene un riesgo del 5% al afirmar que la distribucin no es normal.

A ri : rea entre l si y el extremo inferior de la curva (frecuencia relativa

acumulada segn la tabla de la ley normal unitaria).
Ni: frecuencia acumulada real.
Hi: frecuencia relativa acumulada real.
/A ri- H i /: valor absoluto de las diferencias entre las frecuencias relativas
acumuladas segn la tabla de la ley normal y las frecuencias relativas
acumuladas reales de la distribucin.
2. Se busca la diferencia mayor en la ltima columna.
3. Se compara con las tablas:
Dif. mx. < tabla: nada se opone a aceptar la normalidad de la distribucin.

Dif. mx. > tabla: la distribucin no sigue una ley normal (riesgo del 5%).
Si esta prueba asegura la no normalidad de los datos, existen varias soluciones

posibles:
- Si la distribucin es ms apuntada que la normal (mayor parte de los valores

agrupados en torno de la media y colas ms largas en los extremos), se debe
investigar la presencia de heterogeneidad en los datos y de posibles valores
atpicos o anomalas. La solucin puede emplear pruebas no paramtricas.
- Si la distribucin es unimodal y asimtrica, la solucin ms simple y efectiva

suele utilizar una transformacin (logaritmo neperiano, raz cuadrada, arcseno,
entre otras) para convertir los datos en normales3.
- Cuando la distribucin no es unimodal, hay que investigar la presencia de

heterogeneidad, ya que en estos casos, la utilizacin de transformaciones no es
adecuada y los mtodos no paramtricos pueden tambin no serlo.
5.3. LA DISTRIBUCIN T-STUDENT
Se ha estudiado hasta ahora que puede suponerse que la distribucin de muestreo es

normal, ya sea porque lo es de por s la poblacin o bien porque la muestra es lo
suficientemente grande como para apelar al Teorema Central del Lmite (n>30).
3. Para una mayor informacin, consultar: http://www.seh-lelha.org/noparame.htm.

Sin embargo, cuando la muestra es pequea (n<30) o la varianza de la poblacin se

desconoce, con el objeto de comparar la media de una muestra con la media hipottica
de una poblacin, se requiere el empleo de la distribucin t-student. Lgicamente, para
muestras ms grandes puede emplearse la aproximacin normal (tabla 5.3).
TAMAO DE
POBLACIN s CONOCIDA s DESCONOCIDA
MUESTRA
X 0
t=
X 0 SX
Grande (n 30) z=
X o
Con distribucin X 0
normal z=
SX
Pequea (n < 30) X 0 X 0

z= t=
X SX

X 0
t=
SX
X 0
Grande (n 30) z=
Sin distribucin X o
normal X 0
+
z=
SX
Se realizan por lo general pruebas no

Pequea (n < 30) paramtricas dirigidas a la mediana.
* Se aplica el teorema central del lmite.

** z se utiliza como aproximacin de t.
+ se aplica el teorema central del lmite y z se utiliza como aproximacin de t.
Tabla 5.3. Tabla resumen de aplicacin del valor z y de t en funcin del tamao de muestra y del
conocimiento de la varianza poblacional4.
Imaginemos que se toman todas las muestras posibles de tamao n inferior a 30 de una
determinada poblacin distribuida segn una normal. Con los valores calculados de la
media X y la desviacin tipo s, el esquema de la prueba consiste en calcular un
estadstico:
X
t=
S$ X
4. Fuente: http://www.universidadabierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm

donde:
S
S$X =
n 1
quedando la distribucin t de la forma:
X
t = n 1
S
Anlogamente a la distribucin normal, la t-student tiene forma acampanada y es

perfectamente simtrica respecto a t=0, pero con una dispersin mayor, la cual
aumenta a medida que disminuye el tamao de la muestra (figura 5.7).
Figura 5.7: Comparacin entre dos distribuciones t-student y la normal.5
Tal y como se ilustra en la figura, existen diferentes distribuciones t, cada una de ellas
asociada a lo que se ha dado en llamar grados de libertad (), que se definen como el
nmero de observaciones menos uno, es decir, = n-1.
La forma de la distribucin t-student depender del tamao de la muestra.
Se han sealado en la figura valores crticos de z y t para un coeficiente de confianza de

1-=0,99, o lo que es lo mismo, con un rea de cola o p-valor de /2= 0,005. Si
5. Fuente: http://www.universidadabierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm

acudimos a las tablas de la distribucin normal, el valor crtico de z positivo es de 2,58,

es decir, el valor que deja un rea de cola del 0,5% a la derecha de la distribucin.
Anlogamente ocurre en el lado izquierdo de la distribucin con el valor de z negativo -
2,58.
En referencia al valor crtico de t con =3 grados de libertad, se tiene por las tablas6
(t 0,005 ) que es igual a 5,84 en el lado derecho y -5,84 en el lado izquierdo. En
consecuencia, existe una probabilidad de 0,99 de que la variable t se encuentre en el
intervalo [-5,84, 5,84].
Si escogemos el valor crtico de t con =29 grados de libertad, se tiene que un 0,5%
del rea bajo la curva est a la derecha de 2,76 o a la izquierda de -2,76. Es decir,
existe una probabilidad de 0,99 de que la variable t se encuentre en el intervalo [-2,76,
2,76].
El valor crtico de t disminuye al crecer los grados de libertad. Si el tamao de

la muestra aumenta de forma infinita, el valor de t tomara el de 2,58, que es

igual al valor de z para la curva normal.
5.4. LA DISTRIBUCIN CHI-CUADRADO
Al igual que para comparar la media de la muestra con la poblacional, en muestreo

pequeo, se utilizaba una distribucin t-student y un estadstico t, ahora se comparar

la varianza de una muestra con la varianza hipottica de una poblacin gracias a la
distribucin chi-cuadrado (2).
La distribucin chi-cuadrado tiene una forma que depende del nmero de grados de
libertad como ocurre en el caso de la t-student. En la figura 5.8 se ilustran varias de
estas curvas.
6. Las tablas de la distribucin normal y de las t-student se pueden encontrar en el apndice.

Figura 5.8: Distribucin chi-cuadrado para = 2, 5 y 10.
Con el fin de obtener un valor crtico a partir de una tabla7 de a2 se deber seleccionar
un nivel de significacin y determinar los grados de libertad para el problema bajo
anlisis.
Tal y como se ver en los ejemplos, la frmula general para determinar los grados de
libertad8 en una tabla de contingencia9 es:
= (r 1) (c 1)
donde:
= grados de libertad.
= filas de la tabla de contingencia.

c= columnas de la tabla de contingencia.
Aparte de la estimacin de varianzas, otras aplicaciones de la distribucin chi-cuadrado

son, entre otras:
Para una variable:
- Prueba de calidad o bondad de ajuste para variables aleatorias discretas.
7. Las tablas de probabilidad de c2 pueden cosnsultarse en el Apndice.

8. Cuando los grados de libertad sean iguales a 1, se debe aplicar la frmula modificada por la correccin de Yates.
9. Una tabla de contingencia es una es una distribucin (una matriz) en filas y columnas en la que los individuos de una
poblacin se clasifican en funcin de algunas variables.

Para dos variables:
- Prueba de homogeneidad.
- Prueba de la independencia.
5.4.1. PRUEBA DE CALIDAD O BONDAD DEL AJUSTE PARA VARIABLES ALEATORIAS

DISCRETAS
La distribucin 2 mide cunto se diferencian las frecuencias observadas o reales de las

frecuencias esperadas o predichas, es decir, si la diferencia es o no significativa.
Las observaciones se obtienen mediante muestreo aleatorio a partir de una poblacin

dividida en categoras.
El estadstico de prueba ser:

k 2
=
2
(Oi E i )
con (k - 1) g.l.
i=1 Ei
donde:
O= frecuencia observada.
E= frecuencia esperada.

Para una variable, los grados de libertad son el resultado de restar el nmero de
categoras menos uno.
En este contraste se suele rechazar la hiptesis nula (los valores observados son
coherentes con los esperados) cuando el estadstico es mayor que un determinado valor
crtico.
En la prueba de bondad de ajuste se busca contrastar

la distribucin terica de una variable.
Es importante recalcar que el estadstico de prueba 2 se podr aproximar por una chi-
cuadrado cuando el tamao muestral n sea grande (n>30), y todas las frecuencias
esperadas sean iguales o mayores a 5 (en ocasiones, se debern agrupar varias
categoras con el fin de cumplir dicho requisito).

EJEMPLO
Se sabe que en un cruce de una misma especie vegetal, se obtienen tres

descendientes de caractersticas A, B, y C en una proporcin 1:2:1. En una
muestra de 104 especies, se obtuvieron 28 de A, 49 de B y 27 de C. Se
ajustan estos datos a la proporcin esperada?
Lo primero es calcular la frecuencia esperada:
A: 104/4= 26
B: 104/2= 52
C: 104/4= 26
A continuacin, se construye la siguiente tabla de contingencia:
FRECUENCIA FRECUENCIA
CATEGORA (O-e)2/e
ESPERADA (E) OBSERVADA (O)
A 26 28 0,1538
B 52 49 0,1731
C 26 27 0,0385
En consecuencia:
2 = 0,365 con 2 grados de libertad.
Si se hacen uso de las tablas de probabilidades de 2 se determina el valor

crtico al nivel de significancia deseado. En este caso, para = 2 grados de
libertad y un nivel de significancia, se obtiene: 2= 5,991.
Dado que 0,365 < 5,991 se acepta la hiptesis planteada y se concluye que
los datos corresponden a una proporcin de 1:2:1.
5.4.2. PRUEBA DE HOMOGENEIDAD
En este caso se determinar si los datos correspondientes a dos o ms muestras

aleatorias provienen de una misma poblacin.

Las observaciones se obtienen mediante muestreo aleatorio a partir de una poblacin

dividida en categoras.
Se emplear el estadstico:
k 2
=
2 (Oi Ei )
con (r - 1) (c - 1) g.l.
i=1 Ei
donde:
O= frecuencia observada.
E= frecuencia esperada bajo homogeneidad.
r= n de filas de la matriz de contingencia.

c= n de columnas de la matriz de contingencia.

En este contraste se suele rechazar la hiptesis nula (los valores observados son
coherentes con los esperados) cuando el estadstico es mayor que un determinado valor
crtico.
Es importante recalcar que el estadstico de prueba 2 se podr aproximar por una chi-
cuadrado cuando el tamao muestral n sea grande (n>30), y todas las frecuencias
esperadas sean iguales o mayores a 5 (en ocasiones, se debern agrupar varias
categoras con el fin de cumplir dicho requisito).

EJEMPLO
Se quiere estudiar la fiabilidad de una vlvula neumtica en relacin al

distribuidor que nos la suministra. En este sentido, se toma una muestra de
100 vlvulas de cada uno de los tres distribuidores y se comprueba el nmero
de elementos defectuosos para cada uno.
Se pretende realizar un estudio de homogeneidad para concluir si entre los

distribuidores existen diferencias de fiabilidad referente a la misma vlvula.
Los resultados se muestran en la siguiente tabla:

VLVULAS VLVULAS
TOTAL
DEFECTUOSAS CORRECTAS
Distribuidor 1 16 94 100
Total 49 251 300
En la tabla de contingencia siguiente se proporcionan (entre parntesis) las

frecuencias esperadas bajo homogeneidad. En el anlisis de una relacin entre
2 variables, resulta ms conveniente plantearse la hiptesis de que ambas son
independientes. Para hallar los valores esperados, se emplea la teora de
probabilidades que establece: si dos acontecimientos son independientes, la
probabilidad de que ambos ocurran simultneamente es el producto de sus
probabilidades individuales de ocurrir.
La probabilidad de que una vlvula sea defectuosa y, a la vez, del distribuidor 1

ser:
(49/300)*(100/300)= 0,0544
Multiplicando por el nmero total de vlvulas, obtenemos la frecuencia

esperada para ese caso:
0,054300= 16,33
Anlogamente se hara para las dems.
VLVULAS VLVULAS
TOTAL
DEFECTUOSAS CORRECTAS
Distribuidor 1 16 (16,33) 94 (83,66) 100
Distribuidor 2 24 (16,33) 76 (83,66) 100
Distribuidor 3 9 (16,33) 81 (83,66) 100
Total 49 251 300
Sustituyendo, el estadstico del contraste ser:
(16 16,33)2 (24 16,33)2 (9 16,33)2 (94 83,66)2 (76 83,66)2 (81 83,66)2
2 = + + + + + = 8,96
16,33 16,33 16,33 83,66 83,66 83,66

Siendo el valor del estadstico por tablas: 2 0,05 (2)= 5,99 = (3-1)(2-1)=2
g.l.
Dado que 8,96 > 5,99 se concluye que no existe homogeneidad y, por tanto,
existen diferencias entre los tres distribuidores.
5.4.3. PRUEBA DE LA INDEPENDENCIA
En este caso se trata de probar si dos variables tienen algn grado de relacin o son
completamente independientes. Es decir, estamos interesados en ver la relacin
existente entre dos variables de una misma poblacin.
EJEMPLO

Una muestra de 100 hortalizas se tratan con pesticida, mientras que a otra
muestra de 200 hortalizas del mismo invernadero no se les aplica ningn tipo
de tratamiento. Despus de cierto tiempo, se examinan las muestras en
bsqueda de enfermedad.
Los resultados son los siguientes:
TRATAMIENTO SANOS ENFERMOS TOTAL

Tratado 88 12 100
No tratado 143 57 200
Total 231 69 300
Se quiere someter a hiptesis si existe relacin entre el tratamiento con

pesticidad y la incidencia de la enfermedad.
Suponiendo que ambas variables sean independientes, al igual que ocurra en el

ejemplo de la prueba de homogeneidad, se tendr una proporcin esperada de
(entre parntesis):
TRATAMIENTO SANOS ENFERMOS TOTAL
Tratado 88 (77) 12 (23) 100
No tratado 143 (154) 57 (46) 200
Total 231 69 300

En la tabla de contingencia 2x2 se observa como caracterstica especial que la

diferencia entre lo observado y lo esperado es idntica a excepcin del signo.
Los grados de libertad son:
= (2-1)(2-1)=1 g.
En consecuencia, debe aplicarse la correccin de Yates:

k 2
=
2 (Oi Ei 0,5)
con (r - 1) (c - 1) g.l.
i=1 Ei
10,52 11,52 11,52 10,52

c2 = + + + = 10,43
77 23 154 46
Siendo el valor del estadstico por tablas:

20,05 (1)= 3,841 = (2-1)(2-1)=1 g.l
Dado que 10,43 > 3,841 al nivel de significacin de 0,05, se rechaza la

hiptesis de independencia y asumir que existe relacin entre el pesticida y la

incidencia de la enfermedad.
5.5. DISTRIBUCIN MUESTRAL DE MEDIAS
A partir de una poblacin, podemos extraer diferentes muestras de tamao n con sus
respectivas medias. Si cada una de estas medias se considera como una variable
aleatoria, se puede estudiar su distribucin a la que se denominar distribucin muestral
de medias.
- Si se tiene una poblacin normal N(,) y se extraen de ella muestras de

tamao n, la distribucin de medias sigue tambin una distribucin normal:
F I
N ,GH n
JK
- Si la poblacin no sigue una distribucin normal, pero n>30, se aplica el
denominado Teorema central del lmite, por el cual se asume que en estas
condiciones la distribucin muestral de medias se aproxima igualmente a una
normal.

EJEMPLO
Las notas de cierto examen se distribuyen segn una normal de media 5,8 y
desviacin tipo 2,4. Hallar la probabilidad de que la media de una muestra
tomada al azar de 16 estudiantes se encuentre comprendida entre 5 y 7.
La poblacin se distribuye segn N(5,8;2,4). Si n=16, la distribucin muestral

se distribuye segn N(5,8;0,6). Nos interesa encontrar el rea comprendida
entre 5 y 7 de esta distribucin, pero como slo conocemos las distribuciones
N(0,1) hay que hacer un cambio de variable:
x1 5 5,8
z1 = = = 1,33
0,6
x2 7 5,8
z2 = = =2
0,6
En consecuencia, y acudiendo a las tablas de la distribucin normal:

P(5 x 7)=P(-1,33 z 2)=0,8854
5.6. DISTRIBUCIN MUESTRAL DE PROPORCIONES
Lo ms habitual es que se plantee estimar una proporcin o porcentaje. En este caso, la
variable aleatoria toma nicamente dos valores diferentes (xito o fracaso), es decir,
sigue una distribucin binomial B (n,p), la cual se aproxima a la normal N(np,(npq)0,5)
cuando la extensin de la poblacin es grande.
Para muestras de tamao n>30, la distribucin muestral de proporciones sigue una

distribucin normal:
F pq I
GH
N p,
n JK

donde:
p= proporcin de uno de los valores que presenta la variable estadstica en la

poblacin.
q=1-p.
EJEMPLO
Una mquina fabrica piezas de precisin y en su produccin habitual tiene un

3% de piezas defectuosas. Se empaquetan en cajas de 200, cul es la
probabilidad de encontrar entre 5 y 7 piezas defectuosas en una caja?
Al ser n> 30, la distribucin muestral sigue una ley normal N(0,03; 0,01).
Sabiendo que p=5/200= 0,025 y que p=7/200= 0,035
Haciendo el cambio de variable:

p 0,025 0,03
z1 = = = 0,5
0,01
p 0,035 0,03
z2 = = = 0,5
0,01
En consecuencia, y acudiendo a las tablas de la distribucin normal:
P(5 x 7) = P(-0,5 x 0,5) = 0,383
5.7. FUNCIN DE PROBABILIDAD BINOMIAL
Una de las situaciones ms importantes para el profesional es cuando la decisin bajo

incertidumbre implica solamente dos resultados aleatorios posibles. En efecto,
supongamos que un experimento aleatorio tiene las siguientes caractersticas:
- En cada prueba del experimento slo son posibles dos resultados mutuamente
excluyentes: el suceso A (xito) y su contrarioA (fracaso).

- El resultado obtenido en cada prueba es independiente de los resultados

obtenidos anteriormente.
- La probabilidad del suceso A es constante, y se representa por p, y no vara de

una prueba a otra. La probabilidad deA es 1- p y se representa por q.
- El experimento consta de un nmero n de pruebas.
Todo experimento que tenga estas caractersticas diremos que sigue el modelo de la
Distribucin Binomial. A la variable X que expresa el nmero de xitos obtenidos en
cada prueba del experimento, la llamaremos variable aleatoria binomial.
La variable binomial es una variable aleatoria discreta, slo puede tomar los valores 0, 1,
2, 3, 4,..., n suponiendo que se han realizado n pruebas10. Como hay que considerar
todas las maneras posibles de obtener k-xitos y (n-k) fracasos, debemos calcular stas
por combinaciones (nmero combinatorio n sobre k).
La distribucin Binomial se suele representar por B(n,p) siendo n y p los parmetros de

dicha distribucin.

La probabilidad de obtener k-xitos vendr dada por la funcin de probabilidad de la
variable aleatoria binomial:
p(X = k) =
FG nIJ p k
qn-k =
n!
p k qn-k
HkK k!(n - k)!
donde:

k= n de xitos 0 k n
n= n de pruebas.
p= probabilidad de xito 0 p 1
q= 1-p, y es la probabilidad de fracaso.
Existen tablas que proporcionan el clculo de las probabilidades para algunos valores de
n y p.
10. Si n=1 la funcin de probabilidad de la distribucin binomial se denomina funcin de distribucin de Bernouilli.

EJEMPLO
Una empresa recibe un envo grande de piezas de las cuales se revisan 10 para
saber su calidad. El fabricante establece que un mximo del 5% de las piezas
podrn salir defectuosas. Cul es la probabilidad de que la muestra incluya
una pieza defectuosa?
Se tiene:
p(X =k)=
FG10IJ 0,05 0,95
1 9
= 0,32
H 1K
Es decir, la probabilidad de que la muestra incluya una pieza defectuosa es del
32%.
5.7.1. APROXIMACIN NORMAL PARA BINOMIAL
Dado que las tablas binomiales son limitadas, puede ocurrir que n est ms all de los
valores proporcionados por aqullas. En esta situacin, es necesario utilizar la
distribucin normal estndar para el clculo de las probabilidades binomiales.
Resulta necesario saber que los parmetros de la distribucin binomial son:
= np
2= npq
= (n.p.q)0.5
La aproximacin normal para la distribucin binomial se utiliza

habitualmente en procesos de control de calidad, censos,
confiabilidad, entre otras.
En el siguiente ejemplo se comparar el resultado de aplicar la ley de la distribucin

binomial con el obtenido por la ley normal, para ver el grado de aproximacin entre
ambos.

Una muestra de 20 artculos se toma aleatoriamente de un proceso de fabricacin con

una probabilidad de artculos defectuosos p=0,40. Cul es la probabilidad de obtener
exactamente 5 artculos defectuosos?
Si aplicamos la ley de la distribucin binomial, se tiene:
p(X = k) =
FG 20IJ 0,40 5
0,615 = 0,075
H 5K
Es decir, la probabilidad de obtener exactamente 5 artculos defectuosos es del 7,5%.
Si aplicamos la ley normal, se tiene:
= np= 200,4=8
2= npq= 200,40,6=4,8; por lo que =2,19
Hemos de tener en cuenta que la binomial es discreta, mientras que la normal es

continua, por tanto, debe introducirse una correccin de continuidad en el clculo de
0,5 agregado o restado de la variable x:
Tipificando:
(xi 0,5) 4,5 8

z1 = = = 1,60
2,19
xi + 0,5) 5,5 8
z2 = = = 1,14

2,19
Consultando las tablas de la ley normal, se tiene que entre el 0 y z1 el rea es de

0,4452 mientras que z2 deja un rea de 0,3729 a su izquierda. La probabilidad que nos
interesa ser la diferencia entre ambas reas:
P(5 de 20)= 0,4452 - 0,3729= 7,2%.

Resumen



ESTADSTICA INFERENCIAL
Captulo 6
ESTADSTICA
INFERENCIAL
6.1. INTRODUCCIN
La estadstica inferencial o deductiva realiza inferencias o saca conclusiones sobre las

poblaciones a travs de muestras que han sido extradas de ellas, mientras que la
estadst ica descript iva describe las caractersticas de una serie de dat os
correspondientes a una poblacin o muestra.
Las pruebas de significancia estadstica nos permitirn conocer, por ejemplo, si las
diferencias encontradas entre dos muestras son reales, es decir, estn tambin
presentes en la poblacin o bien podran ser el resultado de un error de la muestra
aleatoria. Naturalmente, todo ello bajo una cierta incertidumbre probabilstica.
La base de la inferencia estadstica es el razonamiento inductivo, es decir, el

conocimiento del todo a partir de una parte y se basa principalmente en la prueba de
hiptesis en una poblacin determinada.
Las inferencias en estadstica son de dos clases:
- La valoracin o estimacin. Se determina un valor desconocido de alguna

caracterstica de la poblacin, bajo posibilidad de error debido al muestreo. En
este caso, el clculo del error estndar dar idea de la exactitud de la
estimacin.

- El contraste o prueba de hiptesis. Se define una hiptesis como un sistema de

valores posibles para la poblacin y una alternativa, para valores diferentes.
6.2. LA VALORACIN O ESTIMACIN
6.2.1. DEFINICIN
Se define como estimador una estadstica de muestra utilizada para obtener informacin
sobre un parmetro de la poblacin. Por ejemplo, la media muestral X es un estimador
de la media poblacional .
El resultado de un estimador se puede expresar referido a un punto o a un rango de

valores (intervalo de confianza). En el primer caso, siempre deber calcularse el margen
de error asociado a la estimacin de ese punto.

6.2.2. CUALIDADES DE UN BUEN ESTIMADOR
Las cualidades que debe reunir un buen estimador son las siguientes:
- Imparcialidad. Se refiere al hecho de que el estadstico de muestra es un

estimador no sesgado del mismo parmetro relacionado de la poblacin. Una
estimacin es imparcial en referencia a un parmetro cuando el valor esperado
del estimador puede ser expresado como igual al parmetro que ha sido

estimado.
- Eficiencia. La estimacin ms eficiente es aquella que tiene el error o desviacin
estndar ms pequeo de entre todos los estimadores imparciales. Por ejemplo,
supongamos que ante una muestra tenemos que decidir si utilizamos o no la
media de la muestra para estimar la media de la poblacin. Si calculamos el
error estndar de la media observamos que es igual a 1,05; si calculamos el
error estndar de la mediana, vemos que es igual a 1,6. En este caso, diramos
que la media de la muestra es un estimador ms eficiente de la media de la
poblacin que la mediana, ya que su error estndar es menor (con menos
variacin).
- Coherencia. Un estimador es coherente si al aumentar el tamao de la muestra,
se produce una estimacin con un error estndar ms pequeo. Un estimador
coherente se vuelve ms confiable si se tiene tamaos de muestra ms
grandes.
- Suficiencia. Un estimador suficiente extrae una cantidad de informacin de la
muestra que no la aporta cualquier otro estadstico sobre el parmetro de la
poblacin que se est estimando.

6.2.3. ALEATORIEDAD DE LA MUESTRA
La condicin de aleatoriedad de la muestra es fundamental para asegurarse que es

verdaderamente representativa de la poblacin. Con este fin, se realiza la denominada
Prueba de Corridas1 (Wald-Wolfowitz). Dicha prueba est diseada para probar la
aleatoriedad de una muestra con una confianza de 100 (1-)%.
Por ejemplo, imaginemos una cadena de produccin de fichas blancas (B) y verdes (V).
Se considera la siguiente secuencia de produccin: BBBVVBVBVBBB. El nmero de
corridas ser R=7, n1= 8 (n de fichas blancas) y n2= 4 (n de fichas verdes).
El procedimiento es el siguiente:
1. Calcular la media de la muestra.
2. Pasando por la secuencia de la muestra, sustituir cualquier observacin con +

- dependiendo si est por debajo o por arriba de la media. Debe eliminarse
cualquier comportamiento cclico que se observe.
3. Calcular R, n1, y n2.

4. Calcular la media y la varianza esperada de R, segn:
2 n1 n2
R = +1
n1 + n2
2 n1 n2 (2 n1 n2 n1 n2)
R =
(n1 + n2)2 (n1 + n2 1)
5. Calcular:
R R
z =
R
6. Conclusiones.
En los siguientes casos, la muestra no ser aleatoria:
Si z> Z, el comportamiento es cclico y con estacionalidad.

Si z< -Z, existe una pendiente o tendencia que indica que la muestra no es
aleatoria.
Si z<-Z/2 z>Z/2 se rechaza la aleatoriedad.
1. Una corrida es una sub-secuencia mxima de elementos semejantes.

6.2.4. ESTIMACIN DEL TAMAO DE LA MUESTRA
La determinacin del tamao de la muestra es una cuestin primordial, ya que una

buena eleccin permitir ahorrar recursos en el caso de que tomsemos muestras ms
grandes de lo necesario, o bien evitaremos sacar conclusiones poco fiables debido a su
precariedad.
Cuanto mayor sea la muestra, ms alta ser la confianza asociada. No obstante,

muestras ms grandes tambin requieren un mayor esfuerzo en tiempo y recursos.
El objetivo es encontrar el tamao de muestra ms pequeo

que proporcione la confianza deseable.
As pues, el tamao de la muestra depende del nivel de confianza que se desee para los
resultados y de la amplitud del intervalo de confianza, es decir, del error mximo que se
est dispuesto a admitir, tal y como se ver a continuacin.

Una vez fijados el mximo error admisible E y el nivel de confianza (1-), se puede
calcular el tamao mnimo de la muestra que se emplear:
FG
n = z /2
IJ 2
H EK
Si se estiman proporciones:

E = z / 2
pq z
n = /2
FG IJ 2
p q
n E H K
EJEMPLO
La desviacin tpica de la altura de los habitantes de un pas es de 8 cm.

Calcular el tamao mnimo que debe tener una muestra de habitantes de dicho
pas para que el error cometido al estimar la altura media sea inferior a 1 cm
con un nivel de confianza del 90%.
Para 1-= 0,90, se tiene que /2= 0,05

Consultando las tablas de distribucin normal: z /2 = 1,645 y si E=1,

sustituyendo:
F
n = Gz
I F
2
8I
J = G1,645 J
2
= 173
H /2
EK H 1K
6.2.5. TIPOS DE ESTIMACIN
Dentro de las estimaciones concernientes a una poblacin, se pueden hacer

estimaciones puntuales y estimaciones por intervalo.
6.2.5.1. Estimaciones puntuales

Se trata de un nmero que se emplea para estimar un parmetro de la poblacin

desconocido. Por ejemplo, un encuestador estara haciendo una estimacin puntual si
afirmara: aquella mujer debe tener unos treinta aos o en este bloque de pisos deben
vivir unos sesenta vecinos.
El inconveniente de este tipo de estimaciones es que proporcionan poca informacin,

por ejemplo, si la mujer a la que se refera el encuestador tena en realidad treinta dos
aos, podramos aceptar los treinta como una buena estimacin, pero si la edad
verdadera era de cuarenta, podramos rechazar la estimacin por poco confiable. En
definitiva, una estimacin puntual es mucho ms til si va acompaada por una

estimacin del error implicado.
6.2.5.2. Estimacin por intervalo
Si el encuestador se refiere a la mujer como debe tener entre 30 y 35 aos de edad,

tiene una mejor confiabilidad de su estimacin que la puntual y es muy probable que la
verdadera edad caiga dentro de este intervalo, pero tambin puede estar equivocado.
En la estimacin por intervalo se calculan dos valores entre los que se encontrar el
parmetro, con un nivel de confianza fijado de antemano. De esta manera, se obtiene
un intervalo de confianza.

El nivel de confianza es la probabilidad de que el intervalo calculado contenga el

verdadero valor del parmetro. Se indica por (1-) y normalmente se expresa en
porcentaje (1-)100%.
Si se repitiese el proceso con muchas muestras, se podra afirmar que el (1-

) % de los intervalos construidos contendra el verdadero valor del
parmetro, y a lo mximo e l % no.
6.2.5.2.1. Estimacin por intervalos de confianza para la media
Por ejemplo, imaginemos que desconocemos la media poblacional de una cierta variable
que se desea estudiar. Se trata de sacar una muestra y obtener un intervalo (L1, L2) de
tal manera que se tenga una probabilidad (1-)% de que la media poblacional est en
ese intervalo.
El nivel de confianza del intervalo se fija de antemano. Se suele trabajar con 95%, 90%

e incluso 99%, o lo que es lo mismo, con probabilidades 0,05; 0,1 0,01.
Si se cumple una de las siguientes hiptesis:
- El tamao de la muestra es superior a 30 y la variable sigue un modelo normal.
- El tamao de la muestra es mayor de 100.
El intervalo de confianza para la media poblacional viene dado por:

LM x z s
,x + z
s OP
N n n Q
donde:
z= valor que en la distribucin N(0,1) deja a su derecha un rea /2.

X = media de la muestra.
s= desviacin tpica.

6.2.5.2.2. Estimacin por intervalos de confianza para la proporcin de la

poblacin
Supongamos ahora el caso que queramos encontrar un intervalo (L1,L2), de forma que
tengamos una probabilidad alta (1-)% de que una proporcin de elementos p
desconocida en la poblacin y pertenecientes a una categora C se encuentren en dicho
intervalo.
En ese caso, si se cumple una de las siguientes hiptesis:
^
np > 5
FG IJ ^
H K
n 1 p > 5
Se obtienen los siguientes intervalos segn el tamao de la muestra:
30<n 100
LM p
^
z
1 ^
,p+ z
1 OP
N 4n 4n Q
n>100
LM
^
^
p(1 p) ^
^ ^
p(1 p)
^ OP
MMp z n
, p+ z
n PP
N Q
donde:
^ n de element os de la muestra que pertenecen a C

p =
tamao de la m uestra
z= valor que en la distribucin N(0,1) deja a su derecha un rea /2.

EJEMPLO
La empresa de perfumes Colonias S.A. desea realizar un estudio de mercado

sobre uno de sus productos destinado a la mujer. Para ello, contrata a una
empresa de investigacin que realiza un muestreo sobre 200 mujeres en una
extensa comunidad. Dicha empresa constata que una proporcin muestral de
0,40 prefiere el perfume fabricado por Colonias S.A sobre todas las dems
marcas. Qu conclusiones se pueden sacar para toda la comunidad si se
quiere un intervalo de confianza del 95%?

Lo primero que se debe hacer es ver si cumple alguna de las hiptesis:

^
n p > 5 en nuestro caso 200 * 0,4 = 80 > 5
^
p = 0,4
n = 200
Para encontrar el valor de z, hemos de hallar el valor que en la distribucin

N(0,1) deja a su derecha un rea de /2. Sabemos que el intervalo de confianza
es del 95%, por tanto, el valor del rea de ambas colas ser de =0,05, lo que
implica /2= 0,025.
Dado que las tablas con las que estamos trabajando nos proporcionan el valor
del rea entre el 0 y zi, hacemos:
0,5-0,025=0,475
Este es el valor del rea comprendida entre el 0 y zi. Para hallar zi buscamos en
las tablas dicho valor, y encontramos una zi= 1,96.

Como la muestra es superior a 100, se tiene:
LM0,40 1,96 0,4 0,6; 0,4 + 1,96 0,4 0,6 OP = 0,36; 0,46
N 200 200 Q
En consecuencia, con una confianza del 95%, se puede decir que la proporcin
de todas las mujeres de la comunidad que usan el perfume de Colonias S.A es
de un 36% a un 46%.
6.3. CONTRASTE O PRUEBA DE HIPTESIS
6.3.1. INTRODUCCIN
En estadstica, una afirmacin respecto a alguna caracterstica de la poblacin se

denomina hiptesis.
Cuando contrastamos una hiptesis, estamos comparando las predicciones con la

realidad observada. Si dentro del margen de error que se puede admitir, existe
coincidencia, se aceptar la hiptesis y, en caso contrario, se rechazar.
92 ESTADSTICA P ARA LA TOMA DE DECISIONES

Por ejemplo, tal y como se ha mencionado con anterioridad, una media muestral diferir
en valor de la media poblacional. Si el valor observado del estadstico se acerca al valor
del parmetro poblacional y solamente difiere en una cantidad que cabra esperar del
muestreo aleatorio, el valor hipottico no se rechaza. Si por el contrario, la estadstica
muestral difiere en un monto que no es posible atribuir al azar, la hiptesis se rechaza
por no verosmil.
La hiptesis emitida se designa por Ho y se denomina Hiptesis nula, ya que parte del
supuesto que las diferencias entre el valor verdadero del parmetro y el estimado son
debidas al azar, por tanto, no existe diferencia. Este sera el caso, por ejemplo, de
decidir si un procedimiento es mejor que otro. En esta situacin, se formulara la
hiptesis nula de que no hay diferencia entre ellos (es decir, cualquier diferencia
observada se debera simplemente a fluctuaciones en el muestreo de la misma
poblacin).
La hiptesis nula es aquella que nos dice que no existen

diferencias significativas entre los grupos.
La hiptesis contraria se designa por H1 y se denomina Hiptesis alternativa.
El contraste de hiptesis puede realizarse de manera unilateral (en trminos de mayor o

menor) o bien de forma bilateral (en trminos de igual y distinto). En el primer caso,
consideraramos una sola cola, mientras que el contraste bilateral abarcara ambas:
Si la hiptesis alternativa est en la forma mayor que, z es el valor que deja un p-
valor en la cola derecha de la distribucin.
Si la hiptesis alternativa est en la forma menor que, z es el valor que deja un p-

valor en la cola izquierda de la distribucin.
Si la hiptesis alternativa est en la forma no igual a, entonces existen dos

valores de z, uno positivo y otro negativo. El z positivo es el valor que deja un p-
valor de /2 a la derecha de la distribucin, mientras que el z negativo deja un p-
valor de /2 a la izquierda de la distribucin.
El objetivo es sacar conclusiones sobre el valor de un parmetro desconocido

de la poblacin, a partir de una muestra aleatoria y significativa, que permita
aceptar o no una hiptesis previamente emitida.

6.3.2. PASOS A SEGUIR PARA LA PRUEBA DE HIPTESIS
Los pasos a seguir para la prueba de hiptesis son:
1. Enunciar la hiptesis. Aqu debe formularse la hiptesis nula y la hiptesis

alternativa.
2. Elegir un nivel de significacin y construir la zona de aceptacin. El nivel de

significacin es el estadstico que se especifica para rechazar la hiptesis nula.
Los niveles de significacin de uso ms frecuente son los de 5% y 1%. Por
ejemplo, un nivel de significacin del 5% quiere decir que existe una
probabilidad de 0,05 de rechazar la hiptesis nula, aun siendo efectivamente
cierta.
La zona de aceptacin es el intervalo fuera del cual solamente se encuentran el

100% de los casos ms raros.
3. Seleccionar el estadstico de prueba. Puede ser un estadstico muestral o una
versin estndar. Por ejemplo, el valor de la media muestral puede convertirse
en un valor z si la distribucin de muestreo de la media es normal.

4. Establecer el valor o valores crticos del estadstico de prueba. Si la prueba es
unilateral, se tendr un valor crtico, mientras que si es bilateral, el nmero de
valores crticos ser de dos.
5. Determinar el valor del estadstico de prueba. Se recolecta una muestra
aleatoria y se determina el valor de la media muestral o un valor z estndar, por
ejemplo.
6. Toma de decisin. Si el valor calculado en la muestra cae dentro de la zona de
decisin, se acepta la hiptesis, en caso contrario, se rechaza.

6.3.3. ERRORES EN EL CONTRASTE DE HIPTESIS
El contraste de hiptesis no afirma categricamente la verdad de la hiptesis, sino que

es un criterio para decidir si sta se acepta o rechaza o si las diferencias entre las
muestras observadas y los resultados esperados son significativas.
De aqu que si rechazamos una hiptesis cuando debiera ser aceptada, se est
cometiendo un error de tipo I, mientras que si se acepta cuando en realidad debera ser
rechazada, se est cometiendo un error de tipo II (tabla 6.1).
La probabilidad de cometer un error de tipo I es el nivel de significacin , mientras que

la probabilidad de cometer un error de tipo II depender del verdadero valor de y del
tamao de la muestra.

H0 VERDADERA H0 FALSA
Decisin incorrecta
Mantener H0 Decisin correcta
Error de tipo II
Decisin incorrecta
Rechazar H0 Decisin correcta
Error de tipo I
Tabla 6.1. Errores en el contraste de hiptesis.
6.3.4. CONTRASTE DE HIPTESIS PARA LA MEDIA
La distribucin normal de probabilidad puede emplearse para probar un valor hipottico

de la media de la poblacin si se cumple una de las siguientes hiptesis:
n >30 y la variable sigue un modelo normal.

n >100.
6.3.4.1. Contraste bilateral
H 0: = 0
H1: 0
donde o es un valor conocido.
6.3.4.1.1. Caso 1: se conoce la desviacin estndar de la poblacin
Si se supone que la distribucin en el muestreo de la media sigue la ley normal, el valor

de z se encontrara:
x 0
Z=

n
En funcin del nivel de significacin establecido, se podra encontrar el valor crtico de

z. En efecto, si se escoge un nivel de significacin del 5%, se tiene que en cada cola se
tendr un rea o p-valor de 0,025, ya que se estn considerando ambas colas al ser el
contrate bilateral. En consecuencia, el rea entre la media hipottica y el valor crtico
sera de 0,5-0,025=0,475.

Acudiendo a las tablas, se observa que los valores crticos que dividen las regiones de
rechazo y no rechazo son +1,96 y -1,96.

Figura 6.1: Valores crticos y reas de rechazo y no rechazo de la Hiptesis nula.
En consecuencia, la regla para la decisin sera:
si Z> 1,96: se rechaza la hiptesis nula; o bien,

si Z< 1,96: no se rechazara la hiptesis nula.

EJEMPLO
En una empresa de fabricacin de roscas se sabe que la desviacin tipo en un

determinado modelo es de 2,4. Para una muestra de 36 roscas de este modelo
se obtiene un dimetro medio de 5,6 mm. Se puede confirmar la hiptesis de
que el dimetro medio de las roscas es 6 con un nivel de significacin 0,05?
Se cumple n>30, por lo que se puede emplear la distribucin normal para

probar el valor hipottico.
Se trata de un contraste bilateral, ya que nos interesa una posible desviacin en

cualquier direccin respecto del valor hipottico de la media.
H 0: = 6
H1: 6

Si Ho es cierta, las medias muestrales se distribuyen segn N(6; 0,4).

Para = 0,05 se tiene que /2= 0,025 y por tablas /2= 1,96.
Sustituyendo, se tiene:
X 0
Z= = 1

n
Dado que:
/Z/<1,96 en cada una de las colas, no se rechaza la hiptesis nula y se

admite que el dimetro medio de las roscas es 6 mm con una probabilidad
de error del 5%.
Otra manera de hacerlo sera elaborando un intervalo de confianza (zona de

aceptacin) para la media de la poblacin en base a los resultados muestrales,
tras lo cual se observara si el valor hipottico de la media poblacional est
incluido en el intervalo de confianza. Si dicho valor est incluido en el intervalo,
la hiptesis nula no puede ser rechazada (figura 6.2).
Figura 6.2: Representacin de la zona de aceptacin de la Ho para un contraste de hiptesis bilateral.
Dicho intervalo vendr dado por la ecuacin:
LM Z /2

, 0 + Z /2
OP
N 0
n nQ
Sustituyendo, nos dara el intervalo de confianza:
6 1,96 0,4 ; 6 + 1,96 0,4 = 5,22 ; 6,78

Dado que 5,6 se encuentra dentro del intervalo, se puede aceptar igualmente la
hiptesis nula de que el dimetro de las roscas sea 6 con una probabilidad de
error del 5%.
6.3.4.1.2. Caso 2: no se conoce la desviacin estndar de la poblacin
A partir de la muestra se calcula un valor experimental Vexp:
X 0
Vexp =
s
n
Y el valor terico (V z), que es el valor que en la distribucin N(0,1) deja a su derecha
un rea /2 para un nivel de significacin .

La regla de decisin, una vez fijado el nivel de significacin es la siguiente:
- Si Vexp > V se acepta la hiptesis alternativa.
- Si Vexp V se acepta la hiptesis nula.
6.3.4.2. Contraste unilateral
H0: 0

H1: > 0
donde o es un valor conocido.
6.3.4.2.1. Caso 1: se conoce la desviacin estndar de la poblacin
En este caso, aplicando el mtodo de intervalos de confianza para pruebas de hiptesis

referentes a la media, se aceptara la H0 cuando:
X LM, + z
OP
N 0
nQ

Y se rechazara cuando:
X LM , + z
OP
N 0
nQ
En la figura 6.3 se ilustra la representacin de la zona de aceptacin H0 para un

contraste de hiptesis unilateral.
Figura 6.3: Representacin de la zona de aceptacin de la H0 para un contraste de hiptesis unilateral.
EJEMPLO
Una empresa fabrica perfiles de aluminio de 170 cm como mximo, con una
desviacin tipo de 8 cm. En una muestra de 100 perfiles se observa una
longitud de 172 cm. Se puede aceptar la hiptesis con un nivel de significacin
del 5%?
H0: 170
H1: > 170
Las medias muestrales se distribuyen segn N(170;0,8).

Para = 0,05 las tablas proporcionan un valor de z= 1,645
La zona de aceptacin ser:
LM, + z
OP = ; 170+1,645 0,8 = ; 171,32
N 0
nQ

Como quiera que:
172 -; 171,32
Se rechaza la hiptesis nula de que los perfiles de aluminio midan como mucho
170 cm.
6.3.4.2.2. Caso 2: no se conoce la desviacin estndar de la poblacin
No obstante, en la mayora de los casos se desconoce la desviacin estndar de la

poblacin. En este caso, la distribucin t-student es la referencia adecuada para la
determinacin de la estadstica de prueba estandarizada cuando la distribucin de
muestreo de la media tiene una distribucin normal pero es desconocida.

El procedimiento a seguir es idntico al seguido para la distribucin normal,
sustituyendo la z por la t como estadstico de prueba.
X 0
t=
SX
donde:
s
SX =
EJEMPLO
Una empresa productora de lmparas quiere demostrar que la vida til de los
focos de la marca que fabrica es de 4200 horas, frente a la alternativa que
plantea la competencia de que su duracin es menor. Para ello, se sac una
muestra aleatoria de 10 lmparas cuyo ciclo medio de vida til era de 4000
horas con una desviacin estndar de s= 200 horas. Se supone que, en
general, el ciclo de vida til de los focos sigue una distribucin normal. El nivel
de significancia es del 5%.

Dado que la muestra es pequea n<30 y desconocemos la varianza

poblacional, se requiere aplicar la distribucin t-student.
H 0 : = 4200
H1: < 4200
Consultando las tablas para la t-student, se tiene que para =0,05 y n-1
grados de libertad, un valor de t crtico de -1,833.
s 200
SX = = = 63,3h
n 10
X 0 4000 4200
t= = = 3,16
SX 63,3
Dado que -3,16 se halla en la regin de rechazo de la cola izquierda (a la

izquierda del valor crtico), se rechaza la hiptesis nula y se acepta que el ciclo
medio de vida til real de las lmparas es menor de 4200 h.
6.3.5. CONTRASTE DE HIPTESIS PARA PROPORCIONES
La prueba de hiptesis puede utilizarse para probar hiptesis en relacin a datos

cualitativos, es decir, para llegar a conclusiones en referencia a la proporcin de los
valores que tienen una caracterstica particular.
6.3.5.1. Contraste bilateral
H 0: p = p 0
H1 : p p 0
Se busca un z/2 tal que:
b
P -z/2 z z/2 = 1 g
La zona de aceptacin se ilustra en la figura 6.4 y ser el intervalo:
LM p - Z
p q
, p + Z /2
p q OP
N /2
n n Q

Figura 6.4: Representacin de la zona de aceptacin de la Ho para un contraste de hiptesis bilateral.
La hiptesis nula H0 se aceptar cuando:
LM
p p - Z /2
p q
, p + Z /2
p q OP
N n n Q
Y se rechazar cuando:

LM
p p - Z /2
p q
, p + Z /2
p q OP
N n n Q
EJEMPLO
Se quiere determinar si la proporcin de personas que toman un medicamento

para el dolor de cabeza y que obtienen alivio es del 90%, tal y como afirma la

publicidad. Se tiene una muestra aleatoria de 100 individuos, de los cuales, 88
obtuvieron alivio al tomar el medicamento. Sera aconsejable en este caso
tomar niveles de significancia bajos, por ejemplo del 5%.
H 0 : p = 0 ,9
H 1 : p 0 ,9
con un nivel de significancia dado =0,05.

Para =0,05 se tiene que /2= 0,025 y, por tanto, z/2= 1,96
Dado que q=1-p= 0,1
Sustituyendo:
LMp - Z
p q
, p + Z /2
p q OP = 0 , 84 ; 0,95
N /2
n n Q

Dado que 0,88 est contemplado en el intervalo, no se rechazara la hiptesis

nula.
6.3.5.2. Contraste unilateral

H0 : p p 0
H1: p < p0
Se busca un z tal que:
b
P z z = 1 g
La zona de aceptacin se ilustra en la figura 6.5 y ser el intervalo:
LMp - Z pq
, +
OP

N
n Q
Figura 6.5: Representacin de la zona de aceptacin de la Ho para un contraste de hiptesis unilateral.
La hiptesis nula H0 se aceptar cuando:
LM
p p - Z
pq
, +
OP
N n Q
Y se rechazar cuando:
LM
p p - Z
pq
, +
OP
MN n PQ

EJEMPLO
Una mquina fabrica piezas de precisin garantizando que la proporcin de

piezas correctas es de al menos del 97%. Un cliente recibe un lote de 200
piezas y aparecen 8 piezas defectuosas; a un nivel de confianza del 95%
rechazar el lote por no cumplir las condiciones de garanta?
H 0 : p 0,97
H 1 : p < 0,97
La distribucin muestral si H0 es cierta es N(0,97; 0,01).

Para = 0,05 se tiene que z= 1,645
Sustituyendo:
LMp - Z
pq OP
, + = 0,95; +
N
n Q

La proporcin de piezas correctas en la muestra es p=192/200= 0,96. Como
quiera que se cumple:
0,96 0,95; +
Se acepta la hiptesis nula y, en consecuencia, el lote.

Resumen



IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES
Captulo 7
IG U A L D A D E S T A D S T I C A
E N T RE D O S O M S
POBLACIONES
7.1. INTRODUCCIN
Es sabido que dos variables aleatorias X e Y son equivalentes si y slo si se cumple que
tienen la misma funcin de distribucin:
Fx ( z ) = Fy (z )
En funcin de los usos, existen diferentes pruebas a realizar para probar la igualdad
estadstica de poblaciones. Las principales y que trataremos aqu son:
- Igualdad de dos poblaciones normales. Aplicando la prueba z (t-student) y la

prueba F-Snedecor para probar la igualdad de medias y de varianzas,
respectivamente.
- Anlisis de la varianza. Aunque puede emplearse con dos poblaciones, la
ANOVA est diseada para la prueba de igualdad de medias de tres o ms
poblaciones.
- Igualdad de proporciones en varias poblaciones. Aqu tienen usos interesantes

las aplicaciones de chi-cuadrado.

7.2. COMPARACIN DE DOS MEDIAS

POBLACIONALES
Se trata de comparar la media de dos poblaciones diferentes, planteando la hiptesis

nula de que no existen diferencias significativas entre ambas.
Las pruebas referentes a la diferencia entre medias pueden ser bilaterales o unilaterales.
7.2.1. DIFERENCIA ENTRE MEDIAS EMPLEANDO LA DISTRIBUCIN NORMAL
El procedimiento que se sigue es parecido al observado en la prueba de una hiptesis

referente al valor de una media poblacional. La nica diferencia radica en que la
desviacin tipo estndar de la diferencia de las medias es el estadstico que se emplea
para determinar el valor z (o t) asociado con el resultado muestral.

Si se conoce la varianza 1 y 2 de ambas poblaciones, la frmula general para
determinar el valor de z y probar as la hiptesis nula es:
(X1 X2) (1 2)0

Z=
Ox1 x2
Si no se conoce la varianza 1 y 2 de las poblaciones, se utiliza:
(X1 X2) (1 2)0

Z=
Sx1 x2
No obstante, si queremos probar la hiptesis nula, lo ms usual es suponer que las dos
muestras se han obtenido de poblaciones con igual media, por lo que se tiene:
(1 2 )0 = 0
Simplificando:
(X1 X2 )
Z=
Ox1 x2
(X1 X2 )
Z =
Sx1 x2

donde:
2 2
2 2 S1 S
S x1 S x2 = S x1 + S x2 = + 2
n1 n2
Supongamos ahora que no slo se supone que las medias muestrales se obtuvieron de
poblaciones con medias iguales, sino que, en realidad, tambin se obtuvieron de la
misma poblacin, entonces 1= 2= .
De esta manera, el valor estimado combinado de la varianza de la poblacin 2 es:
2 2
(n1 1 ) S 1 + (n 2 1 ) S 2
s$2 =
n1 + n 2 2
Y la desviacin tipo estimada de la diferencia de medias basada en el supuesto que las

varianzas de las poblaciones son iguales es:
$2 $2
s$x1 x2 = +
n1 n2
EJEMPLO
Una muestra de 30 empleados de una empresa perciben por termino medio un

salario de 280 euros semanales con una desviacin estndar de la muestra de
14 euros. En la empresa de la competencia, una muestra al azar de 40
empleados dio como resultado un salario medio de 270 euros con una
desviacin estndar de 10 euros. No se supone que las desviaciones estndar
de las dos poblaciones de montos sean iguales.
Se quiere observar si con un nivel de significacin del 5% existe o no diferencia

entre los salarios medios semanales de ambas empresas.
Planteamos la hiptesis nula de que no existen diferencias salariales:
H 0 :( 1 2 ) = 0
H 1: ( 1 2 ) 0

Aplicando la frmula:
2 2
2 2 S1 S 142 102
Sx1 Sx2 = Sx1 + Sx2 = + 2 = + = 3,0
n1 n2 30 40
X1 X2 280 270
Z= = = 3,33
Sx1 Sx2 3
Por tablas, sabemos que:
/ Z =0,05 / = 1,96
La z calculada de 3,33 se encuentra en la regin de rechazo del modelo de

prueba de hiptesis. En consecuencia, la hiptesis nula se rechaza, y la
hiptesis alternativa de que el salario semanal promedio de las dos empresas es
diferente, se acepta.

Figura 7.1: Regin de aceptacin y rechazo de la hiptesis nula.

7.2.2. DIFERENCIA ENTRE MEDIAS EMPLEANDO LA T-STUDENT
Las hiptesis que deben satisfacerse para poder aplicar la t-student con el fin de
comparar las medias de dos grupos son:
- La variable estudiada debe seguir una distribucin normal.

- La dispersin en los dos grupos a comparar debe ser homognea (hiptesis de
homocedasticidad o de igualdad de varianzas).
No es obligatorio que los tamaos de los grupos sean iguales, ni tampoco resulta
necesario conocer la dispersin de los dos grupos.
EJEMPLO
En una muestra aleatoria de 10 focos el ciclo medio de vida es de 4000 horas

con una desviacin tipo de 200 horas. Para otra marca de focos, cuya vida til
tambin se presume que sigue una distribucin normal, una muestra aleatoria
de 8 focos tiene una duracin media de 4300 horas y una desviacin estndar
de 250. Se prueba la hiptesis de que no existe ninguna diferencia entre el
ciclo medio de vida til de las dos marcas de focos con un nivel de significancia
del 1%. Se supone que se cumple la hiptesis de homocedasticidad.
Planteamos la hiptesis nula de que no existen diferencias en el ciclo medio de

vida til:
H 0 :( 1 2 ) = 0
H1:( 1 2 ) 0
Aplicando las frmulas:
2 2
(n1 1) S1 + (n2 1) S2 (9) 2002 + (7) 2502
s$2 = = = 49843,75
n1 + n2 2 10 + 8 2
) )
s2 s2 4 9 8 4 3 ,7 5 4 9 8 4 3 ,7 5
s$x1 x2 = + = + = 1 0 5 ,9
n1 n2 10 8
X X2 4000 4300
t = )1 = = 2,833
x1 x2 105,9
Dado que en las tablas se tiene que la t crtica con = n1+n2-2= 16 g.l y
=0.01 es de 2,921 en valor absoluto, y que el valor -2,833, por tanto, se

halla en la zona de aceptacin de la hiptesis nula, se concluye que la hiptesis

nula no puede rechazarse al nivel de significancia del 1%.
A menudo la aplicacin de la t-student se realiza sin excesivo cuidado, es decir,

sin comprobar las condiciones de aplicacin. En este contexto, antes de realizar
la prueba, siempre deben ratificarse previamente la normalidad (prueba de
Kolgomorov) y homogeneidad de las varianzas (prueba F-Snedecor, Levene...).
En el caso de que no se cumpla la condicin de normalidad, se suele intentar

alguna transformacin que normalice los datos, siendo la de logaritmo
neperiano la ms comn. En la prctica, ocurre que la transformacin que
normaliza los datos tambin consigue la igualdad de varianzas. No obstante,
si ni siquiera despus de transformar los datos se consigue la igualdad de
varianzas, debe emplearse una modificacin de la prueba de t-student debida a
Satterthwaite, vlida para el caso de no homogeneidad de varianzas.

7.3. COMPARACIN DE DOS VARIANZAS
POBLACIONALES
Con frecuencia existe inters en conocer si la varianza de dos poblaciones difieren. En

estos casos, debe hacerse una prueba estadstica de igualdad de varianzas. La hiptesis
a plantear es:

H o : 21 = 2 2
En estos casos se emplear la prueba F de Snedecor. Para ello, se construye el

estadstico de contraste experimental F dado por:
m x{S 21;S 2 2 }
F =
obs
m in{S 21;S 2 2 }
donde:
Fobs= F de Snedecor.
s21= varianza muestral del grupo 1.

s22= varianza muestral del grupo 2.
En el caso que Fobs< Fterica, se aceptara la H0: 21=22

donde:
Fterica= es la F de Snedecor obtenida mediante tablas (ver apndice) para un

valor dado de con:
- grados de libertad del numerador, m: tamao muestral del grupo con mayor
varianza muestral menos uno.
- grados de libertad del denominador, n: tamao muestral del grupo con

menor varianza muestral menos uno.
Existen infinidad de variables F, todas ellas positivas e identificadas por dos parmetros
m y n denominados grados de libertad. Estos parmetros son siempre enteros positivos.
Tal y como se puede observar en la figura 7.2, la curva de densidad es asimtrica

positiva.
Figura 7.2: Criterio para el rechazo de la hiptesis nula sobre la homocedasticidad.
EJEMPLO
El gerente de una empresa dedicada a la comercializacin de carne de vacuno

desea conocer si, tal y como dice la prensa, un cierto aditivo produce el
engorde prematuro de las reses. Para ello, compara los pesos de dos grupos de
reses al cabo de un determinado perodo de tiempo. En el primer grupo se ha
incluido el aditivo como parte de su alimentacin, mientras que en el segundo
se ha obviado por completo.

Los resultados son los siguientes:
Con aditivo
39 36 35 37 40 39 40 38 35 39
(kg)
Sin aditivo
43 45 42 35 37 38 33 38 41 43
(kg)
Se trata de un problema de comparacin de dos medias mediante el test de la t

student. Sin embargo, aqu nos interesa comprobar el cumplimiento de la
igualdad de varianzas para poder as aplicar la prueba, suponiendo la
normalidad de los grupos.
Haciendo los clculos pertinentes, resulta:
X1 = 37,8 X2 = 39,5
S 21 = 3,36 S 22 = 13,65

Aplicando el estadstico, resulta:
mx{S 21;S 2 2 } 13,65

F = = = 4,06
obs
min{S 21;S22 } 3,36
Dado que Fobs= 4,06 > F9; 9; 0,05= 3,178 se rechazara la hiptesis nula de
que las varianzas poblacionales son significativamente iguales.
Algunas transformaciones usadas para lograr normalidad (logaritmo, arcseno,

raz cuadrada, etc.) consiguen a su vez tambin la homogeneidad en las

varianzas. Por ese motivo, se recomienda que si los datos primarios no cumplen
ninguno de los dos supuestos, se utilice la transformacin y se trate de
asegurar, en primer lugar, la homocedasticidad. De hecho, la principal razn
para transformar los datos es para mejorar la homogeneidad de las varianzas y
no para resolver el problema de normalidad, ya que este ltimo es un problema
menor en ANOVA.

7.4. CONDICIONES NECESARIAS PARA LA TOMA DE

DECISIONES ESTADSTICAS
Aqu se recuerda que en casi todas las pruebas estadsticas para la toma de decisiones,
deben tenerse en cuenta las siguientes premisas:
1. Cualquier anomala puede tener un impacto significativo e influenciar en los

resultados de la valoracin y mtodos de las pruebas estadsticas.
2. La poblacin debe ser homognea, es decir, unimodal.
3. La muestra debe ser aleatoria
4. Adems de ser homognea, cada poblacin debe distribuirse segn una normal.
5. Homogeneidad de las varianzas (Homocedasticidad).
Veremos a continuacin que estas premisas incluyen los supuestos que debern cumplir
las poblaciones para realizar e interpretar un anlisis de la varianza ANOVA.
7.5. COMPARACIN DE MS DE DOS MEDIAS

POBLACIONALES (ANOVA)
Aunque el anlisis de la varianza (ANOVA) tambin se puede emplear para analizar las
diferencias entre las medias de dos poblaciones, es un mtodo ms general que permite
las comparaciones entre las medias de ms de dos grupos.
El anlisis de la varianza o ANOVA nos permitir probar la diferencia entre dos o ms

medias 1 , examinando el cociente de la variabilidad entre dos condiciones y de la
variabilidad dentro de cada condicin.
Es importante sealar que el ANOVA ser vlido solamente si:
- La variable respuesta sigue una distribucin normal.
- Se cumple la hiptesis de homocedasticidad o igualdad de las varianzas.
- Se cumple el supuesto de independencia de los grupos a comparar respecto a la

variable respuesta que se analiza.
1. En el ANOVA se comparan medias, no varianzas.

Las hiptesis a contrastar considera k situaciones experimentales analizadas sobre una

variable de respuesta Y.
H0: 1 = 2 = 3 = L = k
H1: al menos dos difieren
donde:
i= representan los valores (i=1, 2,...k) medios de la variable de respuesta Y,

en las k situaciones experimentales.
A la hora de formular el criterio de rechazo de la hiptesis nula, recurre a dos

estimadores independientes de la varianza -de ah su nombre- conocidos como
cuadrados medios de los tratamientos (MSA o MSB) y cuadrados medios del error
(MSE), y que son comparados probabilsticamente con ayuda de la distribucin F de
Snedecor.

MSA da idea de la varianza entre grupos, mientras que MSE
es un indicativo de la varianza dentro de los grupos.
MSA y MSE estiman la varianza poblacional en la hiptesis de que las k muestras

provengan de la misma poblacin.
La distribucin muestral del cociente de dos estimaciones independientes de la varianza

de una poblacin normal es una F de Snedecor con los grados de libertad
correspondientes al numerador y denominador, respectivamente, por lo que se puede

contrastar dicha hiptesis empleando esa distribucin.
Si en base a este contraste se rechaza la hiptesis de que MSE y MSA estimen la misma
varianza, se puede rechazar la hiptesis de que las k medias provengan de una misma
poblacin.
Los resultados de un ANOVA se suelen representar en la tabla 7.1.

SUMA DE MEDIA
FUENTES DE
g.l CUADRADOS CUADRTICA F
VARIACIN
SS MS
Entre grupos
k-1 SSA SSA/(k-1) MSA/MSE
Tratamiento
Dentro de grupos
k(n-1) SSE SSE/k(n-1)
Error
Total kn-1 SST
Tabla 7.1. Tabla ANOVA.
Es muy importante mencionar que para que el contraste de hiptesis basado en la F de

Snedecor lo sea de la igualdad de medias, es necesario que todas las muestras
provengan de una poblacin con la misma varianza 2 , de la que MSE y MSA son
estimadores. En consecuencia, resulta necesario comprobarlo antes de realizar el
contraste.
En principio, el anlisis de la varianza no puede realizarse si las muestras no son

homocedsticas. No obstante, existen soluciones alternativas en estos casos.
EJEMPLO
En un determinado experimento se lleg a las conclusiones que se muestran en
la siguiente tabla:
MUESTRA SUMA MEDIA
Poblacin 1 2 3 1 3 1 10 2
Poblacin 2 3 4 3 5 0 15 3
Poblacin 3 5 5 5 3 2 20 4
Media principal 3
Se tratara de ver si existen diferencias significativas entre las poblaciones. Por

tanto, definiramos la hiptesis nula como siempre, es decir, planteando que no
existen diferencias entre ellas:
H0 : 1 = 2 = 3
H1: al menos dos de las medidas difieren

Para rellenar la tabla ANOVA hemos de calcular la suma de los cuadrados entre
grupos SSA y dentro de los grupos SSE.
Calculo de SSA
Se calcula procurando que todos los valores adquieran el valor que tendran si a
sus respectivas medias les restasen (en valor absoluto) la magnitud de la media
principal.
MUESTRA SUMA
Poblacin 1 1 1 1 1 1 5
Poblacin 2 0 0 0 0 0 0
Poblacin 3 1 1 1 1 1 5
Total SSA 10
Clculo de SSE

Se calcula restando a cada uno de los valores su media respectiva del grupo y
elevando al cuadrado.
MUESTRA SUMA
Poblacin 1 0 1 1 1 1 4
Poblacin 2 0 1 0 4 9 14
Poblacin 3 1 1 1 1 4 8
Total SSE 26

Tabla ANOVA
SUMA DE MEDIA
FUENTES DE
g.l CUADRADOS CUADRTICA F
VARIACIN
SS MS
Entre grupos
2 10 5 2,30
Tratamiento
Dentro de grupos
12 26 2,17
Error
Total 14 36
Dado que por tablas, a un valor de significancia de =0,05, con 2 g.l. en el

numerador y 12 g.l. en el denominador, el valor crtico obtenido2 de F0,05 ; 2,
12= 3,89.

Como quiera que 2,30 < 3,89, no existen evidencias suficientes para rechazar
la hiptesis nula, aceptando que no hay diferencias entre las medias de las
poblaciones.
7.6. COMPARACIN DE MS DE DOS VARIANZAS

POBLACIONALES
Tal y como se ha visto, para comprobar la homocedasticidad (igualdad de varianzas) de

dos poblaciones puede emplearse la F de Snedecor; sin embargo, si hablamos de ms
de dos poblaciones, la F de Snedecor no sirve y se debe recurrir a otros mtodos como
la prueba de Bartlett, Cochran y la de la F del cociente mximo.
7.6.1. PRUEBA F DEL COCIENTE MXIMO
Esta prueba estadstica, que no tiene nada que ver con la F de Snedecor, se emplea
para someter a prueba la hiptesis:
H0: 21 = 22 = 23
El procedimiento es el siguiente:
a) Encontrar la varianza ms grande y ms pequea de todos los grupos a

comparar.
b) Calcular la razn de estas varianzas (Fmax. observado).
c) Elegir un error () aceptable de cometer, normalmente 0,05.
d) El test supone que todos los grupos a comparar son del mismo tamao. Si los
grupos son diferentes, debe usarse el grupo con menor tamao muestral (n)
para calcular los grados de libertad.
e) Mirar en la tabla de distribucin acumulada de Fmax. terico los valores de
probabilidad con a grupos y n-1 grados de libertad. Estos valores han sido
calculados bajo el supuesto de que las varianzas son homogneas.
f) Si Fmax. observado > Fmax. terico a un =0,05, entonces se rechaza la hiptesis
nula de la homogeneidad de varianzas, es decir, existe heterogeneidad de
varianzas.
2. Las tablas de la F-Snedecor pueden consultarse en el Apndice.

EJEMPLO
Se sospecha que una granja porcina ha vertido una cantidad de purines

indeterminada a un lago. El gerente de la granja asegura que no hubo ninguna
filtracin. Para tratar de verificar esta sospecha, la administracin realiza
medidas de los niveles de nitratos en diferentes puntos del lago, obteniendo los
siguientes valores:
Lago 1 7,1 8,5 6,2 7,3 7,9
Posteriormente, se toman muestras de nitratos en varios puntos de otros tres

lagos no contaminados, obteniendo:
Lago 2 7,2 6,5 5,9 7,8 ---
Lago 3 5,6 7,1 6,3 6,7 6,5

Lago 4 7,2 6,6 6,3 7,4 ---
Los valores obtenidos en el lago del posible vertido parecen ser ms altos que
en los obtenidos en los otros tres. Se considera esta diferencia lo
suficientemente importante como para concluir que el nivel de nitratos del lago
1 es diferente al de los dems y que, por tanto, est contaminado?
Este sera un problema de ANOVA, sin embargo, aqu lo que nos interesa es
comprobar la homogeneidad de varianzas por la prueba de la Fmax.
GRUPOS SXi SX2i Xi ni S2i
Lago 1 37 276,8 7,4 5 0,6
Lago 2 27,4 189,74 6,85 4 0,5125
Lago 3 32,2 208,6 6,44 5 0,2464
Lago 4 27,5 189,85 6,875 4 0,1969
Totales 124,1 864,99 X t =6,894 18 S2t=0,522

De la tabla se deduce que la varianza mayor es 0,6 mientras que la menor es

0,1969. En consecuencia:
S2 mayor 0,6
F mx = = = 3,047
2
S menor 0,1969
Dado que para 3 grados de libertad a un =0,05, la Fmax. crtica = 6,6 > 3,047
se aceptara la hiptesis nula de homogeneidad de varianzas.



Resumen



CORRELACIN Y REGRESIN
Captulo 8
CORRELACIN
Y RE G RE S I N
8.1. VARIABLES CORRELACIONADAS
Decimos que dos variables, X e Y, estn positivamente correlacionadas cuando siguen

una misma tendencia, es decir, a elementos pequeos de X le corresponden elementos
pequeos de Y, mientras que a elementos grandes de X tienden a corresponderle
elementos grandes de Y.
En cambio, se dice que estn correlacionadas de forma negativa cuando la tendencia es

inversa, es decir, a elementos pequeos de X tienden a corresponderles valores grandes
de Y, mientras que a elementos grandes de X les corresponden valores pequeos de Y.
Por ejemplo, las variables peso-altura, en general, estn correlacionadas de manera

positiva, pues la mayora de los individuos altos tambin son pesados, mientras que la
mayora de los bajos tienen un menor peso. Por otro lado, en algunos pases, las
variables renta familiar y nmero de elementos de la familia, acostumbran a presentarse
negativamente correlacionadas, pues las familias de baja renta, en general, tienden a
tener un mayor nmero de hijos que las de renta alta.
A lo largo de este captulo se ilustrar el estudio de correlacin entre dos variables,

utilizando los datos de la tabla 8.1, relativos a algunos indicadores sociales de una
muestra de municipios de Brasil1.

ESPERANZA DE MORTALIDAD TASA

MUNICIPIO DISTa. VIDA AL
RENTA PER-
CAPITAL NACER INFANTILb ALFABETIZACINc CPITA ($)
Araruna (PR) 365 67,99 23,19 86,23 188,29

Nova Redeno (BA) 278 61,19 56,56 63,00 74,79
Mono (MA) 150 59,58 63,32 63,64 66,96
Porto Rico do Maranho (MA) 78 58,96 66,05 79,33 65,34
Campo Er (SC) 468 68,10 31,71 83,38 173,38
Lagoa do Piau (PI) 40 63,65 47,08 65,81 60,00
So Jos das Palmeiras (PR) 486 71,01 16,62 77,54 150,67
Paraba do Sul (RJ) 83 71,36 15,69 89,28 264,55
Malhada dos Bois (SE) 65 64,46 44,18 69,95 80,69
Jandara (BA) 175 62,45 51,57 59,72 58,68
Vespasiano (MG) 14 68,68 32,81 90,43 196,51
Ipaba (MG) 167 67,42 37,04 81,82 125,75
a. Distancia a la capital de la respectiva Unidad de Federacin.

b. Nmero medio de muertes por cada mil nacimientos hasta el ao de vida.
c. Tasa de alfabetizacin (porcentaje de poblacin adulta alfabetizada).
Tabla 8.1. Algunos datos basados en el Censo Demogrfico de 2000, de una muestra aleatoria de

municipios brasileos2.
8.2. DIAGRAMAS DE DISPERSIN
Una manera de visualizar el tipo de correlacin entre dos variables es mediante el

diagrama de dispersin, en el cual los valores de las variables se representan por puntos
en un sistema cartesiano.
La representacin se realiza bajo la forma de pares ordenados (x,y) donde x es un

valor de una variable e y corresponde al valor de la otra variable.
La figura 8.1 ilustra la construccin de un diagrama de dispersin.
1. Se est utilizando una muestra bastante pequea para ilustrar las tcnicas. Se podra hacer un estudio ms detallado
tomando toda la poblacin de todos y cada uno de los municipios, ya que estos datos estn disponibles en el Censo
Demogrfico de 2000 incluido en el Atlas de Desarrollo Humano (http://www.pnud.org.br/atlas).
2. Fuente: Atlas de Desarrollo Humano (http://www.pnud.org.br/atlas).

Figura 8.1: Construccin de un diagrama de dispersin. Representacin de las tres primeras observaciones
de X (distancia a la capital) y de Y (esperanza de vida al nacer) referente a los datos de la
tabla 8.1.
La figura 8.2 muestra cuatro diagramas de dispersin, relacionando algunas variables de

la tabla 8.1 con otras. El lector debe notar que cada uno de los pares observados se
refiere a un mismo elemento (municipio).
Figura 8.2: Algunos diagramas de dispersin construidos a partir de los datos de la tabla 8.1.

El diagrama (b) de la figura 8.2 muestra una situacin de correlacin positiva, ya que los
puntos estn en torno a una lnea imaginaria ascendente. En general, valores pequeos
de una variable tambin lo son en la otra, y lo mismo acontece para grandes valores.
Los diagramas (a) y (c) muestran correlaciones negativas porque, en ambos casos, los
puntos estn entorno a una lnea imaginaria descendente. En general, valores pequeos
de una variable se corresponden con grandes en la otra. En (c) los puntos se presentan
ms prximos a una lnea descendente que en (a), lo que caracteriza una correlacin
ms fuerte.
En el diagrama (d) no se presenta correlacin alguna, pues valores pequeos (o grandes)

de una variable estn asociados tanto a valores pequeos como a valores grandes de
otra. En este caso, los puntos no se posicionan alrededor de ninguna lnea ascendente o
descendente.
La figura 8.3 muestra un conjunto de puntos que se aproxima ms a una parbola que a
una recta, ilustrando un caso de correlacin no lineal. La interpretacin de las
correlaciones no lineales es ms difcil y no ser objeto de este documento.

Figura 8.3: Diagrama de dispersin de un ejemplo hipottico de correlacin no lineal.
Es importante resaltar que el concepto de correlacin se refiere a una asociacin

numrica entre dos variables, sin implicar, necesariamente, una relacin causa-efecto.
Si se toman, por ejemplo, las variables poblacin de Argentina y venta de cerveza en
Brasil a lo largo de los dos ltimos aos, se observa que estn correlacionadas de
manera positiva, pues ambas aumentan con el tiempo. Con todo, en trminos prcticos,
esta correlacin es esprea, ya que no aporta ninguna informacin relevante.
El anlisis de datos para verificar las correlaciones se realiza usualmente en trminos

exploratorios como elemento auxiliar dentro de un problema de estudio; es decir, el
estudio de la correlacin numrica entre las observaciones de dos variables es
generalmente un paso intermedio del anlisis de un problema.

8.3. EL COEFICIENTE DE CORRELACIN LINEAL DE

PEARSON
El coeficiente de correlacin lineal de Pearson es apropiado para describir la correlacin

lineal de dos variables cuantitativas.
El valor del coeficiente de correlacin debe ser independiente de la unidad de medida de

los datos. Por ejemplo, el coeficiente de correlacin entre las variables peso y altura
debe tener el mismo valor independientemente de si el peso est medido en gramos o
kilogramos y la altura en metros o centmetros.
Con el fin de evitar la influencia de las unidades de medida, debe procederse a realizar
un cambio de variable (tipificar) tal que:
x X yY
x = y =
Sx Sy
donde:
x=valor tipificado que toma un valor de la variable X.
y =valor tipificado que toma valor de la variable Y.

X = media de los datos de la variable X.
Y = media de los datos de la variable Y.
Sx= desviacin tipo de los datos de la variable X.

Sy= desviacin tipo de los datos de la variable Y.
El coeficiente de correlacin lineal de Pearson, r, se define por la siguiente expresin, en

trminos de valores tipificados:
(x y )
r =
n 1
donde:
r= coeficiente de correlacin lineal de Pearson.
n= tamao de la muestra, es decir, el nmero de pares (x,y).

(xy) es la suma de los productos xy de los pares de valores tipificados.

EJEMPLO DE CORRELACIN POSITIVA
La tabla 8.2 proporciona un conjunto de datos hipotticos y tipificados.
VALORES ORIGINALES VALORES TIPIFICADOS PRODUCTOS
x y x y xy
2 4 -1,50 -,175 2,63

3 7 -1,00 -0,88 0,88
4 9 -0,50 -0,29 0,15
5 10 0,00 0,00 0,00
5 11 0,00 0,29 0,00
6 11 0,50 0,29 0,15
7 13 1,00 0,88 0,88
8 15 1,50 1,46 2,19
40 80 0,00 0,00 6,87 Suma
5,00 10,00 0,00 0,00 Media

2,00 3,42 1,00 1,00 Desviacin tipo
Tabla 8.2. Conjunto de valores hipotticos y tipificados.
En la figura 8.4 se ilustra la disposicin de los valores originales y tipificados en

unos ejes cartesianos.
Figura 8.4: Diagramas de dispersin de los valores originales y tipificados.

Cuando se trabaja con datos correlacionados positivamente, como es el caso

del ejemplo, los pares (x, y) tienden a tener el mismo signo (+ -),
especialmente para aquellos puntos lejos del origen. En este sentido, tal y
como muestra la tabla 8.2, los productos xy son de signo positivo.
En consecuencia, el coeficiente de correlacin r ser positivo, tal y como se

muestra:
(x y ) 6,87
r= = = 0,981
n 1 7
EJEMPLO DE CORRELACIN NEGATIVA
La tabla 8.3 proporciona un conjunto de datos hipotticos y tipificados.

VALORES ORIGINALES VALORES TIPIFICADOS PRODUCTOS
x y x y xy
2 16 -1,50 1,75 -2,63

3 13 -1,00 0,88 -0,88
4 11 -0,50 0,29 -0,15
5 10 0,00 0,00 0,00
5 9 0,00 -0,29 0,00
6 9 0,50 -0,29 -0,15
7 7 1,00 -0,88 -0,88
8 5 1,50 -1,46 -2,19
40 80 0,00 0,00 -6,87 Suma
5,00 10,00 0,00 0,00 Media
2,00 3,42 1,00 1,00 Desviacin tipo
Tabla 8.3. Conjunto de valores hipotticos y tipificados.
En la figura 8.5 se ilustra la disposicin de los valores originales y tipificados en

unos ejes cartesianos.

Figura 8.5: Diagramas de dispersin de los valores originales y tipificados.

En este ejemplo, el coeficiente r es negativo porque los pares de valores (x, y)
tienen, en general, signos diferentes, especialmente en aquellos puntos
alejados del origen. Este hecho hace que los productos xy sean de signo
negativo y, en consecuencia, tambin lo sea r.
En la figura 8.5 se observa una mayor concentracin de puntos en los

cuadrantes II y IV (donde x e y tienen signos opuestos), acarreando un valor
negativo para r.
(x y) 6,87
r= = = 0,981

n 1 7
En definitiva, de ambos ejemplos se deduce que si los puntos se concentran en los

cuadrantes I y III (figura 8.6), la correlacin es positiva, mientras que si lo hacen en los
cuadrantes II y IV, es negativa. En caso de que los puntos se distribuyesen de forma
aproximadamente igual en todos los cuadrantes, los datos no estaran correlacionados
haciendo que la suma de productos positivos y negativos fuesen cercana a cero.

Figura 8.6: Cuadrantes en los que se dividen los ejes cartesianos.
Para cualquier conjunto de datos, el valor del coeficiente de correlacin de Pearson, r,

estar en el intervalo de -1 a 1. Ser tanto ms prximo de 1 ( -1) cuanto ms fuerte
sea la correlacin de datos observados.
El valor de r=1 se alcanzara cuando los puntos estuviesen colocados perfectamente

sobre una recta ascendente (correlacin positiva perfecta), mientras que el valor de r=-
1 se alcanzara en el caso de que estuviesen colocados exactamente sobre una recta
descendente (correlacin negativa perfecta). En caso de no existir correlacin, el valor r
tendera a un valor prximo a cero.
Figura 8.7: Nivel de correlacin en funcin del valor de r.

8.3.1. CLCULO DE R
El clculo del coeficiente de correlacin r presentado anteriormente, tiene como

inconveniente el incorporar ciertos errores de redondeo, pues normalmente los valores
de la media y de la desviacin tipo no son enteros. En este contexto, se sugiere utilizar
la siguiente frmula basada en las observaciones originales:
n . ( X . Y ) ( X ). ( Y )
r =
n. X 2 ( X ) 2 . n. Y 2 ( y ) 2
Para ilustrar esta expresin, vamos a rehacer el ejemplo de correlacin lineal positiva
visto con anterioridad:
8(447) (40).(80)
r= =
8(228) (40)2. 8(882) (80)2

3.576 3200
= =
1824 1600. 7.056 6400
376 376
= = = 0,981
224. 656 383,33
Como era de esperar, el valor es el mismo, ya que las frmulas son matemticamente
equivalentes.
8.4. REGRESIN LINEAL SIMPLE
El trmino regresin surge a finales del siglo XIX de los trabajos de Galton. Dichos
trabajos procuraban explicar ciertas caractersticas de un individuo a partir de las
caractersticas de sus familiares. Por ejemplo, Galton afirmaba que los hijos de padres
que tenan alguna caracterstica determinada, tambin posean esta caracterstica,
aunque con menor intensidad que stos ltimos en promedio.
Los estudios de Galton se basaban en observaciones empricas. En uno de estos

trabajos relacion centenares de alturas de individuos con las respectivas alturas medias
de sus padres (tabla 8.4).

X Y X Y X Y X Y
164 166 164 168 166 166 166 168

166 171 166 173 169 166 169 168
169 171 169 173 171 166 171 168
171 171 171 173 171 176 173 168
173 171 173 176 173 178 176 171
176 173 176 176 178 176 176 178
Tabla 8.4. Relacin de alturas de diversos individuos (Y) y alturas medias de sus padres (X), medidas en
centmetros.
Fuente: Stigler (1986, p. 286)3.
En la figura 8.8 se representa un diagrama de dispersin con las observaciones de la

tabla 8.4, indicando una correlacin positiva tal y como era de esperar.
Figura 8.8: Diagrama de dispersin de datos.
Si trazamos una recta ascendente por la nube de puntos, se observa una tendencia a
que los hijos de padres altos tengan alturas inferiores a la media de sus padres, mientras
que los hijos de padres bajos tienen alturas superiores a la media de sus padres.
Este ejemplo se distingue de los anteriores por suponer una relacin de causalidad entre
X e Y, descrita en trminos de una relacin matemtica. Es esta la diferencia bsica
entre un estudio de correlacin y un anlisis de regresin. La aplicacin de un anlisis de
regresin se realiza sobre un referencial terico que justifique una relacin matemtica
de causalidad.
3. Stigler, S. M. The history of statistics: the mensurement of uncertainty before 1900. USA, Harward, 1986.

8.4.1. MODELO DE REGRESIN
El modelo estadstico-matemtico de regresin, en su formulacin ms simple, relaciona

una variable Y, denominada dependiente, con otra variable X, llamada independiente
(tabla 8.5).
VARIABLE INDEPENDIENTE, X ? VARIABLE DEPENDIENTE, Y
Renta Consumo ($)
Gasto o control de calidad ($) Nmero de productos defectuosos
Memoria RAM del computador (gb) Tiempo de respuesta del sistema (segundos)
rea construida (m2) Precio ($)
Tabla 8.5. Diversas aplicaciones del modelo de regresin lineal simple.

Anlogamente al estudio de las correlaciones, el anlisis de regresin tambin parte de
un conjunto de observaciones apareadas (x,y), relativas a las variables X e Y. Diremos
que un valor y depende, en parte, de su correspondiente valor x. Por ejemplo, la altura
de un individuo (y) depende, en parte, de la altura media de sus padres (x).
Simplificaremos esta dependencia por una relacin lineal entre X e Y tal que:
y = + . x

Si fijamos valores para a y b, la ecuacin y=a+bx es la ecuacin de una recta. Por
ejemplo, si a=1 y b=2, la ecuacin y= 1+2x representa una recta en unos ejes
cartesianos (figura 8.9).
Figura 8.9: Representacin grfica de la ecuacin y= 1+2x.

Sin embargo, si observamos un conjunto de valores (x,y), se verifica que, en general,

los puntos no estn exactamente sobre una recta, sino que fluctan en torno a alguna
recta imaginaria. En estas condiciones, un modelo ms adecuado sera:
y = + x +
donde:
- +x= representa la parte estructural.
- = representa el efecto aleatorio, es decir, el efecto de infinidad de factores que

afectan una observacin de forma aleatoria. Por ejemplo, la altura de un
individuo (y) no solamente depende de la altura media de sus padres (x), sino
tambin, de su alimentacin, del genotipo de sus ancestros y de una infinidad
de otros factores, representados en el modelo por esta letra.
8.4.1.1. Estimacin de los parmetros y

La idea bsica de la construccin de la parte estructural del modelo, supuestamente

lineal, es encontrar una recta que pase lo ms prxima posible a los puntos observados.
Esta recta se representar por:
y$ = a + bx
y se llamar recta de regresin o ecuacin de regresin (figura 8.10).
Figura 8.10: Representacin de la ecuacin de regresin del ejemplo.

Los valores de a y b se determinan a travs del llamado mtodo de los mnimos

cuadrados4:
n. ( X . Y ) ( X ) . ( Y ) Y b. X
b = a =
n. X 2 ( X )2 n
donde:
- n= nmero de pares (x,y) observados (tamao de la muestra).
- (X.Y)= sumatorio de los productos xy.
- X= suma de los valores observados de la variable X.

- Y= suma de los valores observados de la variable Y.
- X2= suma de los cuadrados de los valores de X.
Siguiendo con el ejemplo, a continuacin se ilustrar la ecuacin de regresin, con parte

de las observaciones de altura media de los padres (X) y altura del hijo (Y), extradas de

la tabla 8.4.
La tabla 8.6 muestra los clculos de los sumatorios.
DATOS CLCULOS INTERMEDIOS

X Y X2 X.Y
164 166 26.896 27.224
166 166 27.556 27.556

169 171 28.561 28.899
169 166 28.561 28.054
171 171 29.241 29.241
173 171 29.929 29.583
173 178 29.929 30.794
176 173 30.976 30.448
178 178 31.684 31.684
X = 1.539 Y = 1.540 X2 = 263.333 (X.Y) = 263.483
Tabla 8.6. Parte de las observaciones de la tabla 8.4 y clculos intermedios para la obtencin de la recta
de regresin.
4. La obtencin de la ecuacin de regresin por el mtodo de los mnimos cuadrados consiste en hacer que la suma
cuadrtica de los efectos aleatorios, E2, sea lo menor posible. La solucin de este problema matemtico genera las
expresiones de a y b citadas.

9.(263483) (1539).(1540) 1287

b= = = 0,872
9.(263333) (1539)2 1476
1540 (0,872).(1539)
a= = 22,00
9
De esta manera, se obtiene la recta de regresin:
y$ = 22 + 0,872 x
Con el fin de trazar la recta de regresin en el plano formado por los ejes X e Y, basta
con dar un par de valores que cumplan (figura 8.11).
Figura 8.11: Diagrama de dispersin de los datos y recta de regresin ajustada.
En referencia a los nueve individuos observados, se puede predecir la altura de un hijo

( y$), a partir de una altura media dada de sus padres, x, a travs de la ecuacin: y$ = 22
+ (0,872) x. Por ejemplo, para una altura media de los padres de x=175 cm, se tiene
una altura estimada del hijo de: y$ = 22 + (0,872).(175) = 174 cm.
El coeficiente b, que en nuestro caso es de 0,872, estima la variacin esperada de Y, a

partir de la variacin de una unidad de X. Este coeficiente indica una correlacin
positiva entre las variables X e Y, para los nueve individuos en estudio.



Resumen



Bibliografa
[1] Barbetta, P. A. (2005). Estadstica Aplicada a las Ciencias Sociales. 5 ed.

UFSC. Florianpolis, Brasil.
[2] Bartolom, A. (1989). Estadstica, 2 Curso de Formacin Profesional, 4.
Edeb. Barcelona.
[3] Bussab, W. O. y Morettin, P. A. (2002). Estadstica bsica. 5 ed. Coleccin
Mtodos Cuantitativos. Saraiva. So Paulo, Brasil.
[4] Levine, D. M., Berenson, M. L. y Stephan, D. (2000). Estadstica: teora y
aplicaciones usando Excel. LTC. Rio de Janeiro, Brasil.
[5] Mendenhall, N. (1985). Probabilidades y estadstica, 1 y 2. Campos. Rio de
Janeiro, Brasil.
[6] Selltiz, Wrightsman, Cook. (1987). Mtodos de investigacin en las
relaciones sociales. 4 ed. EPU. So Paulo, Brasil.
[7] Stevenson, W. J. (1981). Estadstica aplicada a la administracin. Harbra.
So Paulo, Brasil.
[8] Stigler, S. M. (1986). The history of statistics: the measurement of
uncertainty before 1900. Harvard University Press. Cambridge, MA.
[9] Triola, M. F. (1999). Introduccin a la estadstica. LTC. Rio de Janeiro,
Brasil.
Pginas web consultadas
[1] Arsham, Hossein. Razonamiento estadstico para la toma de decisiones

gerenciales [en lnea]. 2004. Enlace web:
http://www.staff.vu.edu.au/sarath/Business-stats/opre504S.htm
[2] Descartes 2D. Estadstica [en lnea]. Idea de Mara Jos Garca Cebrian,
adaptada por Mara Vicenta Cabalgante Perera. [Madrid]: Ministerio de
Educacin y Ciencia, 2003. Enlace web:
http://www.cnice.mecd.es/Descartes/indice_aplicaciones.htm#recuento
[3] Lpez, Jess. Aula virtual de Bioestadstica [en lnea]. [Madrid]: Universidad
Complutense de Madrid, Facultad de Biologa, Dpto. de Matemtica
Aplicada. Biomatemtica, noviembre 2004. Enlace web:
http://e-stadistica.bio.ucm.es/

[4] Martnez, Omar. Anlisis de la varianza [en lnea]. Ilustrados.com. Enlace
web: http://www.ilustrados.com/publicaciones/EpyAlEyluZqETutecT.php
[5] Material docente de la unidad de bioestadstica clnica [en lnea]. [Madrid]:
Hospital Ramn y Cajal, 1996. Enlace web:
http://www.hrc.es/bioest/M_docente.html
[6] Miranda, Ileana. La estadstica del agropecuario. 10 preguntas 10 respuestas.
[en lnea]. Monografas.com. Enlace web: http://www.monografias.com/
trabajos19/estadistica-agropecuario/estadistica-agropecuario.shtml
[7] Monge, Juan Francisco. Estadstica no paramtrica: prueba Chi-cuadrado [en
lnea]. En: Proyecto e-math. Estadstica Bsica. UOC, 15 julio 2003.
Enlace web: http://www.uoc.edu/in3/e-math/
[8] Velasco, Roberto J. Estadstica inferencial [en lnea]. Ensayo para la
licenciatura en psicologa. Mxico. Enlace web: http://www.universidad
abierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm


Estadistica LECTURA

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Estadistica LECTURA

Hochgeladen von

Copyright:

Verfügbare Formate

Lectura

FUNDACIN UNIVERSITARIA IBEROAMERICANA

FUNDACIN UNIVERSITARIA IBEROAMERICANA

Captulo 1 Criterio estadstico para la toma de decisiones

1.1. Introduccin .................................................................................................. 3

1.3. Etapas de un proceso de toma de decisiones .................................................... 7

1.4. Variables y datos ............................................................................................ 10

Captulo 2 Variables cualitativas

2.1. Introduccin .................................................................................................. 15

ESTADSTICA PARA LA TOMA DE DECISIONES I

3.1. Introduccin ................................................................................................... 27

Captulo 4 Estadstica descriptiva

4.1. introduccin ................................................................................................... 41

FUNDACIN UNIVERSITARIA IBEROAMERICANA

Captulo 5 Modelamiento estadstico de las variables

5.1. Introduccin ................................................................................................... 57

II ESTADSTICA PARA LA TOMA DE DECISIONES

Captulo 6 Estadstica inferencial

6.1. Introduccin .................................................................................................. 85

6.2.1. Definicin ........................................................................................... 86

6.3. contraste o prueba de hiptesis ....................................................................... 92

ESTADSTICA PARA LA TOMA DE DECISIONES III

7.1. Introduccin ................................................................................................... 107

Captulo 8 Correlacin y regresin

FUNDACIN UNIVERSITARIA IBEROAMERICANA

IV ESTADSTICA PARA LA TOMA DE DECISIONES

La interpretacin de las decisiones gerenciales bajo incertidumbre y, en general, de las

La estadstica ayuda a corroborar hiptesis proporcionando un soporte matemtico a las

Este texto responde a la necesidad de justificar las decisiones gerenciales en base a la

Los pasos a seguir para realizar un experimento son:

Planteamiento de la hiptesis que se pretende demostrar.

Definicin de las variables a estudiar.

Recogida y recopilacin de datos (tipos de muestreo).

Eleccin del mtodo estadstico ms apropiado para demostrar la hiptesis de

ESTADSTICA PARA LA TOMA DE DECISIONES 1

Distribuciones de Organizacin de los datos de acuerdo con las

Organizacin de los datos de acuerdo con las

FUNDACIN UNIVERSITARIA IBEROAMERICANA

Describir las caractersticas

Adquirir los conocimientos Distribuciones de variable Conocimiento de las funciones de distribucin

Utilizar los conocimientos Determinacin de estimaciones puntuales e

Anlisis de la existencia o no de diferencias

Determinacin del coeficiente de correlacin lineal

2 ESTADSTICA PARA LA TOMA DE DECISIONES

En todo proceso de decisin se necesita recabar informacin que sea capaz de

Las herramientas estadsticas permiten recolectar, analizar e interpretar de forma

Los gerentes y profesionales, en general, necesitan justificar sus

La estadstica ayuda a tomar decisiones econmicas bajo incertidumbre, a predecir con

ESTADSTICA PARA LA TOMA DE DECISIONES 3

Los modelos estadsticos (p.e. el anlisis de regresin) se emplean actualmente en

A diferencia del modelo determinista, en los procesos de toma de decisiones bajo

En este sentido, la utilidad de la estadstica de negocio puede reflejarse en numerosos

- Empleo de tcnicas de muestreo aleatorio en el mbito de la auditora.

FUNDACIN UNIVERSITARIA IBEROAMERICANA

En definitiva, se trata de utilizar la estadstica como una herramienta diferenciadora

- Estadstica Descriptiva. Aquella que describe las caractersticas de una serie de

4 ESTADSTICA PARA LA TOMA DE DECISIONES

La Estadstica Descriptiva es la base de la Estadstica Inferencial.

1.2. POBLACIN Y MUESTRA

La poblacin se podra definir como el conjunto de todos los individuos (personas,

A partir de una muestra escogida al azar de una poblacin, pueden sacarse

Generalmente, se asocia la palabra parmetro a las medidas que provienen de la

parmetro (). Anlogamente, se hablara de la media muestral como el estadstico X y