Sie sind auf Seite 1von 150

Lectura

FUNDACIN UNIVERSITARIA IBEROAMERICANA

ESTADSTICA
PARA LA TOMA DE DECISIONES

FUNDACIN UNIVERSITARIA IBEROAMERICANA


ndice

Introduccin

Captulo 1 Criterio estadstico para la toma de decisiones

1.1. Introduccin .................................................................................................. 3


1.2. Poblacin y muestra ....................................................................................... 5
1.2.1. Tamao de la muestra ......................................................................... 6
1.2.2. Tcnicas de muestreo .......................................................................... 6
FUNDACIN UNIVERSITARIA IBEROAMERICANA

1.3. Etapas de un proceso de toma de decisiones .................................................... 7


1.3.1. Definicin del problema y objetivos ...................................................... 7
1.3.2. Planificacin de la investigacin ............................................................ 8
1.3.3. Recogida de datos ............................................................................... 9
1.3.4. Anlisis de datos ................................................................................. 9
1.3.5. Resultados .......................................................................................... 9
1.3.6. Conclusiones ....................................................................................... 9

1.4. Variables y datos ............................................................................................ 10


1.4.1. Tipos de variables ............................................................................... 11

Captulo 2 Variables cualitativas

2.1. Introduccin .................................................................................................. 15


2.2. distribucin de frecuencias .............................................................................. 15
2.3. Representacin grfica ................................................................................... 18
2.3.1. Diagrama de barras ............................................................................. 18
2.3.2. Diagrama circular o de sectores ............................................................ 19
2.3.3. Grfico de barras mltiples .................................................................. 20
2.4. Tablas de contingencia o de doble entrada ....................................................... 20

ESTADSTICA PARA LA TOMA DE DECISIONES I


Captulo 3 Variables cuantitativas

3.1. Introduccin ................................................................................................... 27


3.2. Variables discretas .......................................................................................... 28
3.3. Variables continuas ......................................................................................... 29
3.3.1. El diagrama de puntos ......................................................................... 29
3.3.2. La tabla de frecuencias ........................................................................ 31
3.3.3. Histograma ......................................................................................... 33
3.3.4. Polgono de frecuencias ........................................................................ 34
3.4. Observaciones a lo largo del tiempo ................................................................. 36

Captulo 4 Estadstica descriptiva

4.1. introduccin ................................................................................................... 41

FUNDACIN UNIVERSITARIA IBEROAMERICANA


4.2. Media, varianza y moda .................................................................................. 42
4.2.1. Media aritmtica .................................................................................. 42
4.2.2. Varianza y desviacin tipo .................................................................... 44
4.2.3. Frmula alternativa para el clculo de la desviacin tipo ......................... 46
4.2.4. Moda .................................................................................................. 48
4.3. Medidas basadas en la ordenacin de los datos ................................................. 49
4.3.1. La mediana ......................................................................................... 50


4.3.1.1. Comparacin entre la media y la mediana ............................... 51
4.3.2. Los cuantiles y los extremos ................................................................. 52

Captulo 5 Modelamiento estadstico de las variables

5.1. Introduccin ................................................................................................... 57


5.2. La distribucin normal ..................................................................................... 59
5.2.1. La funcin de densidad o ley normal ..................................................... 60
5.2.2. La funcin de distribucin ..................................................................... 61
5.2.3. Distribucin normal tipificada ................................................................ 62
5.2.4. Comprobacin de la normalidad: prueba de Kolgomorov ......................... 65
5.3. La distribucin t-student .................................................................................. 67

II ESTADSTICA PARA LA TOMA DE DECISIONES


5.4. La distribucin chi-cuadrado ............................................................................ 70
5.4.1. Prueba de calidad o bondad del ajuste
para variables aleatorias discretas ........................................................ 72
5.4.2. Prueba de homogeneidad .................................................................... 73
5.4.3. Prueba de la independencia ................................................................. 76
5.5. Distribucin muestral de medias ...................................................................... 77
5.6. distribucin muestral de proporciones .............................................................. 78
5.7. Funcin de probabilidad binomial .................................................................... 79
5.7.1. Aproximacin normal para binomial ...................................................... 81

Captulo 6 Estadstica inferencial

6.1. Introduccin .................................................................................................. 85


6.2. La valoracin o estimacin .............................................................................. 86
FUNDACIN UNIVERSITARIA IBEROAMERICANA

6.2.1. Definicin ........................................................................................... 86


6.2.2. Cualidades de un buen estimador ......................................................... 86
6.2.3. Aleatoriedad de la muestra .................................................................. 87
6.2.4. Estimacin del tamao de la muestra .................................................... 88
6.2.5. Tipos de estimacin ............................................................................. 89
6.2.5.1. Estimaciones puntuales ......................................................... 89
6.2.5.2. Estimacin por intervalo ........................................................ 89

6.3. contraste o prueba de hiptesis ....................................................................... 92


6.3.1. Introduccin ....................................................................................... 92
6.3.2. Pasos a seguir para la prueba de hiptesis ............................................ 94
6.3.3. Errores en el contraste de hiptesis ...................................................... 94
6.3.4. Contraste de hiptesis para la media .................................................... 95
6.3.4.1. Contraste bilateral ................................................................ 95
6.3.4.2. Contraste unilateral .............................................................. 98
6.3.5. Contraste de hiptesis para proporciones .............................................. 101
6.3.5.1. Contraste bilateral ................................................................ 101
6.3.5.2. Contraste unilateral .............................................................. 103

ESTADSTICA PARA LA TOMA DE DECISIONES III


Captulo 7 Igualdad estadstica entre dos o ms poblaciones

7.1. Introduccin ................................................................................................... 107


7.2. Comparacin de dos medias poblacionales ....................................................... 108
7.2.1. Diferencia entre medias empleando la distribucin normal ...................... 108
7.2.2. Diferencia entre medias empleando la t-student ..................................... 111
7.3. Comparacin de dos varianzas poblacionales .................................................... 112
7.4. Condiciones necesarias para la toma de decisiones estadsticas .......................... 115
7.5. Comparacin de ms de dos medias poblacionales (ANOVA) .............................. 115
7.6. Comparacin de ms de dos varianzas poblacionales ......................................... 119
7.6.1. Prueba F del cociente mximo .............................................................. 119

Captulo 8 Correlacin y regresin

FUNDACIN UNIVERSITARIA IBEROAMERICANA


8.1. Variables correlacionadas ................................................................................ 125
8.2. Diagramas de dispersin ................................................................................. 126
8.3. El coeficiente de correlacin lineal de Pearson ................................................... 129
8.3.1. Clculo de r ......................................................................................... 134
8.4. Regresin lineal simple .................................................................................... 134
8.4.1. Modelo de regresin ............................................................................ 136
8.4.1.1. Estimacin de los parmetros y ........................................ 137

Bibliografa

IV ESTADSTICA PARA LA TOMA DE DECISIONES


INTRODUCCIN

IN T RO D U CC I N

La interpretacin de las decisiones gerenciales bajo incertidumbre y, en general, de las


distintas ciencias, dependen en gran parte de los mtodos estadsticos. Por ello, es
fundamental que los gerentes se familiaricen con los razonamientos estadsticos como
una herramienta ms de marketing, de diferenciacin respecto de la competencia.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

La calidad en los productos y servicios emplea la estadstica para mejorar y optimizar los
procesos de produccin y, de esta manera, ahorrar tiempo y dinero.

La estadstica ayuda a corroborar hiptesis proporcionando un soporte matemtico a las


observaciones realizadas. Es una ciencia probabilstica, por lo que no hay lugar para las
afirmaciones categricas o negaciones rotundas, que siempre deben estar enmarcadas
en un nivel de significacin o dentro de un margen de error.

Este texto responde a la necesidad de justificar las decisiones gerenciales en base a la


informacin proporcionada por datos que, con demasiada frecuencia, resultan escasos.
Se trata pues de un compendio de tcnicas para la recopilacin y presentacin de
informacin, intervalos de confianza y pruebas de hiptesis.

Los pasos a seguir para realizar un experimento son:

Planteamiento de la hiptesis que se pretende demostrar.

Definicin de las variables a estudiar.

Recogida y recopilacin de datos (tipos de muestreo).

Eleccin del mtodo estadstico ms apropiado para demostrar la hiptesis de


trabajo de la mejor forma posible.

ESTADSTICA PARA LA TOMA DE DECISIONES 1


INTRODUCCIN

A continuacin se detallan los objetivos y el contenido de cada uno de los captulos que
componen este manual:

RESUMEN
CAPTULO OBJETIVO PARTICULAR APORTACIN Y RESULTADO CONSEGUIDO
DEL CAPTULO
Conocimiento de la estadstica como una
Introduccin a la toma de
herramienta diferenciadora para aproximarse a la
decisiones.
solucin de las necesidades de empresa.
Proporcionar al gerente una
serie de criterios Etapas en la toma de Establecimiento de las etapas a seguir para la toma
Captulo 1 decisiones. de decisin ante un determinado problema.
estadsticos para la toma de
decisiones en la empresa. Poblacin y muestra. Distincin entre poblacin y muestra aleatoria.
Conocimiento de los tipos de variables existentes y
Datos y variables.
los datos y categoras a que dan lugar.

Distribuciones de Organizacin de los datos de acuerdo con las


Analizar las formas de frecuencias de datos pautas de comportamiento de los diferentes
Captulo 2 representacin de las categorizados. resultados observados.
variables cualitativas. Representaciones grficas Anlisis grfico alternativo de las pautas de
de las variables cualitativas. comportamiento de los datos.

Organizacin de los datos de acuerdo con las


Variables discretas y
pautas de comportamiento de los diferentes

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Analizar las formas de variables continuas.
resultados observados.
Captulo 3 representacin de las
variables cuantitativas. Representaciones grficas
Anlisis grfico alternativo de las pautas de
de las variables
comportamiento de los datos.
cuantitativas.

Describir las caractersticas


Realizacin de descripciones concisas de un gran
de una serie de datos Estadsticos de tendencia
Captulo 4 conjunto de datos que, debido a su volumen,
correspondientes a una central y de dispersin.
resulta complicado procesar en bruto.
poblacin o muestra.

Adquirir los conocimientos Distribuciones de variable Conocimiento de las funciones de distribucin


necesarios de clculo de continua (normal, t-student, normal y t-student y su importantsimo papel que
probabilidades para su chi-cuadrado). desempean en el modelamiento estadstico.


Captulo 5
posterior utilizacin en Conocimiento de la funcin de probabilidad
situaciones de Distribuciones de variable
binomial en las decisiones bajo incertidumbre que
incertidumbre. discreta (binomial).
implican nicamente dos resultados posibles.

Utilizar los conocimientos Determinacin de estimaciones puntuales e


Estimacin de parmetros.
fundamentales tericos intervalos de confianza para medias y proporciones.
sobre la estimacin y los
Captulo 6 contrastes de hiptesis, Realizacin de inferencias sobre la poblacin a
para la resolucin de Contrastes de hiptesis. partir de una muestra aleatoria mediante el
situaciones prcticas en la planteamiento de la hiptesis nula.
empresa.

Anlisis de la existencia o no de diferencias


Elaborar los razonamientos Comparacin de dos o ms
significativas entre varias poblaciones por medio del
lgicos para la eleccin del medias poblacionales.
planteamiento de la hiptesis nula.
Captulo 7 modelo ms adecuado a la
hora de comparar dos o Anlisis de la homocedasticidad de diferentes
Comparacin de dos o ms
mas poblaciones. poblaciones como condicin indispensable para la
varianzas poblacionales.
aplicacin de los estadsticos.

Determinacin del coeficiente de correlacin lineal


Analizar la relacin entre Correlacin.
de Pearson de dos variables cuantitativas.
Captulo 8 dos o ms variables
cuantitativas. Establecimiento de un modelo de regresin y
Regresin lineal simple.
estimacin de los parmetros correspondientes.

2 ESTADSTICA PARA LA TOMA DE DECISIONES


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

Captulo 1

CRITERIO ESTADSTICO
P A RA L A T O M A
DE DECISIONES
FUNDACIN UNIVERSITARIA IBEROAMERICANA

1.1. INTRODUCCIN

En todo proceso de decisin se necesita recabar informacin que sea capaz de

responder a nuestras indagaciones. Para que los resultados sean fiables, tanto la
recogida de datos como su anlisis deben ser realizados con criterio y de forma
objetiva.

Las herramientas estadsticas permiten recolectar, analizar e interpretar de forma


inteligente los datos relevantes en el proceso de toma de decisin. De esta manera,
para que la utilizacin de los resultados estadsticos se haga de una forma correcta,
resulta necesario que el gerente conozca los principios bsicos de las tcnicas usadas.

Los gerentes y profesionales, en general, necesitan justificar sus


decisiones basndose en la informacin proporcionada por los datos.

La estadstica ayuda a tomar decisiones econmicas bajo incertidumbre, a predecir con


eficacia pautas de comportamiento de las variables, en definitiva, a crear modelos sobre
los que basar dichas decisiones.

ESTADSTICA PARA LA TOMA DE DECISIONES 3


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

Los modelos estadsticos (p.e. el anlisis de regresin) se emplean actualmente en


varios campos de negocio y de la ciencia, permiten predecir o identificar los factores
ms influyentes, adems de estudiar el impacto sobre las variables dependientes para
cualquier cambio en sus valores actuales.

A diferencia del modelo determinista, en los procesos de toma de decisiones bajo


incertidumbre, las variables son ms numerosas y ms difciles de medir y controlar, por
lo que las nuevas tecnologas resultan hoy da imprescindibles para encontrar un modelo
que responda a nuestras necesidades como gerentes.

En este sentido, la utilidad de la estadstica de negocio puede reflejarse en numerosos


campos y aplicaciones:

- Empleo de tcnicas de muestreo aleatorio en el mbito de la auditora.


- Aseguramiento de la calidad de los productos, gracias al empleo de tcnicas
estadsticas de control de la calidad.
- Empleo de mtodos de regresin y correlacin para entender las relaciones

FUNDACIN UNIVERSITARIA IBEROAMERICANA


entre variables y predecir comportamientos.
- Utilizacin de pruebas de significancia para aceptar o rechazar una hiptesis.
- Empleo de tcnicas estadsticas para la prediccin, por ejemplo, en el mbito de
las ventas.

En definitiva, se trata de utilizar la estadstica como una herramienta diferenciadora


respecto de la competencia para aproximarse a la solucin que satisfaga las
necesidades de empresa, y as crear una oportunidad de negocio que nos permita
posicionarnos en el mercado de manera estratgica.


La Estadstica para la toma de decisiones puede dividirse en:

- Estadstica Descriptiva. Aquella que describe las caractersticas de una serie de


datos pertenecientes a una poblacin o a una muestra (recogida, descripcin,
anlisis y sumatorio de datos).
- Estadstica Inferencial. Dado el desconocimiento de la poblacin, en la prctica,
el profesional buscar hacer inferencias para la toma de decisiones, es decir,
predicciones sobre ciertas caractersticas de la poblacin, basndose en la
informacin contenida en una muestra al azar1 (o aleatoria) de la poblacin
entera.
La estadstica inferencial puede utilizarse para explicar un fenmeno o para
comprobar la validez de una proposicin. En el primer caso, se denomina
anlisis exploratorio de datos y, en el segundo, anlisis confirmatorio de datos.

1. Esta condicin es fundamental para asegurarse que una muestra es representativa con respecto a la poblacin.

4 ESTADSTICA PARA LA TOMA DE DECISIONES


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

La Estadstica Descriptiva es la base de la Estadstica Inferencial.

1.2. POBLACIN Y MUESTRA

La poblacin se podra definir como el conjunto de todos los individuos (personas,


animales, plantas, cosas) de los que nos interesa estudiar ciertos datos. Algunos
ejemplos de poblacin son: la edad de los habitantes de un pas o regin, la vida media
de las bombillas, el nmero de alumnos que cursa primaria, entre otros.

Debido a la prctica imposibilidad de estudiar todos los individuos que componen una
poblacin por su coste en tiempo y dinero, en la prctica, se recurre a utilizar una
muestra aleatoria, que no es ms que un subconjunto de la poblacin, y que nos servir
para hacer inferencias sobre la misma.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

A partir de una muestra escogida al azar de una poblacin, pueden sacarse


conclusiones sobre sus caractersticas particulares. La muestra debera ser
representativa de la poblacin.

Generalmente, se asocia la palabra parmetro a las medidas que provienen de la


poblacin y estadstico a las originarias de la muestra. De esta manera, nos referimos
a la media poblacional como el parmetro () y a la desviacin tipo o estndard como el

parmetro (). Anlogamente, se hablara de la media muestral como el estadstico X y


de la desviacin tipo de la muestra como el estadstico S.

Las letras griegas representan parmetros y las latinas simbolizan estadsticos.

En resumen, la media (desviacin tipo) muestral es una estimacin imparcial de la media


(desviacin tipo) poblacional. Por extensin, la funcin de distribucin emprica es una
estimacin imparcial de la funcin de distribucin de la poblacin F(x).

ESTADSTICA PARA LA TOMA DE DECISIONES 5


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

1.2.1. TAMAO DE LA MUESTRA

El tamao de la muestra (n) debe definirse en la etapa de planificacin de la toma de


decisiones. Normalmente, como aproximacin, puede utilizarse la expresin:
0 ,5
n = N + 1

donde:

n= tamao de la muestra.

N= poblacin finita de tamao N.

El valor de n resultante se redondea al nmero entero ms cercano. Naturalmente,


mientras ms grande sea la muestra, mayor ser la informacin que proporcione y, en
consecuencia, la estimacin ser ms exacta.

La eleccin del tamao de la muestra es un paso muy importante que se ver con

FUNDACIN UNIVERSITARIA IBEROAMERICANA


detalle ms adelante.

1.2.2. TCNICAS DE MUESTREO

Un problema tpico que se plantea a la hora de tomar decisiones sucede cuando se debe
hacer inferencias sobre una poblacin determinada y se encuentra que el coste en
tiempo y dinero supera todas las previsiones.


Tal y como se ha mencionado con anterioridad, el procedimiento consisitira en escoger
una muestra y adoptar una solucin de compromiso, puesto que los resultados
obtenidos seran nicamente una estimacin del valor real que deseamos encontrar. Eso
s, nos habramos ahorrado gran cantidad de recursos.

No obstante, nos quedara la duda de si nuestra estimacin es la mejor de todas las


posibles, y ello est relacionado con los mtodos comunes de muestreo estadstico
empleados en los negocios:

- Muestreo de grupos: se requiere que la poblacin sea homognea, pero puede


estar agrupada en diferentes lugares. Por ejemplo, una empresa que tenga
sucursales en diferentes pases no hace falta que recoja datos de todas y cada
una de ellas, sino que puede realizar un muestro aleatorio de un pequeo grupo
de dichas sucursales para sacar conclusiones sobre el total.

- Muestreo estratificado: se utiliza siempre que la poblacin pueda ser


particionada en subpoblaciones ms pequeas.

6 ESTADSTICA PARA LA TOMA DE DECISIONES


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

- Muestreo aleatorio: sin lugar a dudas, es el ms empleado en la toma de


decisiones de hoy da. Es importante que el muestro aleatorio se realice con la
ayuda de un ordenador.

- Muestreo de seleccin cruzada: estudia las observaciones de una poblacin


definida en un momento o intervalo de tiempo determinado.

1.3. ETAPAS DE UN PROCESO DE TOMA DE


DECISIONES

La figura 1.1 ilustra las principales etapas de un proceso de toma de decisiones


estadsticas.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 1.1: Etapas usuales de un proceso de toma de decisiones estadsticas.

1.3.1. DEFINICIN DEL PROBLEMA Y OBJETIVOS

Es muy importante definir claramente el problema y formular los objetivos que se


quieren conseguir, ya que stos servirn para desarrollar las etapas posteriores de la
investigacin.

Esta etapa debe responder a preguntas clave tales como: cul es el objetivo del estudio
o de las preguntas a responder? A qu poblacin va dirigida el proceso de toma de
decisiones?

ESTADSTICA PARA LA TOMA DE DECISIONES 7


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

Por ejemplo, como objetivo general, a un gerente le convendra conocer el perfil de


trabajo de los funcionarios de una determinada empresa, para orientar la poltica de
recursos humanos. En este caso, deberamos especificar mejor lo que queremos
conocer dentro de la poblacin de funcionarios, es decir, los objetivos especficos:

- conocer el tiempo medio de servicio de los funcionarios de la empresa;

- conocer el grado de instruccin de los funcionarios;

- verificar el inters de los funcionarios en participar en programas de


entrenamiento;

- evaluar el grado de satisfaccin de los funcionarios en el trabajo que ejercen


dentro de la empresa; y,

- verificar si existe asociacin entre el grado de satisfaccin del funcionario y su


productividad.

La elaboracin de los objetivos especficos debe realizarse de tal manera que indiquen

FUNDACIN UNIVERSITARIA IBEROAMERICANA


una primera aproximacin de las caractersticas que se necesite observar o medir. De
esta manera, se precisaran observar las siguientes variables de cada funcionario de la
empresa:

- tiempo de servicio;

- grado de instruccin;

- inters en la participacin de programas de entrenamiento; y,

- grado de satisfaccin del trabajo y productividad.


1.3.2. PLANIFICACIN DE LA INVESTIGACIN

Los datos deben ser recogidos segn un plan que garantice que la informacin es vlida.
El plan debe identificar las variables importantes relacionadas con el problema, y
especificar cmo stas van a ser medidas (modelo estadstico).

Previamente a la recogida de la muestra, es importante que la poblacin sea definida de


forma cuidadosa y en su integridad.

En este contexto se responder a preguntas tales como: cmo es la muestra que se


seleccionar? Existen posibles fuentes de seleccin que haran la muestra no
representativa? Qu previsiones deben hacerse para trabajar en caso de anomalas?
entre otras.

8 ESTADSTICA PARA LA TOMA DE DECISIONES


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

1.3.3. RECOGIDA DE DATOS

En esta fase se proceder a la recogida de datos. Tal y como se ver a continuacin, en


estadstica, la informacin puede recogerse usando datos cualitativos o cuantitativos.

En este contexto, deber reflexionarse acerca si el mtodo de medida o clasificacin


cubre los objetivos, si existen posibles irregularidades en las mediciones (y/o conteo) o
si las observaciones son confiables, entre otras.

1.3.4. ANLISIS DE DATOS

En el anlisis exploratorio de los datos se emplean tcnicas grficas y numricas, que


proporcionan las pautas de conducta y el origen de los mismos. Dichas tcnicas sern
objeto de estudio a lo largo de los siguientes captulos.

A resultas del anlisis se conocer la forma, ubicacin, variablidad y anomalas


FUNDACIN UNIVERSITARIA IBEROAMERICANA

detectadas y se establecern conjeturas acerca de las relaciones entre variables. En


este sentido, el hecho de cmo una variable se encuentra relacionada con otra se podr
observar, por ejemplo, mediante comparaciones simples de proporciones a travs de la
regresin lineal.

1.3.5. RESULTADOS

Los resultados se deben representar de una forma clara y objetiva, sin caer en

demasiados tecnicismos, para permitir a los responsables de la toma de decisiones


entenderlos y juzgarlos. De lo contrario, todo el esfuerzo no habr servido para nada.

1.3.6. CONCLUSIONES

En este apartado se harn reflexiones sobre los resultados y se estudiar si son


relevantes en referencia a los objetivos propuestos.

ESTADSTICA PARA LA TOMA DE DECISIONES 9


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

1.4. VARIABLES Y DATOS

Se denomina variable a las caractersticas que pueden ser observadas (o medidas) en


cada elemento de la poblacin y que puede tomar diferentes valores en diferentes
individuos, bajo las mismas condiciones.

Las variables surgen cuando preguntamos qu vamos a observar


o medir en los elementos de una poblacin.

Por ejemplo, retomando el caso de los funcionarios mencionado con anterioridad,


algunos ejemplos de variables seran el tiempo de servicio, estado civil, productividad,
entre otras.

En este contexto, podramos pensar en formular preguntas del tipo:

FUNDACIN UNIVERSITARIA IBEROAMERICANA


- Desde cundo el Sr. (o Sra.) trabaja en esta empresa?___________________

- Cul es su estado civil?________________________

Sin embargo, estas preguntas no estn identificando de forma correcta las variables que
nos interesan, pues los funcionarios podran interpretarlas de diferentes maneras; por
ejemplo, para la primera pregunta pueden surgir respuestas tales como: hace poco ms
de 12 aos, hace mucho tiempo, entre otras. Es decir, las variables no estn siendo
observadas de una forma homognea.


En consecuencia, para que las observaciones sobre el tiempo de servicio se realicen de
una manera homognea, es preciso establecer una unidad de medida, por ejemplo, aos
completos de trabajo en una empresa:

- Desde cundo el Sr. (o Sra.) trabaja en esta empresa?

______aos completos.

En referencia a la variable estado civil, las posibles respuestas son atributos. Con el
fin de evitar alguna respuesta anmala, se pueden establecer previamente las posibles
alternativas de respuesta. De esta manera, la pregunta se reescribira:

- Cul es su estado civil? ( ) soltero ( ) casado

( ) viudo ( ) separado ( ) divorciado

10 ESTADSTICA PARA LA TOMA DE DECISIONES


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

1.4.1. TIPOS DE VARIABLES

Existen dos tipos de variables: cualitativas y cuantitativas.

Las variables cualitativas o categricas no se pueden medir por relaciones aritmticas, y


sus resultados son atributos o cualidades. Por ejemplo, variables de este estilo seran: el
estado civil de los funcionarios, el color, modelo y marca de los coches, entre otras.

Las variables cuantitativas se muestran como nmeros pertenecientes a una cierta


escala, por ejemplo, el tiempo de servicio (en aos completos), el peso, las
dimensiones, velocidad mxima de un vehculo, entre otras. En este grupo, indicadores
tales como la media y la desviacin tipo tiene sentido. A su vez, las variables
cuantitativas se pueden dividir en discretas y continuas.

Las variables cualitativas reflejan una cualidad del individuo, mientras que las
cuantitativas corresponden a caractersticas que reflejan cantidades.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Las variables cualitativas tambin pueden utilizar nmeros, aunque no por ello tienen
que reflejar cantidades. Por ejemplo, el nmero de telfono, el nmero de la calle donde
se vive o el DNI, son variables cualitativas que, por comodidad, emplean nmeros en
vez de nombres para definir los diferentes valores.

En la figura 1.2 se ilustra la clasificacin de las variables y datos en trminos de nivel de


medida.

Figura 1.2: Clasificacin de las variables y datos.

Siempre que una variable pueda ser medida correctamente de forma cuantitativa, se
debe usar este tipo de medida, porque las cuantitativas son, en general, ms
informativas que las cualitativas. Por ejemplo, decir que un funcionario hace 30 aos
que trabaja en la empresa proporciona mucha ms informacin que decir que hace
mucho tiempo que trabaja en la empresa.

ESTADSTICA PARA LA TOMA DE DECISIONES 11


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

FUNDACIN UNIVERSITARIA IBEROAMERICANA


12 ESTADSTICA PARA LA TOMA DE DECISIONES


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA

ESTADSTICA PARA LA TOMA DE DECISIONES 13


CRITERIO ESTADSTICO PARA LA TOMA DE DECISIONES

FUNDACIN UNIVERSITARIA IBEROAMERICANA


14 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUALITATIVAS

Captulo 2

VAR I A B L E S C U A L I T A T I VA S
FUNDACIN UNIVERSITARIA IBEROAMERICANA

2.1. INTRODUCCIN

Tal y como se ha mencionado en el captulo anterior, los resultados de las variables


cualitativas (nivel de estudios, sexo, estado civil...) se estructuran en forma de
categoras. Por ejemplo, la variable color del pelo puede tener varias categoras como
rubio, moreno, canoso, entre otras, o al referirnos a la variable sexo (gnero) en un
conjunto de individuos, estaremos clasificando cada individuo en una categora

masculina y en otra categora femenina.

Si las variables cualitativas nicamente pueden tomar dos categoras, se denominan


dicotmicas: sexo, pertenencia a una organizacin (s-no), tener hijos (s-no), entre
otras.

Si las variables cualitativas pueden tomar ms de dos categoras, se denominan


politmicas: color del pelo, marca de un vehculo, entre otras.

2.2. DISTRIBUCIN DE FRECUENCIAS

Uno de los primeros pasos para entender el comportamiento de una variable es la


construccin de una distribucin de frecuencias.

ESTADSTICA PARA LA TOMA DE DECISIONES 15


VA R I A B L E S CUALITATIVAS

La distribucin de frecuencias comprende la organizacin de los datos de


acuerdo con las pautas de comportamiento de los diferentes resultados
observados. Puede ser representada de forma tabular o grfica.

Para ilustrar la construccin de una distribucin de frecuencias, se considerar una


muestra de 40 familias pertenecientes a un conjunto residencial en Monte Verde
(Florianpolis). En concreto, se estudiar como variable el nivel de estudios del padre de
familia, en funcin de los siguientes cdigos o categoras:

1 = ninguno.

2 = nivel bsico.

3 = nivel medio.

Los resultados son:

DATOS

FUNDACIN UNIVERSITARIA IBEROAMERICANA


33223133322122323333
33322313233231113333

Con el fin de construir una distribucin de frecuencias con datos relativos a una variable
cualitativa, basta con contar la cantidad de resultados observados en cada categora
(tabla 2.1).


NIVEL DE FRECUENCIA
PORCENTAJE
ESTUDIOS ABSOLUTA

Ninguno 6 15

Nivel Bsico 11 27,5

Nivel Medio 23 57,5

Total 40 100

Tabla 2.1. Distribucin de frecuencias del nivel de estudios de los patriarcas de una muestra de 40
familias del conjunto residencial Monte Verde, Florianpolis - SC, 1988.

La primera columna de la tabla 2.1 muestra todas las categoras previamente


establecidas de la variable nivel de estudios. La segunda columna proporciona el
cmputo del nmero de observaciones identificadas en cada una de las categoras
(frecuencia absoluta). Por ltimo, la tercera columna presenta una medida relativa de la
frecuencia de cada categora. Los porcentajes se obtienen de dividir la frecuencia

16 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUALITATIVAS

absoluta de cada categora por el nmero total de observaciones (frecuencia relativa) y


multiplicar por 100.

Los porcentajes son particularmente importantes para


comparar distribuciones de frecuencia entre si.

La tabla 2.2 muestra tres distribuciones de frecuencias. La primera corresponde a la del


ejemplo anterior y, las restantes, a un estudio similar en dos localidades prximas.

LOCALIDAD
NIVEL DE ESTUDIOS ENCOSTO DO
MONTE VERDE PQ. DA FIGUEIRA
MORRO

Ninguno 6 (15,0)a 14 (32,6) 18 (48,7)

Nivel Bsico 11 (27,5) 14 (32,6) 13 (35,1)


FUNDACIN UNIVERSITARIA IBEROAMERICANA

Nivel Medio 23 (57,5) 15 (34,8) 6 (16,2)

Total 40 (100) 43 (100) 37 (100)

a. Los nmeros entre parntesis corresponden a los porcentajes en relacin al total de familias observadas en cada
localidad.

Tabla 2.2. Distribucin de frecuencias referida al nivel de estudios de los patriarcas de una muestra de
120 familias de tres localidades diferentes del barrio de Saco Grande II, Florianpolis - SC,
Brasil, 1988.

En la tabla 2.2 se puede observar que los patriarcas de las familias investigadas en el
Conjunto Residencial Monte Verde presentan los mejores resultados; por otro lado, en
Encosta do Morro se dan los peores resultados con casi un 50% de patriarcas con
ningn nivel de estudios.

El lector debe observar que al organizar y resumir los datos de una distribucin de
frecuencias, normalmente no se proporciona la informacin de cuntos elementos
pertenecen a cada categora, ya que para entender el comportamiento general de una
variable esa informacin no suele ser relevante.

ESTADSTICA PARA LA TOMA DE DECISIONES 17


VA R I A B L E S CUALITATIVAS

2.3. REPRESENTACIN GRFICA

Las representaciones grficas ofrecen, en general, una mejor visualizacin de las pautas
de comportamiento de los datos que las tablas: por ello, constituyen una forma
alternativa de presentacin de las distribuciones de frecuencias.

Existen diferentes maneras de representar las variables cualitativas politmicas


(diagrama de puntos, diagrama de columnas, diagrama de barras, diagrama circular o de
sectores, entre otras).

A continuacin se presentarn los grficos de barra y de sectores, que son los ms


importantes a la hora de representar las distribuciones de frecuencias de los datos
categorizados.

2.3.1. DIAGRAMA DE BARRAS

FUNDACIN UNIVERSITARIA IBEROAMERICANA


La figura 2.1 representa la distribucin de frecuencias de la tabla 2.1 expresada por un
grfico de barras. Cada categora se representa por una barra proporcional a su
frecuencia (nmero de familias) dispuesta a lo largo del eje de abcisas, en tanto que en
el eje vertical se recogen los valores de la variable o categoras.

Figura 2.1: Distribucin de frecuencias del nivel de estudios de los padres de familia de una muestra de 40
familias del conjunto residencial Monte Verde, Florianpolis - SC, 1988.

Opcionalmente, se pueden presentar las categoras en el eje horizontal y la frecuencia


en el eje vertical. En este caso, el grfico se denomina diagrama de columnas.

18 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUALITATIVAS

2.3.2. DIAGRAMA CIRCULAR O DE SECTORES

Consiste en un circulo dividido en sectores, cada uno asignado a un valor de la variable,


y cuya superficie es proporcional a la frecuencia con que aparece dicho valor.

Con el fin de calcular el ngulo que abarca cada sector, basta con plantear una regla de
tres entre el ngulo (en grados) desconocido, la frecuencia total y la frecuencia
observada para cada categora, barriendo un ngulo de 360, segn:

1 6
=
360 40

donde:

6
1 = (360 ) = 54
40
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Realizando el mismo procedimiento, se tiene:

Categora 1 (ninguno) sector de tamao 1= 54


Categora 2 (nivel bsico) sector de tamao 2= 99
Categora 3 (nivel medio) sector de tamao 3= 207

Con lo que el grfico de sectores quedar segn se ilustra en la figura 2.2.

Figura 2.2: Distribucin de frecuencias del nivel de estudios de los padres de familia de una muestra de 40
familias del conjunto residencial Monte Verde, Florianpolis - SC, 1988.

ESTADSTICA PARA LA TOMA DE DECISIONES 19


VA R I A B L E S CUALITATIVAS

2.3.3. GRFICO DE BARRAS MLTIPLES

Con el fin de efectuar un anlisis comparativo de varias distribuciones, podemos


construir varios grficos de sectores o un grfico de barras mltiples, como el que se
ilustra en la figura 2.3, que representa grficamente las distribuciones de frecuencia de
la tabla 2.2.

FUNDACIN UNIVERSITARIA IBEROAMERICANA



Figura 2.3: Distribucin de frecuencias referida al nivel de estudios de los patriarcas de una muestra de
120 familias de tres localidades diferentes del barrio de Saco Grande II, Florianpolis - SC,
1988.

2.4. TABLAS DE CONTINGENCIA O DE DOBLE


ENTRADA

Las ciencias sociales y humanas tienen un inters comn en verificar la asociacin de


dos variables ante un cierto conjunto de elementos. Por ejemplo, puede ser interesante
descubrir cmo vara el tanto por ciento de los usuarios acogidos a un programa de
alimentacin popular con el nivel de renta de los mismos.

20 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUALITATIVAS

Este tipo de anlisis generalmente se presenta en tablas de contingencia o de doble


entrada, tal y como se ver a continuacin.

Con el fin de construir una distribucin conjunta de frecuencias, se deben observar


simultneamente las dos variables implicadas en el estudio.

La figura 2.4 muestra la construccin de una distribucin conjunta, tomando como


variables el nivel de estudios del patriarca de la familia y el uso de programas de
alimentacin popular.

CDIGOS DEL NIVEL DE ESTUDIOS

1. Ninguno

2. Nivel Bsico

3. Nivel medio

CDIGOS DE USO DEL PROGRAMA


DE ALIMENTACIN POPULAR
FUNDACIN UNIVERSITARIA IBEROAMERICANA

0. S

1. No

Figura 2.4: Construccin de la tabla de distribucin conjunta de frecuencias.

Para la construccin de la tabla de distribucin conjunta de frecuencias, cada elemento


(familia) debe pertenecer a una y solamente una celda de la tabla.

Realizando la clasificacin de todas las familias observadas y contando las frecuencias


de cada celda, se llega a la tabla 2.3.

ESTADSTICA PARA LA TOMA DE DECISIONES 21


VA R I A B L E S CUALITATIVAS

USO DE NIVEL DE ESTUDIOS DEL PATRIARCA


TOTAL
PROGRAMAS NINGUNO BSICO MEDIO

S 31 22 25 78

NO 7 16 19 42

Total 38 38 44 120

Tabla 2.3. Distribucin conjunta de frecuencias de nivel de estudios del patriarca y uso de programas de
alimentacin popular.

En la tabla 2.3 se puede observar que los totales por columnas proporcionan la
distribucin de frecuencias de la variable nivel de estudios del patriarca, mientras que el
el total por filas constituye la distribucin de frecuencias de la variable programas de
alimentacin popular.

Para facilitar el anlisis de una tabla de contingencia, se pueden incluir las frecuencias

FUNDACIN UNIVERSITARIA IBEROAMERICANA


relativas (porcentajes), que pueden ser calculadas en relacin con los totales de las filas
y las columnas, dependiendo del objetivo.

En la tabla 2.4 se incluyen los porcentajes en relacin con los totales de las columnas.
Esta tabla evidencia los perfiles de uso de los programas de alimentacin popular,
considerando las familias separadas por nivel de estudios del patriarca (perfiles por
columnas).


USO DE NIVEL DE ESTUDIOS DEL PATRIARCA
TOTAL
PROGRAMAS NINGUNO BSICO MEDIO

S 31 (81,6)a 22 (57,9) 25 (56,8) 78 (65,0)

NO 7 (18,4) 16 (42,1) 19 (43,2) 42 (35,0)

Total 38 (100) 38 (100) 44 (100) 120 (100)

a. Los nmeros entre parntesis son los porcentajes en relacin con los totales de las columnas.

Tabla 2.4. Distribucin del uso de programas de alimentacin popular, segn el nivel de estudios del
patriarca.

Se puede observar que a un nivel de estudios ms bajo, la gran mayora de las familias
investigadas usan los programas (81,6%), mientras que a un nivel de instruccin ms
alto, poco ms de la mitad emplean dichos programas (56,8%).

22 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUALITATIVAS

La tabla 2.5 muestra los porcentajes en relacin con los totales de las filas. Esta tabla
evidencia los perfiles del nivel de estudio del patriarca (perfiles por fila), considerando la
muestra dividida en familias que usan y familias que no usan los programas. Se deja la
interpretacin de la tabla para el lector.

USO DE NIVEL DE ESTUDIOS DEL PATRIARCA


TOTAL
PROGRAMAS NINGUNO BSICO MEDIO

S 31 (39,7)a 22 (28,2) 25 (32,1) 78 (100)

NO 7 (16,7) 16 (38,1) 19 (45,2) 42 (100)

Total 38 (31,7) 38 (31,7) 44 (36,7) 120 (100)

a. Los nmeros entre parntesis son los porcentajes en relacin con los totales de las columnas.

Tabla 2.5. Distribucin del nivel de estudios del patriarca, segn el uso de programas de alimentacin
popular.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

ESTADSTICA PARA LA TOMA DE DECISIONES 23


VA R I A B L E S CUALITATIVAS

FUNDACIN UNIVERSITARIA IBEROAMERICANA


24 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUALITATIVAS

Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA

ESTADSTICA PARA LA TOMA DE DECISIONES 25


VA R I A B L E S CUALITATIVAS

FUNDACIN UNIVERSITARIA IBEROAMERICANA


26 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUANTITATIVAS

Captulo 3

VAR I AB L E S
C U A N T I T A T I VA S
FUNDACIN UNIVERSITARIA IBEROAMERICANA

3.1. INTRODUCCIN

Cuando se estudia una variable que es posible medir de forma numrica, se tiene mucho
ganado en referencia a las tcnicas de anlisis exploratorio de datos. Este captulo trata
de la construccin de distribuciones de frecuencia de variables cuantitativas y sus

interpretaciones.

Una variable cuantitativa se denomina discreta cuando sus posibles valores pueden ser
listados. Por ejemplo, el nmero de hijos de una pareja o el nmero de habitaciones de
una casa, son ejemplos de variables discretas porque pueden asumir valores {0,1,2,...}
en referencia al primer caso o {1,2,3,...} por lo que respecta al segundo caso. Las
variables discretas generalmente resultan de un conteo.

Una variable cuantitativa se denomina continua cuando puede tomar cualquier valor en
un intervalo. Por ejemplo, el peso de un individuo es una variable continua, pues puede
asumir cualquier valor en un intervalo, digamos, de 0 a 300 kg. La variables continuas
acostumbran a ser generadas por un instrumento de medida.

ESTADSTICA PARA LA TOMA DE DECISIONES 27


VA R I A B L E S CUA NT IT AT IVAS

3.2. VARIABLES DISCRETAS

La construccin de distribuciones de frecuencias de datos de variable discreta puede ser


hecha de la misma forma que una frecuencia de datos categorizados, siempre que no
exista una gran cantidad de diferentes valores observados1.

Como ejemplo, se considerar el nmero de personas residentes en el domicilio,


considerando una muestra de 40 residencias del Conjunto Residencial Monte Verde.

DATOS

4 4 4 5 4 1 2 3 6 4 6 4 4 6 3 5 3 4 4 4
5 5 5 4 8 4 5 3 4 5 5 2 5 2 6 8 3 5 5 3

La tabla 3.1 representa la distribucin de frecuencias de los datos, construida en base a


contabilizar el nmero de repeticiones de cada valor.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


NMERO FRECUENCIA PORCENTAJE
DE PERSONAS DE RESIDENCIAS DE RESIDENCIAS

1 1 2,5

2 3 7,5

3 6 15,0

4 13 32,5


5 11 27,5

6 4 10,0

7 0 0,0

8 2 5,0

Tabla 3.1. Distribucin de frecuencias del nmero de personas residentes para una muestra de 40
residencias del Conjunto Residencial Monte Verde, Florianpolis - SC, 1988.

Con el fin de representar grficamente la distribucin de frecuencias de una variable


cuantitativa, se deben construir un par de ejes cartesianos. En abcisas (eje horizontal),
se ubicar una escala para representar los valores de la variable de estudio y, en
ordenadas (eje vertical), se representar la frecuencia de cada valor.

1. Cuando una variable discreta presenta un gran nmero de diferentes valores observados, se pueden emplear artificios
propios para variables continuas, tal y como se ver ms adelante.

28 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUANTITATIVAS

En la figura 3.1 se ilustran dos formas alternativas de representacin grfica de la


distribucin de frecuencias mostrada en la tabla 3.1. La primera consiste en realizar
trazos verticales sobre los valores efectivamente observados (figura 3.1A). En la
segunda representacin se sustituyen los trazos por barras (figura 3.1B). Las barras
deben tener todas ellas la misma anchura.

El eje vertical (frecuencias) siempre debe partir de cero, mientras que el horizontal
(valores de la variable) puede iniciarse con el valor mnimo que sta pueda tomar.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 3.1: Representaciones grficas de la distribucin de frecuencias de la tabla 3.1.

3.3. VARIABLES CONTINUAS

En este caso carece de sentido contar las veces que se repite cada valor, ya que
considerando que difcilmente los valores se repiten, no se llegara a unas conclusiones
apropiadas.

3.3.1. EL DIAGRAMA DE PUNTOS

Cuando se tiene un conjunto de pocos datos, se pueden analizar a travs de un


diagrama de puntos, es decir, representando cada resultado (valor) por un punto en una
recta de nmeros reales (figura 3.2).

ESTADSTICA PARA LA TOMA DE DECISIONES 29


VA R I A B L E S CUA NT IT AT IVAS

Figura 3.2: Construccin de un diagrama de puntos.

Es posible colocar dos o ms distribuciones en un mismo grfico, basta con identificar


los puntos con smbolos diferentes y ubicarlos a otro nivel, tal y como se indica en la
figura 3.3.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Figura 3.3: Diagrama de puntos del ndice de Desarrollo Humano (IDH), pertenecientes a dos muestras
aleatorias de catorce municipios de la regin del sur y de la regin del norte2.

Los municipios de la muestra de la regin del sur presentan, en general, unos valores de
IDH mayores que los municipios de la muestra de la regin del norte. Tambin se
observa que ambas muestras de municipios se diferencian en cuanto a la dispersin de
los datos. En este sentido, en la regin del sur los municipios presentan valores de IDH
relativamente prximos (mayor homogeneidad), mientras que en la muestra de la regin
del norte, los valores varan bastante de municipio a municipio (mayor heterogeneidad).

2. Datos extrados del Atlas do Desenvolvimiento Humano (http://www.pnud.org.br/atlas). El IDH, calculado para cada
municipio, fue construido en base al censo demogrfico de 2000. Observe que en este ejemplo los elementos de las
muestras son municipios.

30 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUANTITATIVAS

3.3.2. LA TABLA DE FRECUENCIAS

Sin embargo, lo ms usual es que trabajemos con un conjunto de un centenar o millares


de datos observados, haciendo impracticable la utilizacin del diagrama de puntos. En
este caso, podremos construir distribuciones de frecuencias, agrupando los resultados
en clases preestablecidas.

Las clases son pequeos intervalos mutuamente exclusivos que, agrupados todos
juntos, abarcan todo el conjunto de datos. En otras palabras, las clases deben ser
construidas de tal manera que todo valor observado pertenezca a una y solamente una
clase. Por simplicidad, y para facilitar la interpretacin, se considerarn todas las clases
con una misma amplitud.

Como ejemplo, se emplearn las tasas de alfabetizacin de una muestra aleatoria de 40


municipios de Brasil3.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

DATOS

57,25 76,85 92,90 89,07 75,49 84,33 65,28 94,59 71,20 82,30
72,81 66,01 90,52 87,94 58,88 86,34 45,37 81,15 94,83 81,42
54,70 67,95 69,91 95,03 77,62 57,14 91,22 64,65 85,70 81,34
59,07 68,04 73,22 95,34 88,40 83,52 64,19 64,17 95,34 84,66

Se puede observar que todos los valores se encuentran en un intervalo de 40 a 100 (el
menor valor es de 45,37 y el mayor es de 95,34). Se tienen que definir un conjunto de
clases mutuamente exclusivas, tales que, todas agrupadas, contengan todos los

valores. Una posible opcin sera construir 6 (seis) clases con una amplitud aproximada
de 10, tal y como se muestra a continuacin:

de 40,00 a 49,99; de 50 a 59,99;.....; de 90,00 a 99,99.

Para simplificar la notacin, estas clases se representarn por:

40,00 | 50,00; 50,00 | 60,00;...; 90,00 | 100,00

donde el smbolo | representa el intervalo entre dos variables, incluyendo el valor del
lado izquierdo y excluyendo el valor del lado derecho.

La tabla de frecuencias se construye a travs de la contabilizacin de la frecuencia de


observaciones de cada clase, tal y como se muestra en el cuadro siguiente:

3. Datos del censo demogrfico, 2000 (http://www.ibge.gov.br).

ESTADSTICA PARA LA TOMA DE DECISIONES 31


VA R I A B L E S CUA NT IT AT IVAS

CLASES CONTABILIZADO FRECUENCIA

40 | 50 | 1

50 | 60 ||||| 5

60 | 70 ||||| ||| 8

70 | 80 ||||| | 6

80 | 90 ||||| ||||| || 12

90 | 100 ||||| ||| 8

En la representacin de una tabla de frecuencias es comn colocar tambin los puntos


medios de las clases, es decir, para cada clase, la media de sus lmites. Por ejemplo,
para la clase 40 | 50 el punto medio es 45. El punto medio representa el valor tpico
de la clase.

En la tabla 3.2 se representa la distribucin de frecuencias de los datos en cuestin.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


CLASES DE TASA DE PUNTO FRECUENCIA DE PORCENTAJE DE
ALFABETIZACIN MEDIO MUNICIPIOS MUNICIPIOS

40 | 50 45 1 2,5

50 | 60 55 5 12,5

60 | 70 65 8 20,0


70 | 80 75 6 15,0

80 | 90 85 12 30,0

90 | 100 95 8 20,0

TOTAL - 40 100,0

Tabla 3.2. Distribucin de frecuencias de las tasas de alfabetizacin de una muestra aleatoria de 40
municipios brasileos.

El nmero de clases empleado en la tabla de frecuencias se escoge de manera arbitraria.


En este sentido, cuanto mayor es el conjunto de datos, pueden ser usadas un mayor
nmero de clases. Hay que tener presente que una tabla con pocas clases presenta una
distribucin de forma bastante pobre, pudiendo no evidenciar algunas caractersticas
relevantes. Por otro lado, si se emplean muchas clases, la tabla puede adquirir grandes
dimensiones y enmascarar los aspectos relevantes de la distribucin de frecuencias
dentro de la maraa de datos.

32 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUANTITATIVAS

En general, un nmero adecuado de clases oscila entre cinco y veinte, dependiendo de


la cantidad de datos y de los objetivos. Una sugerencia es emplear n clases, donde n
es la cantidad de valores4.

Siguiendo con nuestro ejemplo, n=40, resultando as un valor de 6,32. Esto sugiere
emplear seis o siete clases. Nos quedamos con seis clases. Dado que los datos
extremos son 45,37 (menor) y 95,34 (mayor), se tiene una amplitud total de 95,34-
45 ,37 50 . Asimismo, si las clases se inician por el valor menor, cada clase debe tener
una amplitud de: 50/6=8,33. Para facilitar la lectura de la tabla de frecuencias, se
optar por iniciar en 40 y usar intervalos de clase iguales a 10.

En la figura 3.4 se ilustra, de forma esquemtica, el intervalo donde se encuentran los


datos.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 3.4: Intervalo donde se encuentran las tasas de alfabetizacin de la muestra de 40 municipios

brasileos.

Una forma alternativa de presentar las distribuciones de frecuencia de variables


cuantitativas es a travs de grficos, tales como los histogramas o los polgonos de
frecuencia, los cuales se presentan a continuacin.

3.3.3. HISTOGRAMA

La figura 3.5 muestra un histograma construido a partir de la tabla 3.2. Se puede


observar que la altura de cada rectngulo es proporcional a la frecuencia observada de
la correspondiente clase5.

4. Cuando se tienen valores discrepantes dentro de un conjunto de datos, se recomienda que el nmero de clases sea
mayor.

ESTADSTICA PARA LA TOMA DE DECISIONES 33


VA R I A B L E S CUA NT IT AT IVAS

Figura 3.5: Distribucin de frecuencia de las tasas de alfabetizacin de una muestra de municipios
brasileos, ao 2000.

Los histogramas son representaciones similares a los diagramas de columnas, pero

FUNDACIN UNIVERSITARIA IBEROAMERICANA


utilizan rectngulos contiguos en vez de columnas separadas.

En la figura se observa un contingente razonable de municipios cuyas tasas de


alfabetizacin se encuentran por encima de 80, es decir, dentro de la poblacin adulta,
existe un porcentaje superior al 80% de alfabetizados. Por otro lado, tambin se tienen
municipios con tasas de alfabetizacin muy bajas (entre 50 y 80). Un anlisis similar por
regin demogrfica podra aportar nuevo tipo de informacin relevante.

Uno de los usos principales de los histogramas es determinar su unimodalidad, como


condicin necesaria para la homogeneidad de la poblacin, en vistas a realizar cualquier


anlisis estadstico significativo.

3.3.4. POLGONO DE FRECUENCIAS

El polgono de frecuencias es una representacin grfica alternativa. Para construirlo, se


toma el punto medio (x) que corresponde a la frecuencia (f) de cada clase. Se colocan
los pares (x, f) como puntos en un par de ejes cartesianos.

La figura 3.6 muestra el polgono de frecuencias construido a partir de la tabla 3.2. El


lector observar que la informacin ofrecida por el polgono de frecuencias es
equivalente a la proporcionada por el histograma.

5. Cuando las clases no tienen la misma amplitud, resulta necesario realizar algunos ajustes. Vase, por ejemplo, Bussab
e Morettin (2002, p.27). El histograma tambin podra ser realizado en base a porcentajes en el eje vertical, aunque
su forma no cambiara.

34 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUANTITATIVAS
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 3.6: Distribucin de frecuencia de las tasas de alfabetizacin de una muestra de municipios
brasileos, ao 2000.

La figura 3.7 presenta dos polgonos de frecuencias en un mismo grfico. El uso de


porcentajes en lugar de frecuencias absolutas es adecuado porque facilita las
comparaciones entre ambas distribuciones de renta.

Figura 3.7: Distribucin de frecuencias de las rentas familiares de Monte Verde (muestra de 40 familias) y
Encosta do Morro (muestra de 37 familias), Barrio Saco Grande II, Florianpolis -SC, 1988.

ESTADSTICA PARA LA TOMA DE DECISIONES 35


VA R I A B L E S CUA NT IT AT IVAS

El lector debe observar que un grfico como el de la figura 3.7 permite explorar posibles
relaciones entre una variable cuantitativa (renta) y una variable cualitativa (localidad). Al
comparar histogramas o polgonos de frecuencias, se debe observar su posicin
respecto el eje horizontal, su dispersin y su asimetra.

Se dice que una distribucin es simtrica cuando un lado


de la distribucin es el reflejo del otro lado.

En las medidas fsicas resulta habitual tener distribuciones razonablemente simtricas.


Esto no ocurre, por ejemplo, en las distribuciones de renta, ya que existen por regla
general un mayor nmero de personas con baja renta que con alta (figura 3.8).

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Figura 3.8: Diferentes formas de distribuciones de frecuencias.

3.4. OBSERVACIONES A LO LARGO DEL TIEMPO

En muchas ocasiones los datos se recogen en diferentes momentos o intervalos de


tiempo, siendo el objetivo evaluar la variacin temporal de aquellos. El trazado, con la
variable de inters colocada en el eje vertical y el tiempo en el eje horizontal, puede
evidenciar una tendencia a la estacionalidad o bien descubrir algn valor relevante.

36 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUANTITATIVAS

El grfico de la figura 3.9 ilustra la variacin media del caudal de un ro a lo largo diez
aos consecutivos.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 3.9: Variacin media del caudal de un ro a lo largo del tiempo.

En el grfico de la figura 3.9 se evidencia un valor relevante en el ao 1996, mostrado


como atpico, ya que la variacin es sensiblemente superior al de los otros aos. Ya
veremos en los prximos captulos qu hacer cuando se presenten datos de este estilo,
pues deben investigarse antes de descartarlos por algn tipo de error en la medida.

ESTADSTICA PARA LA TOMA DE DECISIONES 37


VA R I A B L E S CUA NT IT AT IVAS

FUNDACIN UNIVERSITARIA IBEROAMERICANA


38 ESTADSTICA PARA LA TOMA DE DECISIONES


VA R I A B L E S CUANTITATIVAS

Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA

ESTADSTICA PARA LA TOMA DE DECISIONES 39


VA R I A B L E S CUA NT IT AT IVAS

FUNDACIN UNIVERSITARIA IBEROAMERICANA


40 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA DESCR IPT IVA

Captulo 4

ESTADSTICA
D E S C R I P T I VA
FUNDACIN UNIVERSITARIA IBEROAMERICANA

4.1. INTRODUCCIN

En captulos anteriores aprendimos a organizar los datos en distribuciones de


frecuencias donde era posible visualizar la forma en que una variable se distribua en
trminos de elementos observados.

En este captulo se emplear otra estrategia que puede ser usada de forma alternativa
para complementar, describir y explorar datos cuantitativos.

En efecto, cuando la variable de estudio es cuantitativa, se pueden utilizar estadsticos


que proporcionan informacin especfica sobre el conjunto de valores que puede tomar
una cierta variable.

De esta manera, se tienen las medidas de posicin, que son parmetros que indican
dnde se sita o posiciona una serie, hacia dnde tiende y alrededor de qu valor se
sitan los datos observados; y las medidas de dispersin, que indican cmo se sitan
los valores, es decir, si se agrupan alrededor de las medidas centrales o, por el
contrario, se encuentran dispersos, alejados de su centro.

ESTADSTICA PARA LA TOMA DE DECISIONES 41


ESTADSTICA DESCRIPTIVA

Entre las medidas de posicin, las ms importantes son las de tendencia central, y entre
stas, la media, la mediana y la moda. Entre las medidas de dispersin se encuentra la
varianza y la desviacin tipo.

Por ejemplo, para conocer el peso de los recin nacidos de una comunidad, se puede
calcular la media o mediana de los pesos de dichas criaturas al nacer y, para tener una
idea de la magnitud de variacin del peso de los neonatos, podemos calcular la
desviacin tipo.

4.2. MEDIA, VARIANZA Y MODA

4.2.1. MEDIA ARITMTICA

El concepto de media aritmtica - o simplemente media - es bastante familiar. Desde el

FUNDACIN UNIVERSITARIA IBEROAMERICANA


punto de vista matemtico se define como la suma de un conjunto de valores dividida
por el nmero de valores observados.

Por ejemplo, dada la nota final de ocho alumnos (4,5,5,6,6,7,7 y 8), se puede calcular
la media por:

4 +5+5+6+6+7 +7 +8
=6
8

De modo general, dado un conjunto de n valores observados de una cierta variable X, se


puede definir la media por:

x
X =
n

donde:

X= suma de los valores observados de la variable X.

En la tabla 4.1 se muestran las notas finales de los alumnos pertenecientes a tres aulas
dentro del mismo curso escolar.

42 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA DESCR IPT IVA

MEDIA POR
AULA NOTAS DE LOS ALUMNOS
AULA

A 4 5 5 6 6 7 7 8 6,00
B 1 2 4 6 6 9 10 10 6,00
C 0 6 7 7 7 7,5 7,5 6,00

Tabla 4.1. Notas finales de los alumnos por aula y su media.

La media aritmtica es la medida de tendencia central


ms comn para las variables cuantitativas.

En la figura 4.1 se muestran estos tres conjuntos de valores representados por un


diagrama de puntos.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 4.1: Representacin de la distribucin de las notas en las tres aulas y sealizacin de las medias
respectivas.

En la figura 4.1 se ilustra que en cada uno de los diagramas de puntos, la media
aritmtica se presenta, de alguna forma, en la posicin central de los valores
observados. Ms propiamente, se puede decir que la media seala el centro de un
conjunto de valores. Haciendo una similitud con el concepto fsico de punto de
equilibrio, la media sera la posicin que equilibrara los pesos repartidos sobre una
tabla.

En esta figura tambin se observa que los tres conjuntos de valores, a pesar de estar
distribuidos de diferentes maneras, tienen la misma media aritmtica. Este hecho indica
que este estadstico resume un conjunto de datos alrededor de una posicin central,
pero no aporta ninguna otra informacin sobre otros aspectos de la distribucin.

ESTADSTICA PARA LA TOMA DE DECISIONES 43


ESTADSTICA DESCRIPTIVA

Si comparamos las notas del aula A con la notas del aula B, se verifica que en esta
ltima existe una mayor dispersin de los datos, lo que indica que el aula B es ms
heterognea en cuanto a las notas obtenidas. Por otro lado, en el conjunto de notas del
aula C se observa una nota extremadamente baja, un punto discrepante o anomala, que
acarrea que la media de este grupo baje sensiblemente1.

Con el fin de explicar mejor el conjunto de datos, aparte de la media aritmtica, se debe
acompaar una medida de la dispersin de los datos, y que se conoce como varianza, o
bien, desviacin tipo.

4.2.2. VARIANZA Y DESVIACIN TIPO

Tanto la varianza como la desviacin tipo son medidas que proporcionan informacin
complementaria a la aportada por la media aritmtica. En concreto, explican la
dispersin de los datos, es decir, cunto se dispersa un conjunto de valores con
respecto a la media . Estamos midiendo variabilidad.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Una variabilidad grande indica una baja calidad de los datos. Cuanto
ms grande sea la varianza, menor ser la calidad de los datos.

Con el fin de calcular la varianza, se puede considerar la suma de las desviaciones de


cada valor en relacin con la media aritmtica, elevar al cuadrado, y dividir la suma de
los cuadrados por (n-1).


En el siguiente cuadro se describen las etapas a seguir para el clculo de la varianza.

DESCRIPCIN NOTACIN RESULTADOS NUMRICOS

Valores (notas de los alumnos) X 4 5 5 6 6 7 7 8

Media X 6

Desvos en relacin a la media X- X -2 -1 -1 0 0 1 1 2

Desvos cuadrticos (X X ) 2 4 1 1 0 0 1 1 4

1. En este caso, la media no es una estimacin fiable del conjunto de datos. En un prximo apartado se ver el
tratamiento ms adecuado para variables que contengan anomalas o valores discrepantes.

44 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA DESCR IPT IVA

Para evitar el problema de los desvos negativos2 , se elevarn stos al cuadrado


( X X ) 2 . La varianza ser definida como la media aritmtica de los desvos
cuadrticos3. Por conveniencia, se calcular esta media, usando como denominador (n-
1) en lugar de n.

Finalmente, la varianza de un conjunto de valores se define por la expresin:

(X - X)2
S2 =
n 1

donde:

s2= varianza de la muestra.

(X X ) 2 = suma de los desvos cuadrticos.

n= n de valores del conjunto de datos.

De esta manera, el conjunto de notas del aula A tiene como varianza:


FUNDACIN UNIVERSITARIA IBEROAMERICANA

4 +1+1+ 0 + 0 +1+1+ 4
S2 = = 1,71
8 1

Debido a que la varianza de un conjunto de valores se calcula en funcin de sus desvos


cuadrticos, las unidades de medida estn al cuadrado. En este contexto, resulta ms
cmodo trabajar con la raz cuadrada positiva de la varianza. Esta medida se conoce
como desviacin tipo, la cual se expresa en la misma unidad de medida de los datos del
anlisis.

En consecuencia, la desviacin tipo de un conjunto de valores se puede calcular:

(X - X )2
S=
n 1

Siguiendo con el ejemplo, la desviacin tipo del conjunto de notas del aula A sera:

S= 1,71 = 1,31

2. Las desviaciones se elevan al cuadrado porque, de lo contrario, siempre se obtendra un valor nulo a resultas de la
suma.
3. Muchos autores acostumbran a diferenciar en la frmula de la varianza cuando los datos se refieren a una poblacin
o a una muestra. Desde este enfoque, cuando los datos representan una poblacin de N elementos, el denominador
es N. Si los datos se refieren a una muestra de n elementos, se recomienda usar como denominador n-1. Nosotros
utilizaremos por simplicidad este segundo caso.

ESTADSTICA PARA LA TOMA DE DECISIONES 45


ESTADSTICA DESCRIPTIVA

Si comparamos las desviaciones tipo de varios conjuntos de datos, podremos evaluar si


se distribuyen de forma ms o menos dispersa. La desviacin tipo es siempre positiva y
tanto mayor cuanto ms lo sea la dispersin de los valores observados.

X y S 2 son los mejores estimadores para y 2.

La tabla 4.2 muestra la desviacin tipo de las notas de cada una de las tres aulas.

NMERO DE DESVIACIN
AULA MEDIA
ALUMNOS TIPO

A 8 6,00 1,31
B 8 6,00 3,51
C 7 6,00 2,69

Tabla 4.2. Media y desviacin tipo respectiva de las notas finales de los alumnos por aulas.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Al analizar la tabla 4.2 se verifica que los alumnos de las tres aulas tienen sus medias
alrededor de 6, pero si analizamos las desviaciones tipo correspondientes, se observa
que las notas de los alumnos del aula A tienen sus notas relativamente prximas las
unas de las otras, mientras que las de los alumnos del aula B se presentan de una forma
ms heterognea. A estas mismas conclusiones se puede llegar si se observa la grfica
de la figura 4.1.

4.2.3. FRMULA ALTERNATIVA PARA EL CLCULO DE LA DESVIACIN TIPO

Al calcular las desviaciones X - X , en ocasiones en que la media pueda tener un valor


fraccionario, se pueden producir errores de redondeo que podran comprometer el
resultado final. Para evitar este inconveniente, se puede utilizar la siguiente expresin de
clculo de la desviacin tipo y que es matemticamente equivalente a la vista con
anterioridad:
2
X2 nX
S=
n -1

donde:

- X2= suma cuadrtica de los valores.


- X2 = valor de la media elevada al cuadrado.
- n= nmero de valores del conjunto de datos.

46 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA DESCR IPT IVA

Ilustraremos el empleo de esta nueva frmula con el ejemplo de las notas obtenidas por
los alumnos del aula A:.

Valores (notas) X 4 5 5 6 6 7 7 8 ( X =6)


Valores al cuadrado X2 16 25 25 36 36 49 49 64 (X2 =300)

donde:

300 - 8.(6)2 300 288 12


S= = = = 1,31
7 7 7

Tal y como era de esperar, se llega al mismo resultado obtenido con anterioridad.

Otro aspecto relativo al clculo de la desviacin tipo es el referente a los valores


repetidos. Por ejemplo, para calcular el sumatorio de las notas de los alumnos del aula
A, fijmonos en la siguiente expresin:
FUNDACIN UNIVERSITARIA IBEROAMERICANA

(X) = 4 + 5 + 5 + 6 + 6+ 7 + 7 + 8,
que es equivalente a
4(1) + 5(2) + 6(2) + 7(2) + 8(1) = (X)

donde consideramos solamente los valores diferentes de X y ponderamos por sus


respectivas frecuencias f de ocurrencia de dichos valores. Anlogamente, podemos
calcular la suma cuadrtica de los valores de X por:

(X2)= 42 + 52(2) + 62(2) + 72(2) + 82

Con esta nueva notacin, la frmula de medida de la desviacin tipo es:

X=
X e S=
(X ) nX
2

n n 1

En la tabla 4.3 se muestra la secuencia de clculo para la obtencin de la desviacin


tipo, usando las notas finales de los alumnos del aula A.

ESTADSTICA PARA LA TOMA DE DECISIONES 47


ESTADSTICA DESCRIPTIVA

NOTA FRECUENCIA
Xf X2f
(X) (f)

4 1 4 16
5 2 10 50
6 2 12 72
7 2 14 98
8 1 8 64

Total 8 48 300

Tabla 4.3. Clculos auxiliares para la obtencin de X y S.

donde:

48 300 - 8(6)2
X= =6 e S= = 1,31
8 7

En las situaciones en que existan muchos valores repetidos, el procedimiento expuesto

FUNDACIN UNIVERSITARIA IBEROAMERICANA


facilita el clculo de X y S, como tambin reduce la posibilidad de errores
computacionales.

4.2.4. MODA

La moda (Mo) es el valor que ocurre con mayor frecuencia dentro de un sistema de
observaciones. Es una medida de tendencia central adecuada a escalas nominales,
aunque tambin se calcula para escalas numricas.


Una distribucin puede tener ms de una moda, en ese caso se dice que los datos son
bimodales, trimodales, etc.

Una poblacin homognea es una poblacin estadstica que tiene una nica moda. Con
el fin de determinar si una poblacin dada es o no homognea, debe construirse el
histograma de una muestra escogida al azar de la poblacin. En el caso de que haya
ms de una moda, se tiene una mezcla de diferentes poblaciones.

Para cualquier prueba estadstica que queramos realizar, siempre debemos


cercionarnos de que estamos tratando con poblaciones homogneas.

En la prctica totalidad de los anlisis estadsticos se asume que la poblacin es


homognea, es decir, su densidad (para variables aleatorias continuas) o la funcin total
de la probabilidad (para variables aleatorias discretas) es unimodal.

48 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA DESCR IPT IVA

4.3. MEDIDAS BASADAS EN LA ORDENACIN DE LOS


DATOS

La media y la desviacin tipo son los estadsticos ms empleados para evaluar la


posicin central y la dispersin de un conjunto de valores. No obstante, estas medidas
estn fuertemente influenciadas por las anomalas. Por ejemplo, en las notas del aula C
el valor discrepante 0 (cero) tira de la media hacia abajo, tal y como se ilustra en la
figura 4.2.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 4.2: La influencia de una anomala en el clculo de la media aritmtica.

A pesar de que la media aritmtica es 6 (seis), el diagrama de puntos sugiere que el


valor 7 (siete) sera una mejor estimacin para representar las notas del aula C, pues
adems de ser el valor ms frecuente, deja la mitad de las notas por encima y la otra
mitad por debajo.

DETECCIN DE ANOMALAS

Una varianza potencialmente grande es indicativa de la posible presencia de


una anomala, resultado de errores administrativos o de la propia recogida de
datos. Se debe ser muy cuidadoso y antes de clasificar una anomala como tal,
debe descubrirse por qu y de qu manera ocurri tal observacin.

Si no existe ninguna duda, la anomala debe ser quitada y el modelo


reformulado.

El procedimiento para descubrir una anomala es el siguiente:

1. Calcular la media X y la desviacin tipo S de la muestra entera.


2. Fijar los lmites: X k S, X + k S , donde un valor tpico de k es 2,5.
3. Eliminar todos los valores que se encuentren fuera de lmites.

ESTADSTICA PARA LA TOMA DE DECISIONES 49


ESTADSTICA DESCRIPTIVA

4. Volver al paso 1.
5. En la mayor parte de los casos, se necesitar iterar con este mismo
algoritmo hasta que todas las anomalas queden eliminadas.

A continuacin se presentarn una serie de estadsticos que se ven menos afectados


por la presencia de anomalas y que, en consecuencia, son ms recomendables para
analizar variables que contengan este tipo de valores.

4.3.1. LA MEDIANA

Al igual que la media, la mediana es una medida de tendencia central que se caracteriza
por dividir la distribucin por la mitad, dejando el 50% de los valores menores a un lado
y el 50% de los valores mayores al otro lado. Por ejemplo, el conjunto de valores
{2,3,4,5,8} tiene como mediana el valor de 4 (cuatro), pues la cantidad de valores cuya

FUNDACIN UNIVERSITARIA IBEROAMERICANA


magnitud es inferior a 4 es la misma que la cantidad de valores cuya magnitud es
superior a 4.

Sin embargo, no todos los conjuntos de datos tienen un valor central tan ntido como el
expuesto en el ejemplo4. En este sentido, se precisa una definicin ms detallada de la
mediana.

Se define la mediana de un conjunto de valores como aquel valor que ocupa la posicin
n +1
2
, considerando los datos ordenados en orden decreciente. Si el valor n +1 es
2


fraccionario, se toma como mediana la media de los dos valores cuya posicin sea ms
prxima a n 2+1 . La mediana se representa por Md.

Algunos ejemplos son:

a) Conjunto de notas del aula C: {0; 6; 7; 7; 7; 7,5 7,5}


n+1
Posicin = 4 Md = 7
2

b) m5,3,2,8,4q m2,3,4,5,8q, Posicin n2+ 1 = 3 M = 4


Ordenado
d

c) m3,5,6,7,10,11q Posicin n2+ 1 = 3,5 M d =


6+7
2
= 6,5

4. En el conjunto de datos {3,5,6,7,10,11}, cualquier valor entre 6 y 7 podra ser usado como mediana.

50 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA DESCR IPT IVA

4.3.1.1. Comparacin entre la media y la mediana

En la figura 4.3 se ilustran los valores de la media y de la mediana de un diagrama de


puntos. Ntese que la anomala 62 tira ms de la media que no de la mediana.

Figura 4.3: Ilustracin de la posicin de la media y la mediana en un diagrama de puntos.


FUNDACIN UNIVERSITARIA IBEROAMERICANA

La mediana proporciona una mejor medida de localizacin que la media cuando


existen algunas observaciones extremadamente grandes o extremadamente
pequeas, es decir, cuando los datos se sesgan a derecha o a izquierda.

La figura 4.4 ilustra la posicin de la media y la mediana en distribuciones con


diferentes formas: simtrica y asimtrica. En el primer caso, la media y la mediana
coinciden en la misma posicin5. Tal y como se muestra en el segundo caso, si el valor
de la mediana es menor que la media, los datos estn sesgados a la derecha (existe un
mayor nmero de individuos a la derecha de la curva), en caso contrario, los datos

estaran sesgados a la izquierda.

5. Se debe aclarar que para variables que supuestamente tengan distribuciones razonablemente simtricas, la media y
la mediana pueden no ser iguales ya que, en general, estamos considerando solamente algunos valores (muestras)
de estas variables. Para variables con distribuciones razonablemente simtricas, la media es la medida de posicin
central ms adecuada, por usar el mximo de informacin contenida en los datos. La media se calcula usando
propiamente la magnitud de los valores, mientras que la mediana utiliza solamente la ordenacin de los valores.

ESTADSTICA PARA LA TOMA DE DECISIONES 51


ESTADSTICA DESCRIPTIVA

Figura 4.4: Posiciones de la media y de la mediana en funcin de la forma (simtrica o asimtrica) de la


distribucin.

En general, dado un conjunto de valores, la media es la medida de tendencia central ms


adecuada cuando se supone que estos valores tienen una distribucin razonablemente
simtrica, mientras que la mediana surge como alternativa para representar la posicin

FUNDACIN UNIVERSITARIA IBEROAMERICANA


central en distribuciones muy asimtricas. Muchas veces se calculan ambas medidas
para evaluar la posicin central bajo dos enfoques diferentes, como para tambin tener
una primera evaluacin sobre la asimetra de la distribucin.

4.3.2. LOS CUANTILES Y LOS EXTREMOS

En la prctica, el investigador est interesado en conocer los aspectos relativos al


conjunto de valores, aparte de los estadsticos de tendencia central. En este sentido, se


pueden obtener algunas informaciones relevantes a travs de un conjunto de medidas
denominados cuantiles: mediana, cuartiles, deciles, centiles o percentiles.

Los cuantiles nos indican los valores de las variables que ocupan determinados lugares
en el conjunto ordenado.

- La mediana, Md, tal y como se ha visto con anterioridad, es aquel valor de la


variable que divide la distribucin en dos partes iguales. En consecuencia, sera
un cuantil de orden 2.
- Los cuartiles son aquellos valores de la variable que dividen la distribucin en
cuatro partes iguales.
- El primer cuartil o cuartil inferior, QI, es el valor que delimita el 25% de los
valores menores.
- El segundo cuartil o cuartil medio, Q2 o Md, es propiamente la mediana.
- El tercer cuartil o cuartil superior, QS, es el valor que separa el 25% de los
valores mayores.

52 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA DESCR IPT IVA

Figura 4.5: Los cuartiles dividen la distribucin en cuatro partes iguales.

- Los deciles son aquellos valores de la variable que dividen la distribucin en


diez partes iguales. Los deciles son cuantiles de orden 10. Existen nueve
deciles: D1, D2,..., D9.
- Los centiles o percentiles son aquellos valores de la variable que dividen la
FUNDACIN UNIVERSITARIA IBEROAMERICANA

distribucin en cien partes iguales. Los centiles son cuantiles de orden 100.
Existen 99 centiles: C1, C2,..., C99.

Se denomina extremo inferior, E1, al menor valor del conjunto de valores. El extremo
superior, ES, estara constituido por el mayor valor. Por ejemplo, dado el conjunto de
valores {5,3,6,11,7}, tenemos E1=3 y ES=11.

Dado un conjunto de valores ordenados, se puede obtener de forma aproximada el


cuartil inferior, Q1, como la mediana de los valores cuya posicin es menor o igual a la

posicin de la mediana de la distribucin. Anlogamente, se puede obtener el cuartil


superior, QS, como la mediana de los valores cuya posicin es igual o superior a la
posicin de la mediana de la distribucin6.

Algunos ejemplos sobre lo expuesto se ven a continuacin:

a) Datos: 2, 0, 5, 7, 9, 1, 3, 4, 6, 8. Ordenando:

6. Dado un conjunto de valores, no siempre se consigue dividirlos exactamente en cuatro partes iguales. El
procedimiento expuesto ofrece una solucin aproximada, muy satisfactoria cuando las cantidades de valores son
grandes y con pocas repeticiones.

ESTADSTICA PARA LA TOMA DE DECISIONES 53


ESTADSTICA DESCRIPTIVA

b) Datos:

En el ejemplo (b), donde la mediana coincide con un valor del conjunto de datos, por
convencin se toma este valor, tanto para la obtencin de QI como para la de QS.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


54 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA DESCR IPT IVA

Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA

ESTADSTICA PARA LA TOMA DE DECISIONES 55


ESTADSTICA DESCRIPTIVA

FUNDACIN UNIVERSITARIA IBEROAMERICANA


56 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

Captulo 5

MODELAMIENTO
ESTADSTICO
D E L A S VAR I A B L E S
FUNDACIN UNIVERSITARIA IBEROAMERICANA

5.1. INTRODUCCIN

Al analizar los datos medidos por una variable cuantitativa continua, veremos que

existen dos clases de pruebas estadsticas: las paramtricas y las no paramtricas.

Las pruebas paramtricas exigen una serie de condiciones a los datos a los que se
aplican:

- Que los valores de la variable dependiente sigan una distribucin de


probabilidad determinada, por lo menos en la poblacin a la que pertenezca la
muestra en la que se hizo la investigacin.
- Que las varianzas de los grupos que se comparan en una variable dependiente
sean aproximadamente iguales (homocedasticidad u homogeneidad de las
varianzas).

Las pruebas paramtricas ms conocidas y usadas son: la prueba t-student, la F de


Snedecor y el coeficiente de correlacin de Pearson. stas se basan en la distribucin
de probabilidad normal, y al estimar los parmetros del modelo, se supone que los datos
constituyen una muestra aleatoria de dicha distribucin, por lo que la eleccin del

ESTADSTICA PARA LA TOMA DE DECISIONES 57


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

estimador y el clculo de la precisin de la estimacin, elementos bsicos para construir


intervalos de confianza y contrastar hiptesis, dependen del modelo probabilstico
supuesto.

En el momento en que las condiciones anteriormente expuestas no resulten vlidas, o


bien no sea fcil su comprobacin por tratarse de muestras pequeas, se dispone de
dos posibles mecanismos: transformar los datos para que sigan una distribucin normal,
o bien se puede recurrir a pruebas estadsticas de libre distribucin, es decir, a aquellas
que no se basan en ninguna suposicin en referencia a la distribucin de probabilidad a
partir de la que fueron obtenidos los datos (pruebas no paramtricas).

Las pruebas no paramtricas ms conocidas y usadas son la chi-cuadrado de Pearson, la


prueba de la probabilidad exacta de Fisher y el coeficiente de rangos de Spearman, entre
otras.

En este documento se har especial nfasis en las familias de distribuciones


paramtricas, ampliamente utilizadas para resumir gran cantidad de datos, obtener
predicciones y determinar la calidad del ajuste, entre otras. De esta manera, la

FUNDACIN UNIVERSITARIA IBEROAMERICANA


estadstica de negocios nos proveer de las tcnicas necesarias para hacer inferencia
inductiva sobre la poblacin a partir de una muestra y medir el grado de incertidumbre
de tal inferencia (tabla 5.1).

Se trata de variables medibles (altura, peso,...).


Caractersticas
Pueden tomar valores enteros o con decimales.
VARIABLES
t- student.


CUANTITATIVAS
Tratamientos
Anlisis de la varianza (ANOVA).
estadsticos
Correlacin/Regresin.

Se trata de variables de cualidad agrupadas en categoras.

Caractersticas Los datos que toman son el nmero de individuos que presentan
VARIABLES dicha cualidad (frecuencia de aparicin) y, por tanto, nmeros
CUALITATIVAS enteros.

Tratamientos Contraste de homogeneidad.


estadsticos Contraste de independencia.

Tabla 5.1. Principales tcnicas empleadas en la estadstica de negocios para realizar inferencias sobre la
poblacin a partir de una muestra.

58 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

5.2. LA DISTRIBUCIN NORMAL

En el siglo XIX, Adolphe Qutelet observ que en muestras suficientemente grandes,


las representaciones grficas de diferentes variables eran muy semejantes.

En sus estudios comprob que muchas variables asociadas a fenmenos naturales y


aleatorias seguan el modelo de la normal, es decir, se encontraban distribuidas
uniformemente alrededor de una valor central, promedio o norma. Por ejemplo:

- Caracteres morfolgicos aleatorios de individuos (personas, animales,


plantas,...) de una especie de ocurrencia natural: tallas, pesos, envergaduras,
dimetros, permetros, entre otros;

- Caracteres fisiolgicos: efecto de una misma dosis de un frmaco o de una


misma cantidad de abono;

- Caracteres sociolgicos: consumo de cierto producto por un mismo grupo de


individuos, puntuaciones de examen;
FUNDACIN UNIVERSITARIA IBEROAMERICANA

- Caracteres psicolgicos: cociente intelectual, grado de adaptacin a un medio,


entre otros;

- Errores cometidos al medir ciertas magnitudes;


- Valores estadsticos muestrales como la media;

- Otras distribuciones como la binomial o la de Poisson son aproximaciones


normales; y,

- En general, cualquier caracterstica que se obtenga como suma de muchos

factores.

En este sentido, el Teorema Central del Lmite dice que si tenemos un grupo numeroso
de variables independientes (>30) y todas ellas siguen el mismo modelo de distribucin
(cualquiera que ste sea), la suma de ellas se distribuye segn una distribucin normal1.
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.

La distribucin normal describe la forma en la que ciertos estimadores


de caractersticas de la poblacin varan de una muestra a otra.

Resulta difcil explicar por qu se produce este fenmeno, pero lo cierto es que la curva
de Distribucin Normal (denominada tambin Gaussiana) juega un papel fundamental en

1. Por ejemplo, si lanzamos una moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre
s), se distribuye segn una distribucin normal.

ESTADSTICA PARA LA TOMA DE DECISIONES 59


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

el anlisis estadstico, ya que adems de explicar la distribucin de las variables


apuntadas con anterioridad, tambin sirve para establecer una aproximacin a otras
distribuciones mucho menos manejables.

5.2.1. LA FUNCIN DE DENSIDAD O LEY NORMAL

La ley normal es un modelo de distribucin que responde a la frmula:

(x- )2
1
f(x)= e 2 2

. 2

donde:

= media poblacional.

= desviacin tipo poblacional.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


2= varianza poblacional.

Su representacin grfica se ilustra en la figura 5.1.

Figura 5.1: Representacin grfica de la ley normal.

La funcin normal queda definida por dos parmetros, su media y su desviacin tipo. Se
representa mediante la notacin N (, ), donde para cada valor de y se tendr una
funcin de densidad distinta, y en consecuencia, una familia de distribuciones normales.

A resultas de la figura 5.1 de pueden observar las siguientes premisas:

- La curva tiene solamente un pico, por consiguiente es unimodal.

60 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

- La media de una poblacin distribuida normalmente se encuentra en el centro


de su curva normal (simetra).

- A causa de la simetra de la distribucin normal de probabilidad, la mediana y la


moda de la distribucin tambin se hallan en el centro, por tanto, en una curva
normal, la media, la mediana y la moda poseen el mismo valor.

- Las dos colas (extremos) de una distribucin normal de probabilidad se


extienden de manera indefinida y nunca tocan el eje horizontal.
- El rea total bajo la curva normal ser de 1 (normal tipificada), en
consecuencia, se puede considerar que las reas bajo la curva son
probabilidades.
- El 68% de todos los valores bajo la curva se encuentran dentro de una
desviacin estndar con respecto a la media (entre - y +), mientras que el
95% se localiza dentro de dos desviaciones estndar (entre -2 y +2).

5.2.2. LA FUNCIN DE DISTRIBUCIN


FUNDACIN UNIVERSITARIA IBEROAMERICANA

La funcin de distribucin F(x) representa el rea contenida bajo la curva de la funcin


de densidad:

z
x (x- )2
1
F(x)= e 2 2
dx
2
- < x <

La representacin grfica puede verse en la figura 5.2.

Figura 5.2: Funcin de distribucin F(x).

ESTADSTICA PARA LA TOMA DE DECISIONES 61


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

Cuando se conoce la media y la varianza de una ley normal, se est en condiciones de


encontrar probabilidades. En efecto, el rea bajo la curva proporciona la probabilidad de
ocurrencia de un evento, tal y como se ilustra en la figura 5.3.

F(x) = P (X x)

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Figura 5.3: El rea bajo la curva proporciona la probabilidad de encontrar un valor de la distribucin normal
comprendido entre a y b.

5.2.3. DISTRIBUCIN NORMAL TIPIFICADA

Cuando la media de la distribucin es 0 y la varianza es igual a 1, la distribucin se


denomina normal tipificada, y su ventaja reside en que existen tablas donde se recoge
la probabilidad (rea) para cada punto de la curva de esta distribucin.


Otra caracterstica importante de la ley normal unitaria o tipificada es que toda el rea
comprendida entre ella y el eje horizontal es igual a la unidad.

De esta manera, toda distribucin normal se puede transformar en una tipificada


mediante el cambio de variable:

Xi
Zi =

donde:

zi= variable tipificada de x.


xi= variable aleatoria.
= media poblacional.
= desviacin tipo poblacional.

62 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

Esto ser muy til a la hora de hacer comparaciones. En este caso, la funcin de
densidad unitaria quedara:

Z 2i
1
f(z ) = e 2

2p

Siendo su representacin grfica la mostrada en la figura 5.4.

F (z) = P (Z z)
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 5.4: Representacin de la ley normal unitaria.

Empleando la funcin de densidad unitaria, resultara sencillo realizar el clculo de reas


comprendidas entre la curva y el eje horizontal. Sin embargo, tal y como se muestra, el
uso de la frmula requerira conocimientos de clculo integral.

z z2
z
1
F(z) = e 2
dz
0 2

Por este motivo, an a costa de cometer un cierto error, se suelen utilizar tablas que
proporcionan directamente estos valores.

Atencin a la consulta de las tablas. No todas se presentan en el mismo


formato, las hay que proporcionan el rea entre z=0 y un valor de z i, mientras
que otras proporcionan directamente el rea de la cola que deja ese valor z i.

ESTADSTICA PARA LA TOMA DE DECISIONES 63


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

En las tablas de la distribucin normal que se pueden encontrar en el Apndice, la


puntuacin zeta se busca localizando la cifra de las unidades y el primer decimal en la
columna de la izquierda, y la cifra de las centsimas en la fila superior. La tabla
proporcionar el valor del rea comprendida entre z=0 y el valor de zi (sea ste positivo
o negativo). Sin embargo, habitualmente nos interesa el rea de una de las colas, que se
suele notar por /2 (figura 5.5), por lo que:

/2= 0,5 - (valor del rea comprendida entre z=0 y zi). Este valor tambin
recibe el nombre de p-valor.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Figura 5.5: Representacin de la ley normal unitaria con el rea de las colas representadas por /2.

VEAMOS UN EJEMPLO


El peso de unas piezas de plomo para automocin se distribuye normalmente.
Si sabemos que el peso medio es de 3,25 kg y la desviacin tpica es de 0,82
kg, cul es la probabilidad de que el peso de las piezas sea superior a 4 kg?

Lo que se debe hacer en primer lugar es tipificar la variable aleatoria X, peso de


las piezas de plomo:

xi 4 3,25
Zi = = = 0,9146
0,82

Buscando en la tabla para un valor de z=0,91 el valor resultante del rea


comprendida entre 0 y dicho valor es de 0,3186. Sin embargo, a nosotros nos
interesa el p-valor, tal y como se indica en la figura 5.6.

64 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

Figura 5.6: Tipificacin de la variable aleatoria X.

En consecuencia, la probabilidad de que el peso de la pieza sea superior a 4 kg


ser:

/2=p(X>4)=p(z>0,9146)=0,5-0,3186=0,18 (p-valor)
FUNDACIN UNIVERSITARIA IBEROAMERICANA

5.2.4. COMPROBACIN DE LA NORMALIDAD: PRUEBA DE KOLGOMOROV

En ocasiones resulta til comprobar si una determinada distribucin sigue el modelo de


la ley normal.

La prueba de Kolgomorov calcula las diferencias entre las frecuencias relativas


acumuladas (Hi) en cada uno de los intervalos y las que les correspondera en caso de
seguir fielmente la ley normal.

Una vez calculada, se escoge la diferencia mayor y se compara con la que proporciona
la tabla 5.2.

ESTADSTICA PARA LA TOMA DE DECISIONES 65


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

TAMAO DE LA TAMAO DE LA
MUESTRA VALOR MUESTRA VALOR
N N

1 0,975 14 0,349

2 0,842 13 0,361

3 0,708 14 0,349

4 0,624 15 0,338

5 0,565 16 0,328

6 0,521 17 0,318

7 0,486 18z 0,309

8 0,457 19 0,301

9 0,432 20 0,294

10 0,410 25 0,27

11 0,391 30 0,24

FUNDACIN UNIVERSITARIA IBEROAMERICANA


12 0,375 35 0,23

13 0,361 Ms de 35 1,36/n0.5

Tabla 5.2. Tabla de referencia para la prueba de Kolgomorov2.

Si la diferencia es superior al valor que proporcione la tabla, se supone que la


distribucin no sigue el modelo de la ley normal. En caso contrario, nada se opone a
rechazar esta suposicin.

Es importante mencionar que, a resultas de esta prueba, nunca se puede afirmar que
una distribucin sea normal , sino que la diferencia encontrada no ha sido lo
suficientemente grande para decir que no es normal.

PRUEBA DE KOLGOMOROV

1. Se calculan las columnas:

lsi: lmite superior de cada intervalo.


zi: puntuacin zeta correspondiente a lsi.

2. La tabla tiene un riesgo del 5% al afirmar que la distribucin no es normal.

66 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

A ri : rea entre l si y el extremo inferior de la curva (frecuencia relativa


acumulada segn la tabla de la ley normal unitaria).
Ni: frecuencia acumulada real.
Hi: frecuencia relativa acumulada real.
/A ri- H i /: valor absoluto de las diferencias entre las frecuencias relativas
acumuladas segn la tabla de la ley normal y las frecuencias relativas
acumuladas reales de la distribucin.

2. Se busca la diferencia mayor en la ltima columna.

3. Se compara con las tablas:

Dif. mx. < tabla: nada se opone a aceptar la normalidad de la distribucin.


Dif. mx. > tabla: la distribucin no sigue una ley normal (riesgo del 5%).

Si esta prueba asegura la no normalidad de los datos, existen varias soluciones


FUNDACIN UNIVERSITARIA IBEROAMERICANA

posibles:

- Si la distribucin es ms apuntada que la normal (mayor parte de los valores


agrupados en torno de la media y colas ms largas en los extremos), se debe
investigar la presencia de heterogeneidad en los datos y de posibles valores
atpicos o anomalas. La solucin puede emplear pruebas no paramtricas.

- Si la distribucin es unimodal y asimtrica, la solucin ms simple y efectiva


suele utilizar una transformacin (logaritmo neperiano, raz cuadrada, arcseno,
entre otras) para convertir los datos en normales3.

- Cuando la distribucin no es unimodal, hay que investigar la presencia de


heterogeneidad, ya que en estos casos, la utilizacin de transformaciones no es
adecuada y los mtodos no paramtricos pueden tambin no serlo.

5.3. LA DISTRIBUCIN T-STUDENT

Se ha estudiado hasta ahora que puede suponerse que la distribucin de muestreo es


normal, ya sea porque lo es de por s la poblacin o bien porque la muestra es lo
suficientemente grande como para apelar al Teorema Central del Lmite (n>30).

3. Para una mayor informacin, consultar: http://www.seh-lelha.org/noparame.htm.

ESTADSTICA PARA LA TOMA DE DECISIONES 67


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

Sin embargo, cuando la muestra es pequea (n<30) o la varianza de la poblacin se


desconoce, con el objeto de comparar la media de una muestra con la media hipottica
de una poblacin, se requiere el empleo de la distribucin t-student. Lgicamente, para
muestras ms grandes puede emplearse la aproximacin normal (tabla 5.3).

TAMAO DE
POBLACIN s CONOCIDA s DESCONOCIDA
MUESTRA

X 0
t=
X 0 SX
Grande (n 30) z=
X o
Con distribucin X 0
normal z=
SX

Pequea (n < 30) X 0 X 0


z= t=
X SX

FUNDACIN UNIVERSITARIA IBEROAMERICANA


X 0
t=
SX
X 0
Grande (n 30) z=
Sin distribucin X o
normal X 0
+
z=
SX

Se realizan por lo general pruebas no


Pequea (n < 30) paramtricas dirigidas a la mediana.

* Se aplica el teorema central del lmite.


** z se utiliza como aproximacin de t.
+ se aplica el teorema central del lmite y z se utiliza como aproximacin de t.

Tabla 5.3. Tabla resumen de aplicacin del valor z y de t en funcin del tamao de muestra y del
conocimiento de la varianza poblacional4.

Imaginemos que se toman todas las muestras posibles de tamao n inferior a 30 de una
determinada poblacin distribuida segn una normal. Con los valores calculados de la
media X y la desviacin tipo s, el esquema de la prueba consiste en calcular un
estadstico:
X
t=
S$ X

4. Fuente: http://www.universidadabierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm

68 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

donde:

S
S$X =
n 1

quedando la distribucin t de la forma:

X
t = n 1
S

Anlogamente a la distribucin normal, la t-student tiene forma acampanada y es


perfectamente simtrica respecto a t=0, pero con una dispersin mayor, la cual
aumenta a medida que disminuye el tamao de la muestra (figura 5.7).
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 5.7: Comparacin entre dos distribuciones t-student y la normal.5

Tal y como se ilustra en la figura, existen diferentes distribuciones t, cada una de ellas
asociada a lo que se ha dado en llamar grados de libertad (), que se definen como el
nmero de observaciones menos uno, es decir, = n-1.

La forma de la distribucin t-student depender del tamao de la muestra.

Se han sealado en la figura valores crticos de z y t para un coeficiente de confianza de


1-=0,99, o lo que es lo mismo, con un rea de cola o p-valor de /2= 0,005. Si

5. Fuente: http://www.universidadabierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm

ESTADSTICA PARA LA TOMA DE DECISIONES 69


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

acudimos a las tablas de la distribucin normal, el valor crtico de z positivo es de 2,58,


es decir, el valor que deja un rea de cola del 0,5% a la derecha de la distribucin.
Anlogamente ocurre en el lado izquierdo de la distribucin con el valor de z negativo -
2,58.

En referencia al valor crtico de t con =3 grados de libertad, se tiene por las tablas6
(t 0,005 ) que es igual a 5,84 en el lado derecho y -5,84 en el lado izquierdo. En
consecuencia, existe una probabilidad de 0,99 de que la variable t se encuentre en el
intervalo [-5,84, 5,84].

Si escogemos el valor crtico de t con =29 grados de libertad, se tiene que un 0,5%
del rea bajo la curva est a la derecha de 2,76 o a la izquierda de -2,76. Es decir,
existe una probabilidad de 0,99 de que la variable t se encuentre en el intervalo [-2,76,
2,76].

El valor crtico de t disminuye al crecer los grados de libertad. Si el tamao de


la muestra aumenta de forma infinita, el valor de t tomara el de 2,58, que es

FUNDACIN UNIVERSITARIA IBEROAMERICANA


igual al valor de z para la curva normal.

5.4. LA DISTRIBUCIN CHI-CUADRADO

Al igual que para comparar la media de la muestra con la poblacional, en muestreo


pequeo, se utilizaba una distribucin t-student y un estadstico t, ahora se comparar


la varianza de una muestra con la varianza hipottica de una poblacin gracias a la
distribucin chi-cuadrado (2).

La distribucin chi-cuadrado tiene una forma que depende del nmero de grados de
libertad como ocurre en el caso de la t-student. En la figura 5.8 se ilustran varias de
estas curvas.

6. Las tablas de la distribucin normal y de las t-student se pueden encontrar en el apndice.

70 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

Figura 5.8: Distribucin chi-cuadrado para = 2, 5 y 10.

Con el fin de obtener un valor crtico a partir de una tabla7 de a2 se deber seleccionar
un nivel de significacin y determinar los grados de libertad para el problema bajo
anlisis.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Tal y como se ver en los ejemplos, la frmula general para determinar los grados de
libertad8 en una tabla de contingencia9 es:

= (r 1) (c 1)

donde:

= grados de libertad.

= filas de la tabla de contingencia.


c= columnas de la tabla de contingencia.

Aparte de la estimacin de varianzas, otras aplicaciones de la distribucin chi-cuadrado


son, entre otras:

Para una variable:

- Prueba de calidad o bondad de ajuste para variables aleatorias discretas.

7. Las tablas de probabilidad de c2 pueden cosnsultarse en el Apndice.


8. Cuando los grados de libertad sean iguales a 1, se debe aplicar la frmula modificada por la correccin de Yates.
9. Una tabla de contingencia es una es una distribucin (una matriz) en filas y columnas en la que los individuos de una
poblacin se clasifican en funcin de algunas variables.

ESTADSTICA PARA LA TOMA DE DECISIONES 71


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

Para dos variables:

- Prueba de homogeneidad.

- Prueba de la independencia.

5.4.1. PRUEBA DE CALIDAD O BONDAD DEL AJUSTE PARA VARIABLES ALEATORIAS


DISCRETAS

La distribucin 2 mide cunto se diferencian las frecuencias observadas o reales de las


frecuencias esperadas o predichas, es decir, si la diferencia es o no significativa.

Las observaciones se obtienen mediante muestreo aleatorio a partir de una poblacin


dividida en categoras.

El estadstico de prueba ser:

FUNDACIN UNIVERSITARIA IBEROAMERICANA


k 2
=
2
(Oi E i )
con (k - 1) g.l.
i=1 Ei

donde:

O= frecuencia observada.
E= frecuencia esperada.


Para una variable, los grados de libertad son el resultado de restar el nmero de
categoras menos uno.

En este contraste se suele rechazar la hiptesis nula (los valores observados son
coherentes con los esperados) cuando el estadstico es mayor que un determinado valor
crtico.

En la prueba de bondad de ajuste se busca contrastar


la distribucin terica de una variable.

Es importante recalcar que el estadstico de prueba 2 se podr aproximar por una chi-
cuadrado cuando el tamao muestral n sea grande (n>30), y todas las frecuencias
esperadas sean iguales o mayores a 5 (en ocasiones, se debern agrupar varias
categoras con el fin de cumplir dicho requisito).

72 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

EJEMPLO

Se sabe que en un cruce de una misma especie vegetal, se obtienen tres


descendientes de caractersticas A, B, y C en una proporcin 1:2:1. En una
muestra de 104 especies, se obtuvieron 28 de A, 49 de B y 27 de C. Se
ajustan estos datos a la proporcin esperada?

Lo primero es calcular la frecuencia esperada:

A: 104/4= 26
B: 104/2= 52
C: 104/4= 26

A continuacin, se construye la siguiente tabla de contingencia:

FRECUENCIA FRECUENCIA
CATEGORA (O-e)2/e
ESPERADA (E) OBSERVADA (O)
FUNDACIN UNIVERSITARIA IBEROAMERICANA

A 26 28 0,1538

B 52 49 0,1731

C 26 27 0,0385

En consecuencia:

2 = 0,365 con 2 grados de libertad.

Si se hacen uso de las tablas de probabilidades de 2 se determina el valor


crtico al nivel de significancia deseado. En este caso, para = 2 grados de
libertad y un nivel de significancia, se obtiene: 2= 5,991.

Dado que 0,365 < 5,991 se acepta la hiptesis planteada y se concluye que
los datos corresponden a una proporcin de 1:2:1.

5.4.2. PRUEBA DE HOMOGENEIDAD

En este caso se determinar si los datos correspondientes a dos o ms muestras


aleatorias provienen de una misma poblacin.

ESTADSTICA PARA LA TOMA DE DECISIONES 73


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

Las observaciones se obtienen mediante muestreo aleatorio a partir de una poblacin


dividida en categoras.

Se emplear el estadstico:

k 2
=
2 (Oi Ei )
con (r - 1) (c - 1) g.l.
i=1 Ei

donde:

O= frecuencia observada.

E= frecuencia esperada bajo homogeneidad.

r= n de filas de la matriz de contingencia.


c= n de columnas de la matriz de contingencia.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


En este contraste se suele rechazar la hiptesis nula (los valores observados son
coherentes con los esperados) cuando el estadstico es mayor que un determinado valor
crtico.

Es importante recalcar que el estadstico de prueba 2 se podr aproximar por una chi-
cuadrado cuando el tamao muestral n sea grande (n>30), y todas las frecuencias
esperadas sean iguales o mayores a 5 (en ocasiones, se debern agrupar varias
categoras con el fin de cumplir dicho requisito).


EJEMPLO

Se quiere estudiar la fiabilidad de una vlvula neumtica en relacin al


distribuidor que nos la suministra. En este sentido, se toma una muestra de
100 vlvulas de cada uno de los tres distribuidores y se comprueba el nmero
de elementos defectuosos para cada uno.

Se pretende realizar un estudio de homogeneidad para concluir si entre los


distribuidores existen diferencias de fiabilidad referente a la misma vlvula.

Los resultados se muestran en la siguiente tabla:

74 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

VLVULAS VLVULAS
TOTAL
DEFECTUOSAS CORRECTAS

Distribuidor 1 16 94 100

Distribuidor 2 24 76 100

Distribuidor 3 9 81 100

Total 49 251 300

En la tabla de contingencia siguiente se proporcionan (entre parntesis) las


frecuencias esperadas bajo homogeneidad. En el anlisis de una relacin entre
2 variables, resulta ms conveniente plantearse la hiptesis de que ambas son
independientes. Para hallar los valores esperados, se emplea la teora de
probabilidades que establece: si dos acontecimientos son independientes, la
probabilidad de que ambos ocurran simultneamente es el producto de sus
probabilidades individuales de ocurrir.

La probabilidad de que una vlvula sea defectuosa y, a la vez, del distribuidor 1


FUNDACIN UNIVERSITARIA IBEROAMERICANA

ser:

(49/300)*(100/300)= 0,0544

Multiplicando por el nmero total de vlvulas, obtenemos la frecuencia


esperada para ese caso:

0,054300= 16,33

Anlogamente se hara para las dems.

VLVULAS VLVULAS
TOTAL
DEFECTUOSAS CORRECTAS

Distribuidor 1 16 (16,33) 94 (83,66) 100

Distribuidor 2 24 (16,33) 76 (83,66) 100

Distribuidor 3 9 (16,33) 81 (83,66) 100

Total 49 251 300

Sustituyendo, el estadstico del contraste ser:

(16 16,33)2 (24 16,33)2 (9 16,33)2 (94 83,66)2 (76 83,66)2 (81 83,66)2
2 = + + + + + = 8,96
16,33 16,33 16,33 83,66 83,66 83,66

ESTADSTICA PARA LA TOMA DE DECISIONES 75


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

Siendo el valor del estadstico por tablas: 2 0,05 (2)= 5,99 = (3-1)(2-1)=2
g.l.

Dado que 8,96 > 5,99 se concluye que no existe homogeneidad y, por tanto,
existen diferencias entre los tres distribuidores.

5.4.3. PRUEBA DE LA INDEPENDENCIA

En este caso se trata de probar si dos variables tienen algn grado de relacin o son
completamente independientes. Es decir, estamos interesados en ver la relacin
existente entre dos variables de una misma poblacin.

EJEMPLO

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Una muestra de 100 hortalizas se tratan con pesticida, mientras que a otra
muestra de 200 hortalizas del mismo invernadero no se les aplica ningn tipo
de tratamiento. Despus de cierto tiempo, se examinan las muestras en
bsqueda de enfermedad.

Los resultados son los siguientes:

TRATAMIENTO SANOS ENFERMOS TOTAL


Tratado 88 12 100

No tratado 143 57 200

Total 231 69 300

Se quiere someter a hiptesis si existe relacin entre el tratamiento con


pesticidad y la incidencia de la enfermedad.

Suponiendo que ambas variables sean independientes, al igual que ocurra en el


ejemplo de la prueba de homogeneidad, se tendr una proporcin esperada de
(entre parntesis):

TRATAMIENTO SANOS ENFERMOS TOTAL

Tratado 88 (77) 12 (23) 100

No tratado 143 (154) 57 (46) 200

Total 231 69 300

76 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

En la tabla de contingencia 2x2 se observa como caracterstica especial que la


diferencia entre lo observado y lo esperado es idntica a excepcin del signo.

Los grados de libertad son:

= (2-1)(2-1)=1 g.

En consecuencia, debe aplicarse la correccin de Yates:


k 2
=
2 (Oi Ei 0,5)
con (r - 1) (c - 1) g.l.
i=1 Ei

10,52 11,52 11,52 10,52


c2 = + + + = 10,43
77 23 154 46

Siendo el valor del estadstico por tablas:


20,05 (1)= 3,841 = (2-1)(2-1)=1 g.l

Dado que 10,43 > 3,841 al nivel de significacin de 0,05, se rechaza la


FUNDACIN UNIVERSITARIA IBEROAMERICANA

hiptesis de independencia y asumir que existe relacin entre el pesticida y la


incidencia de la enfermedad.

5.5. DISTRIBUCIN MUESTRAL DE MEDIAS

A partir de una poblacin, podemos extraer diferentes muestras de tamao n con sus
respectivas medias. Si cada una de estas medias se considera como una variable
aleatoria, se puede estudiar su distribucin a la que se denominar distribucin muestral
de medias.

- Si se tiene una poblacin normal N(,) y se extraen de ella muestras de


tamao n, la distribucin de medias sigue tambin una distribucin normal:

F I
N ,GH n
JK
- Si la poblacin no sigue una distribucin normal, pero n>30, se aplica el
denominado Teorema central del lmite, por el cual se asume que en estas
condiciones la distribucin muestral de medias se aproxima igualmente a una
normal.

ESTADSTICA PARA LA TOMA DE DECISIONES 77


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

EJEMPLO

Las notas de cierto examen se distribuyen segn una normal de media 5,8 y
desviacin tipo 2,4. Hallar la probabilidad de que la media de una muestra
tomada al azar de 16 estudiantes se encuentre comprendida entre 5 y 7.

La poblacin se distribuye segn N(5,8;2,4). Si n=16, la distribucin muestral


se distribuye segn N(5,8;0,6). Nos interesa encontrar el rea comprendida
entre 5 y 7 de esta distribucin, pero como slo conocemos las distribuciones
N(0,1) hay que hacer un cambio de variable:

x1 5 5,8
z1 = = = 1,33
0,6

x2 7 5,8
z2 = = =2
0,6

En consecuencia, y acudiendo a las tablas de la distribucin normal:

FUNDACIN UNIVERSITARIA IBEROAMERICANA


P(5 x 7)=P(-1,33 z 2)=0,8854

5.6. DISTRIBUCIN MUESTRAL DE PROPORCIONES

Lo ms habitual es que se plantee estimar una proporcin o porcentaje. En este caso, la

variable aleatoria toma nicamente dos valores diferentes (xito o fracaso), es decir,
sigue una distribucin binomial B (n,p), la cual se aproxima a la normal N(np,(npq)0,5)
cuando la extensin de la poblacin es grande.

Para muestras de tamao n>30, la distribucin muestral de proporciones sigue una


distribucin normal:

F pq I
GH
N p,
n JK

78 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

donde:

p= proporcin de uno de los valores que presenta la variable estadstica en la


poblacin.

q=1-p.

EJEMPLO

Una mquina fabrica piezas de precisin y en su produccin habitual tiene un


3% de piezas defectuosas. Se empaquetan en cajas de 200, cul es la
probabilidad de encontrar entre 5 y 7 piezas defectuosas en una caja?

Al ser n> 30, la distribucin muestral sigue una ley normal N(0,03; 0,01).

Sabiendo que p=5/200= 0,025 y que p=7/200= 0,035

Haciendo el cambio de variable:


FUNDACIN UNIVERSITARIA IBEROAMERICANA

p 0,025 0,03
z1 = = = 0,5
0,01

p 0,035 0,03
z2 = = = 0,5
0,01

En consecuencia, y acudiendo a las tablas de la distribucin normal:

P(5 x 7) = P(-0,5 x 0,5) = 0,383

5.7. FUNCIN DE PROBABILIDAD BINOMIAL

Una de las situaciones ms importantes para el profesional es cuando la decisin bajo


incertidumbre implica solamente dos resultados aleatorios posibles. En efecto,
supongamos que un experimento aleatorio tiene las siguientes caractersticas:

- En cada prueba del experimento slo son posibles dos resultados mutuamente
excluyentes: el suceso A (xito) y su contrarioA (fracaso).

ESTADSTICA PARA LA TOMA DE DECISIONES 79


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

- El resultado obtenido en cada prueba es independiente de los resultados


obtenidos anteriormente.

- La probabilidad del suceso A es constante, y se representa por p, y no vara de


una prueba a otra. La probabilidad deA es 1- p y se representa por q.
- El experimento consta de un nmero n de pruebas.

Todo experimento que tenga estas caractersticas diremos que sigue el modelo de la
Distribucin Binomial. A la variable X que expresa el nmero de xitos obtenidos en
cada prueba del experimento, la llamaremos variable aleatoria binomial.

La variable binomial es una variable aleatoria discreta, slo puede tomar los valores 0, 1,
2, 3, 4,..., n suponiendo que se han realizado n pruebas10. Como hay que considerar
todas las maneras posibles de obtener k-xitos y (n-k) fracasos, debemos calcular stas
por combinaciones (nmero combinatorio n sobre k).

La distribucin Binomial se suele representar por B(n,p) siendo n y p los parmetros de


dicha distribucin.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


La probabilidad de obtener k-xitos vendr dada por la funcin de probabilidad de la
variable aleatoria binomial:

p(X = k) =
FG nIJ p k
qn-k =
n!
p k qn-k
HkK k!(n - k)!

donde:


k= n de xitos 0 k n
n= n de pruebas.

p= probabilidad de xito 0 p 1

q= 1-p, y es la probabilidad de fracaso.

Existen tablas que proporcionan el clculo de las probabilidades para algunos valores de
n y p.

10. Si n=1 la funcin de probabilidad de la distribucin binomial se denomina funcin de distribucin de Bernouilli.

80 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

EJEMPLO

Una empresa recibe un envo grande de piezas de las cuales se revisan 10 para
saber su calidad. El fabricante establece que un mximo del 5% de las piezas
podrn salir defectuosas. Cul es la probabilidad de que la muestra incluya
una pieza defectuosa?

Se tiene:

p(X =k)=
FG10IJ 0,05 0,95
1 9
= 0,32
H 1K
Es decir, la probabilidad de que la muestra incluya una pieza defectuosa es del
32%.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

5.7.1. APROXIMACIN NORMAL PARA BINOMIAL

Dado que las tablas binomiales son limitadas, puede ocurrir que n est ms all de los
valores proporcionados por aqullas. En esta situacin, es necesario utilizar la
distribucin normal estndar para el clculo de las probabilidades binomiales.

Resulta necesario saber que los parmetros de la distribucin binomial son:

= np

2= npq
= (n.p.q)0.5

La aproximacin normal para la distribucin binomial se utiliza


habitualmente en procesos de control de calidad, censos,
confiabilidad, entre otras.

En el siguiente ejemplo se comparar el resultado de aplicar la ley de la distribucin


binomial con el obtenido por la ley normal, para ver el grado de aproximacin entre
ambos.

ESTADSTICA PARA LA TOMA DE DECISIONES 81


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

Una muestra de 20 artculos se toma aleatoriamente de un proceso de fabricacin con


una probabilidad de artculos defectuosos p=0,40. Cul es la probabilidad de obtener
exactamente 5 artculos defectuosos?

Si aplicamos la ley de la distribucin binomial, se tiene:

p(X = k) =
FG 20IJ 0,40 5
0,615 = 0,075
H 5K
Es decir, la probabilidad de obtener exactamente 5 artculos defectuosos es del 7,5%.

Si aplicamos la ley normal, se tiene:

= np= 200,4=8

2= npq= 200,40,6=4,8; por lo que =2,19

Hemos de tener en cuenta que la binomial es discreta, mientras que la normal es

FUNDACIN UNIVERSITARIA IBEROAMERICANA


continua, por tanto, debe introducirse una correccin de continuidad en el clculo de
0,5 agregado o restado de la variable x:

Tipificando:

(xi 0,5) 4,5 8


z1 = = = 1,60
2,19

xi + 0,5) 5,5 8
z2 = = = 1,14


2,19

Consultando las tablas de la ley normal, se tiene que entre el 0 y z1 el rea es de


0,4452 mientras que z2 deja un rea de 0,3729 a su izquierda. La probabilidad que nos
interesa ser la diferencia entre ambas reas:

P(5 de 20)= 0,4452 - 0,3729= 7,2%.

82 ESTADSTICA PARA LA TOMA DE DECISIONES


MODELAMIENTO ESTADSTICO DE LAS VARIABLES

Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA

ESTADSTICA PARA LA TOMA DE DECISIONES 83


MODELAMIENTO EST AD ST IC O D E L AS VAR IABL ES

FUNDACIN UNIVERSITARIA IBEROAMERICANA


84 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA INFERENCIAL

Captulo 6

ESTADSTICA
INFERENCIAL
FUNDACIN UNIVERSITARIA IBEROAMERICANA

6.1. INTRODUCCIN

La estadstica inferencial o deductiva realiza inferencias o saca conclusiones sobre las


poblaciones a travs de muestras que han sido extradas de ellas, mientras que la
estadst ica descript iva describe las caractersticas de una serie de dat os

correspondientes a una poblacin o muestra.

Las pruebas de significancia estadstica nos permitirn conocer, por ejemplo, si las
diferencias encontradas entre dos muestras son reales, es decir, estn tambin
presentes en la poblacin o bien podran ser el resultado de un error de la muestra
aleatoria. Naturalmente, todo ello bajo una cierta incertidumbre probabilstica.

La base de la inferencia estadstica es el razonamiento inductivo, es decir, el


conocimiento del todo a partir de una parte y se basa principalmente en la prueba de
hiptesis en una poblacin determinada.

Las inferencias en estadstica son de dos clases:

- La valoracin o estimacin. Se determina un valor desconocido de alguna


caracterstica de la poblacin, bajo posibilidad de error debido al muestreo. En
este caso, el clculo del error estndar dar idea de la exactitud de la
estimacin.

ESTADSTICA PARA LA TOMA DE DECISIONES 85


ESTADSTICA INFERENCIAL

- El contraste o prueba de hiptesis. Se define una hiptesis como un sistema de


valores posibles para la poblacin y una alternativa, para valores diferentes.

6.2. LA VALORACIN O ESTIMACIN

6.2.1. DEFINICIN

Se define como estimador una estadstica de muestra utilizada para obtener informacin
sobre un parmetro de la poblacin. Por ejemplo, la media muestral X es un estimador
de la media poblacional .

El resultado de un estimador se puede expresar referido a un punto o a un rango de


valores (intervalo de confianza). En el primer caso, siempre deber calcularse el margen
de error asociado a la estimacin de ese punto.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


6.2.2. CUALIDADES DE UN BUEN ESTIMADOR

Las cualidades que debe reunir un buen estimador son las siguientes:

- Imparcialidad. Se refiere al hecho de que el estadstico de muestra es un


estimador no sesgado del mismo parmetro relacionado de la poblacin. Una
estimacin es imparcial en referencia a un parmetro cuando el valor esperado
del estimador puede ser expresado como igual al parmetro que ha sido


estimado.
- Eficiencia. La estimacin ms eficiente es aquella que tiene el error o desviacin
estndar ms pequeo de entre todos los estimadores imparciales. Por ejemplo,
supongamos que ante una muestra tenemos que decidir si utilizamos o no la
media de la muestra para estimar la media de la poblacin. Si calculamos el
error estndar de la media observamos que es igual a 1,05; si calculamos el
error estndar de la mediana, vemos que es igual a 1,6. En este caso, diramos
que la media de la muestra es un estimador ms eficiente de la media de la
poblacin que la mediana, ya que su error estndar es menor (con menos
variacin).
- Coherencia. Un estimador es coherente si al aumentar el tamao de la muestra,
se produce una estimacin con un error estndar ms pequeo. Un estimador
coherente se vuelve ms confiable si se tiene tamaos de muestra ms
grandes.
- Suficiencia. Un estimador suficiente extrae una cantidad de informacin de la
muestra que no la aporta cualquier otro estadstico sobre el parmetro de la
poblacin que se est estimando.

86 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA INFERENCIAL

6.2.3. ALEATORIEDAD DE LA MUESTRA

La condicin de aleatoriedad de la muestra es fundamental para asegurarse que es


verdaderamente representativa de la poblacin. Con este fin, se realiza la denominada
Prueba de Corridas1 (Wald-Wolfowitz). Dicha prueba est diseada para probar la
aleatoriedad de una muestra con una confianza de 100 (1-)%.

Por ejemplo, imaginemos una cadena de produccin de fichas blancas (B) y verdes (V).
Se considera la siguiente secuencia de produccin: BBBVVBVBVBBB. El nmero de
corridas ser R=7, n1= 8 (n de fichas blancas) y n2= 4 (n de fichas verdes).

El procedimiento es el siguiente:

1. Calcular la media de la muestra.

2. Pasando por la secuencia de la muestra, sustituir cualquier observacin con +


- dependiendo si est por debajo o por arriba de la media. Debe eliminarse
cualquier comportamiento cclico que se observe.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

3. Calcular R, n1, y n2.


4. Calcular la media y la varianza esperada de R, segn:

2 n1 n2
R = +1
n1 + n2

2 n1 n2 (2 n1 n2 n1 n2)
R =
(n1 + n2)2 (n1 + n2 1)

5. Calcular:
R R
z =
R

6. Conclusiones.

En los siguientes casos, la muestra no ser aleatoria:

Si z> Z, el comportamiento es cclico y con estacionalidad.


Si z< -Z, existe una pendiente o tendencia que indica que la muestra no es
aleatoria.

Si z<-Z/2 z>Z/2 se rechaza la aleatoriedad.

1. Una corrida es una sub-secuencia mxima de elementos semejantes.

ESTADSTICA PARA LA TOMA DE DECISIONES 87


ESTADSTICA INFERENCIAL

6.2.4. ESTIMACIN DEL TAMAO DE LA MUESTRA

La determinacin del tamao de la muestra es una cuestin primordial, ya que una


buena eleccin permitir ahorrar recursos en el caso de que tomsemos muestras ms
grandes de lo necesario, o bien evitaremos sacar conclusiones poco fiables debido a su
precariedad.

Cuanto mayor sea la muestra, ms alta ser la confianza asociada. No obstante,


muestras ms grandes tambin requieren un mayor esfuerzo en tiempo y recursos.

El objetivo es encontrar el tamao de muestra ms pequeo


que proporcione la confianza deseable.

As pues, el tamao de la muestra depende del nivel de confianza que se desee para los
resultados y de la amplitud del intervalo de confianza, es decir, del error mximo que se
est dispuesto a admitir, tal y como se ver a continuacin.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Una vez fijados el mximo error admisible E y el nivel de confianza (1-), se puede
calcular el tamao mnimo de la muestra que se emplear:

FG
n = z /2
IJ 2

H EK

Si se estiman proporciones:


E = z / 2
pq z
n = /2
FG IJ 2

p q
n E H K

EJEMPLO

La desviacin tpica de la altura de los habitantes de un pas es de 8 cm.


Calcular el tamao mnimo que debe tener una muestra de habitantes de dicho
pas para que el error cometido al estimar la altura media sea inferior a 1 cm
con un nivel de confianza del 90%.

Para 1-= 0,90, se tiene que /2= 0,05

88 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA INFERENCIAL

Consultando las tablas de distribucin normal: z /2 = 1,645 y si E=1,


sustituyendo:

F
n = Gz
I F
2
8I
J = G1,645 J
2

= 173
H /2
EK H 1K

6.2.5. TIPOS DE ESTIMACIN

Dentro de las estimaciones concernientes a una poblacin, se pueden hacer


estimaciones puntuales y estimaciones por intervalo.

6.2.5.1. Estimaciones puntuales


FUNDACIN UNIVERSITARIA IBEROAMERICANA

Se trata de un nmero que se emplea para estimar un parmetro de la poblacin


desconocido. Por ejemplo, un encuestador estara haciendo una estimacin puntual si
afirmara: aquella mujer debe tener unos treinta aos o en este bloque de pisos deben
vivir unos sesenta vecinos.

El inconveniente de este tipo de estimaciones es que proporcionan poca informacin,


por ejemplo, si la mujer a la que se refera el encuestador tena en realidad treinta dos
aos, podramos aceptar los treinta como una buena estimacin, pero si la edad
verdadera era de cuarenta, podramos rechazar la estimacin por poco confiable. En

definitiva, una estimacin puntual es mucho ms til si va acompaada por una


estimacin del error implicado.

6.2.5.2. Estimacin por intervalo

Si el encuestador se refiere a la mujer como debe tener entre 30 y 35 aos de edad,


tiene una mejor confiabilidad de su estimacin que la puntual y es muy probable que la
verdadera edad caiga dentro de este intervalo, pero tambin puede estar equivocado.

En la estimacin por intervalo se calculan dos valores entre los que se encontrar el
parmetro, con un nivel de confianza fijado de antemano. De esta manera, se obtiene
un intervalo de confianza.

ESTADSTICA PARA LA TOMA DE DECISIONES 89


ESTADSTICA INFERENCIAL

El nivel de confianza es la probabilidad de que el intervalo calculado contenga el


verdadero valor del parmetro. Se indica por (1-) y normalmente se expresa en
porcentaje (1-)100%.

Si se repitiese el proceso con muchas muestras, se podra afirmar que el (1-


) % de los intervalos construidos contendra el verdadero valor del
parmetro, y a lo mximo e l % no.

6.2.5.2.1. Estimacin por intervalos de confianza para la media

Por ejemplo, imaginemos que desconocemos la media poblacional de una cierta variable
que se desea estudiar. Se trata de sacar una muestra y obtener un intervalo (L1, L2) de
tal manera que se tenga una probabilidad (1-)% de que la media poblacional est en
ese intervalo.

El nivel de confianza del intervalo se fija de antemano. Se suele trabajar con 95%, 90%

FUNDACIN UNIVERSITARIA IBEROAMERICANA


e incluso 99%, o lo que es lo mismo, con probabilidades 0,05; 0,1 0,01.

Si se cumple una de las siguientes hiptesis:

- El tamao de la muestra es superior a 30 y la variable sigue un modelo normal.

- El tamao de la muestra es mayor de 100.

El intervalo de confianza para la media poblacional viene dado por:


LM x z s
,x + z
s OP
N n n Q
donde:

z= valor que en la distribucin N(0,1) deja a su derecha un rea /2.


X = media de la muestra.

s= desviacin tpica.

n= tamao de la muestra.

90 ESTADSTICA PARA LA TOMA DE DECISIONES


ESTADSTICA INFERENCIAL

6.2.5.2.2. Estimacin por intervalos de confianza para la proporcin de la


poblacin

Supongamos ahora el caso que queramos encontrar un intervalo (L1,L2), de forma que
tengamos una probabilidad alta (1-)% de que una proporcin de elementos p
desconocida en la poblacin y pertenecientes a una categora C se encuentren en dicho
intervalo.

En ese caso, si se cumple una de las siguientes hiptesis:

^
np > 5
FG IJ ^

H K
n 1 p > 5

Se obtienen los siguientes intervalos segn el tamao de la muestra:

30<n 100
FUNDACIN UNIVERSITARIA IBEROAMERICANA

LM p
^
z
1 ^
,p+ z
1 OP
N 4n 4n Q
n>100
LM
^
^
p(1 p) ^
^ ^
p(1 p)
^ OP
MMp z n
, p+ z
n PP
N Q
donde:

^ n de element os de la muestra que pertenecen a C


p =
tamao de la m uestra

z= valor que en la distribucin N(0,1) deja a su derecha un rea /2.


n= tamao de la muestra.

EJEMPLO

La empresa de perfumes Colonias S.A. desea realizar un estudio de mercado


sobre uno de sus productos destinado a la mujer. Para ello, contrata a una
empresa de investigacin que realiza un muestreo sobre 200 mujeres en una
extensa comunidad. Dicha empresa constata que una proporcin muestral de
0,40 prefiere el perfume fabricado por Colonias S.A sobre todas las dems
marcas. Qu conclusiones se pueden sacar para toda la comunidad si se
quiere un intervalo de confianza del 95%?

ESTADSTICA PARA LA TOMA DE DECISIONES 91


ESTADSTICA INFERENCIAL

Lo primero que se debe hacer es ver si cumple alguna de las hiptesis:


^
n p > 5 en nuestro caso 200 * 0,4 = 80 > 5
^
p = 0,4
n = 200

Para encontrar el valor de z, hemos de hallar el valor que en la distribucin


N(0,1) deja a su derecha un rea de /2. Sabemos que el intervalo de confianza
es del 95%, por tanto, el valor del rea de ambas colas ser de =0,05, lo que
implica /2= 0,025.

Dado que las tablas con las que estamos trabajando nos proporcionan el valor
del rea entre el 0 y zi, hacemos:

0,5-0,025=0,475

Este es el valor del rea comprendida entre el 0 y zi. Para hallar zi buscamos en
las tablas dicho valor, y encontramos una zi= 1,96.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Como la muestra es superior a 100, se tiene:

LM0,40 1,96 0,4 0,6; 0,4 + 1,96 0,4 0,6 OP = 0,36; 0,46
N 200 200 Q

En consecuencia, con una confianza del 95%, se puede decir que la proporcin
de todas las mujeres de la comunidad que usan el perfume de Colonias S.A es
de un 36% a un 46%.

6.3. CONTRASTE O PRUEBA DE HIPTESIS

6.3.1. INTRODUCCIN

En estadstica, una afirmacin respecto a alguna caracterstica de la poblacin se


denomina hiptesis.

Cuando contrastamos una hiptesis, estamos comparando las predicciones con la


realidad observada. Si dentro del margen de error que se puede admitir, existe
coincidencia, se aceptar la hiptesis y, en caso contrario, se rechazar.

92 ESTADSTICA P ARA LA TOMA DE DECISIONES


ESTADSTICA INFERENCIAL

Por ejemplo, tal y como se ha mencionado con anterioridad, una media muestral diferir
en valor de la media poblacional. Si el valor observado del estadstico se acerca al valor
del parmetro poblacional y solamente difiere en una cantidad que cabra esperar del
muestreo aleatorio, el valor hipottico no se rechaza. Si por el contrario, la estadstica
muestral difiere en un monto que no es posible atribuir al azar, la hiptesis se rechaza
por no verosmil.

La hiptesis emitida se designa por Ho y se denomina Hiptesis nula, ya que parte del
supuesto que las diferencias entre el valor verdadero del parmetro y el estimado son
debidas al azar, por tanto, no existe diferencia. Este sera el caso, por ejemplo, de
decidir si un procedimiento es mejor que otro. En esta situacin, se formulara la
hiptesis nula de que no hay diferencia entre ellos (es decir, cualquier diferencia
observada se debera simplemente a fluctuaciones en el muestreo de la misma
poblacin).

La hiptesis nula es aquella que nos dice que no existen


FUNDACIN UNIVERSITARIA IBEROAMERICANA

diferencias significativas entre los grupos.

La hiptesis contraria se designa por H1 y se denomina Hiptesis alternativa.

El contraste de hiptesis puede realizarse de manera unilateral (en trminos de mayor o


menor) o bien de forma bilateral (en trminos de igual y distinto). En el primer caso,
consideraramos una sola cola, mientras que el contraste bilateral abarcara ambas:

Si la hiptesis alternativa est en la forma mayor que, z es el valor que deja un p-

valor en la cola derecha de la distribucin.

Si la hiptesis alternativa est en la forma menor que, z es el valor que deja un p-


valor en la cola izquierda de la distribucin.

Si la hiptesis alternativa est en la forma no igual a, entonces existen dos


valores de z, uno positivo y otro negativo. El z positivo es el valor que deja un p-
valor de /2 a la derecha de la distribucin, mientras que el z negativo deja un p-
valor de /2 a la izquierda de la distribucin.

El objetivo es sacar conclusiones sobre el valor de un parmetro desconocido


de la poblacin, a partir de una muestra aleatoria y significativa, que permita
aceptar o no una hiptesis previamente emitida.

ESTADSTICA PARA LA TOMA DE DECISIONES 93


ESTADSTICA INFERENCIAL

6.3.2. PASOS A SEGUIR PARA LA PRUEBA DE HIPTESIS

Los pasos a seguir para la prueba de hiptesis son:

1. Enunciar la hiptesis. Aqu debe formularse la hiptesis nula y la hiptesis


alternativa.

2. Elegir un nivel de significacin y construir la zona de aceptacin. El nivel de


significacin es el estadstico que se especifica para rechazar la hiptesis nula.
Los niveles de significacin de uso ms frecuente son los de 5% y 1%. Por
ejemplo, un nivel de significacin del 5% quiere decir que existe una
probabilidad de 0,05 de rechazar la hiptesis nula, aun siendo efectivamente
cierta.

La zona de aceptacin es el intervalo fuera del cual solamente se encuentran el


100% de los casos ms raros.
3. Seleccionar el estadstico de prueba. Puede ser un estadstico muestral o una
versin estndar. Por ejemplo, el valor de la media muestral puede convertirse
en un valor z si la distribucin de muestreo de la media es normal.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


4. Establecer el valor o valores crticos del estadstico de prueba. Si la prueba es
unilateral, se tendr un valor crtico, mientras que si es bilateral, el nmero de
valores crticos ser de dos.
5. Determinar el valor del estadstico de prueba. Se recolecta una muestra
aleatoria y se determina el valor de la media muestral o un valor z estndar, por
ejemplo.
6. Toma de decisin. Si el valor calculado en la muestra cae dentro de la zona de
decisin, se acepta la hiptesis, en caso contrario, se rechaza.


6.3.3. ERRORES EN EL CONTRASTE DE HIPTESIS

El contraste de hiptesis no afirma categricamente la verdad de la hiptesis, sino que


es un criterio para decidir si sta se acepta o rechaza o si las diferencias entre las
muestras observadas y los resultados esperados son significativas.

De aqu que si rechazamos una hiptesis cuando debiera ser aceptada, se est
cometiendo un error de tipo I, mientras que si se acepta cuando en realidad debera ser
rechazada, se est cometiendo un error de tipo II (tabla 6.1).

La probabilidad de cometer un error de tipo I es el nivel de significacin , mientras que


la probabilidad de cometer un error de tipo II depender del verdadero valor de y del
tamao de la muestra.

94 ESTADSTICA P ARA LA TOMA DE DECISIONES


ESTADSTICA INFERENCIAL

H0 VERDADERA H0 FALSA

Decisin incorrecta
Mantener H0 Decisin correcta
Error de tipo II

Decisin incorrecta
Rechazar H0 Decisin correcta
Error de tipo I

Tabla 6.1. Errores en el contraste de hiptesis.

6.3.4. CONTRASTE DE HIPTESIS PARA LA MEDIA

La distribucin normal de probabilidad puede emplearse para probar un valor hipottico


de la media de la poblacin si se cumple una de las siguientes hiptesis:

n >30 y la variable sigue un modelo normal.


n >100.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

6.3.4.1. Contraste bilateral

H 0: = 0
H1: 0

donde o es un valor conocido.

6.3.4.1.1. Caso 1: se conoce la desviacin estndar de la poblacin

Si se supone que la distribucin en el muestreo de la media sigue la ley normal, el valor


de z se encontrara:

x 0
Z=

n

En funcin del nivel de significacin establecido, se podra encontrar el valor crtico de


z. En efecto, si se escoge un nivel de significacin del 5%, se tiene que en cada cola se
tendr un rea o p-valor de 0,025, ya que se estn considerando ambas colas al ser el
contrate bilateral. En consecuencia, el rea entre la media hipottica y el valor crtico
sera de 0,5-0,025=0,475.

ESTADSTICA PARA LA TOMA DE DECISIONES 95


ESTADSTICA INFERENCIAL

Acudiendo a las tablas, se observa que los valores crticos que dividen las regiones de
rechazo y no rechazo son +1,96 y -1,96.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Figura 6.1: Valores crticos y reas de rechazo y no rechazo de la Hiptesis nula.

En consecuencia, la regla para la decisin sera:

si Z> 1,96: se rechaza la hiptesis nula; o bien,


si Z< 1,96: no se rechazara la hiptesis nula.


EJEMPLO

En una empresa de fabricacin de roscas se sabe que la desviacin tipo en un


determinado modelo es de 2,4. Para una muestra de 36 roscas de este modelo
se obtiene un dimetro medio de 5,6 mm. Se puede confirmar la hiptesis de
que el dimetro medio de las roscas es 6 con un nivel de significacin 0,05?

Se cumple n>30, por lo que se puede emplear la distribucin normal para


probar el valor hipottico.

Se trata de un contraste bilateral, ya que nos interesa una posible desviacin en


cualquier direccin respecto del valor hipottico de la media.

H 0: = 6
H1: 6

96 ESTADSTICA P ARA LA TOMA DE DECISIONES


ESTADSTICA INFERENCIAL

Si Ho es cierta, las medias muestrales se distribuyen segn N(6; 0,4).


Para = 0,05 se tiene que /2= 0,025 y por tablas /2= 1,96.

Sustituyendo, se tiene:

X 0
Z= = 1

n

Dado que:

/Z/<1,96 en cada una de las colas, no se rechaza la hiptesis nula y se


admite que el dimetro medio de las roscas es 6 mm con una probabilidad
de error del 5%.

Otra manera de hacerlo sera elaborando un intervalo de confianza (zona de


aceptacin) para la media de la poblacin en base a los resultados muestrales,
tras lo cual se observara si el valor hipottico de la media poblacional est
incluido en el intervalo de confianza. Si dicho valor est incluido en el intervalo,
FUNDACIN UNIVERSITARIA IBEROAMERICANA

la hiptesis nula no puede ser rechazada (figura 6.2).

Figura 6.2: Representacin de la zona de aceptacin de la Ho para un contraste de hiptesis bilateral.

Dicho intervalo vendr dado por la ecuacin:

LM Z /2

, 0 + Z /2
OP
N 0
n nQ

Sustituyendo, nos dara el intervalo de confianza:

6 1,96 0,4 ; 6 + 1,96 0,4 = 5,22 ; 6,78

ESTADSTICA PARA LA TOMA DE DECISIONES 97


ESTADSTICA INFERENCIAL

Dado que 5,6 se encuentra dentro del intervalo, se puede aceptar igualmente la
hiptesis nula de que el dimetro de las roscas sea 6 con una probabilidad de
error del 5%.

6.3.4.1.2. Caso 2: no se conoce la desviacin estndar de la poblacin

A partir de la muestra se calcula un valor experimental Vexp:

X 0
Vexp =
s
n

Y el valor terico (V z), que es el valor que en la distribucin N(0,1) deja a su derecha
un rea /2 para un nivel de significacin .

FUNDACIN UNIVERSITARIA IBEROAMERICANA


La regla de decisin, una vez fijado el nivel de significacin es la siguiente:

- Si Vexp > V se acepta la hiptesis alternativa.

- Si Vexp V se acepta la hiptesis nula.

6.3.4.2. Contraste unilateral

H0: 0


H1: > 0

donde o es un valor conocido.

6.3.4.2.1. Caso 1: se conoce la desviacin estndar de la poblacin

En este caso, aplicando el mtodo de intervalos de confianza para pruebas de hiptesis


referentes a la media, se aceptara la H0 cuando:

X LM, + z
OP
N 0
nQ

98 ESTADSTICA P ARA LA TOMA DE DECISIONES


ESTADSTICA INFERENCIAL

Y se rechazara cuando:

X LM , + z
OP
N 0
nQ

En la figura 6.3 se ilustra la representacin de la zona de aceptacin H0 para un


contraste de hiptesis unilateral.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 6.3: Representacin de la zona de aceptacin de la H0 para un contraste de hiptesis unilateral.

EJEMPLO

Una empresa fabrica perfiles de aluminio de 170 cm como mximo, con una
desviacin tipo de 8 cm. En una muestra de 100 perfiles se observa una
longitud de 172 cm. Se puede aceptar la hiptesis con un nivel de significacin

del 5%?

H0: 170
H1: > 170

Las medias muestrales se distribuyen segn N(170;0,8).


Para = 0,05 las tablas proporcionan un valor de z= 1,645

La zona de aceptacin ser:

LM, + z
OP = ; 170+1,645 0,8 = ; 171,32
N 0
nQ

ESTADSTICA PARA LA TOMA DE DECISIONES 99


ESTADSTICA INFERENCIAL

Como quiera que:

172 -; 171,32

Se rechaza la hiptesis nula de que los perfiles de aluminio midan como mucho
170 cm.

6.3.4.2.2. Caso 2: no se conoce la desviacin estndar de la poblacin

No obstante, en la mayora de los casos se desconoce la desviacin estndar de la


poblacin. En este caso, la distribucin t-student es la referencia adecuada para la
determinacin de la estadstica de prueba estandarizada cuando la distribucin de
muestreo de la media tiene una distribucin normal pero es desconocida.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


El procedimiento a seguir es idntico al seguido para la distribucin normal,
sustituyendo la z por la t como estadstico de prueba.

X 0
t=
SX

donde:

s
SX =

EJEMPLO

Una empresa productora de lmparas quiere demostrar que la vida til de los
focos de la marca que fabrica es de 4200 horas, frente a la alternativa que
plantea la competencia de que su duracin es menor. Para ello, se sac una
muestra aleatoria de 10 lmparas cuyo ciclo medio de vida til era de 4000
horas con una desviacin estndar de s= 200 horas. Se supone que, en
general, el ciclo de vida til de los focos sigue una distribucin normal. El nivel
de significancia es del 5%.

100 ESTADSTICA P ARA LA TOMA DE DECISIONES


ESTADSTICA INFERENCIAL

Dado que la muestra es pequea n<30 y desconocemos la varianza


poblacional, se requiere aplicar la distribucin t-student.

H 0 : = 4200
H1: < 4200

Consultando las tablas para la t-student, se tiene que para =0,05 y n-1
grados de libertad, un valor de t crtico de -1,833.

s 200
SX = = = 63,3h
n 10

X 0 4000 4200
t= = = 3,16
SX 63,3

Dado que -3,16 se halla en la regin de rechazo de la cola izquierda (a la


izquierda del valor crtico), se rechaza la hiptesis nula y se acepta que el ciclo
medio de vida til real de las lmparas es menor de 4200 h.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

6.3.5. CONTRASTE DE HIPTESIS PARA PROPORCIONES

La prueba de hiptesis puede utilizarse para probar hiptesis en relacin a datos


cualitativos, es decir, para llegar a conclusiones en referencia a la proporcin de los

valores que tienen una caracterstica particular.

6.3.5.1. Contraste bilateral

H 0: p = p 0
H1 : p p 0

Se busca un z/2 tal que:

b
P -z/2 z z/2 = 1 g
La zona de aceptacin se ilustra en la figura 6.4 y ser el intervalo:

LM p - Z
p q
, p + Z /2
p q OP
N /2
n n Q

ESTADSTICA PARA LA TOMA DE DECISIONES 101


ESTADSTICA INFERENCIAL

Figura 6.4: Representacin de la zona de aceptacin de la Ho para un contraste de hiptesis bilateral.

La hiptesis nula H0 se aceptar cuando:

LM
p p - Z /2
p q
, p + Z /2
p q OP
N n n Q
Y se rechazar cuando:

FUNDACIN UNIVERSITARIA IBEROAMERICANA


LM
p p - Z /2
p q
, p + Z /2
p q OP
N n n Q

EJEMPLO

Se quiere determinar si la proporcin de personas que toman un medicamento


para el dolor de cabeza y que obtienen alivio es del 90%, tal y como afirma la


publicidad. Se tiene una muestra aleatoria de 100 individuos, de los cuales, 88
obtuvieron alivio al tomar el medicamento. Sera aconsejable en este caso
tomar niveles de significancia bajos, por ejemplo del 5%.

H 0 : p = 0 ,9
H 1 : p 0 ,9

con un nivel de significancia dado =0,05.


Para =0,05 se tiene que /2= 0,025 y, por tanto, z/2= 1,96
Dado que q=1-p= 0,1

Sustituyendo:

LMp - Z
p q
, p + Z /2
p q OP = 0 , 84 ; 0,95
N /2
n n Q

102 ESTADSTICA P ARA LA TOMA DE DECISIONES


ESTADSTICA INFERENCIAL

Dado que 0,88 est contemplado en el intervalo, no se rechazara la hiptesis


nula.

6.3.5.2. Contraste unilateral


H0 : p p 0
H1: p < p0

Se busca un z tal que:

b
P z z = 1 g
La zona de aceptacin se ilustra en la figura 6.5 y ser el intervalo:

LMp - Z pq
, +
OP
FUNDACIN UNIVERSITARIA IBEROAMERICANA


N
n Q

Figura 6.5: Representacin de la zona de aceptacin de la Ho para un contraste de hiptesis unilateral.

La hiptesis nula H0 se aceptar cuando:

LM
p p - Z
pq
, +
OP
N n Q
Y se rechazar cuando:

LM
p p - Z
pq
, +
OP
MN n PQ

ESTADSTICA PARA LA TOMA DE DECISIONES 103


ESTADSTICA INFERENCIAL

EJEMPLO

Una mquina fabrica piezas de precisin garantizando que la proporcin de


piezas correctas es de al menos del 97%. Un cliente recibe un lote de 200
piezas y aparecen 8 piezas defectuosas; a un nivel de confianza del 95%
rechazar el lote por no cumplir las condiciones de garanta?

H 0 : p 0,97
H 1 : p < 0,97

La distribucin muestral si H0 es cierta es N(0,97; 0,01).


Para = 0,05 se tiene que z= 1,645

Sustituyendo:

LMp - Z
pq OP
, + = 0,95; +
N
n Q

FUNDACIN UNIVERSITARIA IBEROAMERICANA


La proporcin de piezas correctas en la muestra es p=192/200= 0,96. Como
quiera que se cumple:

0,96 0,95; +
Se acepta la hiptesis nula y, en consecuencia, el lote.

104 ESTADSTICA P ARA LA TOMA DE DECISIONES


ESTADSTICA INFERENCIAL

Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA

ESTADSTICA PARA LA TOMA DE DECISIONES 105


ESTADSTICA INFERENCIAL

FUNDACIN UNIVERSITARIA IBEROAMERICANA


106 ESTADSTICA P ARA LA TOMA DE DECISIONES


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

Captulo 7

IG U A L D A D E S T A D S T I C A
E N T RE D O S O M S
POBLACIONES
FUNDACIN UNIVERSITARIA IBEROAMERICANA

7.1. INTRODUCCIN

Es sabido que dos variables aleatorias X e Y son equivalentes si y slo si se cumple que

tienen la misma funcin de distribucin:

Fx ( z ) = Fy (z )

En funcin de los usos, existen diferentes pruebas a realizar para probar la igualdad
estadstica de poblaciones. Las principales y que trataremos aqu son:

- Igualdad de dos poblaciones normales. Aplicando la prueba z (t-student) y la


prueba F-Snedecor para probar la igualdad de medias y de varianzas,
respectivamente.
- Anlisis de la varianza. Aunque puede emplearse con dos poblaciones, la
ANOVA est diseada para la prueba de igualdad de medias de tres o ms
poblaciones.

- Igualdad de proporciones en varias poblaciones. Aqu tienen usos interesantes


las aplicaciones de chi-cuadrado.

ESTADSTICA PARA LA TOMA DE DECISIONES 107


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

7.2. COMPARACIN DE DOS MEDIAS


POBLACIONALES

Se trata de comparar la media de dos poblaciones diferentes, planteando la hiptesis


nula de que no existen diferencias significativas entre ambas.

Las pruebas referentes a la diferencia entre medias pueden ser bilaterales o unilaterales.

7.2.1. DIFERENCIA ENTRE MEDIAS EMPLEANDO LA DISTRIBUCIN NORMAL

El procedimiento que se sigue es parecido al observado en la prueba de una hiptesis


referente al valor de una media poblacional. La nica diferencia radica en que la
desviacin tipo estndar de la diferencia de las medias es el estadstico que se emplea
para determinar el valor z (o t) asociado con el resultado muestral.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Si se conoce la varianza 1 y 2 de ambas poblaciones, la frmula general para
determinar el valor de z y probar as la hiptesis nula es:

(X1 X2) (1 2)0


Z=
Ox1 x2

Si no se conoce la varianza 1 y 2 de las poblaciones, se utiliza:

(X1 X2) (1 2)0


Z=
Sx1 x2

No obstante, si queremos probar la hiptesis nula, lo ms usual es suponer que las dos
muestras se han obtenido de poblaciones con igual media, por lo que se tiene:

(1 2 )0 = 0

Simplificando:

(X1 X2 )
Z=
Ox1 x2

(X1 X2 )
Z =
Sx1 x2

108 ESTADSTICA P ARA LA TOMA DE DECISIONES


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

donde:

2 2
2 2 S1 S
S x1 S x2 = S x1 + S x2 = + 2
n1 n2

Supongamos ahora que no slo se supone que las medias muestrales se obtuvieron de
poblaciones con medias iguales, sino que, en realidad, tambin se obtuvieron de la
misma poblacin, entonces 1= 2= .

De esta manera, el valor estimado combinado de la varianza de la poblacin 2 es:

2 2
(n1 1 ) S 1 + (n 2 1 ) S 2
s$2 =
n1 + n 2 2

Y la desviacin tipo estimada de la diferencia de medias basada en el supuesto que las


varianzas de las poblaciones son iguales es:
FUNDACIN UNIVERSITARIA IBEROAMERICANA

$2 $2
s$x1 x2 = +
n1 n2

EJEMPLO

Una muestra de 30 empleados de una empresa perciben por termino medio un


salario de 280 euros semanales con una desviacin estndar de la muestra de
14 euros. En la empresa de la competencia, una muestra al azar de 40

empleados dio como resultado un salario medio de 270 euros con una
desviacin estndar de 10 euros. No se supone que las desviaciones estndar
de las dos poblaciones de montos sean iguales.

Se quiere observar si con un nivel de significacin del 5% existe o no diferencia


entre los salarios medios semanales de ambas empresas.

Planteamos la hiptesis nula de que no existen diferencias salariales:

H 0 :( 1 2 ) = 0
H 1: ( 1 2 ) 0

ESTADSTICA PARA LA TOMA DE DECISIONES 109


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

Aplicando la frmula:

2 2
2 2 S1 S 142 102
Sx1 Sx2 = Sx1 + Sx2 = + 2 = + = 3,0
n1 n2 30 40

X1 X2 280 270
Z= = = 3,33
Sx1 Sx2 3

Por tablas, sabemos que:

/ Z =0,05 / = 1,96

La z calculada de 3,33 se encuentra en la regin de rechazo del modelo de


prueba de hiptesis. En consecuencia, la hiptesis nula se rechaza, y la
hiptesis alternativa de que el salario semanal promedio de las dos empresas es
diferente, se acepta.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Figura 7.1: Regin de aceptacin y rechazo de la hiptesis nula.

110 ESTADSTICA P ARA LA TOMA DE DECISIONES


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

7.2.2. DIFERENCIA ENTRE MEDIAS EMPLEANDO LA T-STUDENT

Las hiptesis que deben satisfacerse para poder aplicar la t-student con el fin de
comparar las medias de dos grupos son:

- La variable estudiada debe seguir una distribucin normal.


- La dispersin en los dos grupos a comparar debe ser homognea (hiptesis de
homocedasticidad o de igualdad de varianzas).

No es obligatorio que los tamaos de los grupos sean iguales, ni tampoco resulta
necesario conocer la dispersin de los dos grupos.

EJEMPLO

En una muestra aleatoria de 10 focos el ciclo medio de vida es de 4000 horas


con una desviacin tipo de 200 horas. Para otra marca de focos, cuya vida til
FUNDACIN UNIVERSITARIA IBEROAMERICANA

tambin se presume que sigue una distribucin normal, una muestra aleatoria
de 8 focos tiene una duracin media de 4300 horas y una desviacin estndar
de 250. Se prueba la hiptesis de que no existe ninguna diferencia entre el
ciclo medio de vida til de las dos marcas de focos con un nivel de significancia
del 1%. Se supone que se cumple la hiptesis de homocedasticidad.

Planteamos la hiptesis nula de que no existen diferencias en el ciclo medio de


vida til:

H 0 :( 1 2 ) = 0

H1:( 1 2 ) 0

Aplicando las frmulas:

2 2
(n1 1) S1 + (n2 1) S2 (9) 2002 + (7) 2502
s$2 = = = 49843,75
n1 + n2 2 10 + 8 2

) )
s2 s2 4 9 8 4 3 ,7 5 4 9 8 4 3 ,7 5
s$x1 x2 = + = + = 1 0 5 ,9
n1 n2 10 8

X X2 4000 4300
t = )1 = = 2,833
x1 x2 105,9

Dado que en las tablas se tiene que la t crtica con = n1+n2-2= 16 g.l y
=0.01 es de 2,921 en valor absoluto, y que el valor -2,833, por tanto, se

ESTADSTICA PARA LA TOMA DE DECISIONES 111


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

halla en la zona de aceptacin de la hiptesis nula, se concluye que la hiptesis


nula no puede rechazarse al nivel de significancia del 1%.

A menudo la aplicacin de la t-student se realiza sin excesivo cuidado, es decir,


sin comprobar las condiciones de aplicacin. En este contexto, antes de realizar
la prueba, siempre deben ratificarse previamente la normalidad (prueba de
Kolgomorov) y homogeneidad de las varianzas (prueba F-Snedecor, Levene...).

En el caso de que no se cumpla la condicin de normalidad, se suele intentar


alguna transformacin que normalice los datos, siendo la de logaritmo
neperiano la ms comn. En la prctica, ocurre que la transformacin que
normaliza los datos tambin consigue la igualdad de varianzas. No obstante,
si ni siquiera despus de transformar los datos se consigue la igualdad de
varianzas, debe emplearse una modificacin de la prueba de t-student debida a
Satterthwaite, vlida para el caso de no homogeneidad de varianzas.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


7.3. COMPARACIN DE DOS VARIANZAS
POBLACIONALES

Con frecuencia existe inters en conocer si la varianza de dos poblaciones difieren. En


estos casos, debe hacerse una prueba estadstica de igualdad de varianzas. La hiptesis
a plantear es:


H o : 21 = 2 2

En estos casos se emplear la prueba F de Snedecor. Para ello, se construye el


estadstico de contraste experimental F dado por:

m x{S 21;S 2 2 }
F =
obs
m in{S 21;S 2 2 }

donde:

Fobs= F de Snedecor.

s21= varianza muestral del grupo 1.


s22= varianza muestral del grupo 2.

En el caso que Fobs< Fterica, se aceptara la H0: 21=22

112 ESTADSTICA P ARA LA TOMA DE DECISIONES


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

donde:

Fterica= es la F de Snedecor obtenida mediante tablas (ver apndice) para un


valor dado de con:

- grados de libertad del numerador, m: tamao muestral del grupo con mayor
varianza muestral menos uno.

- grados de libertad del denominador, n: tamao muestral del grupo con


menor varianza muestral menos uno.

Existen infinidad de variables F, todas ellas positivas e identificadas por dos parmetros
m y n denominados grados de libertad. Estos parmetros son siempre enteros positivos.

Tal y como se puede observar en la figura 7.2, la curva de densidad es asimtrica


positiva.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 7.2: Criterio para el rechazo de la hiptesis nula sobre la homocedasticidad.

EJEMPLO

El gerente de una empresa dedicada a la comercializacin de carne de vacuno


desea conocer si, tal y como dice la prensa, un cierto aditivo produce el
engorde prematuro de las reses. Para ello, compara los pesos de dos grupos de
reses al cabo de un determinado perodo de tiempo. En el primer grupo se ha
incluido el aditivo como parte de su alimentacin, mientras que en el segundo
se ha obviado por completo.

ESTADSTICA PARA LA TOMA DE DECISIONES 113


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

Los resultados son los siguientes:

Con aditivo
39 36 35 37 40 39 40 38 35 39
(kg)

Sin aditivo
43 45 42 35 37 38 33 38 41 43
(kg)

Se trata de un problema de comparacin de dos medias mediante el test de la t


student. Sin embargo, aqu nos interesa comprobar el cumplimiento de la
igualdad de varianzas para poder as aplicar la prueba, suponiendo la
normalidad de los grupos.

Haciendo los clculos pertinentes, resulta:

X1 = 37,8 X2 = 39,5

S 21 = 3,36 S 22 = 13,65

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Aplicando el estadstico, resulta:

mx{S 21;S 2 2 } 13,65


F = = = 4,06
obs
min{S 21;S22 } 3,36

Dado que Fobs= 4,06 > F9; 9; 0,05= 3,178 se rechazara la hiptesis nula de
que las varianzas poblacionales son significativamente iguales.

Algunas transformaciones usadas para lograr normalidad (logaritmo, arcseno,


raz cuadrada, etc.) consiguen a su vez tambin la homogeneidad en las


varianzas. Por ese motivo, se recomienda que si los datos primarios no cumplen
ninguno de los dos supuestos, se utilice la transformacin y se trate de
asegurar, en primer lugar, la homocedasticidad. De hecho, la principal razn
para transformar los datos es para mejorar la homogeneidad de las varianzas y
no para resolver el problema de normalidad, ya que este ltimo es un problema
menor en ANOVA.

114 ESTADSTICA P ARA LA TOMA DE DECISIONES


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

7.4. CONDICIONES NECESARIAS PARA LA TOMA DE


DECISIONES ESTADSTICAS

Aqu se recuerda que en casi todas las pruebas estadsticas para la toma de decisiones,
deben tenerse en cuenta las siguientes premisas:

1. Cualquier anomala puede tener un impacto significativo e influenciar en los


resultados de la valoracin y mtodos de las pruebas estadsticas.
2. La poblacin debe ser homognea, es decir, unimodal.

3. La muestra debe ser aleatoria

4. Adems de ser homognea, cada poblacin debe distribuirse segn una normal.
5. Homogeneidad de las varianzas (Homocedasticidad).

Veremos a continuacin que estas premisas incluyen los supuestos que debern cumplir
las poblaciones para realizar e interpretar un anlisis de la varianza ANOVA.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

7.5. COMPARACIN DE MS DE DOS MEDIAS


POBLACIONALES (ANOVA)

Aunque el anlisis de la varianza (ANOVA) tambin se puede emplear para analizar las
diferencias entre las medias de dos poblaciones, es un mtodo ms general que permite

las comparaciones entre las medias de ms de dos grupos.

El anlisis de la varianza o ANOVA nos permitir probar la diferencia entre dos o ms


medias 1 , examinando el cociente de la variabilidad entre dos condiciones y de la
variabilidad dentro de cada condicin.

Es importante sealar que el ANOVA ser vlido solamente si:

- La variable respuesta sigue una distribucin normal.

- Se cumple la hiptesis de homocedasticidad o igualdad de las varianzas.

- Se cumple el supuesto de independencia de los grupos a comparar respecto a la


variable respuesta que se analiza.

1. En el ANOVA se comparan medias, no varianzas.

ESTADSTICA PARA LA TOMA DE DECISIONES 115


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

Las hiptesis a contrastar considera k situaciones experimentales analizadas sobre una


variable de respuesta Y.

H0: 1 = 2 = 3 = L = k
H1: al menos dos difieren

donde:

i= representan los valores (i=1, 2,...k) medios de la variable de respuesta Y,


en las k situaciones experimentales.

A la hora de formular el criterio de rechazo de la hiptesis nula, recurre a dos


estimadores independientes de la varianza -de ah su nombre- conocidos como
cuadrados medios de los tratamientos (MSA o MSB) y cuadrados medios del error
(MSE), y que son comparados probabilsticamente con ayuda de la distribucin F de
Snedecor.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


MSA da idea de la varianza entre grupos, mientras que MSE
es un indicativo de la varianza dentro de los grupos.

MSA y MSE estiman la varianza poblacional en la hiptesis de que las k muestras


provengan de la misma poblacin.

La distribucin muestral del cociente de dos estimaciones independientes de la varianza


de una poblacin normal es una F de Snedecor con los grados de libertad
correspondientes al numerador y denominador, respectivamente, por lo que se puede


contrastar dicha hiptesis empleando esa distribucin.

Si en base a este contraste se rechaza la hiptesis de que MSE y MSA estimen la misma
varianza, se puede rechazar la hiptesis de que las k medias provengan de una misma
poblacin.

Los resultados de un ANOVA se suelen representar en la tabla 7.1.

116 ESTADSTICA P ARA LA TOMA DE DECISIONES


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

SUMA DE MEDIA
FUENTES DE
g.l CUADRADOS CUADRTICA F
VARIACIN
SS MS

Entre grupos
k-1 SSA SSA/(k-1) MSA/MSE
Tratamiento

Dentro de grupos
k(n-1) SSE SSE/k(n-1)
Error

Total kn-1 SST

Tabla 7.1. Tabla ANOVA.

Es muy importante mencionar que para que el contraste de hiptesis basado en la F de


Snedecor lo sea de la igualdad de medias, es necesario que todas las muestras
provengan de una poblacin con la misma varianza 2 , de la que MSE y MSA son
estimadores. En consecuencia, resulta necesario comprobarlo antes de realizar el
contraste.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

En principio, el anlisis de la varianza no puede realizarse si las muestras no son


homocedsticas. No obstante, existen soluciones alternativas en estos casos.

EJEMPLO

En un determinado experimento se lleg a las conclusiones que se muestran en

la siguiente tabla:

MUESTRA SUMA MEDIA

Poblacin 1 2 3 1 3 1 10 2

Poblacin 2 3 4 3 5 0 15 3

Poblacin 3 5 5 5 3 2 20 4

Media principal 3

Se tratara de ver si existen diferencias significativas entre las poblaciones. Por


tanto, definiramos la hiptesis nula como siempre, es decir, planteando que no
existen diferencias entre ellas:

H0 : 1 = 2 = 3
H1: al menos dos de las medidas difieren

ESTADSTICA PARA LA TOMA DE DECISIONES 117


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

Para rellenar la tabla ANOVA hemos de calcular la suma de los cuadrados entre
grupos SSA y dentro de los grupos SSE.

Calculo de SSA

Se calcula procurando que todos los valores adquieran el valor que tendran si a
sus respectivas medias les restasen (en valor absoluto) la magnitud de la media
principal.

MUESTRA SUMA

Poblacin 1 1 1 1 1 1 5

Poblacin 2 0 0 0 0 0 0

Poblacin 3 1 1 1 1 1 5

Total SSA 10

Clculo de SSE

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Se calcula restando a cada uno de los valores su media respectiva del grupo y
elevando al cuadrado.

MUESTRA SUMA

Poblacin 1 0 1 1 1 1 4

Poblacin 2 0 1 0 4 9 14

Poblacin 3 1 1 1 1 4 8

Total SSE 26


Tabla ANOVA

SUMA DE MEDIA
FUENTES DE
g.l CUADRADOS CUADRTICA F
VARIACIN
SS MS

Entre grupos
2 10 5 2,30
Tratamiento

Dentro de grupos
12 26 2,17
Error

Total 14 36

Dado que por tablas, a un valor de significancia de =0,05, con 2 g.l. en el


numerador y 12 g.l. en el denominador, el valor crtico obtenido2 de F0,05 ; 2,
12= 3,89.

118 ESTADSTICA P ARA LA TOMA DE DECISIONES


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

Como quiera que 2,30 < 3,89, no existen evidencias suficientes para rechazar
la hiptesis nula, aceptando que no hay diferencias entre las medias de las
poblaciones.

7.6. COMPARACIN DE MS DE DOS VARIANZAS


POBLACIONALES

Tal y como se ha visto, para comprobar la homocedasticidad (igualdad de varianzas) de


dos poblaciones puede emplearse la F de Snedecor; sin embargo, si hablamos de ms
de dos poblaciones, la F de Snedecor no sirve y se debe recurrir a otros mtodos como
la prueba de Bartlett, Cochran y la de la F del cociente mximo.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

7.6.1. PRUEBA F DEL COCIENTE MXIMO

Esta prueba estadstica, que no tiene nada que ver con la F de Snedecor, se emplea
para someter a prueba la hiptesis:

H0: 21 = 22 = 23

El procedimiento es el siguiente:

a) Encontrar la varianza ms grande y ms pequea de todos los grupos a


comparar.
b) Calcular la razn de estas varianzas (Fmax. observado).
c) Elegir un error () aceptable de cometer, normalmente 0,05.
d) El test supone que todos los grupos a comparar son del mismo tamao. Si los
grupos son diferentes, debe usarse el grupo con menor tamao muestral (n)
para calcular los grados de libertad.
e) Mirar en la tabla de distribucin acumulada de Fmax. terico los valores de
probabilidad con a grupos y n-1 grados de libertad. Estos valores han sido
calculados bajo el supuesto de que las varianzas son homogneas.
f) Si Fmax. observado > Fmax. terico a un =0,05, entonces se rechaza la hiptesis
nula de la homogeneidad de varianzas, es decir, existe heterogeneidad de
varianzas.

2. Las tablas de la F-Snedecor pueden consultarse en el Apndice.

ESTADSTICA PARA LA TOMA DE DECISIONES 119


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

EJEMPLO

Se sospecha que una granja porcina ha vertido una cantidad de purines


indeterminada a un lago. El gerente de la granja asegura que no hubo ninguna
filtracin. Para tratar de verificar esta sospecha, la administracin realiza
medidas de los niveles de nitratos en diferentes puntos del lago, obteniendo los
siguientes valores:

Lago 1 7,1 8,5 6,2 7,3 7,9

Posteriormente, se toman muestras de nitratos en varios puntos de otros tres


lagos no contaminados, obteniendo:

Lago 2 7,2 6,5 5,9 7,8 ---

Lago 3 5,6 7,1 6,3 6,7 6,5

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Lago 4 7,2 6,6 6,3 7,4 ---

Los valores obtenidos en el lago del posible vertido parecen ser ms altos que
en los obtenidos en los otros tres. Se considera esta diferencia lo
suficientemente importante como para concluir que el nivel de nitratos del lago
1 es diferente al de los dems y que, por tanto, est contaminado?

Este sera un problema de ANOVA, sin embargo, aqu lo que nos interesa es
comprobar la homogeneidad de varianzas por la prueba de la Fmax.

GRUPOS SXi SX2i Xi ni S2i

Lago 1 37 276,8 7,4 5 0,6

Lago 2 27,4 189,74 6,85 4 0,5125

Lago 3 32,2 208,6 6,44 5 0,2464

Lago 4 27,5 189,85 6,875 4 0,1969

Totales 124,1 864,99 X t =6,894 18 S2t=0,522

120 ESTADSTICA P ARA LA TOMA DE DECISIONES


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

De la tabla se deduce que la varianza mayor es 0,6 mientras que la menor es


0,1969. En consecuencia:

S2 mayor 0,6
F mx = = = 3,047
2
S menor 0,1969

Dado que para 3 grados de libertad a un =0,05, la Fmax. crtica = 6,6 > 3,047
se aceptara la hiptesis nula de homogeneidad de varianzas.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

ESTADSTICA PARA LA TOMA DE DECISIONES 121


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

FUNDACIN UNIVERSITARIA IBEROAMERICANA


122 ESTADSTICA P ARA LA TOMA DE DECISIONES


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA

ESTADSTICA PARA LA TOMA DE DECISIONES 123


IGUALDAD ESTADSTICA ENTRE DOS O MS POBLACIONES

FUNDACIN UNIVERSITARIA IBEROAMERICANA


124 ESTADSTICA P ARA LA TOMA DE DECISIONES


CORRELACIN Y REGRESIN

Captulo 8

CORRELACIN
Y RE G RE S I N
FUNDACIN UNIVERSITARIA IBEROAMERICANA

8.1. VARIABLES CORRELACIONADAS

Decimos que dos variables, X e Y, estn positivamente correlacionadas cuando siguen


una misma tendencia, es decir, a elementos pequeos de X le corresponden elementos
pequeos de Y, mientras que a elementos grandes de X tienden a corresponderle

elementos grandes de Y.

En cambio, se dice que estn correlacionadas de forma negativa cuando la tendencia es


inversa, es decir, a elementos pequeos de X tienden a corresponderles valores grandes
de Y, mientras que a elementos grandes de X les corresponden valores pequeos de Y.

Por ejemplo, las variables peso-altura, en general, estn correlacionadas de manera


positiva, pues la mayora de los individuos altos tambin son pesados, mientras que la
mayora de los bajos tienen un menor peso. Por otro lado, en algunos pases, las
variables renta familiar y nmero de elementos de la familia, acostumbran a presentarse
negativamente correlacionadas, pues las familias de baja renta, en general, tienden a
tener un mayor nmero de hijos que las de renta alta.

A lo largo de este captulo se ilustrar el estudio de correlacin entre dos variables,


utilizando los datos de la tabla 8.1, relativos a algunos indicadores sociales de una
muestra de municipios de Brasil1.

ESTADSTICA PARA LA TOMA DE DECISIONES 125


CORRELACIN Y REGRESIN

ESPERANZA DE MORTALIDAD TASA


MUNICIPIO DISTa. VIDA AL
RENTA PER-
CAPITAL NACER INFANTILb ALFABETIZACINc CPITA ($)

Araruna (PR) 365 67,99 23,19 86,23 188,29


Nova Redeno (BA) 278 61,19 56,56 63,00 74,79
Mono (MA) 150 59,58 63,32 63,64 66,96
Porto Rico do Maranho (MA) 78 58,96 66,05 79,33 65,34
Campo Er (SC) 468 68,10 31,71 83,38 173,38
Lagoa do Piau (PI) 40 63,65 47,08 65,81 60,00
So Jos das Palmeiras (PR) 486 71,01 16,62 77,54 150,67
Paraba do Sul (RJ) 83 71,36 15,69 89,28 264,55
Malhada dos Bois (SE) 65 64,46 44,18 69,95 80,69
Jandara (BA) 175 62,45 51,57 59,72 58,68
Vespasiano (MG) 14 68,68 32,81 90,43 196,51
Ipaba (MG) 167 67,42 37,04 81,82 125,75

a. Distancia a la capital de la respectiva Unidad de Federacin.


b. Nmero medio de muertes por cada mil nacimientos hasta el ao de vida.
c. Tasa de alfabetizacin (porcentaje de poblacin adulta alfabetizada).

Tabla 8.1. Algunos datos basados en el Censo Demogrfico de 2000, de una muestra aleatoria de

FUNDACIN UNIVERSITARIA IBEROAMERICANA


municipios brasileos2.

8.2. DIAGRAMAS DE DISPERSIN

Una manera de visualizar el tipo de correlacin entre dos variables es mediante el


diagrama de dispersin, en el cual los valores de las variables se representan por puntos
en un sistema cartesiano.

La representacin se realiza bajo la forma de pares ordenados (x,y) donde x es un


valor de una variable e y corresponde al valor de la otra variable.

La figura 8.1 ilustra la construccin de un diagrama de dispersin.

1. Se est utilizando una muestra bastante pequea para ilustrar las tcnicas. Se podra hacer un estudio ms detallado
tomando toda la poblacin de todos y cada uno de los municipios, ya que estos datos estn disponibles en el Censo
Demogrfico de 2000 incluido en el Atlas de Desarrollo Humano (http://www.pnud.org.br/atlas).
2. Fuente: Atlas de Desarrollo Humano (http://www.pnud.org.br/atlas).

126 ESTADSTICA P ARA LA TOMA DE DECISIONES


CORRELACIN Y REGRESIN

Figura 8.1: Construccin de un diagrama de dispersin. Representacin de las tres primeras observaciones
de X (distancia a la capital) y de Y (esperanza de vida al nacer) referente a los datos de la
tabla 8.1.

La figura 8.2 muestra cuatro diagramas de dispersin, relacionando algunas variables de


la tabla 8.1 con otras. El lector debe notar que cada uno de los pares observados se
refiere a un mismo elemento (municipio).
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 8.2: Algunos diagramas de dispersin construidos a partir de los datos de la tabla 8.1.

ESTADSTICA PARA LA TOMA DE DECISIONES 127


CORRELACIN Y REGRESIN

El diagrama (b) de la figura 8.2 muestra una situacin de correlacin positiva, ya que los
puntos estn en torno a una lnea imaginaria ascendente. En general, valores pequeos
de una variable tambin lo son en la otra, y lo mismo acontece para grandes valores.

Los diagramas (a) y (c) muestran correlaciones negativas porque, en ambos casos, los
puntos estn entorno a una lnea imaginaria descendente. En general, valores pequeos
de una variable se corresponden con grandes en la otra. En (c) los puntos se presentan
ms prximos a una lnea descendente que en (a), lo que caracteriza una correlacin
ms fuerte.

En el diagrama (d) no se presenta correlacin alguna, pues valores pequeos (o grandes)


de una variable estn asociados tanto a valores pequeos como a valores grandes de
otra. En este caso, los puntos no se posicionan alrededor de ninguna lnea ascendente o
descendente.

La figura 8.3 muestra un conjunto de puntos que se aproxima ms a una parbola que a
una recta, ilustrando un caso de correlacin no lineal. La interpretacin de las
correlaciones no lineales es ms difcil y no ser objeto de este documento.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Figura 8.3: Diagrama de dispersin de un ejemplo hipottico de correlacin no lineal.

Es importante resaltar que el concepto de correlacin se refiere a una asociacin


numrica entre dos variables, sin implicar, necesariamente, una relacin causa-efecto.
Si se toman, por ejemplo, las variables poblacin de Argentina y venta de cerveza en
Brasil a lo largo de los dos ltimos aos, se observa que estn correlacionadas de
manera positiva, pues ambas aumentan con el tiempo. Con todo, en trminos prcticos,
esta correlacin es esprea, ya que no aporta ninguna informacin relevante.

El anlisis de datos para verificar las correlaciones se realiza usualmente en trminos


exploratorios como elemento auxiliar dentro de un problema de estudio; es decir, el
estudio de la correlacin numrica entre las observaciones de dos variables es
generalmente un paso intermedio del anlisis de un problema.

128 ESTADSTICA P ARA LA TOMA DE DECISIONES


CORRELACIN Y REGRESIN

8.3. EL COEFICIENTE DE CORRELACIN LINEAL DE


PEARSON

El coeficiente de correlacin lineal de Pearson es apropiado para describir la correlacin


lineal de dos variables cuantitativas.

El valor del coeficiente de correlacin debe ser independiente de la unidad de medida de


los datos. Por ejemplo, el coeficiente de correlacin entre las variables peso y altura
debe tener el mismo valor independientemente de si el peso est medido en gramos o
kilogramos y la altura en metros o centmetros.

Con el fin de evitar la influencia de las unidades de medida, debe procederse a realizar
un cambio de variable (tipificar) tal que:

x X yY
x = y =
Sx Sy
FUNDACIN UNIVERSITARIA IBEROAMERICANA

donde:

x=valor tipificado que toma un valor de la variable X.

y =valor tipificado que toma valor de la variable Y.


X = media de los datos de la variable X.

Y = media de los datos de la variable Y.

Sx= desviacin tipo de los datos de la variable X.


Sy= desviacin tipo de los datos de la variable Y.

El coeficiente de correlacin lineal de Pearson, r, se define por la siguiente expresin, en


trminos de valores tipificados:

(x y )
r =
n 1

donde:

r= coeficiente de correlacin lineal de Pearson.

n= tamao de la muestra, es decir, el nmero de pares (x,y).


(xy) es la suma de los productos xy de los pares de valores tipificados.

ESTADSTICA PARA LA TOMA DE DECISIONES 129


CORRELACIN Y REGRESIN

EJEMPLO DE CORRELACIN POSITIVA

La tabla 8.2 proporciona un conjunto de datos hipotticos y tipificados.

VALORES ORIGINALES VALORES TIPIFICADOS PRODUCTOS

x y x y xy

2 4 -1,50 -,175 2,63


3 7 -1,00 -0,88 0,88
4 9 -0,50 -0,29 0,15
5 10 0,00 0,00 0,00
5 11 0,00 0,29 0,00
6 11 0,50 0,29 0,15
7 13 1,00 0,88 0,88
8 15 1,50 1,46 2,19

40 80 0,00 0,00 6,87 Suma

5,00 10,00 0,00 0,00 Media

FUNDACIN UNIVERSITARIA IBEROAMERICANA


2,00 3,42 1,00 1,00 Desviacin tipo

Tabla 8.2. Conjunto de valores hipotticos y tipificados.

En la figura 8.4 se ilustra la disposicin de los valores originales y tipificados en


unos ejes cartesianos.

Figura 8.4: Diagramas de dispersin de los valores originales y tipificados.

130 ESTADSTICA P ARA LA TOMA DE DECISIONES


CORRELACIN Y REGRESIN

Cuando se trabaja con datos correlacionados positivamente, como es el caso


del ejemplo, los pares (x, y) tienden a tener el mismo signo (+ -),
especialmente para aquellos puntos lejos del origen. En este sentido, tal y
como muestra la tabla 8.2, los productos xy son de signo positivo.

En consecuencia, el coeficiente de correlacin r ser positivo, tal y como se


muestra:

(x y ) 6,87
r= = = 0,981
n 1 7

EJEMPLO DE CORRELACIN NEGATIVA

La tabla 8.3 proporciona un conjunto de datos hipotticos y tipificados.


FUNDACIN UNIVERSITARIA IBEROAMERICANA

VALORES ORIGINALES VALORES TIPIFICADOS PRODUCTOS

x y x y xy

2 16 -1,50 1,75 -2,63


3 13 -1,00 0,88 -0,88
4 11 -0,50 0,29 -0,15
5 10 0,00 0,00 0,00
5 9 0,00 -0,29 0,00
6 9 0,50 -0,29 -0,15
7 7 1,00 -0,88 -0,88

8 5 1,50 -1,46 -2,19

40 80 0,00 0,00 -6,87 Suma

5,00 10,00 0,00 0,00 Media

2,00 3,42 1,00 1,00 Desviacin tipo

Tabla 8.3. Conjunto de valores hipotticos y tipificados.

En la figura 8.5 se ilustra la disposicin de los valores originales y tipificados en


unos ejes cartesianos.

ESTADSTICA PARA LA TOMA DE DECISIONES 131


CORRELACIN Y REGRESIN

Figura 8.5: Diagramas de dispersin de los valores originales y tipificados.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


En este ejemplo, el coeficiente r es negativo porque los pares de valores (x, y)
tienen, en general, signos diferentes, especialmente en aquellos puntos
alejados del origen. Este hecho hace que los productos xy sean de signo
negativo y, en consecuencia, tambin lo sea r.

En la figura 8.5 se observa una mayor concentracin de puntos en los


cuadrantes II y IV (donde x e y tienen signos opuestos), acarreando un valor
negativo para r.

(x y) 6,87
r= = = 0,981


n 1 7

En definitiva, de ambos ejemplos se deduce que si los puntos se concentran en los


cuadrantes I y III (figura 8.6), la correlacin es positiva, mientras que si lo hacen en los
cuadrantes II y IV, es negativa. En caso de que los puntos se distribuyesen de forma
aproximadamente igual en todos los cuadrantes, los datos no estaran correlacionados
haciendo que la suma de productos positivos y negativos fuesen cercana a cero.

132 ESTADSTICA P ARA LA TOMA DE DECISIONES


CORRELACIN Y REGRESIN

Figura 8.6: Cuadrantes en los que se dividen los ejes cartesianos.

Para cualquier conjunto de datos, el valor del coeficiente de correlacin de Pearson, r,


estar en el intervalo de -1 a 1. Ser tanto ms prximo de 1 ( -1) cuanto ms fuerte
sea la correlacin de datos observados.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

El valor de r=1 se alcanzara cuando los puntos estuviesen colocados perfectamente


sobre una recta ascendente (correlacin positiva perfecta), mientras que el valor de r=-
1 se alcanzara en el caso de que estuviesen colocados exactamente sobre una recta
descendente (correlacin negativa perfecta). En caso de no existir correlacin, el valor r
tendera a un valor prximo a cero.

Figura 8.7: Nivel de correlacin en funcin del valor de r.

ESTADSTICA PARA LA TOMA DE DECISIONES 133


CORRELACIN Y REGRESIN

8.3.1. CLCULO DE R

El clculo del coeficiente de correlacin r presentado anteriormente, tiene como


inconveniente el incorporar ciertos errores de redondeo, pues normalmente los valores
de la media y de la desviacin tipo no son enteros. En este contexto, se sugiere utilizar
la siguiente frmula basada en las observaciones originales:

n . ( X . Y ) ( X ). ( Y )
r =
n. X 2 ( X ) 2 . n. Y 2 ( y ) 2

Para ilustrar esta expresin, vamos a rehacer el ejemplo de correlacin lineal positiva
visto con anterioridad:

8(447) (40).(80)
r= =
8(228) (40)2. 8(882) (80)2

FUNDACIN UNIVERSITARIA IBEROAMERICANA


3.576 3200
= =
1824 1600. 7.056 6400

376 376
= = = 0,981
224. 656 383,33

Como era de esperar, el valor es el mismo, ya que las frmulas son matemticamente
equivalentes.

8.4. REGRESIN LINEAL SIMPLE

El trmino regresin surge a finales del siglo XIX de los trabajos de Galton. Dichos
trabajos procuraban explicar ciertas caractersticas de un individuo a partir de las
caractersticas de sus familiares. Por ejemplo, Galton afirmaba que los hijos de padres
que tenan alguna caracterstica determinada, tambin posean esta caracterstica,
aunque con menor intensidad que stos ltimos en promedio.

Los estudios de Galton se basaban en observaciones empricas. En uno de estos


trabajos relacion centenares de alturas de individuos con las respectivas alturas medias
de sus padres (tabla 8.4).

134 ESTADSTICA P ARA LA TOMA DE DECISIONES


CORRELACIN Y REGRESIN

X Y X Y X Y X Y

164 166 164 168 166 166 166 168


166 171 166 173 169 166 169 168
169 171 169 173 171 166 171 168
171 171 171 173 171 176 173 168
173 171 173 176 173 178 176 171
176 173 176 176 178 176 176 178

Tabla 8.4. Relacin de alturas de diversos individuos (Y) y alturas medias de sus padres (X), medidas en
centmetros.
Fuente: Stigler (1986, p. 286)3.

En la figura 8.8 se representa un diagrama de dispersin con las observaciones de la


tabla 8.4, indicando una correlacin positiva tal y como era de esperar.
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 8.8: Diagrama de dispersin de datos.

Si trazamos una recta ascendente por la nube de puntos, se observa una tendencia a
que los hijos de padres altos tengan alturas inferiores a la media de sus padres, mientras
que los hijos de padres bajos tienen alturas superiores a la media de sus padres.

Este ejemplo se distingue de los anteriores por suponer una relacin de causalidad entre
X e Y, descrita en trminos de una relacin matemtica. Es esta la diferencia bsica
entre un estudio de correlacin y un anlisis de regresin. La aplicacin de un anlisis de
regresin se realiza sobre un referencial terico que justifique una relacin matemtica
de causalidad.

3. Stigler, S. M. The history of statistics: the mensurement of uncertainty before 1900. USA, Harward, 1986.

ESTADSTICA PARA LA TOMA DE DECISIONES 135


CORRELACIN Y REGRESIN

8.4.1. MODELO DE REGRESIN

El modelo estadstico-matemtico de regresin, en su formulacin ms simple, relaciona


una variable Y, denominada dependiente, con otra variable X, llamada independiente
(tabla 8.5).

VARIABLE INDEPENDIENTE, X ? VARIABLE DEPENDIENTE, Y

Renta Consumo ($)

Gasto o control de calidad ($) Nmero de productos defectuosos

Memoria RAM del computador (gb) Tiempo de respuesta del sistema (segundos)

rea construida (m2) Precio ($)

Tabla 8.5. Diversas aplicaciones del modelo de regresin lineal simple.

FUNDACIN UNIVERSITARIA IBEROAMERICANA


Anlogamente al estudio de las correlaciones, el anlisis de regresin tambin parte de
un conjunto de observaciones apareadas (x,y), relativas a las variables X e Y. Diremos
que un valor y depende, en parte, de su correspondiente valor x. Por ejemplo, la altura
de un individuo (y) depende, en parte, de la altura media de sus padres (x).

Simplificaremos esta dependencia por una relacin lineal entre X e Y tal que:

y = + . x


Si fijamos valores para a y b, la ecuacin y=a+bx es la ecuacin de una recta. Por
ejemplo, si a=1 y b=2, la ecuacin y= 1+2x representa una recta en unos ejes
cartesianos (figura 8.9).

Figura 8.9: Representacin grfica de la ecuacin y= 1+2x.

136 ESTADSTICA P ARA LA TOMA DE DECISIONES


CORRELACIN Y REGRESIN

Sin embargo, si observamos un conjunto de valores (x,y), se verifica que, en general,


los puntos no estn exactamente sobre una recta, sino que fluctan en torno a alguna
recta imaginaria. En estas condiciones, un modelo ms adecuado sera:

y = + x +

donde:

- +x= representa la parte estructural.

- = representa el efecto aleatorio, es decir, el efecto de infinidad de factores que


afectan una observacin de forma aleatoria. Por ejemplo, la altura de un
individuo (y) no solamente depende de la altura media de sus padres (x), sino
tambin, de su alimentacin, del genotipo de sus ancestros y de una infinidad
de otros factores, representados en el modelo por esta letra.

8.4.1.1. Estimacin de los parmetros y


FUNDACIN UNIVERSITARIA IBEROAMERICANA

La idea bsica de la construccin de la parte estructural del modelo, supuestamente


lineal, es encontrar una recta que pase lo ms prxima posible a los puntos observados.

Esta recta se representar por:

y$ = a + bx

y se llamar recta de regresin o ecuacin de regresin (figura 8.10).

Figura 8.10: Representacin de la ecuacin de regresin del ejemplo.

ESTADSTICA PARA LA TOMA DE DECISIONES 137


CORRELACIN Y REGRESIN

Los valores de a y b se determinan a travs del llamado mtodo de los mnimos


cuadrados4:

n. ( X . Y ) ( X ) . ( Y ) Y b. X
b = a =
n. X 2 ( X )2 n

donde:

- n= nmero de pares (x,y) observados (tamao de la muestra).

- (X.Y)= sumatorio de los productos xy.

- X= suma de los valores observados de la variable X.


- Y= suma de los valores observados de la variable Y.

- X2= suma de los cuadrados de los valores de X.

Siguiendo con el ejemplo, a continuacin se ilustrar la ecuacin de regresin, con parte


de las observaciones de altura media de los padres (X) y altura del hijo (Y), extradas de

FUNDACIN UNIVERSITARIA IBEROAMERICANA


la tabla 8.4.

La tabla 8.6 muestra los clculos de los sumatorios.

DATOS CLCULOS INTERMEDIOS


X Y X2 X.Y
164 166 26.896 27.224
166 166 27.556 27.556


169 171 28.561 28.899
169 166 28.561 28.054
171 171 29.241 29.241
173 171 29.929 29.583
173 178 29.929 30.794
176 173 30.976 30.448
178 178 31.684 31.684
X = 1.539 Y = 1.540 X2 = 263.333 (X.Y) = 263.483

Tabla 8.6. Parte de las observaciones de la tabla 8.4 y clculos intermedios para la obtencin de la recta
de regresin.

4. La obtencin de la ecuacin de regresin por el mtodo de los mnimos cuadrados consiste en hacer que la suma
cuadrtica de los efectos aleatorios, E2, sea lo menor posible. La solucin de este problema matemtico genera las
expresiones de a y b citadas.

138 ESTADSTICA P ARA LA TOMA DE DECISIONES


CORRELACIN Y REGRESIN

9.(263483) (1539).(1540) 1287


b= = = 0,872
9.(263333) (1539)2 1476
1540 (0,872).(1539)
a= = 22,00
9

De esta manera, se obtiene la recta de regresin:

y$ = 22 + 0,872 x

Con el fin de trazar la recta de regresin en el plano formado por los ejes X e Y, basta
con dar un par de valores que cumplan (figura 8.11).
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Figura 8.11: Diagrama de dispersin de los datos y recta de regresin ajustada.

En referencia a los nueve individuos observados, se puede predecir la altura de un hijo


( y$), a partir de una altura media dada de sus padres, x, a travs de la ecuacin: y$ = 22
+ (0,872) x. Por ejemplo, para una altura media de los padres de x=175 cm, se tiene
una altura estimada del hijo de: y$ = 22 + (0,872).(175) = 174 cm.

El coeficiente b, que en nuestro caso es de 0,872, estima la variacin esperada de Y, a


partir de la variacin de una unidad de X. Este coeficiente indica una correlacin
positiva entre las variables X e Y, para los nueve individuos en estudio.

ESTADSTICA PARA LA TOMA DE DECISIONES 139


CORRELACIN Y REGRESIN

FUNDACIN UNIVERSITARIA IBEROAMERICANA


140 ESTADSTICA P ARA LA TOMA DE DECISIONES


CORRELACIN Y REGRESIN

Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA

ESTADSTICA PARA LA TOMA DE DECISIONES 141


CORRELACIN Y REGRESIN

FUNDACIN UNIVERSITARIA IBEROAMERICANA


142 ESTADSTICA P ARA LA TOMA DE DECISIONES


Bibliografa

[1] Barbetta, P. A. (2005). Estadstica Aplicada a las Ciencias Sociales. 5 ed.


UFSC. Florianpolis, Brasil.
[2] Bartolom, A. (1989). Estadstica, 2 Curso de Formacin Profesional, 4.
Edeb. Barcelona.
[3] Bussab, W. O. y Morettin, P. A. (2002). Estadstica bsica. 5 ed. Coleccin
Mtodos Cuantitativos. Saraiva. So Paulo, Brasil.
[4] Levine, D. M., Berenson, M. L. y Stephan, D. (2000). Estadstica: teora y
aplicaciones usando Excel. LTC. Rio de Janeiro, Brasil.
[5] Mendenhall, N. (1985). Probabilidades y estadstica, 1 y 2. Campos. Rio de
FUNDACIN UNIVERSITARIA IBEROAMERICANA

Janeiro, Brasil.
[6] Selltiz, Wrightsman, Cook. (1987). Mtodos de investigacin en las
relaciones sociales. 4 ed. EPU. So Paulo, Brasil.
[7] Stevenson, W. J. (1981). Estadstica aplicada a la administracin. Harbra.
So Paulo, Brasil.
[8] Stigler, S. M. (1986). The history of statistics: the measurement of
uncertainty before 1900. Harvard University Press. Cambridge, MA.
[9] Triola, M. F. (1999). Introduccin a la estadstica. LTC. Rio de Janeiro,

Brasil.

Pginas web consultadas

[1] Arsham, Hossein. Razonamiento estadstico para la toma de decisiones


gerenciales [en lnea]. 2004. Enlace web:
http://www.staff.vu.edu.au/sarath/Business-stats/opre504S.htm
[2] Descartes 2D. Estadstica [en lnea]. Idea de Mara Jos Garca Cebrian,
adaptada por Mara Vicenta Cabalgante Perera. [Madrid]: Ministerio de
Educacin y Ciencia, 2003. Enlace web:
http://www.cnice.mecd.es/Descartes/indice_aplicaciones.htm#recuento
[3] Lpez, Jess. Aula virtual de Bioestadstica [en lnea]. [Madrid]: Universidad
Complutense de Madrid, Facultad de Biologa, Dpto. de Matemtica
Aplicada. Biomatemtica, noviembre 2004. Enlace web:
http://e-stadistica.bio.ucm.es/

ESTADSTICA PARA LA TOMA DE DECISIONES 143


[4] Martnez, Omar. Anlisis de la varianza [en lnea]. Ilustrados.com. Enlace
web: http://www.ilustrados.com/publicaciones/EpyAlEyluZqETutecT.php
[5] Material docente de la unidad de bioestadstica clnica [en lnea]. [Madrid]:
Hospital Ramn y Cajal, 1996. Enlace web:
http://www.hrc.es/bioest/M_docente.html
[6] Miranda, Ileana. La estadstica del agropecuario. 10 preguntas 10 respuestas.
[en lnea]. Monografas.com. Enlace web: http://www.monografias.com/
trabajos19/estadistica-agropecuario/estadistica-agropecuario.shtml
[7] Monge, Juan Francisco. Estadstica no paramtrica: prueba Chi-cuadrado [en
lnea]. En: Proyecto e-math. Estadstica Bsica. UOC, 15 julio 2003.
Enlace web: http://www.uoc.edu/in3/e-math/
[8] Velasco, Roberto J. Estadstica inferencial [en lnea]. Ensayo para la
licenciatura en psicologa. Mxico. Enlace web: http://www.universidad
abierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm

FUNDACIN UNIVERSITARIA IBEROAMERICANA


144 ESTADSTICA P ARA LA TOMA DE DECISIONES

Das könnte Ihnen auch gefallen