Beruflich Dokumente
Kultur Dokumente
ESTADSTICA
PARA LA TOMA DE DECISIONES
Introduccin
4.3.1.1. Comparacin entre la media y la mediana ............................... 51
4.3.2. Los cuantiles y los extremos ................................................................. 52
Bibliografa
IN T RO D U CC I N
La calidad en los productos y servicios emplea la estadstica para mejorar y optimizar los
procesos de produccin y, de esta manera, ahorrar tiempo y dinero.
A continuacin se detallan los objetivos y el contenido de cada uno de los captulos que
componen este manual:
RESUMEN
CAPTULO OBJETIVO PARTICULAR APORTACIN Y RESULTADO CONSEGUIDO
DEL CAPTULO
Conocimiento de la estadstica como una
Introduccin a la toma de
herramienta diferenciadora para aproximarse a la
decisiones.
solucin de las necesidades de empresa.
Proporcionar al gerente una
serie de criterios Etapas en la toma de Establecimiento de las etapas a seguir para la toma
Captulo 1 decisiones. de decisin ante un determinado problema.
estadsticos para la toma de
decisiones en la empresa. Poblacin y muestra. Distincin entre poblacin y muestra aleatoria.
Conocimiento de los tipos de variables existentes y
Datos y variables.
los datos y categoras a que dan lugar.
Captulo 5
posterior utilizacin en Conocimiento de la funcin de probabilidad
situaciones de Distribuciones de variable
binomial en las decisiones bajo incertidumbre que
incertidumbre. discreta (binomial).
implican nicamente dos resultados posibles.
Captulo 1
CRITERIO ESTADSTICO
P A RA L A T O M A
DE DECISIONES
FUNDACIN UNIVERSITARIA IBEROAMERICANA
1.1. INTRODUCCIN
responder a nuestras indagaciones. Para que los resultados sean fiables, tanto la
recogida de datos como su anlisis deben ser realizados con criterio y de forma
objetiva.
La Estadstica para la toma de decisiones puede dividirse en:
1. Esta condicin es fundamental para asegurarse que una muestra es representativa con respecto a la poblacin.
Debido a la prctica imposibilidad de estudiar todos los individuos que componen una
poblacin por su coste en tiempo y dinero, en la prctica, se recurre a utilizar una
muestra aleatoria, que no es ms que un subconjunto de la poblacin, y que nos servir
para hacer inferencias sobre la misma.
FUNDACIN UNIVERSITARIA IBEROAMERICANA
donde:
n= tamao de la muestra.
La eleccin del tamao de la muestra es un paso muy importante que se ver con
Un problema tpico que se plantea a la hora de tomar decisiones sucede cuando se debe
hacer inferencias sobre una poblacin determinada y se encuentra que el coste en
tiempo y dinero supera todas las previsiones.
Tal y como se ha mencionado con anterioridad, el procedimiento consisitira en escoger
una muestra y adoptar una solucin de compromiso, puesto que los resultados
obtenidos seran nicamente una estimacin del valor real que deseamos encontrar. Eso
s, nos habramos ahorrado gran cantidad de recursos.
Esta etapa debe responder a preguntas clave tales como: cul es el objetivo del estudio
o de las preguntas a responder? A qu poblacin va dirigida el proceso de toma de
decisiones?
La elaboracin de los objetivos especficos debe realizarse de tal manera que indiquen
- tiempo de servicio;
- grado de instruccin;
1.3.2. PLANIFICACIN DE LA INVESTIGACIN
Los datos deben ser recogidos segn un plan que garantice que la informacin es vlida.
El plan debe identificar las variables importantes relacionadas con el problema, y
especificar cmo stas van a ser medidas (modelo estadstico).
1.3.5. RESULTADOS
Los resultados se deben representar de una forma clara y objetiva, sin caer en
1.3.6. CONCLUSIONES
Sin embargo, estas preguntas no estn identificando de forma correcta las variables que
nos interesan, pues los funcionarios podran interpretarlas de diferentes maneras; por
ejemplo, para la primera pregunta pueden surgir respuestas tales como: hace poco ms
de 12 aos, hace mucho tiempo, entre otras. Es decir, las variables no estn siendo
observadas de una forma homognea.
En consecuencia, para que las observaciones sobre el tiempo de servicio se realicen de
una manera homognea, es preciso establecer una unidad de medida, por ejemplo, aos
completos de trabajo en una empresa:
______aos completos.
En referencia a la variable estado civil, las posibles respuestas son atributos. Con el
fin de evitar alguna respuesta anmala, se pueden establecer previamente las posibles
alternativas de respuesta. De esta manera, la pregunta se reescribira:
Las variables cualitativas reflejan una cualidad del individuo, mientras que las
cuantitativas corresponden a caractersticas que reflejan cantidades.
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Las variables cualitativas tambin pueden utilizar nmeros, aunque no por ello tienen
que reflejar cantidades. Por ejemplo, el nmero de telfono, el nmero de la calle donde
se vive o el DNI, son variables cualitativas que, por comodidad, emplean nmeros en
vez de nombres para definir los diferentes valores.
Siempre que una variable pueda ser medida correctamente de forma cuantitativa, se
debe usar este tipo de medida, porque las cuantitativas son, en general, ms
informativas que las cualitativas. Por ejemplo, decir que un funcionario hace 30 aos
que trabaja en la empresa proporciona mucha ms informacin que decir que hace
mucho tiempo que trabaja en la empresa.
Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Captulo 2
VAR I A B L E S C U A L I T A T I VA S
FUNDACIN UNIVERSITARIA IBEROAMERICANA
2.1. INTRODUCCIN
1 = ninguno.
2 = nivel bsico.
3 = nivel medio.
DATOS
Con el fin de construir una distribucin de frecuencias con datos relativos a una variable
cualitativa, basta con contar la cantidad de resultados observados en cada categora
(tabla 2.1).
NIVEL DE FRECUENCIA
PORCENTAJE
ESTUDIOS ABSOLUTA
Ninguno 6 15
Total 40 100
Tabla 2.1. Distribucin de frecuencias del nivel de estudios de los patriarcas de una muestra de 40
familias del conjunto residencial Monte Verde, Florianpolis - SC, 1988.
LOCALIDAD
NIVEL DE ESTUDIOS ENCOSTO DO
MONTE VERDE PQ. DA FIGUEIRA
MORRO
a. Los nmeros entre parntesis corresponden a los porcentajes en relacin al total de familias observadas en cada
localidad.
Tabla 2.2. Distribucin de frecuencias referida al nivel de estudios de los patriarcas de una muestra de
120 familias de tres localidades diferentes del barrio de Saco Grande II, Florianpolis - SC,
Brasil, 1988.
En la tabla 2.2 se puede observar que los patriarcas de las familias investigadas en el
Conjunto Residencial Monte Verde presentan los mejores resultados; por otro lado, en
Encosta do Morro se dan los peores resultados con casi un 50% de patriarcas con
ningn nivel de estudios.
El lector debe observar que al organizar y resumir los datos de una distribucin de
frecuencias, normalmente no se proporciona la informacin de cuntos elementos
pertenecen a cada categora, ya que para entender el comportamiento general de una
variable esa informacin no suele ser relevante.
Las representaciones grficas ofrecen, en general, una mejor visualizacin de las pautas
de comportamiento de los datos que las tablas: por ello, constituyen una forma
alternativa de presentacin de las distribuciones de frecuencias.
Figura 2.1: Distribucin de frecuencias del nivel de estudios de los padres de familia de una muestra de 40
familias del conjunto residencial Monte Verde, Florianpolis - SC, 1988.
Con el fin de calcular el ngulo que abarca cada sector, basta con plantear una regla de
tres entre el ngulo (en grados) desconocido, la frecuencia total y la frecuencia
observada para cada categora, barriendo un ngulo de 360, segn:
1 6
=
360 40
donde:
6
1 = (360 ) = 54
40
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Figura 2.2: Distribucin de frecuencias del nivel de estudios de los padres de familia de una muestra de 40
familias del conjunto residencial Monte Verde, Florianpolis - SC, 1988.
1. Ninguno
2. Nivel Bsico
3. Nivel medio
0. S
1. No
S 31 22 25 78
NO 7 16 19 42
Total 38 38 44 120
Tabla 2.3. Distribucin conjunta de frecuencias de nivel de estudios del patriarca y uso de programas de
alimentacin popular.
En la tabla 2.3 se puede observar que los totales por columnas proporcionan la
distribucin de frecuencias de la variable nivel de estudios del patriarca, mientras que el
el total por filas constituye la distribucin de frecuencias de la variable programas de
alimentacin popular.
Para facilitar el anlisis de una tabla de contingencia, se pueden incluir las frecuencias
En la tabla 2.4 se incluyen los porcentajes en relacin con los totales de las columnas.
Esta tabla evidencia los perfiles de uso de los programas de alimentacin popular,
considerando las familias separadas por nivel de estudios del patriarca (perfiles por
columnas).
USO DE NIVEL DE ESTUDIOS DEL PATRIARCA
TOTAL
PROGRAMAS NINGUNO BSICO MEDIO
a. Los nmeros entre parntesis son los porcentajes en relacin con los totales de las columnas.
Tabla 2.4. Distribucin del uso de programas de alimentacin popular, segn el nivel de estudios del
patriarca.
Se puede observar que a un nivel de estudios ms bajo, la gran mayora de las familias
investigadas usan los programas (81,6%), mientras que a un nivel de instruccin ms
alto, poco ms de la mitad emplean dichos programas (56,8%).
La tabla 2.5 muestra los porcentajes en relacin con los totales de las filas. Esta tabla
evidencia los perfiles del nivel de estudio del patriarca (perfiles por fila), considerando la
muestra dividida en familias que usan y familias que no usan los programas. Se deja la
interpretacin de la tabla para el lector.
a. Los nmeros entre parntesis son los porcentajes en relacin con los totales de las columnas.
Tabla 2.5. Distribucin del nivel de estudios del patriarca, segn el uso de programas de alimentacin
popular.
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Captulo 3
VAR I AB L E S
C U A N T I T A T I VA S
FUNDACIN UNIVERSITARIA IBEROAMERICANA
3.1. INTRODUCCIN
Cuando se estudia una variable que es posible medir de forma numrica, se tiene mucho
ganado en referencia a las tcnicas de anlisis exploratorio de datos. Este captulo trata
de la construccin de distribuciones de frecuencia de variables cuantitativas y sus
interpretaciones.
Una variable cuantitativa se denomina discreta cuando sus posibles valores pueden ser
listados. Por ejemplo, el nmero de hijos de una pareja o el nmero de habitaciones de
una casa, son ejemplos de variables discretas porque pueden asumir valores {0,1,2,...}
en referencia al primer caso o {1,2,3,...} por lo que respecta al segundo caso. Las
variables discretas generalmente resultan de un conteo.
Una variable cuantitativa se denomina continua cuando puede tomar cualquier valor en
un intervalo. Por ejemplo, el peso de un individuo es una variable continua, pues puede
asumir cualquier valor en un intervalo, digamos, de 0 a 300 kg. La variables continuas
acostumbran a ser generadas por un instrumento de medida.
DATOS
4 4 4 5 4 1 2 3 6 4 6 4 4 6 3 5 3 4 4 4
5 5 5 4 8 4 5 3 4 5 5 2 5 2 6 8 3 5 5 3
1 1 2,5
2 3 7,5
3 6 15,0
4 13 32,5
5 11 27,5
6 4 10,0
7 0 0,0
8 2 5,0
Tabla 3.1. Distribucin de frecuencias del nmero de personas residentes para una muestra de 40
residencias del Conjunto Residencial Monte Verde, Florianpolis - SC, 1988.
1. Cuando una variable discreta presenta un gran nmero de diferentes valores observados, se pueden emplear artificios
propios para variables continuas, tal y como se ver ms adelante.
El eje vertical (frecuencias) siempre debe partir de cero, mientras que el horizontal
(valores de la variable) puede iniciarse con el valor mnimo que sta pueda tomar.
FUNDACIN UNIVERSITARIA IBEROAMERICANA
En este caso carece de sentido contar las veces que se repite cada valor, ya que
considerando que difcilmente los valores se repiten, no se llegara a unas conclusiones
apropiadas.
Los municipios de la muestra de la regin del sur presentan, en general, unos valores de
IDH mayores que los municipios de la muestra de la regin del norte. Tambin se
observa que ambas muestras de municipios se diferencian en cuanto a la dispersin de
los datos. En este sentido, en la regin del sur los municipios presentan valores de IDH
relativamente prximos (mayor homogeneidad), mientras que en la muestra de la regin
del norte, los valores varan bastante de municipio a municipio (mayor heterogeneidad).
2. Datos extrados del Atlas do Desenvolvimiento Humano (http://www.pnud.org.br/atlas). El IDH, calculado para cada
municipio, fue construido en base al censo demogrfico de 2000. Observe que en este ejemplo los elementos de las
muestras son municipios.
Las clases son pequeos intervalos mutuamente exclusivos que, agrupados todos
juntos, abarcan todo el conjunto de datos. En otras palabras, las clases deben ser
construidas de tal manera que todo valor observado pertenezca a una y solamente una
clase. Por simplicidad, y para facilitar la interpretacin, se considerarn todas las clases
con una misma amplitud.
DATOS
57,25 76,85 92,90 89,07 75,49 84,33 65,28 94,59 71,20 82,30
72,81 66,01 90,52 87,94 58,88 86,34 45,37 81,15 94,83 81,42
54,70 67,95 69,91 95,03 77,62 57,14 91,22 64,65 85,70 81,34
59,07 68,04 73,22 95,34 88,40 83,52 64,19 64,17 95,34 84,66
Se puede observar que todos los valores se encuentran en un intervalo de 40 a 100 (el
menor valor es de 45,37 y el mayor es de 95,34). Se tienen que definir un conjunto de
clases mutuamente exclusivas, tales que, todas agrupadas, contengan todos los
valores. Una posible opcin sera construir 6 (seis) clases con una amplitud aproximada
de 10, tal y como se muestra a continuacin:
donde el smbolo | representa el intervalo entre dos variables, incluyendo el valor del
lado izquierdo y excluyendo el valor del lado derecho.
40 | 50 | 1
50 | 60 ||||| 5
60 | 70 ||||| ||| 8
70 | 80 ||||| | 6
80 | 90 ||||| ||||| || 12
40 | 50 45 1 2,5
50 | 60 55 5 12,5
60 | 70 65 8 20,0
70 | 80 75 6 15,0
80 | 90 85 12 30,0
90 | 100 95 8 20,0
TOTAL - 40 100,0
Tabla 3.2. Distribucin de frecuencias de las tasas de alfabetizacin de una muestra aleatoria de 40
municipios brasileos.
Siguiendo con nuestro ejemplo, n=40, resultando as un valor de 6,32. Esto sugiere
emplear seis o siete clases. Nos quedamos con seis clases. Dado que los datos
extremos son 45,37 (menor) y 95,34 (mayor), se tiene una amplitud total de 95,34-
45 ,37 50 . Asimismo, si las clases se inician por el valor menor, cada clase debe tener
una amplitud de: 50/6=8,33. Para facilitar la lectura de la tabla de frecuencias, se
optar por iniciar en 40 y usar intervalos de clase iguales a 10.
Figura 3.4: Intervalo donde se encuentran las tasas de alfabetizacin de la muestra de 40 municipios
brasileos.
3.3.3. HISTOGRAMA
4. Cuando se tienen valores discrepantes dentro de un conjunto de datos, se recomienda que el nmero de clases sea
mayor.
Figura 3.5: Distribucin de frecuencia de las tasas de alfabetizacin de una muestra de municipios
brasileos, ao 2000.
anlisis estadstico significativo.
5. Cuando las clases no tienen la misma amplitud, resulta necesario realizar algunos ajustes. Vase, por ejemplo, Bussab
e Morettin (2002, p.27). El histograma tambin podra ser realizado en base a porcentajes en el eje vertical, aunque
su forma no cambiara.
Figura 3.6: Distribucin de frecuencia de las tasas de alfabetizacin de una muestra de municipios
brasileos, ao 2000.
Figura 3.7: Distribucin de frecuencias de las rentas familiares de Monte Verde (muestra de 40 familias) y
Encosta do Morro (muestra de 37 familias), Barrio Saco Grande II, Florianpolis -SC, 1988.
El lector debe observar que un grfico como el de la figura 3.7 permite explorar posibles
relaciones entre una variable cuantitativa (renta) y una variable cualitativa (localidad). Al
comparar histogramas o polgonos de frecuencias, se debe observar su posicin
respecto el eje horizontal, su dispersin y su asimetra.
El grfico de la figura 3.9 ilustra la variacin media del caudal de un ro a lo largo diez
aos consecutivos.
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Captulo 4
ESTADSTICA
D E S C R I P T I VA
FUNDACIN UNIVERSITARIA IBEROAMERICANA
4.1. INTRODUCCIN
En este captulo se emplear otra estrategia que puede ser usada de forma alternativa
para complementar, describir y explorar datos cuantitativos.
De esta manera, se tienen las medidas de posicin, que son parmetros que indican
dnde se sita o posiciona una serie, hacia dnde tiende y alrededor de qu valor se
sitan los datos observados; y las medidas de dispersin, que indican cmo se sitan
los valores, es decir, si se agrupan alrededor de las medidas centrales o, por el
contrario, se encuentran dispersos, alejados de su centro.
Entre las medidas de posicin, las ms importantes son las de tendencia central, y entre
stas, la media, la mediana y la moda. Entre las medidas de dispersin se encuentra la
varianza y la desviacin tipo.
Por ejemplo, para conocer el peso de los recin nacidos de una comunidad, se puede
calcular la media o mediana de los pesos de dichas criaturas al nacer y, para tener una
idea de la magnitud de variacin del peso de los neonatos, podemos calcular la
desviacin tipo.
Por ejemplo, dada la nota final de ocho alumnos (4,5,5,6,6,7,7 y 8), se puede calcular
la media por:
4 +5+5+6+6+7 +7 +8
=6
8
puede definir la media por:
x
X =
n
donde:
En la tabla 4.1 se muestran las notas finales de los alumnos pertenecientes a tres aulas
dentro del mismo curso escolar.
MEDIA POR
AULA NOTAS DE LOS ALUMNOS
AULA
A 4 5 5 6 6 7 7 8 6,00
B 1 2 4 6 6 9 10 10 6,00
C 0 6 7 7 7 7,5 7,5 6,00
Figura 4.1: Representacin de la distribucin de las notas en las tres aulas y sealizacin de las medias
respectivas.
En la figura 4.1 se ilustra que en cada uno de los diagramas de puntos, la media
aritmtica se presenta, de alguna forma, en la posicin central de los valores
observados. Ms propiamente, se puede decir que la media seala el centro de un
conjunto de valores. Haciendo una similitud con el concepto fsico de punto de
equilibrio, la media sera la posicin que equilibrara los pesos repartidos sobre una
tabla.
En esta figura tambin se observa que los tres conjuntos de valores, a pesar de estar
distribuidos de diferentes maneras, tienen la misma media aritmtica. Este hecho indica
que este estadstico resume un conjunto de datos alrededor de una posicin central,
pero no aporta ninguna otra informacin sobre otros aspectos de la distribucin.
Si comparamos las notas del aula A con la notas del aula B, se verifica que en esta
ltima existe una mayor dispersin de los datos, lo que indica que el aula B es ms
heterognea en cuanto a las notas obtenidas. Por otro lado, en el conjunto de notas del
aula C se observa una nota extremadamente baja, un punto discrepante o anomala, que
acarrea que la media de este grupo baje sensiblemente1.
Con el fin de explicar mejor el conjunto de datos, aparte de la media aritmtica, se debe
acompaar una medida de la dispersin de los datos, y que se conoce como varianza, o
bien, desviacin tipo.
Tanto la varianza como la desviacin tipo son medidas que proporcionan informacin
complementaria a la aportada por la media aritmtica. En concreto, explican la
dispersin de los datos, es decir, cunto se dispersa un conjunto de valores con
respecto a la media . Estamos midiendo variabilidad.
En el siguiente cuadro se describen las etapas a seguir para el clculo de la varianza.
Media X 6
Desvos cuadrticos (X X ) 2 4 1 1 0 0 1 1 4
1. En este caso, la media no es una estimacin fiable del conjunto de datos. En un prximo apartado se ver el
tratamiento ms adecuado para variables que contengan anomalas o valores discrepantes.
(X - X)2
S2 =
n 1
donde:
4 +1+1+ 0 + 0 +1+1+ 4
S2 = = 1,71
8 1
(X - X )2
S=
n 1
Siguiendo con el ejemplo, la desviacin tipo del conjunto de notas del aula A sera:
S= 1,71 = 1,31
2. Las desviaciones se elevan al cuadrado porque, de lo contrario, siempre se obtendra un valor nulo a resultas de la
suma.
3. Muchos autores acostumbran a diferenciar en la frmula de la varianza cuando los datos se refieren a una poblacin
o a una muestra. Desde este enfoque, cuando los datos representan una poblacin de N elementos, el denominador
es N. Si los datos se refieren a una muestra de n elementos, se recomienda usar como denominador n-1. Nosotros
utilizaremos por simplicidad este segundo caso.
La tabla 4.2 muestra la desviacin tipo de las notas de cada una de las tres aulas.
NMERO DE DESVIACIN
AULA MEDIA
ALUMNOS TIPO
A 8 6,00 1,31
B 8 6,00 3,51
C 7 6,00 2,69
Tabla 4.2. Media y desviacin tipo respectiva de las notas finales de los alumnos por aulas.
donde:
Ilustraremos el empleo de esta nueva frmula con el ejemplo de las notas obtenidas por
los alumnos del aula A:.
donde:
Tal y como era de esperar, se llega al mismo resultado obtenido con anterioridad.
(X) = 4 + 5 + 5 + 6 + 6+ 7 + 7 + 8,
que es equivalente a
4(1) + 5(2) + 6(2) + 7(2) + 8(1) = (X)
X=
X e S=
(X ) nX
2
n n 1
NOTA FRECUENCIA
Xf X2f
(X) (f)
4 1 4 16
5 2 10 50
6 2 12 72
7 2 14 98
8 1 8 64
Total 8 48 300
donde:
48 300 - 8(6)2
X= =6 e S= = 1,31
8 7
4.2.4. MODA
La moda (Mo) es el valor que ocurre con mayor frecuencia dentro de un sistema de
observaciones. Es una medida de tendencia central adecuada a escalas nominales,
aunque tambin se calcula para escalas numricas.
Una distribucin puede tener ms de una moda, en ese caso se dice que los datos son
bimodales, trimodales, etc.
Una poblacin homognea es una poblacin estadstica que tiene una nica moda. Con
el fin de determinar si una poblacin dada es o no homognea, debe construirse el
histograma de una muestra escogida al azar de la poblacin. En el caso de que haya
ms de una moda, se tiene una mezcla de diferentes poblaciones.
DETECCIN DE ANOMALAS
4. Volver al paso 1.
5. En la mayor parte de los casos, se necesitar iterar con este mismo
algoritmo hasta que todas las anomalas queden eliminadas.
4.3.1. LA MEDIANA
Al igual que la media, la mediana es una medida de tendencia central que se caracteriza
por dividir la distribucin por la mitad, dejando el 50% de los valores menores a un lado
y el 50% de los valores mayores al otro lado. Por ejemplo, el conjunto de valores
{2,3,4,5,8} tiene como mediana el valor de 4 (cuatro), pues la cantidad de valores cuya
Sin embargo, no todos los conjuntos de datos tienen un valor central tan ntido como el
expuesto en el ejemplo4. En este sentido, se precisa una definicin ms detallada de la
mediana.
Se define la mediana de un conjunto de valores como aquel valor que ocupa la posicin
n +1
2
, considerando los datos ordenados en orden decreciente. Si el valor n +1 es
2
fraccionario, se toma como mediana la media de los dos valores cuya posicin sea ms
prxima a n 2+1 . La mediana se representa por Md.
4. En el conjunto de datos {3,5,6,7,10,11}, cualquier valor entre 6 y 7 podra ser usado como mediana.
5. Se debe aclarar que para variables que supuestamente tengan distribuciones razonablemente simtricas, la media y
la mediana pueden no ser iguales ya que, en general, estamos considerando solamente algunos valores (muestras)
de estas variables. Para variables con distribuciones razonablemente simtricas, la media es la medida de posicin
central ms adecuada, por usar el mximo de informacin contenida en los datos. La media se calcula usando
propiamente la magnitud de los valores, mientras que la mediana utiliza solamente la ordenacin de los valores.
pueden obtener algunas informaciones relevantes a travs de un conjunto de medidas
denominados cuantiles: mediana, cuartiles, deciles, centiles o percentiles.
Los cuantiles nos indican los valores de las variables que ocupan determinados lugares
en el conjunto ordenado.
distribucin en cien partes iguales. Los centiles son cuantiles de orden 100.
Existen 99 centiles: C1, C2,..., C99.
Se denomina extremo inferior, E1, al menor valor del conjunto de valores. El extremo
superior, ES, estara constituido por el mayor valor. Por ejemplo, dado el conjunto de
valores {5,3,6,11,7}, tenemos E1=3 y ES=11.
a) Datos: 2, 0, 5, 7, 9, 1, 3, 4, 6, 8. Ordenando:
6. Dado un conjunto de valores, no siempre se consigue dividirlos exactamente en cuatro partes iguales. El
procedimiento expuesto ofrece una solucin aproximada, muy satisfactoria cuando las cantidades de valores son
grandes y con pocas repeticiones.
b) Datos:
En el ejemplo (b), donde la mediana coincide con un valor del conjunto de datos, por
convencin se toma este valor, tanto para la obtencin de QI como para la de QS.
Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Captulo 5
MODELAMIENTO
ESTADSTICO
D E L A S VAR I A B L E S
FUNDACIN UNIVERSITARIA IBEROAMERICANA
5.1. INTRODUCCIN
Al analizar los datos medidos por una variable cuantitativa continua, veremos que
Las pruebas paramtricas exigen una serie de condiciones a los datos a los que se
aplican:
CUANTITATIVAS
Tratamientos
Anlisis de la varianza (ANOVA).
estadsticos
Correlacin/Regresin.
Caractersticas Los datos que toman son el nmero de individuos que presentan
VARIABLES dicha cualidad (frecuencia de aparicin) y, por tanto, nmeros
CUALITATIVAS enteros.
Tabla 5.1. Principales tcnicas empleadas en la estadstica de negocios para realizar inferencias sobre la
poblacin a partir de una muestra.
factores.
En este sentido, el Teorema Central del Lmite dice que si tenemos un grupo numeroso
de variables independientes (>30) y todas ellas siguen el mismo modelo de distribucin
(cualquiera que ste sea), la suma de ellas se distribuye segn una distribucin normal1.
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.
Resulta difcil explicar por qu se produce este fenmeno, pero lo cierto es que la curva
de Distribucin Normal (denominada tambin Gaussiana) juega un papel fundamental en
1. Por ejemplo, si lanzamos una moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre
s), se distribuye segn una distribucin normal.
(x- )2
1
f(x)= e 2 2
. 2
donde:
= media poblacional.
La funcin normal queda definida por dos parmetros, su media y su desviacin tipo. Se
representa mediante la notacin N (, ), donde para cada valor de y se tendr una
funcin de densidad distinta, y en consecuencia, una familia de distribuciones normales.
z
x (x- )2
1
F(x)= e 2 2
dx
2
- < x <
F(x) = P (X x)
Otra caracterstica importante de la ley normal unitaria o tipificada es que toda el rea
comprendida entre ella y el eje horizontal es igual a la unidad.
Xi
Zi =
donde:
Esto ser muy til a la hora de hacer comparaciones. En este caso, la funcin de
densidad unitaria quedara:
Z 2i
1
f(z ) = e 2
2p
F (z) = P (Z z)
FUNDACIN UNIVERSITARIA IBEROAMERICANA
z z2
z
1
F(z) = e 2
dz
0 2
Por este motivo, an a costa de cometer un cierto error, se suelen utilizar tablas que
proporcionan directamente estos valores.
/2= 0,5 - (valor del rea comprendida entre z=0 y zi). Este valor tambin
recibe el nombre de p-valor.
VEAMOS UN EJEMPLO
El peso de unas piezas de plomo para automocin se distribuye normalmente.
Si sabemos que el peso medio es de 3,25 kg y la desviacin tpica es de 0,82
kg, cul es la probabilidad de que el peso de las piezas sea superior a 4 kg?
xi 4 3,25
Zi = = = 0,9146
0,82
/2=p(X>4)=p(z>0,9146)=0,5-0,3186=0,18 (p-valor)
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Una vez calculada, se escoge la diferencia mayor y se compara con la que proporciona
la tabla 5.2.
TAMAO DE LA TAMAO DE LA
MUESTRA VALOR MUESTRA VALOR
N N
1 0,975 14 0,349
2 0,842 13 0,361
3 0,708 14 0,349
4 0,624 15 0,338
5 0,565 16 0,328
6 0,521 17 0,318
8 0,457 19 0,301
9 0,432 20 0,294
10 0,410 25 0,27
11 0,391 30 0,24
13 0,361 Ms de 35 1,36/n0.5
Es importante mencionar que, a resultas de esta prueba, nunca se puede afirmar que
una distribucin sea normal , sino que la diferencia encontrada no ha sido lo
suficientemente grande para decir que no es normal.
PRUEBA DE KOLGOMOROV
posibles:
TAMAO DE
POBLACIN s CONOCIDA s DESCONOCIDA
MUESTRA
X 0
t=
X 0 SX
Grande (n 30) z=
X o
Con distribucin X 0
normal z=
SX
Tabla 5.3. Tabla resumen de aplicacin del valor z y de t en funcin del tamao de muestra y del
conocimiento de la varianza poblacional4.
Imaginemos que se toman todas las muestras posibles de tamao n inferior a 30 de una
determinada poblacin distribuida segn una normal. Con los valores calculados de la
media X y la desviacin tipo s, el esquema de la prueba consiste en calcular un
estadstico:
X
t=
S$ X
4. Fuente: http://www.universidadabierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm
donde:
S
S$X =
n 1
X
t = n 1
S
Tal y como se ilustra en la figura, existen diferentes distribuciones t, cada una de ellas
asociada a lo que se ha dado en llamar grados de libertad (), que se definen como el
nmero de observaciones menos uno, es decir, = n-1.
5. Fuente: http://www.universidadabierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm
En referencia al valor crtico de t con =3 grados de libertad, se tiene por las tablas6
(t 0,005 ) que es igual a 5,84 en el lado derecho y -5,84 en el lado izquierdo. En
consecuencia, existe una probabilidad de 0,99 de que la variable t se encuentre en el
intervalo [-5,84, 5,84].
Si escogemos el valor crtico de t con =29 grados de libertad, se tiene que un 0,5%
del rea bajo la curva est a la derecha de 2,76 o a la izquierda de -2,76. Es decir,
existe una probabilidad de 0,99 de que la variable t se encuentre en el intervalo [-2,76,
2,76].
la varianza de una muestra con la varianza hipottica de una poblacin gracias a la
distribucin chi-cuadrado (2).
La distribucin chi-cuadrado tiene una forma que depende del nmero de grados de
libertad como ocurre en el caso de la t-student. En la figura 5.8 se ilustran varias de
estas curvas.
Con el fin de obtener un valor crtico a partir de una tabla7 de a2 se deber seleccionar
un nivel de significacin y determinar los grados de libertad para el problema bajo
anlisis.
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Tal y como se ver en los ejemplos, la frmula general para determinar los grados de
libertad8 en una tabla de contingencia9 es:
= (r 1) (c 1)
donde:
= grados de libertad.
- Prueba de homogeneidad.
- Prueba de la independencia.
donde:
O= frecuencia observada.
E= frecuencia esperada.
Para una variable, los grados de libertad son el resultado de restar el nmero de
categoras menos uno.
En este contraste se suele rechazar la hiptesis nula (los valores observados son
coherentes con los esperados) cuando el estadstico es mayor que un determinado valor
crtico.
Es importante recalcar que el estadstico de prueba 2 se podr aproximar por una chi-
cuadrado cuando el tamao muestral n sea grande (n>30), y todas las frecuencias
esperadas sean iguales o mayores a 5 (en ocasiones, se debern agrupar varias
categoras con el fin de cumplir dicho requisito).
EJEMPLO
A: 104/4= 26
B: 104/2= 52
C: 104/4= 26
FRECUENCIA FRECUENCIA
CATEGORA (O-e)2/e
ESPERADA (E) OBSERVADA (O)
FUNDACIN UNIVERSITARIA IBEROAMERICANA
A 26 28 0,1538
B 52 49 0,1731
C 26 27 0,0385
En consecuencia:
Dado que 0,365 < 5,991 se acepta la hiptesis planteada y se concluye que
los datos corresponden a una proporcin de 1:2:1.
Se emplear el estadstico:
k 2
=
2 (Oi Ei )
con (r - 1) (c - 1) g.l.
i=1 Ei
donde:
O= frecuencia observada.
Es importante recalcar que el estadstico de prueba 2 se podr aproximar por una chi-
cuadrado cuando el tamao muestral n sea grande (n>30), y todas las frecuencias
esperadas sean iguales o mayores a 5 (en ocasiones, se debern agrupar varias
categoras con el fin de cumplir dicho requisito).
EJEMPLO
VLVULAS VLVULAS
TOTAL
DEFECTUOSAS CORRECTAS
Distribuidor 1 16 94 100
Distribuidor 2 24 76 100
Distribuidor 3 9 81 100
ser:
(49/300)*(100/300)= 0,0544
0,054300= 16,33
VLVULAS VLVULAS
TOTAL
DEFECTUOSAS CORRECTAS
(16 16,33)2 (24 16,33)2 (9 16,33)2 (94 83,66)2 (76 83,66)2 (81 83,66)2
2 = + + + + + = 8,96
16,33 16,33 16,33 83,66 83,66 83,66
Siendo el valor del estadstico por tablas: 2 0,05 (2)= 5,99 = (3-1)(2-1)=2
g.l.
Dado que 8,96 > 5,99 se concluye que no existe homogeneidad y, por tanto,
existen diferencias entre los tres distribuidores.
En este caso se trata de probar si dos variables tienen algn grado de relacin o son
completamente independientes. Es decir, estamos interesados en ver la relacin
existente entre dos variables de una misma poblacin.
EJEMPLO
Tratado 88 12 100
= (2-1)(2-1)=1 g.
A partir de una poblacin, podemos extraer diferentes muestras de tamao n con sus
respectivas medias. Si cada una de estas medias se considera como una variable
aleatoria, se puede estudiar su distribucin a la que se denominar distribucin muestral
de medias.
F I
N ,GH n
JK
- Si la poblacin no sigue una distribucin normal, pero n>30, se aplica el
denominado Teorema central del lmite, por el cual se asume que en estas
condiciones la distribucin muestral de medias se aproxima igualmente a una
normal.
EJEMPLO
Las notas de cierto examen se distribuyen segn una normal de media 5,8 y
desviacin tipo 2,4. Hallar la probabilidad de que la media de una muestra
tomada al azar de 16 estudiantes se encuentre comprendida entre 5 y 7.
x1 5 5,8
z1 = = = 1,33
0,6
x2 7 5,8
z2 = = =2
0,6
variable aleatoria toma nicamente dos valores diferentes (xito o fracaso), es decir,
sigue una distribucin binomial B (n,p), la cual se aproxima a la normal N(np,(npq)0,5)
cuando la extensin de la poblacin es grande.
F pq I
GH
N p,
n JK
donde:
q=1-p.
EJEMPLO
Al ser n> 30, la distribucin muestral sigue una ley normal N(0,03; 0,01).
p 0,025 0,03
z1 = = = 0,5
0,01
p 0,035 0,03
z2 = = = 0,5
0,01
- En cada prueba del experimento slo son posibles dos resultados mutuamente
excluyentes: el suceso A (xito) y su contrarioA (fracaso).
Todo experimento que tenga estas caractersticas diremos que sigue el modelo de la
Distribucin Binomial. A la variable X que expresa el nmero de xitos obtenidos en
cada prueba del experimento, la llamaremos variable aleatoria binomial.
La variable binomial es una variable aleatoria discreta, slo puede tomar los valores 0, 1,
2, 3, 4,..., n suponiendo que se han realizado n pruebas10. Como hay que considerar
todas las maneras posibles de obtener k-xitos y (n-k) fracasos, debemos calcular stas
por combinaciones (nmero combinatorio n sobre k).
p(X = k) =
FG nIJ p k
qn-k =
n!
p k qn-k
HkK k!(n - k)!
donde:
k= n de xitos 0 k n
n= n de pruebas.
p= probabilidad de xito 0 p 1
Existen tablas que proporcionan el clculo de las probabilidades para algunos valores de
n y p.
10. Si n=1 la funcin de probabilidad de la distribucin binomial se denomina funcin de distribucin de Bernouilli.
EJEMPLO
Una empresa recibe un envo grande de piezas de las cuales se revisan 10 para
saber su calidad. El fabricante establece que un mximo del 5% de las piezas
podrn salir defectuosas. Cul es la probabilidad de que la muestra incluya
una pieza defectuosa?
Se tiene:
p(X =k)=
FG10IJ 0,05 0,95
1 9
= 0,32
H 1K
Es decir, la probabilidad de que la muestra incluya una pieza defectuosa es del
32%.
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Dado que las tablas binomiales son limitadas, puede ocurrir que n est ms all de los
valores proporcionados por aqullas. En esta situacin, es necesario utilizar la
distribucin normal estndar para el clculo de las probabilidades binomiales.
= np
2= npq
= (n.p.q)0.5
p(X = k) =
FG 20IJ 0,40 5
0,615 = 0,075
H 5K
Es decir, la probabilidad de obtener exactamente 5 artculos defectuosos es del 7,5%.
= np= 200,4=8
Tipificando:
xi + 0,5) 5,5 8
z2 = = = 1,14
2,19
Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Captulo 6
ESTADSTICA
INFERENCIAL
FUNDACIN UNIVERSITARIA IBEROAMERICANA
6.1. INTRODUCCIN
Las pruebas de significancia estadstica nos permitirn conocer, por ejemplo, si las
diferencias encontradas entre dos muestras son reales, es decir, estn tambin
presentes en la poblacin o bien podran ser el resultado de un error de la muestra
aleatoria. Naturalmente, todo ello bajo una cierta incertidumbre probabilstica.
6.2.1. DEFINICIN
Se define como estimador una estadstica de muestra utilizada para obtener informacin
sobre un parmetro de la poblacin. Por ejemplo, la media muestral X es un estimador
de la media poblacional .
Las cualidades que debe reunir un buen estimador son las siguientes:
estimado.
- Eficiencia. La estimacin ms eficiente es aquella que tiene el error o desviacin
estndar ms pequeo de entre todos los estimadores imparciales. Por ejemplo,
supongamos que ante una muestra tenemos que decidir si utilizamos o no la
media de la muestra para estimar la media de la poblacin. Si calculamos el
error estndar de la media observamos que es igual a 1,05; si calculamos el
error estndar de la mediana, vemos que es igual a 1,6. En este caso, diramos
que la media de la muestra es un estimador ms eficiente de la media de la
poblacin que la mediana, ya que su error estndar es menor (con menos
variacin).
- Coherencia. Un estimador es coherente si al aumentar el tamao de la muestra,
se produce una estimacin con un error estndar ms pequeo. Un estimador
coherente se vuelve ms confiable si se tiene tamaos de muestra ms
grandes.
- Suficiencia. Un estimador suficiente extrae una cantidad de informacin de la
muestra que no la aporta cualquier otro estadstico sobre el parmetro de la
poblacin que se est estimando.
Por ejemplo, imaginemos una cadena de produccin de fichas blancas (B) y verdes (V).
Se considera la siguiente secuencia de produccin: BBBVVBVBVBBB. El nmero de
corridas ser R=7, n1= 8 (n de fichas blancas) y n2= 4 (n de fichas verdes).
El procedimiento es el siguiente:
2 n1 n2
R = +1
n1 + n2
2 n1 n2 (2 n1 n2 n1 n2)
R =
(n1 + n2)2 (n1 + n2 1)
5. Calcular:
R R
z =
R
6. Conclusiones.
As pues, el tamao de la muestra depende del nivel de confianza que se desee para los
resultados y de la amplitud del intervalo de confianza, es decir, del error mximo que se
est dispuesto a admitir, tal y como se ver a continuacin.
FG
n = z /2
IJ 2
H EK
Si se estiman proporciones:
E = z / 2
pq z
n = /2
FG IJ 2
p q
n E H K
EJEMPLO
F
n = Gz
I F
2
8I
J = G1,645 J
2
= 173
H /2
EK H 1K
En la estimacin por intervalo se calculan dos valores entre los que se encontrar el
parmetro, con un nivel de confianza fijado de antemano. De esta manera, se obtiene
un intervalo de confianza.
Por ejemplo, imaginemos que desconocemos la media poblacional de una cierta variable
que se desea estudiar. Se trata de sacar una muestra y obtener un intervalo (L1, L2) de
tal manera que se tenga una probabilidad (1-)% de que la media poblacional est en
ese intervalo.
El nivel de confianza del intervalo se fija de antemano. Se suele trabajar con 95%, 90%
LM x z s
,x + z
s OP
N n n Q
donde:
s= desviacin tpica.
n= tamao de la muestra.
Supongamos ahora el caso que queramos encontrar un intervalo (L1,L2), de forma que
tengamos una probabilidad alta (1-)% de que una proporcin de elementos p
desconocida en la poblacin y pertenecientes a una categora C se encuentren en dicho
intervalo.
^
np > 5
FG IJ ^
H K
n 1 p > 5
30<n 100
FUNDACIN UNIVERSITARIA IBEROAMERICANA
LM p
^
z
1 ^
,p+ z
1 OP
N 4n 4n Q
n>100
LM
^
^
p(1 p) ^
^ ^
p(1 p)
^ OP
MMp z n
, p+ z
n PP
N Q
donde:
EJEMPLO
Dado que las tablas con las que estamos trabajando nos proporcionan el valor
del rea entre el 0 y zi, hacemos:
0,5-0,025=0,475
Este es el valor del rea comprendida entre el 0 y zi. Para hallar zi buscamos en
las tablas dicho valor, y encontramos una zi= 1,96.
LM0,40 1,96 0,4 0,6; 0,4 + 1,96 0,4 0,6 OP = 0,36; 0,46
N 200 200 Q
En consecuencia, con una confianza del 95%, se puede decir que la proporcin
de todas las mujeres de la comunidad que usan el perfume de Colonias S.A es
de un 36% a un 46%.
6.3.1. INTRODUCCIN
Por ejemplo, tal y como se ha mencionado con anterioridad, una media muestral diferir
en valor de la media poblacional. Si el valor observado del estadstico se acerca al valor
del parmetro poblacional y solamente difiere en una cantidad que cabra esperar del
muestreo aleatorio, el valor hipottico no se rechaza. Si por el contrario, la estadstica
muestral difiere en un monto que no es posible atribuir al azar, la hiptesis se rechaza
por no verosmil.
La hiptesis emitida se designa por Ho y se denomina Hiptesis nula, ya que parte del
supuesto que las diferencias entre el valor verdadero del parmetro y el estimado son
debidas al azar, por tanto, no existe diferencia. Este sera el caso, por ejemplo, de
decidir si un procedimiento es mejor que otro. En esta situacin, se formulara la
hiptesis nula de que no hay diferencia entre ellos (es decir, cualquier diferencia
observada se debera simplemente a fluctuaciones en el muestreo de la misma
poblacin).
6.3.3. ERRORES EN EL CONTRASTE DE HIPTESIS
De aqu que si rechazamos una hiptesis cuando debiera ser aceptada, se est
cometiendo un error de tipo I, mientras que si se acepta cuando en realidad debera ser
rechazada, se est cometiendo un error de tipo II (tabla 6.1).
H0 VERDADERA H0 FALSA
Decisin incorrecta
Mantener H0 Decisin correcta
Error de tipo II
Decisin incorrecta
Rechazar H0 Decisin correcta
Error de tipo I
H 0: = 0
H1: 0
x 0
Z=
n
Acudiendo a las tablas, se observa que los valores crticos que dividen las regiones de
rechazo y no rechazo son +1,96 y -1,96.
EJEMPLO
H 0: = 6
H1: 6
Sustituyendo, se tiene:
X 0
Z= = 1
n
Dado que:
LM Z /2
, 0 + Z /2
OP
N 0
n nQ
Dado que 5,6 se encuentra dentro del intervalo, se puede aceptar igualmente la
hiptesis nula de que el dimetro de las roscas sea 6 con una probabilidad de
error del 5%.
X 0
Vexp =
s
n
Y el valor terico (V z), que es el valor que en la distribucin N(0,1) deja a su derecha
un rea /2 para un nivel de significacin .
H0: 0
H1: > 0
X LM, + z
OP
N 0
nQ
Y se rechazara cuando:
X LM , + z
OP
N 0
nQ
EJEMPLO
Una empresa fabrica perfiles de aluminio de 170 cm como mximo, con una
desviacin tipo de 8 cm. En una muestra de 100 perfiles se observa una
longitud de 172 cm. Se puede aceptar la hiptesis con un nivel de significacin
del 5%?
H0: 170
H1: > 170
LM, + z
OP = ; 170+1,645 0,8 = ; 171,32
N 0
nQ
172 -; 171,32
Se rechaza la hiptesis nula de que los perfiles de aluminio midan como mucho
170 cm.
X 0
t=
SX
donde:
s
SX =
EJEMPLO
Una empresa productora de lmparas quiere demostrar que la vida til de los
focos de la marca que fabrica es de 4200 horas, frente a la alternativa que
plantea la competencia de que su duracin es menor. Para ello, se sac una
muestra aleatoria de 10 lmparas cuyo ciclo medio de vida til era de 4000
horas con una desviacin estndar de s= 200 horas. Se supone que, en
general, el ciclo de vida til de los focos sigue una distribucin normal. El nivel
de significancia es del 5%.
H 0 : = 4200
H1: < 4200
Consultando las tablas para la t-student, se tiene que para =0,05 y n-1
grados de libertad, un valor de t crtico de -1,833.
s 200
SX = = = 63,3h
n 10
X 0 4000 4200
t= = = 3,16
SX 63,3
H 0: p = p 0
H1 : p p 0
b
P -z/2 z z/2 = 1 g
La zona de aceptacin se ilustra en la figura 6.4 y ser el intervalo:
LM p - Z
p q
, p + Z /2
p q OP
N /2
n n Q
LM
p p - Z /2
p q
, p + Z /2
p q OP
N n n Q
Y se rechazar cuando:
EJEMPLO
publicidad. Se tiene una muestra aleatoria de 100 individuos, de los cuales, 88
obtuvieron alivio al tomar el medicamento. Sera aconsejable en este caso
tomar niveles de significancia bajos, por ejemplo del 5%.
H 0 : p = 0 ,9
H 1 : p 0 ,9
Sustituyendo:
LMp - Z
p q
, p + Z /2
p q OP = 0 , 84 ; 0,95
N /2
n n Q
b
P z z = 1 g
La zona de aceptacin se ilustra en la figura 6.5 y ser el intervalo:
LMp - Z pq
, +
OP
FUNDACIN UNIVERSITARIA IBEROAMERICANA
N
n Q
LM
p p - Z
pq
, +
OP
N n Q
Y se rechazar cuando:
LM
p p - Z
pq
, +
OP
MN n PQ
EJEMPLO
H 0 : p 0,97
H 1 : p < 0,97
Sustituyendo:
LMp - Z
pq OP
, + = 0,95; +
N
n Q
0,96 0,95; +
Se acepta la hiptesis nula y, en consecuencia, el lote.
Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Captulo 7
IG U A L D A D E S T A D S T I C A
E N T RE D O S O M S
POBLACIONES
FUNDACIN UNIVERSITARIA IBEROAMERICANA
7.1. INTRODUCCIN
Es sabido que dos variables aleatorias X e Y son equivalentes si y slo si se cumple que
Fx ( z ) = Fy (z )
En funcin de los usos, existen diferentes pruebas a realizar para probar la igualdad
estadstica de poblaciones. Las principales y que trataremos aqu son:
Las pruebas referentes a la diferencia entre medias pueden ser bilaterales o unilaterales.
Z=
Sx1 x2
No obstante, si queremos probar la hiptesis nula, lo ms usual es suponer que las dos
muestras se han obtenido de poblaciones con igual media, por lo que se tiene:
(1 2 )0 = 0
Simplificando:
(X1 X2 )
Z=
Ox1 x2
(X1 X2 )
Z =
Sx1 x2
donde:
2 2
2 2 S1 S
S x1 S x2 = S x1 + S x2 = + 2
n1 n2
Supongamos ahora que no slo se supone que las medias muestrales se obtuvieron de
poblaciones con medias iguales, sino que, en realidad, tambin se obtuvieron de la
misma poblacin, entonces 1= 2= .
2 2
(n1 1 ) S 1 + (n 2 1 ) S 2
s$2 =
n1 + n 2 2
$2 $2
s$x1 x2 = +
n1 n2
EJEMPLO
empleados dio como resultado un salario medio de 270 euros con una
desviacin estndar de 10 euros. No se supone que las desviaciones estndar
de las dos poblaciones de montos sean iguales.
H 0 :( 1 2 ) = 0
H 1: ( 1 2 ) 0
Aplicando la frmula:
2 2
2 2 S1 S 142 102
Sx1 Sx2 = Sx1 + Sx2 = + 2 = + = 3,0
n1 n2 30 40
X1 X2 280 270
Z= = = 3,33
Sx1 Sx2 3
/ Z =0,05 / = 1,96
Las hiptesis que deben satisfacerse para poder aplicar la t-student con el fin de
comparar las medias de dos grupos son:
No es obligatorio que los tamaos de los grupos sean iguales, ni tampoco resulta
necesario conocer la dispersin de los dos grupos.
EJEMPLO
tambin se presume que sigue una distribucin normal, una muestra aleatoria
de 8 focos tiene una duracin media de 4300 horas y una desviacin estndar
de 250. Se prueba la hiptesis de que no existe ninguna diferencia entre el
ciclo medio de vida til de las dos marcas de focos con un nivel de significancia
del 1%. Se supone que se cumple la hiptesis de homocedasticidad.
H 0 :( 1 2 ) = 0
H1:( 1 2 ) 0
2 2
(n1 1) S1 + (n2 1) S2 (9) 2002 + (7) 2502
s$2 = = = 49843,75
n1 + n2 2 10 + 8 2
) )
s2 s2 4 9 8 4 3 ,7 5 4 9 8 4 3 ,7 5
s$x1 x2 = + = + = 1 0 5 ,9
n1 n2 10 8
X X2 4000 4300
t = )1 = = 2,833
x1 x2 105,9
Dado que en las tablas se tiene que la t crtica con = n1+n2-2= 16 g.l y
=0.01 es de 2,921 en valor absoluto, y que el valor -2,833, por tanto, se
H o : 21 = 2 2
m x{S 21;S 2 2 }
F =
obs
m in{S 21;S 2 2 }
donde:
Fobs= F de Snedecor.
donde:
- grados de libertad del numerador, m: tamao muestral del grupo con mayor
varianza muestral menos uno.
Existen infinidad de variables F, todas ellas positivas e identificadas por dos parmetros
m y n denominados grados de libertad. Estos parmetros son siempre enteros positivos.
EJEMPLO
Con aditivo
39 36 35 37 40 39 40 38 35 39
(kg)
Sin aditivo
43 45 42 35 37 38 33 38 41 43
(kg)
X1 = 37,8 X2 = 39,5
S 21 = 3,36 S 22 = 13,65
Dado que Fobs= 4,06 > F9; 9; 0,05= 3,178 se rechazara la hiptesis nula de
que las varianzas poblacionales son significativamente iguales.
varianzas. Por ese motivo, se recomienda que si los datos primarios no cumplen
ninguno de los dos supuestos, se utilice la transformacin y se trate de
asegurar, en primer lugar, la homocedasticidad. De hecho, la principal razn
para transformar los datos es para mejorar la homogeneidad de las varianzas y
no para resolver el problema de normalidad, ya que este ltimo es un problema
menor en ANOVA.
Aqu se recuerda que en casi todas las pruebas estadsticas para la toma de decisiones,
deben tenerse en cuenta las siguientes premisas:
4. Adems de ser homognea, cada poblacin debe distribuirse segn una normal.
5. Homogeneidad de las varianzas (Homocedasticidad).
Veremos a continuacin que estas premisas incluyen los supuestos que debern cumplir
las poblaciones para realizar e interpretar un anlisis de la varianza ANOVA.
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Aunque el anlisis de la varianza (ANOVA) tambin se puede emplear para analizar las
diferencias entre las medias de dos poblaciones, es un mtodo ms general que permite
H0: 1 = 2 = 3 = L = k
H1: al menos dos difieren
donde:
contrastar dicha hiptesis empleando esa distribucin.
Si en base a este contraste se rechaza la hiptesis de que MSE y MSA estimen la misma
varianza, se puede rechazar la hiptesis de que las k medias provengan de una misma
poblacin.
SUMA DE MEDIA
FUENTES DE
g.l CUADRADOS CUADRTICA F
VARIACIN
SS MS
Entre grupos
k-1 SSA SSA/(k-1) MSA/MSE
Tratamiento
Dentro de grupos
k(n-1) SSE SSE/k(n-1)
Error
EJEMPLO
la siguiente tabla:
Poblacin 1 2 3 1 3 1 10 2
Poblacin 2 3 4 3 5 0 15 3
Poblacin 3 5 5 5 3 2 20 4
Media principal 3
H0 : 1 = 2 = 3
H1: al menos dos de las medidas difieren
Para rellenar la tabla ANOVA hemos de calcular la suma de los cuadrados entre
grupos SSA y dentro de los grupos SSE.
Calculo de SSA
Se calcula procurando que todos los valores adquieran el valor que tendran si a
sus respectivas medias les restasen (en valor absoluto) la magnitud de la media
principal.
MUESTRA SUMA
Poblacin 1 1 1 1 1 1 5
Poblacin 2 0 0 0 0 0 0
Poblacin 3 1 1 1 1 1 5
Total SSA 10
Clculo de SSE
MUESTRA SUMA
Poblacin 1 0 1 1 1 1 4
Poblacin 2 0 1 0 4 9 14
Poblacin 3 1 1 1 1 4 8
Total SSE 26
Tabla ANOVA
SUMA DE MEDIA
FUENTES DE
g.l CUADRADOS CUADRTICA F
VARIACIN
SS MS
Entre grupos
2 10 5 2,30
Tratamiento
Dentro de grupos
12 26 2,17
Error
Total 14 36
Como quiera que 2,30 < 3,89, no existen evidencias suficientes para rechazar
la hiptesis nula, aceptando que no hay diferencias entre las medias de las
poblaciones.
Esta prueba estadstica, que no tiene nada que ver con la F de Snedecor, se emplea
para someter a prueba la hiptesis:
H0: 21 = 22 = 23
El procedimiento es el siguiente:
EJEMPLO
Los valores obtenidos en el lago del posible vertido parecen ser ms altos que
en los obtenidos en los otros tres. Se considera esta diferencia lo
suficientemente importante como para concluir que el nivel de nitratos del lago
1 es diferente al de los dems y que, por tanto, est contaminado?
Este sera un problema de ANOVA, sin embargo, aqu lo que nos interesa es
comprobar la homogeneidad de varianzas por la prueba de la Fmax.
S2 mayor 0,6
F mx = = = 3,047
2
S menor 0,1969
Dado que para 3 grados de libertad a un =0,05, la Fmax. crtica = 6,6 > 3,047
se aceptara la hiptesis nula de homogeneidad de varianzas.
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Captulo 8
CORRELACIN
Y RE G RE S I N
FUNDACIN UNIVERSITARIA IBEROAMERICANA
elementos grandes de Y.
Tabla 8.1. Algunos datos basados en el Censo Demogrfico de 2000, de una muestra aleatoria de
1. Se est utilizando una muestra bastante pequea para ilustrar las tcnicas. Se podra hacer un estudio ms detallado
tomando toda la poblacin de todos y cada uno de los municipios, ya que estos datos estn disponibles en el Censo
Demogrfico de 2000 incluido en el Atlas de Desarrollo Humano (http://www.pnud.org.br/atlas).
2. Fuente: Atlas de Desarrollo Humano (http://www.pnud.org.br/atlas).
Figura 8.1: Construccin de un diagrama de dispersin. Representacin de las tres primeras observaciones
de X (distancia a la capital) y de Y (esperanza de vida al nacer) referente a los datos de la
tabla 8.1.
Figura 8.2: Algunos diagramas de dispersin construidos a partir de los datos de la tabla 8.1.
El diagrama (b) de la figura 8.2 muestra una situacin de correlacin positiva, ya que los
puntos estn en torno a una lnea imaginaria ascendente. En general, valores pequeos
de una variable tambin lo son en la otra, y lo mismo acontece para grandes valores.
Los diagramas (a) y (c) muestran correlaciones negativas porque, en ambos casos, los
puntos estn entorno a una lnea imaginaria descendente. En general, valores pequeos
de una variable se corresponden con grandes en la otra. En (c) los puntos se presentan
ms prximos a una lnea descendente que en (a), lo que caracteriza una correlacin
ms fuerte.
La figura 8.3 muestra un conjunto de puntos que se aproxima ms a una parbola que a
una recta, ilustrando un caso de correlacin no lineal. La interpretacin de las
correlaciones no lineales es ms difcil y no ser objeto de este documento.
Con el fin de evitar la influencia de las unidades de medida, debe procederse a realizar
un cambio de variable (tipificar) tal que:
x X yY
x = y =
Sx Sy
FUNDACIN UNIVERSITARIA IBEROAMERICANA
donde:
(x y )
r =
n 1
donde:
x y x y xy
(x y ) 6,87
r= = = 0,981
n 1 7
x y x y xy
(x y) 6,87
r= = = 0,981
n 1 7
8.3.1. CLCULO DE R
n . ( X . Y ) ( X ). ( Y )
r =
n. X 2 ( X ) 2 . n. Y 2 ( y ) 2
Para ilustrar esta expresin, vamos a rehacer el ejemplo de correlacin lineal positiva
visto con anterioridad:
8(447) (40).(80)
r= =
8(228) (40)2. 8(882) (80)2
376 376
= = = 0,981
224. 656 383,33
Como era de esperar, el valor es el mismo, ya que las frmulas son matemticamente
equivalentes.
El trmino regresin surge a finales del siglo XIX de los trabajos de Galton. Dichos
trabajos procuraban explicar ciertas caractersticas de un individuo a partir de las
caractersticas de sus familiares. Por ejemplo, Galton afirmaba que los hijos de padres
que tenan alguna caracterstica determinada, tambin posean esta caracterstica,
aunque con menor intensidad que stos ltimos en promedio.
X Y X Y X Y X Y
Tabla 8.4. Relacin de alturas de diversos individuos (Y) y alturas medias de sus padres (X), medidas en
centmetros.
Fuente: Stigler (1986, p. 286)3.
Si trazamos una recta ascendente por la nube de puntos, se observa una tendencia a
que los hijos de padres altos tengan alturas inferiores a la media de sus padres, mientras
que los hijos de padres bajos tienen alturas superiores a la media de sus padres.
Este ejemplo se distingue de los anteriores por suponer una relacin de causalidad entre
X e Y, descrita en trminos de una relacin matemtica. Es esta la diferencia bsica
entre un estudio de correlacin y un anlisis de regresin. La aplicacin de un anlisis de
regresin se realiza sobre un referencial terico que justifique una relacin matemtica
de causalidad.
3. Stigler, S. M. The history of statistics: the mensurement of uncertainty before 1900. USA, Harward, 1986.
Memoria RAM del computador (gb) Tiempo de respuesta del sistema (segundos)
Simplificaremos esta dependencia por una relacin lineal entre X e Y tal que:
y = + . x
Si fijamos valores para a y b, la ecuacin y=a+bx es la ecuacin de una recta. Por
ejemplo, si a=1 y b=2, la ecuacin y= 1+2x representa una recta en unos ejes
cartesianos (figura 8.9).
y = + x +
donde:
y$ = a + bx
n. ( X . Y ) ( X ) . ( Y ) Y b. X
b = a =
n. X 2 ( X )2 n
donde:
169 171 28.561 28.899
169 166 28.561 28.054
171 171 29.241 29.241
173 171 29.929 29.583
173 178 29.929 30.794
176 173 30.976 30.448
178 178 31.684 31.684
X = 1.539 Y = 1.540 X2 = 263.333 (X.Y) = 263.483
Tabla 8.6. Parte de las observaciones de la tabla 8.4 y clculos intermedios para la obtencin de la recta
de regresin.
4. La obtencin de la ecuacin de regresin por el mtodo de los mnimos cuadrados consiste en hacer que la suma
cuadrtica de los efectos aleatorios, E2, sea lo menor posible. La solucin de este problema matemtico genera las
expresiones de a y b citadas.
y$ = 22 + 0,872 x
Con el fin de trazar la recta de regresin en el plano formado por los ejes X e Y, basta
con dar un par de valores que cumplan (figura 8.11).
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Resumen
FUNDACIN UNIVERSITARIA IBEROAMERICANA
Janeiro, Brasil.
[6] Selltiz, Wrightsman, Cook. (1987). Mtodos de investigacin en las
relaciones sociales. 4 ed. EPU. So Paulo, Brasil.
[7] Stevenson, W. J. (1981). Estadstica aplicada a la administracin. Harbra.
So Paulo, Brasil.
[8] Stigler, S. M. (1986). The history of statistics: the measurement of
uncertainty before 1900. Harvard University Press. Cambridge, MA.
[9] Triola, M. F. (1999). Introduccin a la estadstica. LTC. Rio de Janeiro,
Brasil.