Sie sind auf Seite 1von 132

3.

Variables aleatorias y modelos probabilsticos (1)


VARIABLES ALEATORIAS Y MODELOS PROBABILISTICOS

La Estadstica Descriptiva es una clara demostracin del porqu se deca que la computacin (y por tanto el computador) era una herramienta de apoyo ( y de clculo). Y vaya que s lo es. Hemos visto pasar por el programa Minitab toda la Estadstica Descriptiva. Hemos desarrollado parte de las bondades de este programa para realizar un anlisis de datos descriptivos. Las variables aleatorias constituyen el fundamento de la Estadstica Inferencial. Los modelos matemticos que determinan el comportamiento poblacional de ciertos fenmenos aleatorios, son construidos en base a las variables aleatorias. El programa Minitab es entonces una herramienta eficaz para simular este comportamiento, construyendo escenarios hipotticos o supuestos tericos, que se sustentan en el comportamiento poblacional en el pasado. Por ello el objetivo de este captulo es estudiar las variables aleatorias y los modelos de probabilidad discretos y continuos. Objetivo es tambin utilizar el Minitab para la solucin de todos los problemas de los modelos probabilsticos. En este captulo desarrollaremos los siguientes temas: 1. 2. 3. 4. 5. 6. 7. 8. 9. Conceptos de Variables Aleatorias discretas y continuas El Minitab y las variables aleatorias Distribucin Binomial. Distribucin Hipergeomtrica Distribucin Geomtrica Distribucin de Poisson Distribucin Uniforme Distribucin Exponencial Distribucin Normal

10. Distribucin Gamma

1. Conceptos de Variables Aleatorias discretas y continuas


Una variable aleatoria se define como una funcin que hace corresponder nmeros reales a elementos del Espacio Muestral. Una variable aleatoria puede ser discreta o continua. Dependiendo del tipo de experimento o fenmeno podemos hablar de modelos de probabilidad, algunos de los cuales son muy comunes.

Sea x un Experimento, Ensayo o Fenmeno Aleatorio. Sea W el Espacio Muestral asociado al experimento x formado por todos los posibles resultados de la realizacin de dicho experimento. Se dice que X es una Variable Aleatoria, a una funcin tal que, para cada elemento w del espacio muestral W, le hace corresponder el elemento x del Espacio Rango Una variable aleatoria puede ser Discreta o Continua. tal que x = X(w).

A) Variable Aleatoria Discreta


En el caso discreto se define a p(x) como la funcin de probabilidad de X si a) b) Observaciones 1. 2. p(2) = P(X = 2) es la probabilidad de que la variable aleatoria X tome el valor 2 P(X = x1 X = x2 ) = P(X = x1 ) + P(X = x2) p(x) 0

3. 4. La Funcin de Distribucin Acumulada de X es F, definida por

5. 6. 7.

P(X > x ) = 1 P(X x ) = 1 F(x) P(X < r ) = P(X r ) P(X = r) = F(r) p(r) P(a X b) = P(X b ) P(X a ) = F(b) F(a)

8.

Del mismo modo, dado F, se puede hallar p(x) tal que

p(x) = P(X x ) - P(X x - 1 ) = F(x) - F(x-1)

9.

3. Variables aleatorias y modelos probabilsticos (2)


B) Variable Aleatoria Continua
En el caso continuo se define a f como la funcin de densidad de probabilidad de X si f(x) 0

Observaciones

1. 2. Si F es la funcin de distribucin acumulada de X entonces

F(x) = P(X x) =

3. 4. 5.

De manera que P(a X b) = F(b) F(a) P(X > x) = 1 P(X x) = 1 F(x) P(a < X < b ) = P(a X < b) = P(a < X b) = P( a X b)

6.

De manera que

C) Esperanza matemtica o valor esperado


Caso discreto: E(X) es la Esperanza o Valor Esperado de la variable X y se define como

Caso continuo: Si X es una variable aleatoria continua entonces su esperanza se define como

Nota: 1. 2. m = E(X) El valor esperado de una variable aleatoria es el valor que se espera que ocurra. Virtualmente

es un valor promedio de un conjunto de valores de X, que a diferencia de la media aritmtica, estos valores an no han ocurrido. Es desde este punto de vista, una media terica. La media aritmtica es el valor promedio de un conjunto finito de valores de una muestra de tamao n. Esa muestra es una parte de una determinada poblacin, cuyo comportamiento est definido por X. Si X representa a todos los posibles valores que puede tomar los elementos de la poblacin(Espacio Muestral), es lgico afirmar que X defina el comportamiento de la poblacin de donde proviene. Por ello se dice que la media o valor esperado de X constituye la media terica o media poblacional. Este valor no se calcula, se estima a partir de la media muestral.

D) Varianza de una variable aleatoria


V(X) es la varianza de X y se define como

Nota: 1. 2. 3. media. Nota: Para usar el Minitab debemos tener los valores de la variable aleatoria X y su correspondiente funcin de probabilidad p(x). En una columna se ingresar el rango de X y en otra los valores de la funcin de probabilidad para cada valor de X. A partir de la cual, se puede obtener la distribucin acumulada o la probabilidad de cualquier evento. Esto ser diferente si X tiene una distribucin conocida, como lo veremos ms adelante. s = V(X) es la Desviacin Estndar de X La desviacin s representa la cantidad de desvo que experimenta la variable respecto de su

3. Variables aleatorias y modelos probabilsticos (3)

2. El Minitab y las Variables Aleatorias


Si bien podemos ingresar desde el teclado a una columna los valores que toma una variable aleatoria, el programa Minitab dispone de la opcin <Make Patterned Data> del comando <Calc> para generar una secuencia de valores que podramos suponer, son los valores que toma una variable aleatoria. Al ingresar por esta secuencia, podemos disponer de otras opciones que nos permitirn generar los valores de la variable X. Estas opciones se muestran en la presente figura. Ejemplo: Supongamos que la variable aleatoria X toma valores 0, 1, 2, ..., 12. Podemos usar la siguiente secuencia: <Calc> - <Make Patterned Data> - <Simple Set of Numbers ...>

A continuacin obtenemos la ventana que se muestra en la siguiente figura.

En <Store patterned data in:> debemos ingresar la columna donde queremos guardar los valores de X, podra ser C1. En este caso digitaremos C1 En <From first values> ingresamos 0 ya que es el valor inicial de X En <To last values> ingresamos 12, ltimo valor de X. Luego <Ok> Definir la distribucin de probabilidad p(x): El Minitab dispone tambin de la opcin <Probability Distributions ...> del comando <Calc> para resolver varias cuestiones relacionadas con la distribucin de probabilidades de X. La siguiente figura muestra la importancia que tiene esta opcin para el tema que estamos desarrollando en el presente captulo. En primer lugar la franja azul, en el lado derecho indica que podemos usar la opcin <Discrete> para generar en una columna, una distribucin de probabilidad para valores de X. El uso de la opcin <Probability Distributions> nos permite resolver todo tipo de problemas de probabilidad cuando la variable tiene una distribucin conocida sea Binomial, Poisson, Uniforme, Normal, F, Chi Cuadrado, F, etc.

Nota: Cuando la distribucin de probabilidad de la variable no es conocida, ingresaremos los valores de la variable X y a continuacin en otra columna, sus respectivos valores de probabilidad. Luego de seleccionar una de estas opciones, pasaremos a una ventana como la que se muestra en la siguiente figura:

Y, cmo haremos en los casos en las que no se disponga de una columna de valores de F(x) en el cual se tenga P( X x ) = F(x) obtener valores probabilsticos?. y queremos algunos

3. Variables aleatorias y modelos probabilsticos (4)


La siguiente secuencia ser lo que hagamos a partir de ahora, cada vez que tengamos que encontrar una determinada probabilidad sea para un valor puntual o usando la distribucin acumulada. <Calc> - <Probability Distributions> Para los casos en los que la distribucin no es conocida, haremos clic en la opcin <Discrete>, tambin pasando a una ventana similar a la que se muestra en la figura anterior. La siguiente nota regir para todo tipo de distribucin de probabilidad y para los diversos clculos que queramos realizar en ella. Nota respecto a esta ventana: 1. 2. 3. 4. 5. 6. Para obtener p(k) = P(X = k), activaremos <Probability> Para obtener F(k) = P(X k ), activaremos <Cumulative probability> Para obtener k tal que P(X k ) = p, donde p es conocida, activaremos la opcin <Inverse Para 1 y 2 usaremos <Input constant:> donde ingresaremos valor de k Para 3 usaremos <Input constant: > donde ingresaremos el valor de p. Usaremos <Input column: > toda vez que querramos obtener la distribucin de probabilidad

cumulative probability>. Esto permitir obtener k.

segn 1, 2 3.

7. 8.

Si lo anterior se desea guardar en una columna, se usar <Optional storage>. Las opciones <Values in: > y <Probability in: > variar segn las distribuciones. En los casos

conocidos, stos requerirn los parmetros de la distribucin.

Ejemplo 1
Una empresa dedicada a la venta de equipos informticos puede vender diariamente hasta 6 equipos. Sea X es una variable aleatoria que representa el nmero de equipos vendidos diariamente, con funcin de probabilidad definida por X p(x) a) b) c) d) e) i) ii) iii) iv) v) Solucin Ante todo, definamos a la columna C1 como X, a la columna C2 como p(x) = P(X = x) y a la columna C3 como F(x) . Ahora ingresemos los valores de X en C1; y en C2, los valores de p(x). a) El Minitab no dispone de un comando para obtener la distribucin acumulada cuando la funcin de probabilidad no es conocida. Por ello para obtener F(x) ingresaremos los valores directamente desde el teclado Esto se muestra en la siguiente figura. 0 0.10 1 0.15 2 0.20 3 0.25 4 0.20 5 0.06 6 0.04

Obtenga la distribucin acumulada de X Construya la grfica de la funcin de probabilidad de p(x) y F(x) Cul es la probabilidad de que X sea, a lo ms, igual a 4? Encuentre el valor esperado y la varianza de X Si Y = 3X 2, obtenga La distribucin de probabilidad de Y La distribucin acumulada de Y El valor esperado y la varianza de Y El coeficiente de variacin de Y La grfica de la funcin de probabilidad de Y

3. Variables aleatorias y modelos probabilsticos (5)


b) Grfica de p(x):

Para obtener una grfica similar a lo que se acostumbra tener cuando no se dispone de un computador, trazaremos un grfico de tipo Plot. Colocaremos la variable X en el eje X y p(x) estar en el eje Y. Esto lo hacemos usando la siguiente secuencia: <Graph> - <ScatterPlot> <En Y: C2 > <En X: C1> Para obtener un grfico similar a lo acostumbrado, debemos seleccionar en <Data View > activar Symbol y Project Line. Luego hacemos clic en <Ok> Use el botn derecho para usar Data Labels El grfico se muestra en la figura de la derecha. Grfica de F(x): En este caso usaremos la opcin <Conect Line> de <Data View>, quitando las otras opciones.

c)

Que la probabilidad sea, a lo ms, igual a 4, significa que X 4. Esto significa que debemos

encontrar P(X 4). Como P(X 4) = F(4), ser suficiente observar que la columna de F(x) en la fila 5, donde X = 4, contiene el valor pedido; es decir P(X 4 ) = 0.90. Usando comandos, tenemos: <Calc> - <Probability Distributions> Hacemos clic en la opcin <Discrete>, con lo cual pasamos a otra ventana, que se muestra en la siguiente figura:

Activamos <Cumulative probability > Puesto que los valores de la variable X estn en la columna C1, en <Values in:> ingresamos C1. Del mismo ingresaremos C2 <Probability in:> Finalmente, puesto que buscamos P(X 4) ingresamos 4 en <Input constant> Luego de hacer clic en < Ok > obtendremos el resultado en la ventana de Sesin. modo en

3. Variables aleatorias y modelos probabilsticos (6)


e) Para obtener el valor esperado de X usaremos la calculadora ( <Calculator> ) , opcin del comando <Calc>.

Puesto que el valor esperado E[X] se define como

podemos sumar el producto de la columna C1 por C2 usando la funcin Sum de la calculadora.


De manera que en la ventana anterior, en <Store result in variable> debemos ingresar una columna o nombre de una variable donde almacenar el resultado. En la figura anterior se ha digitado pepe.

En <Expression > ingresamos la suma de c1 por c2; es decir, SUM(C1*C2). Esto nos dar el valor de E[X] = 2.64. Puesto que la varianza V[X] se define como

V[X] = E[X] (E[X]) = podemos usar la expresin SUM(C1*C1*C2) (SUM(C1*C2))**2

Y almacenarlo, por ejemplo en V[X]

La figura de la derecha muestra los resultados

f)

Para resolver las preguntas aqu formuladas:

Vamos a ingresar nombre a las columnas C6, C7 y C8: Ingresemos Y en la columna C6; p(y) en C7; F(y) en C8; E[Y] en C9 y V[Y] en C10. Usaremos <Calc> - <Calculator>: Para calcular los valores de Y; la funcin de probabilidad y la distribucin acumulada de Y, ingresaremos las siguientes expresiones mediante la calculadora: Para Y : 3*C1 2

i) Para p(y) : es la misma que p(x)) ii) Para F(y) :

C2

(Recuerde que en el caso discreto la distribucin

Ingresamos directamente desde el teclado SUM(C6*C7)

iii) Para obtener la Media de Y, E[Y]:

Para obtener la Varianza de Y, V[Y] debemos ingresar: SUM(C6*C6*C7) (SUM(C6*C7))**2 Los resultados se muestran en la siguiente figura

iv) Ahora el coeficiente de variacin: Usando la calculadora ingresamos la expresin SQRT(C9(4))/C9(1) v) La siguiente figura muestra la grfica de la distribucin de probabilidad de Y

3. Variables aleatorias y modelos probabilsticos (7)

Ejemplo 2
Una variable X tiene por funcin de distribucin acumulada a

Obtenga una grfica de F Solucin Generamos 100 valores para X en la columna C1. Para ello usaremos

<Calc> - <Make Patterned data> - <Simple Set of Numbers> Ingresamos como valor inicial, 0; como valor final, 10. En <In Steps of> debemos ingresar 0.1, que sern los incrementos Luego hacemos clic en <Ok> Ahora usaremos la calculadora para almacenar en C2, F(x). Esto lo haremos ingresando la expresin: 1 (1/2)**(C1+1) Para construir la grfica de F(x) usaremos <Plot>, usando la siguiente secuencia:

<Graph> - <ScatterPlot>. Ingresamos la columna C1 para la columna X y C2 para la columna Y. En <Dadat View> seleccionamos <Connect> Luego haga clic en <Ok>, con lo cual obtendremos la grfica de F, la que se muestra a continuacin.

3. Variables aleatorias y modelos probabilsticos (8)


3. Distribucin Binomial

Esta es una delas distribuciones ms conocidas y utilizadas en el grupo de las distribuciones discretas, por cuanto muchos experimentos o fenmenos que se presentan en el mundo real tienen este comportamiento. Cuando se lanza una moneda, cuando se pregunta si una persona apoya a su presidente, cuando afirmamos que El 75% de los ingresos de los trabajadores se destinan a alimentacin, etc. estamos frente a una poblacin formada por dos grupos: Los que poseen una propiedad y los que no la poseen. De manera que, cuando se extrae un elemento de la misma, ste puede pertenecer al grupo que posee la caracterstica, o no. Muchas otras distribuciones se apoyan en la distribucin binomial.

Definicin Sea X una variable aleatoria discreta. Si se define a X como el Nmero de veces que ocurre xito, con p la probabilidad de xito, al realizar n veces un ensayo que cumple con las condiciones de un Ensayo de Bernoulli, entonces diremos que X tiene distribucin Binomial, con parmetros n y p; lo que se indica por X B(n, p). La distribucin de probabilidad de X viene dada por

Observaciones:

1. Cada repeticin del experimento se realiza con reposicin. (p es constante). 2. La distribucin acumulada de X es 3. La media o esperanza de X es X = E(X) = np y la varianza X = np(1-p)
Comentario: Por qu decimos que cuando se realiza el experimento la probabilidad de xito es constante:

Supongamos que se tiene una urna conteniendo 8 bolillas blancas y 6 bolillas rojas. Se extrae dos bolillas, una despus de otra. Suponga que estamos interesados en obtener bolilla blanca. La probabilidad de que la primera bolilla extrada sea blanca es 8/14. Si la primera bolilla extrada es blanca y sta no se devuelve (sin reposicin), la urna tiene slo 7 de un total de 13, luego la probabilidad de que la segunda sea blanca, es 7/13. Como se ve, la probabilidad de xito ha cambiado, no es constante. Por el contrario, si la primera bolilla extrada se devuelve a la urna (con reposicin), la probabilidad de que la segunda sea blanca es 8/14. En este caso, la probabilidad de xito sigue siendo constante. Es esto lo que ocurre en el caso de una variable binomial. Binomial con Minitab El Minitab permite resolver problemas de variables aleatorias que tienen una distribucin binomial. Podemos generar datos aleatorios que tengan Distribucin Binomial para lo cual usamos <Calc> - <Random Data> - <Binomial>

3. Variables aleatorias y modelos probabilsticos (9)


Experimento: Comprobemos, por aproximacin, de que E[X] = np Se lanza una moneda 400 veces. Sea X la variable aleatoria definida como El nmero de veces que sale cara. Puesto que X es una variable binomial, los valores que pueda tomar sern 0, 1, 2, ... , 400. Generemos entonces 400 valores binomiales para X usando: <Calc> - <Random Data> - <Binomial>

En <Numbers of rows to generate> ingresamos 400 para indicar que queremos 400 valores de la variable. En <Store in columns> ingresamos la columna C1 En <Number of trials> ingresamos 400 En <Probability of success> ingresamos 0.5 (que es la probabilidad de que salga cara). Al hacer clic en <Ok> obtendremos los valores para X.

Calculemos la media aritmtica de estos 400 datos. Para ello usamos <Calc> - <Calculator> En <Store result in variable> ingresamos una columna cualquiera o el nombre de una variable, por ejemplo Carlos. En este caso Minitab ingresar el resultado en la siguiente columna libre En <Expression> ingresamos AVERAGE(C1) Luego hacemos clic en <Ok> En mi caso este valor es 198.903 Tericamente sabemos que E[X] = np = 400 (0.5) = 200 Seguramente si aumentamos n, la aproximacin ser mayor. Nota: He probado con n = 2000. El promedio obtenido es 1000.3. El terico es 1000. ?. Igualmente podemos construir la distribucin Binomial para una columna en la cual se encuentran los valores de la variable. Es decir, si se define a X como el Nmero de xitos obtenidos al repetir un ensayo n veces, teniendo como p la probabilidad de xito, entonces los valores de X sern 0, 1, 2, ..., n. Estos valores pueden ser ingresados o generados en la columna C1. Para obtener la distribucin de probabilidades en la columna C2, usamos la secuencia: <Calc> - <Probability Distribution> - <Binomial> .

A continuacin disponemos de la siguiente ventana que se muestra en la figura En esta ventana p(x) Activar <Cumulative probability> para trabajar con la distribucin acumulada Activar <Inverse cumulative probability> para hallar K, tal que P(X K) = p. En el recuadro <Number of trials> ingresar el valor de n. En el recuadro <Probability of success> ingresar p. Usaremos <Input column> si deseamos generar la distribucin de probabilidad En <Optional storage> ingresaremos la columna donde queremos los valores de la Activar <Probability> para trabajar con la distribucin de

distribucin. Si slo deseamos obtener la probabilidad para un determinado evento, P(X = k) el valor de F(a) = P(X a), usaremos la opcin <Input constant>, habiendo activado <Probability> para P(X = k) y <Cumulative probability> para P(X a). Si se desea obtener el valor de a tal que P(X a) = p, entonces usaremos <Input constant>, habiendo activado <Inverse cumulative probability>. Finalmente haremos clic en <Ok>. Si se trata de obtener la distribucin acumulada, se debe seleccionar <Cumulative probability> en lugar de <Probability>. En algunos problemas se debe encontrar un valor de k tal que P(X k ) = a. En ese caso se puede usar la opcin <Inverse cumulative probability> ingresando el valor de la probabilidad, a en el espacio <Input constant>

3. Variables aleatorias y modelos probabilsticos (10)

Ejemplo 3
Los registros de una pequea compaa de servicios indican que el 40% de las facturas que envan son pagadas despus de la fecha de vencimiento. Construya la distribucin de probabilidad del nmero de facturas pagadas despus de la fecha de vencimiento. Si se envan 14 facturas, cul es la probabilidad de que a) b) c) ninguna se pague con retraso? cuando menos dos se paguen con retraso? a lo ms, 12 se paguen sin retraso?

Solucin Sea X la v.a. definida como El nmero de facturas pagadas despus de la fecha de vencimiento. Primero obtendremos la distribucin de probabilidad de X.

Paso 1: Generamos valores de 0 a 14 en la columna C1, estos sern los valores de X; usando <Calc>-<Make patterned data> - <Simple of set numbers> ...

Paso 2: Puesto que p = 0.40, construiremos la distribucin binomial en C2, usando la secuencia: <Calc> - <Probability Distributions> - <Binomial> -...

Completamos la informacin requerida en la ventana de acuerdo a la figura anterior. Paso 3: Repita el Paso 2, pero ahora en C3, y activando la opcin Cumulative ... Los resultados que se obtengan se visualizan en la siguiente figura Responderemos ahora a las preguntas formuladas a) b) Se pide P(X = 0) lo que se encuentra en C2(1) Se pide P(X 2).

Usando la acumulada, P(X 2) = 1 P(X 1) = 1-0.00810 = 0.99190 c) A lo ms 12 se paguen sin retraso es equivalente a Por lo menos 2 se pagan con retraso.

De esta forma, P( A lo ms 12 se paguen sin retraso)=P(Por lo menos 2 se pagan con retraso) Luego P( X 2 ) = 1 P(X < 2) = 1 p(0) p(1) = 0.991902 Otra forma: Si la Si la probabilidad de que se pague con retraso es 0.40, entonces 0.60 ser la probabilidad de que se pague sin retraso. Si definimos a Y como el nmero de facturas que se paga sin retraso, con r = 0.60, su probabilidad de xito, entonces P(Y 12) = 0.9919; se usar los pasos anteriores con p = 0.60

3. Variables aleatorias y modelos probabilsticos (11)


Ejemplo 4
La produccin diaria de un determinado cosmtico de los Laboratorios MISAB proviene de dos mquinas A y B. La antigedad de la mquina B le permite producir el doble de cosmticos que la mquina A. Sin embargo, el 10% de los cosmticos defectuosos, provienen de la mquina B, mientras que de A provienen slo el 5%. Una venta particular involucra 4 cosmticos seleccionados aleatoriamente del lote de produccin de un da(tomando en cuenta la produccin de ambas mquinas). Si definimos a Y como el nmero de cosmticos defectuosos encontrados en esta venta y si definimos a C = 3Y - 9Y + 2, como el costo de prdida (en soles) por los cosmticos defectuosos en esta venta; a) b) Encuentre el valor esperado de este costo Calcule la probabilidad de que el costo de prdida sea inferior a 2 soles.

Solucin Segn el problema, Sea Y: Nmero de cosmticos defectuosos en el grupo de 4.

P(A) =1/3 P(B)=2/3 P(D/A)=0.05 P(D/B)=0.10

Aqu n = 4.

Y tiene distribucin binomial con p la probabilidad de xito. Clculo de p : El diagrama anterior nos releva de mayores comentarios

p = P(A)P(D/A) + P(B)P(D/B) = 0.25/3 = 0.08333

a)

Ejecute los siguientes pasos

Paso 1: Usando <Calc> - <Make patterned data>, generar los valores de Y: 0, 1, 2, 3, 4 ya que n = 4 en la columna C1 Paso 2: Usando <Calc> - <Probability distributions> - <Binomial> y sabiendo que n = 4 y p = 0.25/3, generamos la distribucin de probabilidad de Y, en C2 Paso 3: Usando <Calc> - <Make patterned data> generamos la columna C tal que C = 3Y - 9Y + 2 en la columna C3 Paso 4: Usando la calculadora e ingresando en <Expression> C2, obtenemos la distribucin de C, en la columna C4 Paso 5: Usando la calculadora e ingresando en <Expression> SUM(C3*C4), obtenemos el costo esperado de C e igual a 2.91666 Ahora resolvemos la pregunta b: b) La probabilidad de que el costo de prdida sea inferior a 2 soles es P(C < 2). Al reemplazar C

por 3Y- 9Y + 2 obtenemos P(3Y - 9Y < 0 ) 3Y - 9Y < 0 3Y(Y 3) < 0 Y 3 < 0 Y < 3 Y 2 Luego P( C < 2 ) = P ( Y 2 ). Usando <Calc> - <Probability distributions> - <Binomial> Activamos <Cumulative probability> Ingresamos 4 en <Number of trials>. En <Probabilty success> ingresamos 0.08333 En <Input constant> ingresamos 2 Luego hacemos clic en <Ok>

3. Variables aleatorias y modelos probabilsticos (12)

4. Distribucin Hipergeomtrica

Este es otro de los modelos contrario al modelo Binomial. Si en este los resultados del experimento son independientes uno de otro, en el caso de una Distribucin Hipergeomtrica los resultados siguientes dependen de los anteriores. Esto ocurre ya que el experimento o fenmeno se realiza sin reposicin. Por esta razn, la variable aleatoria definida como el nmero de xitos obtenidos tiene una distribucin Hipergeomtrica. Definicin Suponga que una cierta poblacin de tamao N, contiene m elementos que poseen determinado atributo o caracterstica. Suponga tambin que de esta poblacin se desea extraer sin reposicin una muestra de n elementos y estamos interesados en saber el nmero de elementos en la muestra que poseen dicho atributo o caracterstica. Si definimos a X como el nmero de elementos con dicho atributo, la probabilidad de obtener xito (que posea dicho atributo) en la primera ser m/N, la probabilidad de que el segundo tambin sea xito ser (m-1)/(N-1) y de que lo sea sabiendo que el primero no lo fue, ser m/(N-1). Si ahora se elige una muestra de tamao n la variable X as definida tendr Distribucin Hipergeomtrica con parmetros N, m, n; es decir H(N, m, n) cuya funcin de probabilidad viene dada por

Observaciones: 1. Para que una variable aleatoria como X tenga distribucin Hipergeomtrica el experimento debe realizarse sin reposicin o sin reemplazamiento.

2. El valor esperado de X es 3. La varianza de X es

Hipergeomtrica con Minitab Como en el caso de la Binomial, aqu tambin la Distribucin Hipergeomtrica se encuentra como opcin dentro de <Probability Distribution> del comando <Calc>. La siguiente figura muestra la ventana que se obtiene despus de ejecutar esta secuencia.

En esta ventana : Seleccionar <Probability> si desea una distribucin de la funcin de densidad Seleccionar <Cumulative probability> si desea trabajar con la funcin acumulativa Como en el caso de la binomial, se seleccionar <Inverse cumulative probability> si desea obtener un valor particular de X para el cual se conoce su probabilidad acumulada. A continuacin se debe ingresar: El tamao de la poblacin, N; En <Successes in population> ingresar el valor de r; aquellos que poseen un cierto atributo; En <Sample size (n)> Ingresar el tamao de la muestra, n;

Si se desea obtener la distribucin de X: En <Input column> ingresar la columna donde se encuentran los valores de X En <Optional storage> ingresar la columna donde desea almacenar la distribucin En <Input constant> ingresar valor de X, digamos c, para el cual se quiere obtener la probabilidad individual, P(X = c) o la acumulada P(X c). Puesto que todos los problemas de variable con distribucin hipergeomtrica son similares, desarrollaremos slo un ejemplo para ilustrar el uso del Minitab en su solucin.

3. Variables aleatorias y modelos probabilsticos (13)


Ejemplo 5
Un club de 100 miembros est formado por 70 abogados, 50 extranjeros y 20 nacionales no abogados. Si se elige una comitiva de 20 miembros, cul es la probabilidad de que sta contenga a) b) c) d) Exactamente 12 abogados Exactamente 12 extranjeros Exactamente 12 abogados extranjeros Por lo menos 12 abogados extranjeros

Solucin De acuerdo a los datos, podemos generar la siguiente tabla: Extranjeros 40 10 50 Nacionales 30 20 50 Total 70 30

Abogados No - Abogados Total Los datos generales: N = 100 n = 20

Usando el Minitab, haremos lo siguiente:

Caso a) Sea X: El nmero de abogados seleccionados en la muestra Segn esto, r = 70. Como se pide que halla exactamente 12 abogados K = 12 Paso 1: <Calc> - <Probability distributions> - <Hypergeometric> Paso 2: Activamos la opcin <Probability> Paso 3: En <<Successes in population> ingresamos 100 Paso 4: En <Sample size (n)> ingresamos 20 Paso 5: En <Successes in population> ingresamos 70 Paso 6: En <Input constant> ingresamos 12 Paso 7: <Ok> Resultado: P(X = 12 ) = 0.11617 Caso b) En este caso definimos a X como El nmero de extranjeros seleccionados en la muestra Por ello r = 50. Como se pide hallar exactamente 12 extranjeros, K = 12 Repitiendo exactamente los mismo pasos del caso a), pero reemplazando los datos r y K, obtenemos, P(X = 12 ) = 0.12160 Caso c) Sea X El nmero de abogados extranjeros Puesto que hay 40 abogados extranjeros, r = 40 Igualmente, K = 12 Usando lo dicho en el caso b), obtenemos P(X = 12 ) = 0.02667 Caso d)

Usando la misma definicin de X del caso c) debemos encontrar P(X 12) Como P(X 12) = 1 - P( X < 12) = 1 P(X 11) Usando lo dicho en la solucin del caso c) hallaremos la solucin, excepto que debemos seleccionar la opcin <Cumulative probability>.

3. Variables aleatorias y modelos probabilsticos (14)


5. Distribucin Geomtrica
Esta distribucin toma en cuenta el nmero de veces que debe repetirse el experimento hasta que ocurra xito por primera vez, en cuyo caso, termina de realizarse el experimento. Aqu slo ocurre xito una sola vez. No interesa cuntos veces se deba repetir el ensayo. Definicin Diremos que una variable aleatoria X tiene distribucin Geomtrica si X representa El nmero de veces que debe repetirse un experimento hasta que ocurra xito por primera vez. En este caso denotaremos por X G(p), donde p, la probabilidad de xito, constituye el parmetro de la distribucin cuya funcin viene dada por

Observaciones 1. El experimento termina cuando ocurre xito por primera vez 2. El valor esperado de X, E(X) = 1/p 3. La varianza de X, V(X) = q/p Nota: Sabe Ud. cmo ser la grfica de una distribucin geomtrica?

Ejemplo 6
Usemos la simulacin: Suponga que muchos clientes ingresan a una tienda de artefactos. A cada uno de ellos se les ofrece artefacto en particular. La probabilidad de que un cliente compre dicho artefacto es 0.25. Cul ser la probabilidad de que el primer cliente que compre el artefacto sea el vigsimo quinto cliente a quien se le ofreci el producto? Construya la distribucin de probabilidad del nmero de clientes a quienes se les ofreci el producto hasta obtener una venta. Obtenga la grfica de esta distribucin. Solucin Paso 1: Generemos 25 nmeros de 1 hasta 25 almacenndolo en C1 que ser X. Para ello usamos <Calc> - <Make patterned data> - <Simple set of number> y completamos la ventana con los datos indicados Paso 2: Usando la calculadora, ingresamos en C2, la expresin 0.25*(0.75)**(C1-1) Paso 3: Observando la fila 25 encontramos p(25) = P(X = 25) = 0.000251 Paso 4: La grfica. Usemos la siguiente secuencia <Graph> - <Plot> . En la columna Y ingresamos p(x) o C2 y en X ingresamos C1 La grfica obtenida ser similar a la figura de la derecha.

3. Variables aleatorias y modelos probabilsticos (15)


6. Distribucin de Poisson

Esta es una de las distribuciones muy genricas. Usado para aproximar distribuciones binomiales, tiene su importancia en los fenmenos de espera. Junto con la distribucin Exponencial, constituye dos formas de medir el comportamiento de eventos que ocurren en el tiempo y se encuentran en los mbitos de los fenmenos de espera.

Definicin Diremos que la variable aleatoria X tiene distribucin de Poisson, con parmetro l, si su funcin de probabilidad viene dada por

Observaciones

1. Notacin: X P( ) indica que X tiene distribucin de Poisson de parmetro 2. El valor esperado de X , E(X) = 3. La varianza de X, V(X) = 4. Aproximacin por Poisson a una Binomial. Recuerde que cuando el tamao de n
es bastante grande o cuando la probabilidad de xito es muy pequea; es decir, cuando n y np = (constante) o, equivalentemente, cuando n y p 0 tal

que np

entonces

Esto significa que, bajo las condiciones expuestas, un problema Binomial puede ser aproximado por Poisson usando E(X) = np = l En el Minitab, la distribucin de Poisson la activamos usando <Calc> - <Probability Distribution> - <Poisson> A continuacin se

visualiza la siguiente ventana

Como anteriores,

en

las

distribuciones seleccionamos

<Probability> si deseamos trabajar con la funcin de probabilidad, seleccionamos <Cumulative probability> si por el contrario, se desea la distribucin acumulada y se selecciona <Inverse cumulative probability> si deseamos obtener el valor de K conociendo su probabilidad acumulada. A continuacin se debe ingresar el valor del parmetro, que, como es igual a la media, aqu se pide la media. Use <Input column> si desea generar la distribucin y en <Optional storage> ingrese la columna donde desea colocar los valores de la distribucin. Si slo desea obtener la probabilidad para un determinado evento, digamos P(X = k) F(a) = P(X a), use la opcin <Input constant>. Si desea encontrar el valor de a, conociendo la probabilidad r, P(X a) = r, entonces digite r para que el Minitab devuelva el valor de a.

3. Variables aleatorias y modelos probabilsticos (16)


Ejemplo 7
Suponga que la variable aleatoria X tiene una distribucin de Poisson con parmetro igual a 1.2. Encuentre la probabilidad de que X sea por lo menos igual a 5. Solucin Puesto que el parmetro coincide con la media, entonces l = 1.2. Debemos encontrar P(X > 1 ). Como P(X>1) = 1 P(X 1) = 1 F(1). Ante todo, si no se desea generar los valores de probabilidad, es suficiente visualizar el resultado en la ventana de sesin usando la opcin <Input constant>. Para ello usamos la siguiente secuencia: <Calc> - <Probability Disributions> - <Poisson> Seleccionamos <Cumulative probability>

En <Mean> ingresamos 1.2 Al activar <Input constant> ingresamos 1 Hacemos clic en <Ok> Como resultado se obtiene 0.6626, con lo cual, P(X > 1 ) = 0.3374

Ejemplo 8
El nmero medio de clientes que un operador de una caja registradora puede atender es de 360 por hora. Si en momentos de mayor demanda, este operador, realizando su mximo esfuerzo puede atender hasta un mximo de 8, cul es la probabilidad de que a dicha caja lleguen ms clientes de lo que el operador pueda atender? Solucin Puesto que el promedio de clientes que llega es de 360 por hora, entonces en promedio llegan 6 por minuto. Sea X la variable que representa el Nmero de clientes que llegan a dicha caja registradora por minuto. Puesto que toda cola de espera constituye un modelo de Poisson, en el caso discreto, X tendr distribucin de Poisson, con parmetro l = 6. Segn el problema, debemos encontrar P(X > 8). Puesto que P(X > 8) = 1 - P(X 8), usaremos Minitab para hallar F(8). En Minitab, Adems de seleccionar <Cumulative probability> en la ventana de la distribucin de Poisson, debemos ingresar tambin en <Mean> la media 6. Y en <Input constant> el valor 8. Esto nos dar P(X 8) = 0.8472, con lo cual P(X>8) = 0.1528.

3. Variables aleatorias y modelos probabilsticos (17)


7. Distribucin Uniforme

Esta es una de las distribuciones para variables aleatorias continuas. Todo fenmeno o experimento que tiene un comportamiento constante, sin variacin; es decir, uniforme, diremos que cae en los mbitos de esta distribucin. Definicin Sea X una variable aleatoria continua. Diremos que X est distribuida uniformemente sobre el intervalo (a, b), que constituyen sus parmetros, si su funcin de densidad de probabilidad viene dada por

Observaciones: 1. 2. 3. 4. X U(a, b) es la notacin para indicar que X tiene distribucin uniforme en (a, b) La funcin de distribucin acumulada de X es La media o valor esperado de X es La varianza de X es

En Minitab Usando la secuencia <Calc> - <Probability Distributions> - <Uniform> obtendremos la siguiente ventana:

En esta ventana Active <Probability density> si desea valores para la funcin de densidad Active <Cumulative probability> si desea trabajar con la dist. Acumulada Active <Inverse cumulative probability> para encontrar un k tal que P(X k) = a. En este caso a ser ingresado usando la opcin <Input constant> En <Lower endpoint> ingrese el extremo inferior del intervalo a X b En <Upper endpoint> ingrese b Use <Input constant> si desea obtener los valores de la distribucin, digitando la columna que contiene los valores de X. Use <Optional storage> si desea almacenar los valores de la distribucin en alguna columna.

3. Variables aleatorias y modelos probabilsticos (18)


Ejemplo 9

El tiempo X que requiere el ensamble de un determinado componente, de un sistema informtico, es una variable aleatoria distribuida uniformemente con media igual a 10 das y una varianza de 12 dias. a) b) Cul es la probabilidad de requerir ms de 8 das para terminar el ensamble? Si el costo Y (en dlares) de ensamble se define segn Y = 100 + 4X + 3X, calcule el costo

esperado para concluir dicha tarea Solucin De acuerdo a los datos, m = 10 y s = 12.

Como

entonces

a + b =20 (1)

Del mismo modo, si

entonces

b - a = 12 (2)

Resolviendo (1) y (2) obtenemos a = 4 y b = 16 Usando Minitab a) <Calc> - <Probability distributions> - <Uniform>

Seleccionamos <Cumulative probability> En <Lower endpoint> ingresamos 4 En <Upper endpoint> ingresamos 16 En <Input constant> ingresamos 8, lo que nos permite hallar P(X 8) Luego la respuesta es P(X> 8) = 1 P(X 8) = 1- 1/3 = 0.66667 b) Como Y = 100 + 4X + 3X entonces, aplicando esperanza a cada miembro y usando las

propiedades, tenemos: E(Y) = 100 + 4 E(X) + 3 E(X)

Como E(X) = 10 y V(X) = E(X) (E ), entonces E(X) = 12 + 10 = 112. Con lo cual, E(Y) = 100 + 4 (10) + 3 (112) = 576 dlares

3. Variables aleatorias y modelos probabilsticos (19)


8. Distribucin Exponencial

Esta distribucin define el comportamiento de todo problema que cae en el terreno de los fenmenos de espera. As como la distribucin de Poisson es usado en los mismos fenmenos en trminos de eventos discretos, la distribucin Exponencial se usa cuando los eventos generados constituyen eventos continuos. Definicin Diremos que X es una variable aleatoria continua que se distribuye exponencialmente si su funcin de densidad de probabilidad viene dada por

Observaciones

1. La notacin X E( ) indica que X tiene distribucin exponencial 2. Aqu es importante la funcin de distribucin acumulativa definida por

4. El valor esperado de X es

5. La varianza de X es 6. Es bueno hacer notar que P(X r) = 1 F(r) = 1 e-r 7. Del mismo modo, P(X > r ) = e-r
Nota: Suponga que el administrador de una estacin de expendio de combustible para vehculos est interesado en aumentar sus ingresos diarios. El ha notado que, en horas de mayor demanda, muchos de sus clientes, al ver la cola que se forma esperando ser atendidos en un surtidor, se van a otra estacin. Y este fenmeno se repite varias veces en el da. Puesto que perder un cliente potencial es negativo para sus intereses, decide analizar el problema. La formacin de cola de espera se debe al excesivo tiempo de atencin a cada uno de los clientes. Para medir el tiempo de atencin puede usar la distribucin exponencial, para medir la longitud de cola puede usar la distribucin de Poison. Para usar el Minitab con la distribucin Exponencial, usamos la siguiente secuencia:

<Calc> - <Probability distributions> - <Exponential>. Lo que genera la siguiente ventana:

Minitab no requiere del parmetro sino de la media de la distribucin, que para el caso, es la inversa del parmetro. Si Ud. compara esta ventana con la que se obtiene para la distribucin de Poisson, ver que la informacin a ser introducida, es la misma en ambas distribuciones.

A continuacin desarrollaremos un ejemplo en el cual visualizaremos la grfica de esta distribucin continua.

3. Variables aleatorias y modelos probabilsticos (20)


Ejemplo 10
Construya la grfica de la funcin de densidad y la grfica de la distribucin acumulada de la variable aleatoria X con Distribucin Exponencial y parmetro igual a 1. Solucin Si el parmetro es 1 entonces f(x) = e-x, x > 0 Paso 1: Generar en C1 valores de X de 0 a 50 con incrementos de 0.1 (Calc Make ...) Paso 2: Generar en C2 los valores de la funcin de densidad usando: <Calc> - <Probability distributions> - <Exponenial> -<Probability density> En <Mean > digitamos 1.0 En <Input column > ingresamos C1 En <Optional storage> ingresamos C2 Paso 3: Generar en C3 los valores de la funcin acumulada usando: <Calc> -<Probability distributions>- <Exponenial>-<Cumulative probability> En <Mean > 1.0 - <Input column > C1 En <Optional storage> C3 Paso 4: Construimos las dos grficas usando el tipo de grfico <ScatterPlot> <Graph> - <ScatterPlot> En Graph 1: Para X ingresamos C1

Para Y ingresamos C2 En Graph 2 Para X ingresamos C1 Para Y ingresamos C3 Hacemos clic en <Ok> La grfica se muestra a continuacin

3. Variables aleatorias y modelos probabilsticos (21)


9. Distribucin Normal

Esta es una de las distribuciones ms conocidas en la Estadstica. Es una distribucin cuya variable es continua. En todo problema derivado de experimentos donde el nmero de veces que se repite es un nmero suficientemente grande se resuelve en los predios de esta distribucin. Esta es una de las funciones de distribucin ms importantes en la estadstica tanto en su desarrollo terico como en las aplicaciones. Definicin Diremos que la variable aleatoria X tiene una distribucin normal con parmetros m y s si su funcin de densidad viene dada por

Observaciones

1. La notacin que emplearemos ser X ( , ) 2. La distribucin acumulada se define como 3. El valor esperado de X es E(X) = 4. La varianza de X es V(X) =

5. 6. P(a < X b) = P(a X < b ) = P( a < X < b ) = P(a X b) = (b) - (a)

7.

Si se define a Z como

entonces Z N(0,1), la cual est tabulada y nos permite resolver cualquier problema de probabilidad.

8.

El programa Minitab nos permitir

resolver lo mismo sin el uso de la tabla. Para usar Minitab en problemas de Normal, debemos usar la siguiente secuencia: <Calc> - <Probability distributions> - <Normal> La ventana que se obtiene es la siguiente: Activamos <Probability density> si deseamos usar la funcin de densidad

Activamos

<Cumulative

probability>

para

trabajar

con

la

acumulada

Activamos <Inverse cumulative probability> para obtener un K tal que P(X K ) = p En <Mean> se debe ingresar el valor del parmetro m

En <Standard desviation> se debe ingresar el la raz cuadrada del parmetro s

Como en los casos anteriores, se usar <Input constant> para encontrar un valor de probabilidad usando la distribucin acumulada.

3. Variables aleatorias y modelos probabilsticos (22)


Ejemplo 11
Construya la grfica de la funcin de densidad y acumulativa de X N(0,1) Solucin Usemos Minitab para generar un conjunto de valores de X y su correspondiente funcin de densidad. Como la Normal N(0, 1) define casi la totalidad de su rea entre los valores de X que cae en el rango: -3.9 y 3.9, usaremos los siguientes pasos para generarla Paso 1: Generamos en C1 valores desde 3.9 hasta 3.9 con incrementos de 0.01 usando la secuencia <Calc> - <Make patterned data> - <Simple set of numbers> . Valor inicial: -3.9. Valor final: 3.9. Incrementos: 0.01. Paso 2: Generamos en C2 la funcin de densidad para los valores en C1: m = 1; s = 1 <Calc> - <Probability distributions> - <Normal>

A continuacin activamos <Probability density> En <mean> digitamos 0 En <Stand. Desv> 1.0 En <Input column> C1 En <Option storage> C2 <Ok>

Paso 3: Siguiendo la misma secuencia pero cambiando para <Cumulative probability> y en <Optional sorage> digitamos la columna C3 para obtener en ella la distribucin acumulada. Paso 4: Para la grfica de las dos distribuciones usaremos el grfico de tipo <Plot>. Usamos <Graph>- <Plot> Graph 1: X = C1, Y = C2; Graph 2; X = C1, Y = C3 Las grficas se muestran a continuacin

Veamos ahora el siguiente ejemplo

3. Variables aleatorias y modelos probabilsticos (23)

Ejemplo 12
Resolveremos el siguiente problema usando Minitab, sin generar valores para la distribucin y luego verificaremos los resultados de las probabilidades con lo que una tabla de normal nos muestre. Se cree que las ventas de un determinado producto tienen una distribucin normal con promedio igual a 10,000 productos por semana y una desviacin estndar de 1,500 productos por semana. a) b) c) d) Cul es la probabilidad de vender ms de 12,000 productos en una semana cualquiera? Cuntos productos debe producir a fin de mantener una probabilidad de 97.5% de que la Cul es la probabilidad de que la venta semanal de estos productos difiera de la venta Si en la siguiente semana se asegura vender ms de 11,000 productos, cul es la

empresa cuente con suficientes existencias para cubrir la demanda semanal? promedio, en ms de 1000 productos? probabilidad de que en esa semana se venda menos de 12,500 productos?. Solucin Si definimos a X como El nmero de productos vendidos por semana entonces podemos decir que X N(10,000, 1500). a) Debemos encontrar P(X > 12000) = 1 P(X 12000)

Clculo de F(12000) por Minitab Usando Minitab tenemos: Seleccionamos <Cumulative probability> En <Mean> ingresamos 10000; En <Standard desviation> ingresamos 1500; En <Input constant> ingresamos 12000. Clic en <Ok> Luego tenemos que P(X > 12000) = 1 0.9088 = 0.0912 Estandarizando tenemos P(X>12000) = P(Z>4/3) = 1-F(1.333) = 1- 0.9088

b)

Debemos encontrar un K tal que P(X > K) = 0.975

En Minitab debemos elegir la opcin <Inverse cumulative probability> En <Input constant> ingresamos 0.975 Esto no da como resultado 1.29x104; que equivale a 12,900 productos. Pero si se usa la opcin <Optional storage> ingresando una variable, digamos K1, usando la secuencia: <Manip> - <Display data> y seleccionando K1, veremos que el verdadero resultado es K1 = 12939.9, es coincidente con lo que podamos encontrar usando una tabla de normal tabulada. c) Aqu se pide encontrar P( | X - m | > 1000).

P( | X - m | > 1000) = P(X - m < -1000 ) + P(X - m > 1000) = 1 + P(X < 9000) P(X 11000) = 0.5050 d) Aqu debemos resolver una probabilidad condicional P(X <12000/X>11000).

Debemos encontrar F (12000) F(11000) y dividirlo entre ( 1 F(11000) Para ello sigamos exactamente la misma secuencia de pasos que se hizo en a), para encontrar F(12000). Nota: Qu ocurre si la distribucin no es simtrica? En ese caso, usaremos la distribucin Gamma para resolver el problema.

3. Variables aleatorias y modelos probabilsticos (24)


10. Distribucin Gamma

Esta es una distribucin poco usada en la Estadstica, pero otras distribuciones, como la Chi Cuadrado, se basan en ella. Esta es la razn por la que la presentamos. Definicin Sea X una variable aleatoria continua. Diremos que X tiene una Distribucin Gamma si funcin de densidad de probabilidad viene dada por

cuyos parmetros son a y r con a > 0 y r > 0

donde Observaciones: 1. 2. 3. 4.

es la funcin Gamma.

Si r = 1 entonces f(x) = e-ax que indica que X es exponencial Si a = 1 entonces la variable X sigue una distribucin Gamma Estndar El valor esperado de X es E(X) = r/a La varianza de X es V(X) = r/a

En Minitab, la distribucin gamma se encuentra como las anteriores distribuciones, en la opcin <Probability distributions> del comando <Calc>. La ventana que se obtiene es la siguiente.

En

ella

se

elegir

<Probability density> si se desea trabajar con la funcin de densidad

Se elegir <Cumulative probability> para trabajar con la distribucin acumulada Como en los casos anteriores, tambin se puede buscar un valor de K para una probabilidad dada tal que P(X k ) = a usando <Inverse acumulative probability>. Del mismo modo se ingresar la columna que contiene los valores de X en <Input variable>, o <Input constant> para obtener una probabilidad determinada. El primer parmetro, r se ingresar en <First shape parameter> y en <Second shape parameter> se ingresar el valor del segundo parmetro. Las siguientes figuras muestran la grfica de la funcin de densidad y acumulada de la distribucin Gamma, que tiene como parmetros a r = 2 y a = 0.4.

4. Muestreo y distribuciones muestrales (1)


Muchas veces el comportamiento poblacional es sometido a estudio, sea por que se quiere realizar proyecciones o estimaciones o por que se pretende obtener informacin de ella para otros propsitos. Puesto que los parmetros son los que determinan el comportamiento de la poblacin, debiramos evaluar a stos, obtener sus nuevos valores, calcularlos. Sin embargo, en la mayora de los casos, los parmetros no se calculan, slo pueden ser estimados. No es que no se puede calcular; simplemente resulta oneroso en muchos casos; por tiempo, por su costo y por el tamao N de la poblacin.

Un censo sobre toda la poblacin permitira obtener nuevos valores de los parmetros. Si quisiramos saber el ingreso promedio de todos los trabajadores por sectores deberamos censarlos a todos, a nivel nacional, como se realiza un proceso electoral para elegir al presidente de la repblica. Por todo ello es que la consulta, la encuesta, el muestreo se realiza sobre una parte de la poblacin, sobre una muestra de tamao n. El comportamiento de esta muestra estar determinado por otra variable muestral. El objetivo de este captulo es utilizar el programa Minitab para evaluar estadsticos de la muestra y determinar estimaciones de los parmetros de la poblacin, a travs de las variables muestrales. En este captulo trataremos los siguientes temas: 1. Validez del Teorema del Limite Central 2. Estadsticas muestrales 3. Distribuciones para muestras pequeas 4. Distribucin Chi Cuadrado 5. Distribucin t de Student 6. Distribucin F de Fisher 7. Estimacin por Intervalos 8. Intervalos de Confianza y Prueba de Hiptesis en una poblacin 9. Inferencia acerca de la varianza poblacional 10. Estimacin y Prueba de Hiptesis para dos poblaciones 11. Inferencia a cerca de las varianzas poblacionales 12. Distribucin muestral de medias para Datos Pareados 13. Intervalo de Confianza y Prueba de Hiptesis para la diferencia de proporciones

4. Muestreo y distribuciones muestrales (2)


1. Validez del teorema del lmite central
Tomando en cuenta lo dicho lneas arriba, debemos obtener los llamados Estadsticos de la Muestra, que al ser calculados a partir de una muestra, constituyen variables muestrales con una determinada distribucin muestral, como la media muestral de la muestra, la varianza muestral, la proporcin muestral, entre los principales.

Y dice la Estadstica que debemos usar estos Estadsticos Muestrales para estimar los parmetros poblacionales. El fundamento lo encontramos en la Ley de Grandes Nmeros y el Teorema del Lmite Central, dos grandes teoremas de la Estadstica que la fundamentan tericamente. A continuacin, usaremos el Minitab para comprobar si es cierto que los indicadores muestrales pueden ser usados para estimar los parmetros poblacionales. Vamos a generar 100 valores en la columna C1, de 1 a 100, que indicar el i-simo elemento de la poblacin, de tamao 100; es decir N = 100. Esto lo hacemos siguiendo los siguientes pasos: Paso 1: < Calc > - < Make patterned data > - < Simple of set numbers> Valor inicial: 1 Valor final: 100. Incrementos: 1. Paso 2: A continuacin, en la columna C2 vamos a generar aleatoriamente las notas vigesimales de 100 alumnos de un determinado colegio particular. Supongamos que las notas van de 05 a 18. Esto lo haremos usando la siguiente secuencia: <Calc> - <Random data> - <Integer> En la siguiente ventana debemos ingresar los datos segn se indica en la figura.

Paso 3: Obtencin de la media y desviacin estndar de la muestra: Para ello usaremos la siguiente secuencia: <Stat> - <Basic statistics> - <Display descriptive statistics> La media, 11.92 y la desviacin estndar, 3.892, se muestra en las primeras lneas de la siguiente figura.

Paso a extraer

4: 5

Ahora vamos muestras aleatorias de tamao 36 (n = 36) que las

almacenaremos en las columnas C3 C7, de la siguiente manera:

4. Muestreo y distribuciones muestrales (3)


Primera muestra para la columna C3 (Obs 01): La variable est en la columna C2 X. La almacenaremos en C3 Obs 01. <Calc> - <Random data> - <Sample from columns> - <Sample 36 rows> Las otras muestras Hemos repetido para las otras columnas, de la misma forma (parte de lo cual se muestra en la figura anterior). Paso 5: Calcularemos le media de cada una de estas muestras: Las medias por fila, la que se dispone en la columna C8 Las medias por columna (que no se ve) son: 11.0278, 12.5278, 12.2222, 11.2222 y 10.8333, para las 5 muestras. Paso 6: Calcularemos el promedio de las medias de las muestras, que la llamaremos la media muestral de medias muestrales. Este valor es 11.5667, como se puede apreciar en la celda C10(3) y en las lneas por encima de la hoja de trabajo y que estn encerradas en una elipse.

Si tomamos 5 muestras aleatoria de tamao n = 36, la media o promedio de las medias muestrales es 11.5667 y est muy cerca de la media poblacional, 11.9200. Del mismo modo, si tomamos 4 muestras de tamao n = 36, encontramos que su media 11.5667 es la misma que la media de las medias muestrales de tamao 36 y muy cerca de la media poblacional.

Esto nos dice que la media de medias muestrales podra ser tomado como un buen estadstico capaz de ser tomado como valor de la media poblacional. Como un dato adicional, la desviacin poblacional dividida entre la raz cuadrada del tamao de la muestra, n = 5, que es igual a 1.74042, nos da un valor muy cercano a la desviacin estndar de la media de las medias muestrales. Finalmente, la siguiente figura contiene la grfica de histogramas de los datos poblacionales y la grfica de las medias muestrales. Observe que, para un tamao de muestra, n = 36, la grfica (de la derecha) nos da la forma de la campana de Gauss indicndonos que LA DISTRIBUCIN MUESTRAL (eso es lo que representa la columna C8) de las medias muestrales tiene una distribucin aproximadamente normal, con parmetros y

Nota: Como el valor de la media de cada muestra puede ser considerada como un valor de la media de las medias muestrales, podemos considerar a la media de las medias muestrales como una variable aleatoria, de all su nombre: Variable aleatoria definida como la Media muestral de medias muestrales.
La siguiente grfica prueba nuestra afirmacin.

Que cuando n ; es decir cuando el tamao de la muestra se hace bastante grande, la media muestral de medias muestrales se aproxima a la media poblacional. Y la distribucin de las medias muestrales tiene un comportamiento normal.

El siguiente trabajo de simulacin consiste de una poblacin de 100 alumnos cuyas notas se muestran en la columna C2. Su media (poblacional) y su desviacin estndar (poblacional) se muestran a continuacin, as como un histograma de frecuencias en modo texto. Variable N Mean Median TrMean StDev SE Mean X 100 11.880 12.000 11.867 4.430 0.443 Variable X Minimum 5.000 Maximum Q1 Q3 19.000 8.000 16.000

4. Muestreo y distribuciones muestrales (4)


A continuacin se muestra el histograma mencionado Histogram of X N = 100 Midpoint 6 8 10 12 14 16 18 20 Count 11 *********** 18 ****************** 17 ***************** 11 *********** 7 ******* 12 ************ 19 ******************* 5 *****

A continuacin hemos generado 36 muestras de tamao 16 (columnas de 3 a 18) y en la columna C19 hemos obtenido las medias de cada muestra. La media muestral de las medias muestrales obtenidas es 11.5747; la desviacin de la media muestral de medias es 1.0034. (Este resultado es aproximado a la poblacional y 1.003 4.4297 / 4. En la siguiente figura apreciamos lo siguiente: La primera grfica es la distribucin poblacional de las notas. Como es lgico, no tena por qu ser normal. Sin embargo la grfica de las medias muestrales s tiene, aproximadamente, un comportamiento normal, con media 11.5747 y una varianza 1.003.

De todo lo dicho, podemos emitir dos conclusiones muy importantes: La primera: Que podemos usar la distribucin normal para resolver problemas poblacionales cuya distribucin es desconocida o no interesa conocerla. Teorizada esta afirmacin, dio origen al Teorema del Lmite Central (TLC) en su forma generalizada. La segunda: Que podemos usar los estadsticos de la muestra para realizar estimaciones sobre el comportamiento poblacional. Teorizado esta afirmacin, dio origen a la Ley de Grandes Nmeros (LGN).

4. Muestreo y distribuciones muestrales (5)


2. Estadsticos muestrales

Ahora nos dedicaremos a presentar los diversos estadsticos de la muestra. Cada uno de los cuales constituyen variables aleatorias muestrales y generan una distribucin de la muestra. Los estadsticos muestrales ms conocidos, son: VARIABLE NOTACIN POBLACIONAL La media muestral La proporcin muestral La varianza muestral La diferencia de medias muestrales 1- 2 La diferencia de proporciones muestrales 1- 2 Las distribuciones muestrales de estas variables muestrales vienen definidas por su media y varianza, los que se muestran en el siguiente cuadro: v. m. Media Varianza

Ahora bien, puesto que para una muestra suficientemente grande (n > 30), por el Teorema del Limite Central, podemos usar la Distribucin Normal para resolver problemas de distribuciones muestrales, entonces es necesario definir un Z que nos permita transformar una variable muestral,

digamos

con

a una variable Z N(0, 1).

En este caso, definiremos a Z como

De manera que, si la variable muestral fuera la diferencia muestral de medias muestrales; es decir, si

entonces

En los siguientes ejemplos usaremos el Minitab para resolver problemas de muestreo y distribuciones muestrales.

Observacin importante: En lo sucesivo, cada vez que necesite usar una variable muestral de las mencionadas en la tabla anterior, debe recordar cul es su media y su varianza; es decir, su distribucin.

4. Muestreo y distribuciones muestrales (6)


Ejemplo 1
El ingreso promedio diario de los trabajadores del Sector de Construccin es de 200 pesos. En el Sector Textil, el ingreso promedio es de 150 pesos. Supongamos que los ingresos de los trabajadores en los dos sectores estn normalmente distribuidos con una desviacin estndar de 80 pesos. Cul es la probabilidad de que en dos muestras aleatorias independientes, de tamao 40, tomadas de cada sector, arrojen una diferencia entre de ingresos medios de 10 pesos o menos? Solucin Sea X: El ingreso promedio diario de trabajadores del sector construccin. Sea Y: El ingreso promedio diario de trabajadores del sector textil Segn los datos: = 200; = 150; = 80 y = 80. Debemos encontrar la probabilidad de .

que la diferencia de medias muestrales sea menor o igual a 10; es decir,

Puesto que

, entonces

Usando de Minitab: Puesto que la variable , por el TLC tiene distribucin normal, debemos encontrar su media y luego encontrar

y desviacin estndar; es decir, necesitamos usando por normal. De acuerdo a los datos:

Ahora usamos: <Calc>-<Probability dist> - <Normal> Activamos <Cumulative probability>. En <Mean> ingresamos 50. En <Standard desviation> digitamos 17.88854 . En <Input constant> digitamos 10 Hacemos click en <Ok> Nota: Este ejemplo ilustra la forma cmo se puede usar Minitab para resolver todo problema de probabilidad para distribuciones de variables aleatorias muestrales para una o dos poblaciones.

Todo se reduce a obtener la media y desviacin estndar de la variable muestral. Y tanto su media como su desviacin estndar, como dijimos en la observacin anterior, se encuentran en la tabla anterior.

4. Muestreo y distribuciones muestrales (7)


3. Distribuciones para muestras pequenas

Las distribuciones muestrales vistas anteriormente son aquellas que se fundamentan en el Teorema del Lmite Central; y podemos aplicar el muestreo probabilstico sobre ellas utilizando la distribucin normal, siempre que el tamao de la muestra sea suficientemente grande; esto es, n 30. Sin embargo, nada hemos dicho cuando n < 30. En estos casos, la aplicacin de la distribucin normal, no estara bien fundamentado ya que no cumplira con le Ley de Grandes Nmeros, ni con el Teorema del Lmite Central. Las distribuciones muestrales, cuando el tamao de la muestra es menor a 30, reciben el nombre de Distribuciones Muestrales para muestras pequeas. Entre las distribuciones muestrales para muestras pequeas tenemos: La distribucin Chi Cuadrado ( La distribucin t de Student La distribucin F de Fisher )

4. Distribucin Chi cuadrado


Recordemos que si la variable aleatoria continua X tiene una distribucin Gamma, entonces su funcin de densidad de probabilidad es

con parmetros > 0 y r > 0. Donde E(X) = r/ y V(X) = r/ Definicin Sea X una variable aleatoria continua. Diremos que X tiene una distribucin Chi cuadrado con m grados de libertad si su funcin de densidad de probabilidad est dada por

Esta funcin es un caso especial de la funcin de distribucin Gamma en el cual hacemos 1/2 y r = v/2. Observaciones.

1. X

es la notacin que emplearemos para afirmar que X tiene una

distribucin Chi-cuadrado

2. v representa el nmero de grados de libertad con el cual se evala los valores de


esta distribucin. 3. El valor esperado de X es E(X) = v. Su varianza es V(X) = 2v

4. La mayora de libros presentan una tabla de la Distribucin

usando el

complemento de la distribucin acumulada; es decir, El Mintab usa la distribucin acumulada F; con < La distribucin Chi-cuadrado en Minitab lo activamos mediante

<Calc> - <Probability distributions> - <Chi square> La ventana que se obtiene es similar a las distribuciones continuas ya estudiadas. Seleccionaremos <Cumulative probability> si deseamos obtener Seleccionaremos <Inverse cumulative probability> si queremos encontrar K. Para cualquiera de las opciones comentadas, se deber ingresar el nmero de grados de libertad, v. Finalmente, en <Input constant> se ingresar el valor de K, para el cual se desea encontrar la probabilidad, habiendo seleccionado <Cumulative probability>. Si se selecciona la opcin <Inverse cumulative probability>, entonces en <Input constant se debe ingresar el valor de la probabilidad, p, para el cual queremos encontrar K. .

4. Muestreo y distribuciones muestrales (8)


Ejemplo 2
Sea X una variable aleatoria con distribucin a) P(X 35.172) b) P(X 19.021) c) P( 13.091 X 38.968) d) Encuentre el valor de K, tal que P( X K ) = 0.975 e) Encuentre P(X 30) f) Encuentre el valor de K, tal que P( X K ) = 0.15 Solucin (23). Encontrar

Si X

(23) entonces el nmero de grados de libertad, v = 23. De manera que

a) P(X 35.172) = 1 P(X 35.172)

En la ventana que se obtenga al usar la secuencia <Calc> - <Probability distributions.> - <Chi Square> En la siguiente ventana seleccionamos <Cumulative probability> En <Degree of freedom> Ingresamos 23 que son los grado de libertad En <Input constant>, ingresamos 35.172; con lo cual obtenemos , luego P(X 35.172) = 0.05 b) En este caso debemos encontrar ;

Siguiendo la misma secuencia que en el caso a) obtenemos P(X 19.021) = 0.3 c) Por lo que sabemos, P( 13.091 X 38.968) = F(38.968) F(13.091). Como F(38.968) = P( X 38.968 ) siguiendo la secuencia del caso a) obtenemos F(38.968) = 0.98 F(13.091) = P( X 38.968 ). Al usar Minitab encontramos F(13.091) = 0.05. De donde P( 13.091 X 38.968) = 0.98 0.05 = 0.93 d) Puesto debemos encontrar el valor de K sabiendo que P( X K ) = 0.975, usaremos la opcin <Inverse cumulative probability>, siguiendo la secuencia: <Calc> - <Probability distributions> - <Inverse cumulative probability> Ingresamos los grados de libertad. En <Input constant> ingresamos 0.975 Con lo cual obtenemos K = 38.0756

4. Muestreo y distribuciones muestrales (9)


e) Si usamos un tabla, contenida en la mayora de los libros, observaremos que dicha tabla no registra un valor = 30. En estos casos el valor de la probabilidad se obtiene

realizando un proceso de interpolacin. Procedimiento: Si a a a Luego 28.429 --------------------30 --------------------------32.007 --------------------------0.20 p 0.10

de esta ecuacin encontramos el valor de p = 0.156093. Para encontrar p hemos usado la calculadora del Minitab.

Como hemos usado una tabla con resultado pedido.

, entonces p = 0.156093 ser el

f)

Obtendremos el valor de K interpolando de forma que nuestro amigo lector fije el procedimiento, si an no lo supiera. Para ello usamos el siguiente procedimiento:

Como p = 0.15 se encuentra entre 0.10 y 0.20, diremos Como Para 17.1865 -------------------Para K Para 14.8480 Por lo que 0.20 0.15 0.10

Usando la calculadora del Minitab, encontramos K = 16.0173 Y usando Minitab para P( X K ) = 0.15 encontramos K = 16.1219

Algunas propiedades importantes de la Distribucin

P1. Si las variables aleatorias X1, X2, ..., Xk y si Xi X1 + X2 +... + Xk (m1+m2+...+mk)

con mi grados de libertad, entonces

P2. Sea Z1, Z2, ..., Zn una m.a. extrada de una poblacin N(0, 1). Si definimos a T como entonces T P3. Si las variables aleatorias Xi , i = 1, 2, ..., n son independientes con N( i, i), entonces

es tal que U

P4. Si X1, X2, ..., Xn es una m.a.i. de una poblacin N( , ), entonces

i)

ii)

Del mismo modo,

es tal que V

4. Muestreo y distribuciones muestrales (10)


5. Distribucin t - Student
Definicin Diremos que la variable aleatoria X tiene distribucin t de Student, con v grados de libertad, si su funcin de densidad de probabilidad viene dada por

, para todo x y v 1, entero. La siguiente figura muestra dos curvas t de Student con 5 y 15 grados de libertad, aunque los intervalos son diferentes: En el primero (-2, 6) y en el segundo (-6, 6).

Observaciones

1. Si X t(v) entonces E(X) = 0 con v > 1 y

2. Sea X una variable aleatoria con distribucin N(0, 1) y sea V una variable aleatoria

con

. Si X y V son independientes, entonces la variable aleatoria

es

tal que T t(v) 3. Como se puede ver en la figura, la distribucin N(0, 1) es un caso especial de la distribucin t de Student, cuando n es suficientemente grande.

4. Las tablas disponibles presentan valores de t de Student usando la distribucin


acumulada por ambas colas; de suerte que, si P(X < t0 ) = 0.05, con n grados de libertad, debemos buscar en la tabla el valor de t0 tal que P(X < t0 ) = 0.025

5. En Minitab encontramos los valores de t0 usando el mismo concepto. 6. Como en el caso de la distribucin Chi Cuadrado, cuando los valores de t 0 o el
valor de la probabilidad no estuvieran en la tabla, se deber interpolar para encontrar su valor. En el Minitab, los hallaremos de manera directa. 7. Si las variables Z y V son independientes con

Entonces la variable aleatoria

8. La siguiente figura muestra la estrecha relacin entre la distribucin N(0, 1) y t(n).


Si n entonces la grfica de t(n) coincide con la grfica de N(0, 1).

9. La afirmacin anterior ratifica la decisin de usar N(0, 1) para resolver problemas


de muestreo cuando n 30 (muestras suficientemente grandes); mientras que si n <

30 (muestras pequeas), se debe usar distribuciones como Fisher.

, t de Student o F de

4. Muestreo y distribuciones muestrales (11)


T de Student en Minitab Como en las otras distribuciones, usando <Calc> - <Probability Distributions> ingresamos a la ventana que se muestra a continuacin:

Como puede apreciar Activaremos la primera opcin:

<Probability density> si deseamos generar algunos valores de esta distribucin en la columna digitada en <Optional storage>, para los valores de X ingresados en la columna digitada en <Input column>. Debe completarse la informacin ingresando el nmero de grados de libertad en <Degrees of freedom>. Si se desea obtener la distribucin acumulada, activar <Cumulative probability>. Por otro lado, si se desea encontrar la P(X K), activando <Cumulative probability> se debe ingresar el valor de K en <Input constant>.

Si por el contrario se desea encontrar el valor de K, tal que P(X K) = p, con p conocido, se debe activar <Inverse cumulative probability> y en <Input constant> se debe ingresar el valor de K.

4. Muestreo y distribuciones muestrales (12)


6. Distribucin F de Fisher
Definicin Sea X una variable aleatoria. Diremos que X tiene una Distribucin F de Fisher con n grados en el numerador y m grados en el denominador, si su funcin de densidad de probabilidad viene dada por

lo que escribiremos como F F(n, m) La grfica de la funcin de densidad con 25 grados de libertad en el numerador y 10 grados de libertad en el denominador, se da en la siguiente figura.

Propiedades
1. dos Sean U y V variables

aleatorias independientes tal que

yV

entonces

es una variable tal que F F(n, m).

2. Si X F(n, m) entonces

3. Distribucin de la razn de dos varianzas muestrales

Sea

es una m.a.i. de una poblacin N( 1, 1 )

Sea

es una m.a.i. de una poblacin N( 2, 2 )

Si ambas muestras provienen de poblaciones independientes, entonces

es tal que F F(n1 1, n2 1)

F de Fisher en Minitab
Para activar la ventana de informacin de esta distribucin se debe usar <Calc> - <Probability Distributions> , con la cual ingresamos a la ventana muestra continuacin: que se a

Si se desea encontrar P(X 1.12) para X una variable aleatoria que tiene distribucin Chi Cuadrado con 20 grados de libertad en el numerador y 15 grados de libertad en el denominador, llenaremos la ventana anterior como se indica. En esta ventana, si se desea encontrar P(X 1.12), sabiendo que X F(20, 15), obtendremos 0.5821.

4. Muestreo y distribuciones muestrales (13)


7. Estimacin por intervalos y prueba de hiptesis

Una vez calculado el estadstico de la muestra estamos en capacidad de usar la teora de la Estimacin para elegir un estimador adecuado que nos permita inferir resultados sobre la poblacin de donde proviene la muestra. Estos estimadores pueden darse de manera puntual o por intervalos. Y para probar estos resultados disponemos de la Prueba de Hiptesis, lo que nos permitir aceptar o rechazar afirmaciones planteadas a priori. La Estimacin y la Prueba de Hiptesis son los componentes principales de la inferencia estadstica. La teora de la Estimacin comprende un estudio detallado de la bsqueda de un estimador (estadstico de la muestra, para el cual se construye su distribucin muestral), digamos , del parmetro poblacional . Este estimador puede darse a travs de un valor puntual,

Estimador Puntual; por el contrario, puede darse a travs de un intervalo, llamado Intervalo de Confianza. La estadstica nos dar las herramientas necesarias que fundamenten la potencia de este estimador puntual o el nivel de confianza en el caso de la estimacin por intervalo. En el mbito del Mtodo Estadstico, se busca un estimador del parmetro poblacional por que se desea comprobar, probar, verificar o contrastar una determinada Afirmacin, Supuesto al cual se le denomina Hiptesis Nula, H0, contra otra Hiptesis llamada Hiptesis de Trabajo o Hiptesis Alternativa, H1, proveniente de los resultados de la Estimacin dando como resultado la Aceptacin o el Rechazo de la Hiptesis Nula. El siguiente esquema nos muestra el Intervalo de Confianza usando la distribucin normal.

Tanto la obtencin del intervalo confidencial como la contrastacin de la Hiptesis, podrn ser realizadas usando la Distribucin Normal, Chi Cuadrado, t de Student o F de Fisher, dependiendo del estimador, del tamao de la muestra y de si es conocida o no la varianza poblacional. La Hiptesis a ser contrastada puede tener alguna de las siguientes formas:

Donde y n > 30

es un valor obtenido en la distribucin que define al estimador; es decir, si entonces VC = ZC y = Z ., donde Z N(0, 1)

Algo ms, si la distribucin que define al estimador fuera t de Student, suponemos que la varianza poblacional es desconocida, en cuyo caso se usa s muestral. Del mismo modo, si el clculo de V C debe hacerse por la distribucin Chi Cuadrado o F de Fisher, el valor VC se evala con la definicin correspondiente. Todo esto nos permite resumir en la siguiente cuando se trata de UNA POBLACION

4. Muestreo y distribuciones muestrales (14)


NOTA IMPORTANTE Las siguientes notas se debern tomar en cuenta al trabajar con Intervalos de Confianza as como en la Prueba de Hiptesis. A) Media poblacional 1. Si el tamao de muestra es suficientemente grande (n 30), a) Cuando la varianza poblacional sea conocida, use la distribucin normal, usando el valor de Z tal que Z N(0, 1) b) Cuando la varianza poblacional sea desconocida, use el estimador y con ello calcule Z tal que Z N(0, 1) c) Si el tamao poblacional N es finita, use lo anterior corrigiendo la desviacin con el factor de correccin para poblaciones finitas(cuando el muestreo se hizo sin reposicin). 2. Si el tamao de muestra es pequeo; es decir, si n < 30 use la distribucin t de Student, usando a la varianza muestral como estimador de la varianza poblacional, cuando sta es desconocida. B) Varianza poblacional Use la distribucin Chi Cuadrado ya que suponemos que tanto la varianza como la media poblacionales deben ser desconocidos. Para ello use sus respectivos estimadores puntuales. C) Diferencia de medias en dos poblaciones

a) Con varianzas poblacionales conocidas: Use la distribucin normal con el Z apropiado para la diferencia de medias, tal que Z N(0, 1) b) Con varianzas poblacionales desconocidas: i) Cuando la suma de los tamaos de muestras, digamos (n = n1 + n2) sea no mayor a 30: Use la distribucin t de Student estimando apropiadamente la varianza de la diferencia de medias muestrales. En el t calculado usar como grados de libertad a n1 + n2 2. Aqu debe distinguir los estimadores de la varianza de la diferencia de medias cuando las varianza son iguales o diferentes. ii) Cuando la suma de los tamaos de las muestras es mayor o igual a 30: Use la distribucin normal, calculando el Z apropiadamente tal que Z N(0, 1). D) Razn de varianzas Use la distribucin F de Fisher empleando los estimadores correspondientes a la media y varianza poblacionales con (n-1) y (m-1) grados de libertad en el numerador y denominador, respectivamente. E) Datos Pareados a) Cuando n 30, use la distribucin normal calculando el Z con los estimadores de la media y varianza en datos pareados, tal que Z N(0, 1) b) Cuando n < 30, use la distribucin t de Student, con el estimador de la varianza poblacional para datos pareados. F) Proporcin poblacional Use la distribucin normal calculando el Z mediante los estimadores de la proporcin poblacional tal que Z N(0, 1) G) Diferencia de proporciones Como en el caso anterior, use Z.

4. Muestreo y distribuciones muestrales (15)


8. Intervalo de confianza y prueba de hiptesis en una poblacin

En el caso de una poblacin, primero recordaremos algunos criterios que debe tomarse en cuenta para obtener intervalos de confianza y prueba de hiptesis para luego desarrollar algunos ejemplos usando el Minitab. Como lo comentamos en el captulo II, el Minitab dispone de una categora especial para el estudio de la estimacin de intervalos de confianza y para realizar diversas pruebas de hiptesis.

La siguiente figura nos muestra las opciones que tenemos para trabajar con una poblacin tanto para Intervalos de Confianza as como para Pruebas de Hiptesis. 1. La secuencia, cuando se conoce la varianza poblacional o n > 30 <Stat> - < Basic Statistics> - < 1 Sample Z ...> genera la ventana que se muestra en la siguiente figura Como se puede apreciar, esa es la ventana que nos permitir obtener Intervalo de Confianza o realizar una Prueba de Hiptesis. Bastar con seleccionar una de las dos opciones: Si se trata de obtener el Intervalo de confianza Si los datos se han ingresado en una columna de la hoja de trabajo, use la primera opcin e ingrese a ella la columna correspondiente; en caso contrario, use <Summarized data> en ella ingrese el tamao de la muestra y la media de la muestra. En el siguiente cuadro de texto ingrese la desviacin poblacional. Luego haga clic en <Options> y slo ingrese el nivel de confianza. Luego <Ok> y <Ok>.

Si se trata de realizar una prueba de hiptesis Adems de ingresar los datos anteriores debe activar la casilla <Perform hypotesis test> y en la ventana de opciones debe seleccionar la forma de la hiptesis alternativa (less tan, not equal o greater tan).

4. Muestreo y distribuciones muestrales (16)


2. La secuencia, cuando la varianza poblacional es desconocida <Stat> - < Basic Statistics> - < 1 Sample t ...> genera una ventana equivalente a la mostrada cuando se usa <1 Sample Z >. De manera que la informacin a ser proporcionada para una t de Student ser similar que para el caso de una Normal.
Nota Importante:

El Minitab permite realizar Pruebas de Hiptesis de dos maneras:

a) Por la forma tradicional; es decir, obtener un Zcalculado y comparar con el que obtenemos a travs del uso de <Inverse Cumulative Probability> de <Probability Distributions> del comando <Calc>, como ya hemos visto. Una vez hallado el Zcalculado y el se decidir usando las reglas de la Docimasia o Prueba de Hiptesis. b) Usando el p Value: Esta es la forma tal vez ms sencilla para Aceptar o Rechazar la Hiptesis Nula en una prueba de Docimasia. Por lo general, seguiremos esta metodologa en lo que a Prueba de Hiptesis se refiere. El p Value En el caso de la Docimasia o Prueba de Hiptesis, el Minitab da preferencia a la prueba mediante el uso del p value. El p value es el nivel de significacin calculado a partir de , que permite: Rechazar la Hiptesis Nula si el valor de p es muy pequeo (tiende a 0 digamos, el Mintab usa como lmite); esto es, que sea menor a 0.05 No rechazar la Hiptesis Nula, si el valor de p es mayor que 0.05

4. Muestreo y distribuciones muestrales (17)


9. Intervalo de confianza

Ejemplo 3

Suponga que la siguiente data corresponde a los ingresos salariales de 50 trabajadores durante una semana en el cual se sabe que el ingreso promedio es de 680 soles con una desviacin estndar de 36 soles. 658 688 747 721 702 670 694 623 689 687 679 665 710 741 706 731 600 669 720 725 710 721 635 670 692 631 704 641 625 648 663 617 689 683 674 654 729 689 700 678 657 654 710 638 678 642 615 617 670 678

Obtenga un intervalo de confianza del 95% para la media de los ingresos salariales y sustente una breve interpretacin mediante algunos grficos de inters. Solucin La siguiente figura muestra el histograma de frecuencias de los ingresos. En ella podemos apreciar cierto comportamiento normal en la variable. Usando la secuencia: <Stat> - <Basic Statistics> - <Display Statistic Descriptive>, podemos encontrar la media y la desviacin muestral de la muestra, cuyo tamao es de 50. Puesto que el tamao de la muestra es 50 y es una poblacin, usaremos Z para obtener el Intervalo de Confianza para la media poblacional, lo cual lo haremos usando: <Stat> - Basic statistics> - <1 Sample Z >, que nos lleva a la ventana de la derecha. Esta ventana, como se puede ver y lo hemos explicado, la usaremos tanto para encontrar el Intervalo de Confianza como para cuando se trate de realizar Pruebas de Hiptesis, en los casos en que se deba usar la distribucin normal. Observe que para obtener el intervalo de confianza es suficiente indicar el nombre de la columna que contiene los datos as como el nivel de confianza ( 1 - )*100% en <Options>. Por comodidad, supondremos un nivel de confianza del 95%. Naturalmente este es un dato que el investigador debe tomar como supuesto y con el cual plantea su afirmacin el cual se convierte en Hiptesis Nula.

Completaremos los datos en esta ventana haciendo clic en <Graphs>. Por esta opcin se puede elegir: <Histogram of data>, <Individual value plot> o <BoxPlot>. Aqu hemos seleccionado <Individual value plot>. En la siguiente figura se incluye tambin el intervalo de confianza para la media con el 95% de confianza y desviacin de 36.

4. Muestreo y distribuciones muestrales (18)


Z Confidence Intervals The assumed sigma = 36.0 Variable Salarios N 50 Mean 676.80 StDev SE Mean 36.07 95.0 % CI

5.09 ( 666.82, 686.78)

Como se puede apreciar, en la grfica se indica el intervalo de confianza y el valor puntual de la media muestra. Igualmente observe que el valor de la desviacin muestral (36.07)es un buen estimador de 36. El segmento en rojo representa el Intervalo de Confianza, en el que, como se puede ver, la media muestral se encuentra en el centro. Parece ser que los datos presentan una concentracin alrededor de la media. Esto lo deducimos observando la grfica y tomando en cuenta la amplitud del Intervalo de Confianza.

Veamos una grfica de histograma qu dice respecto a nuestra afirmacin. Si volvemos a usar la misma secuencia anterior, excepto que ahora elegimos Histogram of data tendremos la siguiente grfica:

Parece ser y la desviacin poblacional es un buen indicador, que los salarios en la muestra no presentan outliers. Esto lo podemos verificar grficamente

seleccionando esta vez la opcin <Box Plot of Data> de la misma secuencia anterior. El grfico se muestra en la figura de la derecha, en el cual, no se presentan ningn outliers; hay homogeneidad de los datos, no hay dispersin y por la gran aproximacin de la media y la mediana, la distribucin de los datos alrededor de estos estadsticos es muy homognea. Finalmente apreciemos los resultados de elegir la opcin <Graphical Summary> para lo cual debe seguir la siguiente secuencia: <Stat> - <Basic Statistics> - <Graphical summary > Aqu apreciamos un resumen de todo lo dicho lneas arriba.

4. Muestreo y distribuciones muestrales (19)

10. Prueba de hiptesis


Lo que debemos tener presente al plantear una Prueba de Hiptesis es lo siguiente: Determinar la afirmacin o supuesto que permita plantear la Hiptesis Nula A partir de ella, definir la Hiptesis Alternativa que nos permita determinar si se trata de una prueba de una cola(izquierda o derecha) o de dos colas. Obtener los estadsticos, llmese Z o p value Decidir por comparacin si se debe aceptar o rechazar la Hiptesis Nula

Ejemplo 4 Tomemos los datos del problema anterior. Si el Sindicato de Trabajadores exige un incremento de salarios afirmando que el promedio de los mismos es inferior al valor que le corresponde por el incremento en el costo de vida. Tendr razn el Sindicato? Solucin Para responder a esta pregunta debemos realizar una Prueba de Hiptesis. Para ello supondremos como Hiptesis Nula la afirmacin: El ingreso promedio es igual a 680 soles; es decir 0 = 680. Supondremos que la Hiptesis Alternativa consiste en afirmar que El ingreso promedio es menor que 680 soles; es decir, 1 < 0 . Probaremos H0: 0 = 680 H1: 1 < 0

Usando la ventana obtenida por la secuencia <Stat> - <Basic Statistics> - <1 Sample Z ...>, ingresamos los datos como en el ejemplo anterior. Al activar la casilla <perform hypotesis test> digitamos el ingreso promedio, que es 680. Pasando a la ventana de <Options> en <Alternative>, ingresamos el tipo de prueba: Menor que(Less than). Los resultados se muestran en la siguiente figura: Observe que el ZC = -0.63 Puesto que la prueba consisten en una prueba de una cola, el Z para un nivel de confianza de 95% , es Z1- = -1.6449.

Si usramos la prueba de Z diramos:

Puesto que ZC > Z1- entonces se rechaza la Hiptesis Nula; es decir, el Sindicato no tiene razn en sus reclamos.
Aplicando el p-value:

Como p = 0.26 es mayor que 0.05 entonces no existe evidencia suficiente para rechazar la Hiptesis Nula; es decir, el Sindicato no tiene razn en sus reclamos.

En la siguiente grfica y en la anterior podemos apreciar la proximidad entre el promedio de los ingresos y la afirmacin planteada en la Hiptesis Nula. Otra razn para afirmar que el Sindicato no tiene razn en sus reclamos.

4. Muestreo y distribuciones muestrales (20)


11. Intervalo de confianza y prueba de hiptesis en

proporciones
El Minitab tambin permite realizar estimaciones proporcionales y prueba de hiptesis para proporciones. En la siguiente figura (lado izquierdo) podemos apreciar que esto se puede realizar en una o dos poblaciones.

Si por otro lado recordamos que en una poblacin de proporciones representa la proporcin poblacional de los elementos que poseen cierto atributo y los que poseen el mismo atributo en la muestra, entonces representa la proporcin muestral de

E(

) =

V( ) =

Al realizar la secuencia <Stat> - <Basic Statistics > - <1 Proportion ...> Obtenemos una ventana que se encuentra en la figura anterior (derecha). Como se puede apreciar, podemos realizar trabajos de proporciones para un conjunto de datos que estn en alguna columna de la hoja de trabajo, seleccionando la opcin <Sample in Column>, o podemos hacerlo conociendo el nmero de ensayos (number of trials) que representa el tamao de muestra y el nmero de elementos que poseen el atributo en estudio (number of success), seleccionando <Summarized data> Usaremos <Options> para ingresar la informacin necesaria para obtener el Intervalo de Confianza o realizar la Prueba de Hiptesis, los cuales se ingresa en la siguiente ventana, mostrada en la siguiente figura. Por ello, obtener un Intervalo de Confianza o realizar una Prueba de Hiptesis para proporciones, sigue la misma metodologa que aquella empleada para la media.

PREGUNTA:

Si se desea obtener el intervalo de confianza y/o realizar una prueba de hiptesis para un conjunto de datos no numrico, cmo puede el Minitab resolver esta dificultad, planteada a nivel de proporciones poblacionales? Veamos el siguiente ejemplo:

4. Muestreo y distribuciones muestrales (21)


Ejemplo 5
Abra el archivo Ingre99.Mtw. Analicemos la variable: Colegio de procedencia. Como se puede ver, los alumnos ingresantes provienen de colegios Pblicos y Privados. a) Cul es el intervalo de confianza del 95% del promedio de alumnos que provienen de colegios Privados?. b) De los ingresos anteriores se sabe que el 55% de los alumnos provienen de colegios pblicos. Si el Director de Admisin afirmaba que para este ao este porcentaje se incrementara, tena razn dicha autoridad? Solucin De acuerdo a los datos del problema, debemos realizar inferencia para la variable: proporcin poblacional. En este caso = 0.55. El nivel de confianza es del 95%; es decir, 1 - = 0.95; n = 120. Igualmente, debemos realizar la prueba: H0: = 0.55 H1: >

Donde muestral viene dada por

En este caso

representa la proporcin muestral cuya distribucin

E( ) =

V( ) =

La siguiente secuencia de comandos nos proporcionar la prueba de hiptesis as como el intervalo confianza para .

<Stat> - <Basic Statistics> - <1 Proportion> En <Sample in columns> Ingresmos la variable Colegio. A continuacin hacemos clic en <Options> En <Confidence level> Ingresamos 0.95; En <Test proportion> Ingresmos 0.55; En <Alternative> Seleccionamos Greather than que constituye la hipotesis alternativa; Hacemos clic en < Ok > para volver a la ventana previa Ynuevamente clic en <Ok> para que Minitab realice el trabajo.

En el siguiente resumen mostramos tanto el intervalo de confianza as como el valor del p value.

Test and Confidence Interval for One Proportion Test of p = 0.55 vs p > 0.55 Success = Pbl Exact Variable Colegio X 53 N Sample p 95.0 % CI P-Value 0.993 120 0.441667 (0.351108, 0.535173)

Puesto que este valor es bastante mayor que 0.05, entonces no es cierto que el porcentaje de ingresantes de los colegios pblicos se hayan incrementado.

4. Muestreo y distribuciones muestrales (22)


12. Inferencia acerca de la varianza poblacional
Para realizar estimaciones respecto de la varianza poblacional, debemos usar la siguiente secuencia: <Stat> - <Basics Statisticas> - <1 varince >. En la ventana se debe seleccionar <Sample in columns> si los datos estn en alguna columna de la hoja de trabajo o seleccionar la siguiente opcin y luego ingresar el tamao de la muestra y la desviacin estndar muestral, s. Al activar la casilla para ejecutar la prueba de hiptesis, se debe ingresar la desviacin estndar poblacional. A continuacin, en <Options> debe ingresar el nivel de confianza y seleccionar la forma de la hiptesis alternativa Para el caso de la varianza, recuerde que

tal que

Del mismo modo, use la siguiente secuencia para obtener la desviacin estndar de la muestra, s. Si desea probar la hiptesis usando el valor calculado comparando con el valor Chi cuadrado terico con un nivel de confianza del 100(1-)%.

donde

4.

Muestreo y distribuciones muestrales (23)


Ejemplo 6 Sea X1, X2, ..., Xn una muestra aleatoria extrada de una poblacin normal N( , ).

Del mismo modo, sea de n para el cual se cumple

la varianza muestral. Determinar el menor valor

Solucin

Puesto que

Multiplicando por (n-1) a la desigualdad

. El primer miembro de la desigualdad, dentro de los parntesis define a una variable Chi Cuadrado con (n-1) grados de libertad. Por ello, si hacemos que Para ello, puesto que Minitab requiere de los grados de libertad, debemos hacer un mixing entre una estimacin manual y el Minitab para verificar el clculo manual. Puesto que n es desconocido, debemos asignarle un valor tal que al multiplicarlo por 1.5, se encuentre el valor Chi Cuadrado con probabilidad 0.95 y n 1 grados de libertad. Supongamos que n = 11. Esto implica que (n-1)x1.5 = 15. Es cierto que con 10 grados de libertad y con una probabilidad acumulada de 0.95, se tiene un valor de Chi Cuadrado igual a 15?. Usando Minitab:
<Calc> - <Probability distributions> - <ChiSquare> - <Inverse cumulative probability>

entonces debemos hallar un valor Chi cuadrado tal

En <Degrees of freedom> Ingresamos 10 En <Input constant> Ingresamos 0.95 El resultado es 18.3070 Probemos ahora con n 1 = 27. Es decir, como (n 1) x 1.5 = 40.5 Al usar Minitab encontramos que el valor de la constante es 40.1133. Esto implica que n 1 = 27 . Luego el tamao muestral ser n = 28.

4. Muestreo y distribuciones muestrales (24)


En resumen

Si en una poblacin, estuviramos interesados en realizar estimaciones sobre el parmetro poblacional , entonces

con Para realizar una prueba de hiptesis de una cola, y con el (1 - )x100% Probaremos H0: H1: = <

0 1

Rechazaremos H0 si ZC < Z , o si p - value < 0.05 Caso especial: Prueba de Hiptesis para la varianza poblacional La varianza poblacional tambin puede ser estimada a travs de su estimador que ser la varianza muestral s. Sea X1, X2, ..., Xn una muestra aleatoria de tamao n, extrada de una poblacin normal N( , ). Si = y = s entonces podemos definir la variable aleatoria

tal que Vc y realizar pruebas de hiptesis de la forma

Caso I

Caso II

Caso III

Si Vc <

; Rechazar H0

Rechazar H0 si Vc < >

o si VcSi Vc >

; rechazar H0

4. Muestreo y distribuciones muestrales (25)


13. Problemas
1. Un comerciante de productos sintticos determina a travs de diversas pruebas que el 4% de los tornillos fabricados por una determinada compaa son defectuosos. Si el comerciante adquiere lotes de 150 productos bajo la garanta de que el paquete contiene el 92% de productos no defectuosos, cul es la probabilidad de que un paquete no satisfaga la garanta? 2. Un contratista piensa comprar una gran cantidad de radios a cierto fabricante. Este asegura al contratista que la duracin promedio de los radios es de 3600 das con una desviacin estndar de 40 das. El contratista decide comprar los radios slo si una muestra aleatoria de 64 de stos da como resultado una vida promedio de por lo menos 3600 das. Cul es la probabilidad de que el contratista adquiera los radios? 3. Una firma encuestadora efecta un anlisis de los resultados de la muestra para hacer predicciones respecto a las prximas elecciones. Supngase que se trata de medir el porcentaje de electores favorables a dos de los 5 candidatos para la regin de Lima. Si uno de los candidatos recibe por lo menos el 60% del voto en la muestra, entonces se pronosticar que dicho candidato ganar la contienda electoral. Si se selecciona una muestra de 900 electores, cul es la probabilidad de que se pronostique como ganador a ese candidato cuando el porcentaje real de sus votos es 55%?

14.

Estimacin y prueba de hiptesis para dos poblaciones

El estadstico

, obtenido en una muestra aleatoria de tamao n, y definido como un estimador , nos permite realizar diversos tipos de estimaciones tanto para una

del parmetro poblacional

poblacin (lo que ya hemos desarrollado) como en el caso de dos poblaciones. El procedimiento es el mismo, excepto que, dependiendo del parmetro a ser estimado, del tamao de las muestras, del conocimiento que tengamos de las varianzas poblacionales ( iguales o diferentes, conocidas o desconocidas), se tendr diferentes formas de calcular el estadstico .

En el caso de dos poblaciones podemos estar interesados en realizar estimaciones respecto a la media o proporcin de dos poblaciones en trminos de su comparacin o la diferencia entre las medias o de las proporciones:

Del mismo modo podramos estar interesados en medir la Razn de sus Varianzas

como lo

veremos despus, o en medir la diferencia observada en una misma poblacin pero analizada desde los resultados de una muestra sometida a dos tratamientos, lo que se conoce como Distribucin de datos pareados. De manera que vamos a estudiar uno de todos estos casos

4. Muestreo y distribuciones muestrales (26)


a) Caso de la diferencia de medias en dos poblaciones

Para la diferencia de medias muestrales con tamaos n1 y n2 , se tiene

Donde la distribucin de la diferencia de

viene dada por

y Si la suma de los tamaos de ambas muestras es grande (n1 + n2 30), se usar la distribucin normal, tanto para varianzas conocidas iguales como diferentes.

El intervalo de confianza del (1- )x100% para la diferencia de medias ser

(*)

Si las varianzas son desconocidas se utilizan sus estimadores; es decir, las varianzas de la muestra. Si n1 + n2 < 30, se usar la distribucin t de Student con n1+ n2 2 grados de libertad y donde la varianza de la diferencia de medias viene dada por

De manera que el valor calculado de t con (n1+ n2 2 ) grados de libertad ser

En este caso el Intervalo de Confianza del (1 - )x100% es similar a (*), donde debemos cambiar t de Student con n1+ n2 2 grados de libertad en lugar de Z1- /2 Los tipos de Prueba de Hiptesis que se pueden plantear sern

Caso I
<

Caso II
>

Caso III

> Si tc < t ; Rechazar H0 Nota: Esto mismo rige para la prueba de hiptesis de la diferencia de medias cuando se usa la distribucin normal con Zc , es decir, cuando las varianzas poblacionales son conocidas; en cuyo caso se debe reemplazar Z en cada t que se encuentra en el cuadro anterior. Rechazar H0 si < t /2 o > t1- /2 Si tc > t1- ; rechazar H0

4. Muestreo y distribuciones muestrales (27)


Ejemplo 7
Supongamos que el Director de la Oficina de Admisin afirma que el rendimiento promedio (Prom.Gral.) de los alumnos de Biologa, provenientes de los colegios privados es mayor que el rendimiento promedio de los alumnos de Biologa , provenientes de los colegios pblicos. Abra el archivo Ingre99.Mtw para comprobar esta afirmacin. Encuentre adems el Intervalo de Confianza del 95% para la diferencia de medias. Solucin Sea H0 : El rendimiento promedio de los alumnos de Biologa, provenientes de los colegios privados es mayor que el rendimiento promedio de los alumnos de Biologa , provenientes de los colegios pblicos. Debemos probar: H0: H1: = >

1 1

2 2

En la base de datos Ingre99.Mtw tenemos 120 datos, de los cuales 23 corresponden a la Facultad de Biologa, provenientes de colegios privados y pblicos. Vamos a extraer de esta hoja slo los alumnos que ingresaron a Biologa. Para ello usamos:

<Manip> - <Subset Worksheet>. En <Include or Exclude> activamos <Specify wich rows to include> En <Condition> digitamos lo que debe comparar: Facultad = Biologia. Si por alguna razn se presenta algn error, copie el dato Biologa desde una celda, luego use la secuencia anterior y pegue lo copiado en el momento que ingrese la comparacin. Trabajemos con esta nueva hoja. Si Ud. usa <Stat> - <Tables> - <Tally> - Colegio, encontrar Priv = 11 y Pbl = 12; con lo cual, el nmero de grados de libertad ser igual a 21(n1+ n2 2 = 21). Puesto que n1+ n2 2 < 30 y las varianzas poblacionales no son conocidas, usaremos t de student con el resultado del anlisis anterior (Ejemplo 17), donde comprobamos la homogeneidad de las varianzas, por lo que debemos suponer, varianzas iguales. Usemos ahora el Minitab que nos permitir obtener el intervalo de confianza del 95% y el p value para realizar la prueba de hiptesis. < Stat > - < Basic Statistics > - < 2-Sample t > A continuacin se obtiene la siguiente ventana

De acuerdo al ejemplo anterior suponemos que las varianzas poblacionales son iguales.

4. Muestreo y distribuciones muestrales (28)


Los resultados que se obtienen son los siguientes: Two Sample T-Test and Confidence Interval Two sample T for Prom.Gral. Colegio Priv Pbl N 11 12 Mean 11.065 10.897 StDev 0.351 0.544 ( -0.23, 0.57) T = 0.88 P=0.39 DF = 21 SE Mean 0.11 0.16

95% CI for mu (Priv) - mu (Pbl): Both use Pooled StDev = 0.462

T-Test mu (Priv) = mu (Pbl) (vs not =):

Puesto que el p value es mayor que el nivel de significacin 0.05, no se rechaza H0 y se concluye de que no hay evidencia suficiente para afirmar de que el rendimiento de los alumnos provenientes de colegios privados es mayor que los que provienen de los colegios pblicos. En el grfico siguiente no se muestra suficiente diferencia en los promedios como para rechazar la hiptesis nula.

Nota importante

Para un adecuado estudio de la teora de la estimacin en el caso de dos poblaciones se debe tomar en cuenta los casos en los que las varianzas poblacionales son conocidas o no. Siendo desconocidas, podramos suponer que ellas son iguales o diferentes. Esto por cuanto los estimadores de la varianza de la distribucin muestral de la diferencia de medias muestrales, por ejemplo, se obtienen de manera diferente. Del mismo modo, si n1 y n2 son los tamaos de las muestras aleatorias extradas de las dos poblaciones, cabe la posibilidad de que n1 + n2 30 o n1 + n2 < 30, lo que generan diferentes distribuciones muestrales. Por ello, es necesario realizar una comparacin de varianzas poblacionales; lo que se conoce como Prueba de Homogeneidad de varianzas, conocido tambin como Comparacin de dos varianzas poblacionales o Razn de varianzas poblacionales Por ello veremos ahora el siguiente tema:

4. Muestreo y distribuciones muestrales (29)


15. Inferencia acerca de las varianzas de dos poblaciones

(Prueba de Homogeneidad de varianzas)


De manera que, si las varianzas poblacionales son iguales, dicha razn es 1 y podramos afirmar que las dos poblaciones tienen una distribucin homognea; es decir, los datos se encuentran igualmente dispersos. Una forma clara de interpretacin de la importancia de la homogeneidad de varianzas se puede apreciar en el siguiente ejemplo: Supongamos que estamos comparando el rendimiento promedio de los alumnos de una asignatura dividida en dos secciones, cada una de las cuales estn asignadas a diferentes profesores. Podra

ocurrir que el rendimiento promedio de ambas secciones sea la misma; pero sin embargo, las notas pueden tener diferente variabilidad.

Observe las dos curvas en el siguiente grfico. Las dos tienen el mismo promedio, pero, por la forma de la campana, tienen diferente varianza. Esto justifica la necesidad de establecer una prueba de hiptesis para una razn de varianzas, a fin de comprobar si ellas son homogneas o no. Una aplicacin de esta razn podra ser bastante significativa en un caso en el que las medias no son muy explicativas. Por otro lado, as como se realiza inferencia sobre la estimacin y prueba de hiptesis de la diferencia de medias o proporciones muestrales en el caso de dos poblaciones, as tambin podemos plantear el estudio de la razn de las varianzas de dos poblaciones definiendo al parmetro como y su estimador . Este estudio lo haremos

tomando en cuenta el intervalo de confianza y la prueba de hiptesis para . Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extrada a partir una poblacin N( 1, 1) y se Y1, Y2, ..., Yn2 una muestra aleatoria extrada a partir una poblacin N( 2, 2).

Si

son los estadsticos de la primera muestra, de tamao n1 y

son los

estadsticos de la segunda muestra, de tamao n2 en donde

as como

entonces diremos que varianzas poblacionales

es un estimador puntual para la razn o el cociente de las

De manera que si

es el estimador de

definiremos la variable aleatoria

tal que F F(n1 1, n2 1)

Por tanto las pruebas de hiptesis a plantearse, usando el estadstico

con n1 1 grados de libertad en el numerador y n2 1 grados de libertad en el denominador, sern

Caso I

Caso II

Caso III

Si Fc <F ; Rechazar H0

Rechazar H0 si Fc < F /2 o si Fc >Si Fc > 1- ; rechazar H0 F1- /2

Y en cuanto al Intervalo de confianza del (1- )x100% para

ser

4. Muestreo y distribuciones muestrales (30)


Razn de varianzas en minitab El programa Minitab resuelve problemas de estimacin por intervalos y pruebas de hiptesis como un problema de Anlisis de Varianza, pero en su forma simple, como una comparacin de dos poblaciones. Esto se logra mediante la comparacin de medias poblacionales y tambin mediante la comparacin de sus varianzas; esta ltima a travs de PRUEBAS DE HOMGENEIDAD DE VARIANZAS. Para realizar una Prueba de Homogeneidad de Varianzas debemos ejecutar la siguiente secuencia: <Stat> - <Basics Statisticas> - <2 variances > Observe Ud. que se dispone de tres formas de ingresar los datos: Cuando los datos estn en una columna y otra contiene los subndices para reconocer las dos muestras; cuando en la hoja de trabajo las muestras estn en dos columnas y cuando se dispone de datos resumidos. La ventana de <Options> es mnima: slo requiere del nivel de confianza. Esto significa que en todas las pruebas, se asume que la hiptesis nula se formula como igualdad de varianzas o la afirmacin: Existe homigeneidad entre las dos poblaciones. Tomaremos en cuenta estos criterios toda vez que tengamos que obtener intervalo de confianza para una razn de varianzas o realizar pruebas de hiptesis de las varianzas poblacionales.

Ejemplo 8
Tomando los datos de la hoja Ingre99.Mtw, determine si la varianza del rendimiento de los alumnos provenientes de colegios privados es igual a la varianza del rendimiento de los alumnos provenientes de colegios pblicos. Solucin Este es un problema de comparacin de varianzas. Por la pregunta deducimos que el rendimiento ser idntico o mejor : Homogneo si el cociente de la variabilidad del rendimiento en cada tipo de colegio es aproximadamente igual a 1. En Minitab debemos usaremos la opcin <ANOVA> del comando <Stat>. < Stat > - < Anova > - < Homogeneity of Variance >. A continuacin debemos completar los datos en la siguiente ventana: En < Response > ingresaremos la variable Prom. Gral En <Factors> ingresaremos la variable Colegio. Los resultados obtenidos son Homogeneity of Variance Response Factors ConfLvl Lower Prom.Gral. Colegio 95.0000 Sigma Upper N Factor Levels

0.400240 0.478631 0.593213 67 Priv 0.408457 0.498599 0.636957 53 Pbl F-Test (normal distribution) Test Statistic: 1.085 P-Value : 0.748

Levene's Test (any continuous distribution)

Test Statistic: 0.664 P-Value : 0.417 Puesto que el p value es mayor que 0.05 aceptamos la Hiptesis de igualdad de varianzas. Las grficas que se muestran en la figura anterior contienen, aproximadamente, el mismo alargamiento en ambas cajas del boxplot.

4. Muestreo y distribuciones muestrales (31)


16. Distribucin muestral de medias para datos pareados

Muchas veces cuando se realizan estudios de muestreo comparando promedios, se extraen muestras de la misma poblacin, y el tratamiento al que se les somete es el mismo que se les da a los que provienen de diferente poblacin. Sin embargo hay situaciones en los que el experimento consiste en evaluar el rendimiento de los elementos de una muestra bajo dos circunstancias diferentes. Por ejemplo, cuando a una muestra de n pacientes se les evala su nivel de colesterol antes de aplicarles algn medicamento y luego se vuelve a evaluarlos despus de la aplicacin del medicamento. Otro ejemplo: A un grupo de trabajadores de una empresa se les somete a dos

mtodos de capacitacin para medir la eficacia de los dos mtodos. En ambos ejemplos se trata de la misma muestra. Cada elemento de esta muestra genera dos resultados Xi e Yi. Se trata de probar si el rendimiento promedio de ambos tratamientos es la misma o medir su eficacia. Este tipo de problema es lo que constituye problemas de datos pareados y para el cual se puede realizar procesos de estimacin por intervalos o formular hiptesis a fin de verificar los resultados.

Definicin Sea X1, X2, ..., Xn los resultados obtenidos en una muestra de tamao n, al evaluar sus elementos bajo alguna forma de experimento. Sea Y1, Y2, ..., Yn los resultados obtenidos luego de aplicar algn tratamiento a la misma muestra. Y supongamos que esta muestra ha sido extrada una poblacin N(
2

, 2).

Sea (X, Y) una variable aleatoria muestral cuyos elementos se definen como pares ordenados de la forma (X1, Y1), (X2, Y2), ...., (Xn, Yn). Estas variables no son independientes. Veamos por qu: Si Xi representa el nivel de colesterol que tiene el i-simo paciente antes de suministrarle un medicamento, Yi representa el nivel de colesterol del mismo paciente despus de suministrarle dicho medicamento, sin duda, los resultados probablemente sean diferentes. Si definimos a D como funcin de dos variables aleatorias D = X Y, entonces D es una variable aleatoria poblacional, cuyos parmetros son = E(D) = E(X Y ) = -

D = V(D) = V(XY) = V(X) + V(Y) 2Cov(X, Y) = 1 + 2 - 2Cov(X,Y) donde Cov(X, Y) = E(XY) E(X)E(Y) = -

XY

De manera que si en una muestra aleatoria de tamao n, definimos el estadstico varianza muestral son

, cuya media y

y entonces su distribucin de probabilidad viene dada por

Y puesto que la poblacin de donde provienen es normal, por la Propiedad Reproductiva de la

Normal, Para la estimacin del Intervalo de Confianza y una Prueba de Hiptesis, debemos contemplar dos casos: Caso I: Cuando el tamao de la muestra es suficientemente grande (n 30)

Por el TLC usamos

tal que Z N(0, 1)

Caso II: Cuando el tamao de la muestra es pequeo (n < 30) En este caso usamos la distribucin t de Student calculando

tal que S t(n-1) El intervalo de confianza de (1 - )x100% y los tres tipos de Prueba de Hiptesis se realizan utilizando el mismo procedimiento dado para la diferencia de medias muestrales.

4. Muestreo y distribuciones muestrales (32)


Datos pareados en minitab

El programa Minitab dispone de una opcin dentro del comando <Stat>, lo que se consigue usando la siguiente secuencia: <Stat> - <<Basic Statistics > - <Paired t > A continuacin se obtiene la siguiente ventana:

Aqu tambin se dispone de las opciones comunes a otras ventanas como el caso de la diferencia de medias. En cuanto a las ventana de <Optinos> se aprecia que es la misma que en el caso de las diferencia de medias. Para obtener un intervalo confidencial y una prueba de hiptesis, se debe hacer clic en <Options> e introducir los datos como <Confidence level>, <Test mean> y <Alternative>, como se muestra en la ventana adjunta.

Ejemplo 9
En cierto Examen de Admisin tomada por el Departamento de Admisin de la Universidad Nacional de San Marcos se produjo un incidente que oblig a tomarse un nuevo examen a los mismos postulantes. Los resultados de ambas pruebas se encuentran en el archivo ReExam.Mtw. Se puede afirmar que los resultados obtenidos en el ambos exmenes no tuvieron diferencia significativa; es decir, los rendimientos promedio no difieren?

Solucin Como se trata de un problema de datos pareados, debemos formular la hiptesis como que la media de la diferencia es nula; es decir, no hay diferencia en el rendimiento de las dos pruebas. D = 1-2 = 0 Segn esto debemos probar H0 : H1:
D D

= 0 (No existe diferencia significativa en el rendimiento de las dos pruebas) 0 (S existe diferencia significativa en el rendimiento de las dos pruebas)

En Minitab usaremos la siguiente secuencia: <Stat> - <Basic Statistics > - < Paired t ... > Complete la ventana que se obtiene ingresando los datos que se requiere. En Samples in columns: First simple: Antes; Second simple: Despues. Haga clic en <Graph> y seleccione Histogram of differences. En <Opciones> deje como est. No hay cambios. Luego de esto se obtendr el siguiente resultado.

Puesto que el valor de p value es 0.000 y es menos que 0.05, entonces rechazamos la hiptesis nula y afirmamos que los rendimientos promedio son diferentes. En la figura de la derecha se muestra la ubicacin de H0 : 1 - 2 = 0 y el intervalo de confianza del 95% que incluye el promedio muestral (en azul). Comprobndose tambin que hay diferencia significativa; lo que nos permite rechazar la hiptesis nula.

4. Muestreo y distribuciones muestrales (33)


Ejemplo 10 A fin de medir el efecto de una campaa de ventas sobre artculos sobrantes, en toda la cadena de tiendas que ofrecen el mismo producto, el Gerente de Investigacin de mercado tom una muestra aleatoria de 13 pares de tiendas que se hicieron concordar segn el volumen semanal promedio de ventas. Una tienda de cada par (el grupo experimental) fue expuesta a la campaa de promocin, mientras que la otra no lo fue. Los siguientes datos muestran los resultados en un perodo semanal. VENTAS(en miles) DE ARTICULOS SOBRANTES Tienda 1 2 3 4 5 6 7 8 9 10 11 12 13 Con promocin 67.2 59.4 80.1 47.6 97.8 38.4 57.3 75.2 94.7 64.3 31.7 49.3 54.0 Sin promocin 65.3 54.7 81.3 39.8 92.5 37.9 52.4 69.9 89.0 58.4 33.0 41.7 53.6

Puede el Gerente de Investigacin llegar a la conclusin de que la promocin logr aumentar las ventas? Solucin Los resultados se muestran a continuacin Paired T-Test and Confidence Interval Paired T for Con promocin - Sin promocin Con promocin Sin promocin Difference N 13 13 13 Mean StDev 62.85 20.03 59.19 19.49 3.654 3.186 SE Mean 5.55 5.41 0.884

95% CI for mean difference: (1.729, 5.579) T-Test of mean difference = 0 (vs < 0): T-Value = 4.14 P-Value = 0.999 Puesto que p value > 0.05 entonces se acepta la hiptesis nula en el sentido de que el rendimiento promedio obtenido en el segundo examen fue mayor que en el primero.

4. Muestreo y distribuciones muestrales (34)


17. Intervalo de confianza y prueba de hiptesis para la

diferencia de proporciones
Para la diferencia de proporciones muestrales con tamaos n1 y n2 , se tiene

Donde la distribucin de probabilidades de la diferencia de proporciones muestrales por

, viene dada

y Si los tamaos de muestra n1 y n2 son grandes debemos encontrar Zc tal que

tal que Zc N(0, 1)

Los tipos de prueba que se pueden plantear se muestra en la siguiente tabla

Caso I

Caso II

Caso III

> Si Zc < Z ; Rechazar H0 Rechazar H0 si Zc < Z /2 o siSi Zc > Z1- ; rechazar H0 Zc > t1- /2 Diferencia de proporciones en Minitab En Minitab existe tres formas diferentes de realizar una prueba de hiptesis para una diferencia de proporciones muestrales: Luego de usar la secuencia < Stat > - < Basic Statistics > - < 2 Proportions > obtenemos la siguiente ventana

Se usa la primera opcin si los datos se encuentran en dos columnas: En la primera se encuentran los xitos y fracasos(recuerde que el problema de proporciones deriva de poblaciones binomiales y el muestreo realizado constituye n ensayos de Bernoulli) y, En la segunda se identifica al grupo que pertenece cada uno.

Se usa la segunda opcin cuando cada una de las muestras ocupan una columna diferente, en el cual se encuentran los xitos y fracasos. Se usa la tercera opcin cuando slo se posee resultados del muestreo y no los datos. Como cuando se dispone del tamao de cada muestra y el nmero de xitos dentro de ellas.

4. Muestreo y distribuciones muestrales (35)


Ejemplo 11
Con relacin a los datos de los ingresantes Ingre99.Mtw el Director del Departamento de Admisin afirma que no hay diferencia entre la proporcin de varones provenientes de colegios privados que aquellos que provienen de colegios pblicos. Solucin Luego de abrir la hoja Ingre99.mtw. La columna C2 contiene la variable Sexo y la columna C3 contiene la variable Colegio. Sea Sea Sea la proporcin de varones provenientes de colegios privados la proporcin de varones provenientes de colegios pblicos - 2 la diferencia proporcional de varones de los colegios privados y pblicos - y realizar una prueba de

1 2 1

Deseamos encontrar el Intervalo de confianza del 95% para hiptesis del tipo H0 : H1: =

1 1

2 2

Despus de usar la secuencia <Stat> - <Basic Statistics> - <2 Proportions > Activamos al primera opcin: <Samples in one column>. En <Samples> ingresamos la columna C2 (Sexo) y en <Subbscripts> ingresamos C3(Colegio). Haciendo clic en <Options> ingresamos 0.95 y seleccionamos <Not equal>. Luego <Ok> y <Ok>. Los resultados se muestran a continuacin

Test and Confidence Interval for Two Proportions Success = M Colegio Priv Pbl X 20 20 N 67 53 Sample p 0.298507 0.377358

Estimate for p(Priv) - p(Pbl): -0.0788510 95% CI for p(Priv) - p(Pbl): (-0.249250, 0.0915484) Test for p (Priv) - p(Pbl) = 0 (vs not = 0): Z = -0.91 P-Value = 0.364

Observamos que

= -0.0788510. - es (-0.249250, 0.0915484)

El intervalo de confianza del 85% para

Puesto que el p-value es mayor que 0.05 entonces aceptamos la hiptesis nula; es decir, no existe suficiente evidencia para afirmar de que los porcentajes de colegios de procedencia de ingresantes varones sean diferentes.

4. Muestreo y distribuciones muestrales (36)


Ejemplo 12
Un economista al servicio de una agencia estatal, desea determinar si la frecuencia de desempleo en las grandes reas urbanas del estado es diferente. Tomando como base muestras aleatorias de tamao 500 en cada ciudad, dicho economista encuentra 35 personas desempleadas en la Ciudad A y 25 en la Ciudad B. Bajo las suposiciones adecuadas y, con un nivel de significacin del 5%, existe alguna razn para creer que las frecuencias de desempleo en las dos reas son diferentes? Solucin De acuerdo a los datos del problema:

Ciudad A: Ciudad B:

nA = 500; nro. de xitos = 35 nB = 500; nro. de xitos = 25

Sea H0 : No hay diferencia en la frecuencia de desempleo de las dos ciudades La pruebas a realizarse son: H0 : H1:
1 1

2 2

Usando Mintab encontramos los siguientes resultados Test and Confidence Interval for Two Proportions Sample 1 2 35 25 X N Sample p

500 0.070000 500 0.050000

Estimate for p(1) - p(2): 0.02 95% CI for p(1) - p(2): (-0.00941252, 0.0494125) Test for p(1) - p(2) = 0 (vs not = 0): Z = 1.33 P-Value = 0.183 Puesto que el p-value es mayor que 0.05 concluimos que no hay evidencia suficiente para rechazar la hiptesis nula planteada, por lo que deberemos aceptarla como vlida.

5. Anlisis de datos categricos (1)

El estudio de la Estadstica Inferencial no slo se ocupa de variables cuyo comportamiento est determinado por ciertos parmetros que la definen. Se ocupa tambin de variables cuya distribucin no es conocida, pero con las cuales se podra formular ciertas hiptesis que pueden ser validadas con ayuda de las distribuciones como la Distribucin Chi Cuadrado, que proporciona una colaboracin eficiente para estos temas. Por otro lado, no siempre el anlisis estadstico se realiza sobre datos cuantitativos, en muchos casos stos son de naturaleza cualitativa.

El conjunto de estas variables se clasifican por categoras, cada una de las cuales pueden pertenecer a una determinada poblacin. Si bien el anlisis comparativo de dos poblaciones lo cubre la diferencia de medias o proporciones poblacionales, en este caso estamos hablando de una comparacin de ms de dos poblaciones. De manera que, an en el caso de que tuviramos variables con un determinado comportamiento, se trata de plantear comparaciones de mltiples variables cada una de las cuales podran tener una distribucin conocida: Se pueden realizar pruebas de Bondad de Ajuste para variables multinomiales, para variables normales o con una distribucin de Poisson. Tambin se puede probar la afirmacin de que un conjunto de datos se ajusta a una de estas distribuciones conocidas. Por ello estamos interesados en medir la independencia de estas variables categricas; se trata de analizar su homogeneidad o el tipo de ajuste que pudieran tener. Esto significa realizar prueba de hiptesis para la independencia de variables, para la homogeneidad de las mismas o, probar la bondad de su ajuste hacia alguna distribucin conocida. Por otro lado, desde el punto de vista de la estadstica, luego de conocer el valor del estadstico en una muestra, interesa medir el desvo que presentan respecto de su valor esperado; es decir, interesa medir, por ejemplo , en el caso de la media. Y como esta diferencia puede ser

cero (como en este), es ms importante analizar errores en la estimacin del parmetro.

que constituye la suma de los

La distribucin Chi Cuadrado ser un instrumento que nos permitir evaluar este tipo de comparaciones y determinar la aceptacin o rechazo de las hiptesis de igualdad, como lo veremos en las siguientes secciones. En este captulo desarrollaremos los siguientes temas: 1. Pruebas de Bondad de Ajuste 2. Pruebas de Independencia: Tablas de Contingencia 3. Anlisis de Varianza (ANOVA)

5. Anlisis de datos categricos (2)

1. Pruebas de Bondad de Ajuste


Fundamento: Sea X1, X2, ..., Xk un conjunto de categoras mutuamente excluyentes extradas de una poblacin(puede ser Binomial, Normal o Poisson, Exponencial, etc.). Supongamos que pi: representa la probabilidad de ocurrencia de un elemento cualquiera de la poblacin (llmese Binomial, Poisson o Normal, etc.) Supongamos tambin que pXi : representa la probabilidad de ocurrencia de X i , en la i - sima categora, para i = 1, 2, ..., k Los pXi representan tambin la frecuencia relativa para cada Xi Podramos afirmar si la probabilidad de ocurrencia de un valor de la variable poblacional es la misma que la probabilidad de ocurrencia del mismo valor en una variable muestral? Si esto fuera cierto y, si la respuesta es positiva para cada uno de las categoras, entonces diramos que el comportamiento de los datos en la muestra se ajustan a la distribucin seleccionada en la hiptesis y que gozan de su comportamiento. Ahora bien, qu tan bueno puede ser dicho ajuste? Usaremos la prueba de hiptesis para responder a esta pregunta. Sea H0 : La proporcin de xitos en la muestra coincide con la probabilidad de xito. Podemos probar la Hiptesis Nula con un nivel de significacin de 100(1- )%. Para ello, supongamos que H0 : pXi = pi para i = 1, 2, ..., k H1 : pXi pi para i = 1, 2, ..., k Para aceptar o rechazar la hiptesis nula primero debemos realizar los clculos a partir de un conjunto de datos Xi.

Procedimiento: Debemos obtener la Frecuencia Observada, Oi para cada categora (Xi) A continuacin se deber obtener una columna para la Frecuencia Esperada, tomando en cuenta el tipo de poblacin de la cual se ha extrado la muestra: Si fuera binomial, la Frecuencia Esperada para la i-sima categora ser Ei = npi. Si la poblacin fuera Normal, Ei = i. Si la poblacin es Poisson, entonces Ei = i. Luego en las dos columnas siguientes debemos obtener la diferencia (frecuencia observada menos frecuencia esperada, Oi - Ei) y los cuadrados de la misma. La suma de ellos se deber comparar con el valor Chi Cuadrado con k 1 grados de libertad que nos entregue el Minitab, donde k representa el nmero de categoras.

Se rechazar la Hiptesis Nula si

>

(k-1)

En consecuencia, se trata de completar la siguiente tabla:

Frecuencia Categora X1 X2 ... ... Xk Total observada(Oi) O1 O2

Frecuencia esperada(Ei) E1 E2 (Oi Ei) (Oi Ei)/Ei

Ok

Ek

El valor de

>=

ser contrastado con el

(k-1- r) de la tabla

Donde r representa el nmero de parmetros a estimar.

Nota: Si el nmero de observaciones para una determinada categora fuese menor a 5, se procede a fusionar con la categora contigua.

5. Anlisis de datos categricos (3)


Ejemplo 1
En un estudio de Anlisis de Mercado realizado por Compaa de Investigacin de Mercado(CIM), se observa que la participacin de tres empresas competidoras era del 30% de la Compaa A, 50% de la Compaa B y 20% de la Compaa C. Si la Compaa C introdujo un nuevo producto de Calidad Extra Blanca , se producir una modificacin en el comportamiento del mercado?; es decir, se modificar la participacin de cada una de las empresas competidoras en el mercado? Solucin Para tratar de responder a esta pregunta, CIM llev a cabo una encuesta practicada a 200 clientes a fin de averiguar sobre su preferencia de compra en las tres compaas. La encuesta arroj los siguientes resultados: 48 indicaron que prefieren el producto de la Compaa A; 98 indicaron que prefieren el producto de la Compaa B y 54 indicaron que prefieren el producto de la Compaa C. En base a estos resultados, CIM decidi realizar una Prueba de Bondad de Ajuste tomando en cuenta los siguientes criterios: La poblacin de inters: Puesto que el muestreo realizado a cada compaa constituye un experimento binomial, el conjunto constituye una Poblacin multinomial Sea pA: La probabilidad de que un cliente consuma el producto de la Compaa A pB: La probabilidad de que un cliente consuma el producto de la Compaa B

pC: La probabilidad de que un cliente consuma el producto de la Compaa C CIM decide fijar como Hiptesis de trabajo lo siguiente: H0 : La participacin de cada compaa no sufrir ningn cambio y H1 : La participacin de cada una sufrir cambios. Esto nos lleva a plantear la siguiente prueba, con el 95% de nivel de confianza: H0 : pA = 0.30; pB = 0.50; pC = 0.20 H1 : pA 0.30; pB 0.50; pC 0.20 De acuerdo a los datos, podemos construir la siguiente tabla (Ei = np = 200(0.30)): Proporcin Categora Ca. A Ca. B Ca. C Total de xito 0.30 0.50 0.20 200 Frecuencia observada(Oi) 48 98 54 Frecuencia esperada(Ei) 60 100 40 (Oi Ei) 144 4 196 (Oi Ei)/Ei 2.40 0.04 4.90 7.34

Luego Ahora el valor terico lo hallamos usando <Calc> - <Probability Distributions> - <Chi Square> - <Inverse cumulative > Grados de libertad: 3 1 En <Input constant> 0.95 Obtenemos Puesto que 7.34 es mayor que el valor de la tabla, diremos que s existe suficiente evidencia para afirmar que el cambio efectuado por la Compaa C modificar la participacin de ellas en el mercado. En consecuencia, rechazamos la hiptesis nula.

5. Anlisis de datos categricos (4)


En Minitab

La versin 15 dispone de muchas opciones que no se tena en las versiones anteriores. Esta es una de ellas. En la columna C1 digite las proporciones: 0.30, 0.50, 0.20 En la columna C2 digite las observaciones en la muestra: 48, 98, 54 Para realizar pruebas de Bondad de ajuste usaremos la secuencia: <Stat> - <Tables> - <Chi-Square goodness of fit test (one variable>

Sin embargo, sabemos que mediante la calculadora del comando <Calc>, podemos realizar cualquiera que sea el clculo que quisiramos; slo depende de nuestra habilidad.

A continuacin ingrese los datos segn se muestra en la siguiente figura Los resultados que se obtienen se observan a continuacin Chart of Contribution to the Chi-Square Value by Category

Chi-Square Goodness-of-Fit Test for Observed Counts in Variable: C2

Historical Category Observed 1 2 3 48 98 54 0.3 0.5 0.2

Test 0.3 0.5 0.2 60

Contribution to Chi-Sq 2.40 0.04 4.90

Counts Proportion Expected 100 40

N DF Chi-Sq P-Value 200 2 7.34 0.025

El valor del Chi cuadrado calculado es el mismo. Usando pValue = 0.025 podemos concluir que, siendo menor que el nivel de significacin = 0.05, rechazamos Ho; es decir, s hay suficiente evidencia del cambio en las preferencias . Nota: Pero antes de continuar, quisiramos decir algo respecto a la ayuda que en este punto nos proporciona el programa Excel. Este programa puede usarse en muchos casos, para reemplazar el uso de una tabla estadstica; obteniendo como ventaja, la emisin del p value, al cual nos hemos acostumbrado en Minitab. En cualquier celda digite: =DISTR.CHI(7.34,2) . P(X 7.34) En este caso, Chi Cuadrado con 2 grados de libertad y el valor calculado = 7.34, devuelve un p value = 0.02547647. Puesto que p value es menor que 0.05, entonces rechazamos la Hiptesis Nula.

5. Anlisis de datos categricos (5)


Ejemplo 2
Considere que la demanda semanal de un producto tiene una distribucin normal. Haga una prueba de bondad de ajuste con los siguientes datos, para probar esta hiptesis. Use = 0.10.

18 20 25

20 24 25

22 26 28

27 27 26

22 25 28

25 19 24

22 21

27 25

25 26

24 25

26 31

23 29

Solucin Debemos probar: H0: La demanda semanal del producto tiene una distribucin normal H1: La demanda semanal del producto no tiene una distribucin normal Usando Minitab: Usemos este programa de la siguiente manera: Vamos a clasificarlas a las 30 observaciones en un conjunto de k categoras, de manera que podamos tener O1, O2, ...., Ok observaciones; es decir, vamos a construir una tabla de frecuencias, donde las frecuencias absolutas ser los Oi, las pi ser las probabilidades de que un valor Xi est en un determinado intervalo; es decir, pi = P(LimSup) P(LimInf). Estas probabilidades las hallaremos usando la distribucin normal en el cual hemos estimado dos parmetros: la media con el promedio de la muestra y la varianza con la varianza de la muestra s. De esta forma, al buscar los grados de libertad, debemos usar k-1-2 por ser dos los parmetros que se estimaron. Procedimiento: Para ello usaremos datos agrupados de manera que k representar el nmero de intervalos. Puesto que tenemos 30 observaciones, hagamos que k = 8. Los siguientes pasos nos permitirn la tabla anterior Paso 1: Ingresamos los datos en la columna C1. Paso 2: Obtencin de Estadsticas Descriptiva de los datos observados: <Stat> - <Basic statistics> - <Display Descriptive statistics> - C1 - <Ok> Los resultados son los siguientes:

Descriptive Statistics: Demanda Total Variable Count Demanda Mean StDev Variance Minimum Maximum Range 9.086 18.000 31.000 13.000 30 24.500 3.014

Media Desviacin estndar Valor mnimo Valor mximo

= 24.5 = 3.014 = 18 = 31

Ancho o Amplitud de intervalo = 13/8 = 1.625

5. Anlisis de datos categricos (6)


Paso 3: Obtencin de las marcas de clase (Xi) (columna C5) que constituyen las observaciones en datos agrupados: Oi : Tabulamos, simplemente. En todo caso, use el procedimiento dado al final del captulo II, siga paso a paso y con cuidado. Al editar la escala X debe ingresar segn se indica en la siguiente figura de la izquierda:

Usando el botn derecho sobre una barra agregue etiquetas. El resto es sencillo para obtener la tabla de frecuencias. La imagen de la derecha muestra lo que se debe obtener:

Paso 4: Obtencin de las probabilidades para las columnas Lim. Inf. (C3) y Lim. Sup.(C4). Para ello usamos: i) <Calc> - <Probability distributions> - <Normal> - <Cumulative Probability > <Mean> 24.5 - <Std.Desviation> 3.014 -<Input column > C3 - <Storage > C6 - <Ok> ii) <Calc> - <Probability distributions> - <Normal> - <Cumulative Probability > <Mean> 24.5 - <Std.Desviation> 3.014 -<Input column > C4 - <Storage > C7 - <Ok> Paso 5: Obtencin de la columna C8(P(X = xi): <Calc> - <Calculator> - <Store result in variable> C8 - <Expressions> C7 C6 Paso 6: La columna C9 es una copia de la columna C5 que son los Oi. Paso 7: Obtencin de la columna C10 (Ei): Usamos la calculadora para ingresar la expresin Sum(C9)*C8 Paso 9: Obtencin de la columna C11: (Oi-Ei)/Ei: Usamos la calculadora para ingresar la expresin (Oi-ei)**2/ei Paso 10: Suma de estos valores: Sum(C11) = 6.5307 Paso 11: El valor de Chi Cuadrado con 7 grados de libertad y 10% de nivel: 9.23636 Puesto que < (5) ; es decir, 6.5307 < 9.23636 (no es mayor que el valor terico) concluimos que hay suficiente evidencia para afirmar que la demanda semanal de dicho producto tiene una distribucin normal (no se rechaza la hiptesis nula). A continuacin mostramos la tabla obtenida:
C3 C4 C5 C6 C7 C8 C9 C10 C11

I Linf /Ei 1 18.000 2 19.625 3 21.250 4 22.875 5 24.500 6 26.125 7 27.750 8 29.375

Lsup

Xi P(Linf) 0.016 0.053 0.140 0.295 0.500 0.705 0.860 0.947

P(Lsup) 0.053 0.140 0.295 0.500 0.705 0.860 0.947 0.984

P(X=xi) 0.037 0.088 0.154 0.205 0.205 0.154 0.088 0.037

Oi 2 3 3 4 11 3 3 1

Ei 1.121 2.627 4.633 6.153 6.153 4.633 2.627 1.121

(Oi - Ei ) 0.689 0.053 0.576 0.754 3.818 0.576 0.053 0.013

19.625 2 21.250 3 22.875 3 24.500 4 26.125 11 27.750 3 29.375 3 31.000 1

La siguiente grfica prueba la afirmacin planteada como hiptesis nula. Y como bien, concluimos: Hay evidencia.

5. Anlisis de datos categricos (7)


Ejemplo 3
Contrastar la Hiptesis de que las 50 observaciones que se dan en la siguiente tabla, forman una muestra aleatoria seleccionada de una poblacin exponencial. 0.91 0.16 1.28 3.65 1.75 1.22 2.02 0.06 3.41 0.89 1.28 1.59 0.19 0.07 0.79 0.02 1.73 0.29 0.51 1.28 2.33 0.49 0.74 1.27 0.57 0.90 1.62 1.16 0.61 0.76 0.86 0.56 0.22 0.31 0.05 1.45 0.53 0.91 0.22 1.53 1.22 0.50 0.04 0.37 1.86 0.55 0.24 1.41 0.06 1.28

Solucin Como en el caso anterior, Probaremos H0 : Los datos tienen una distribucin exponencial H1 : Los datos no tienen distribucin exponencial Paso 1: Ingresamos los datos en la columna C1

Paso 2: Obtencin de las estadsticas: <Stat> - <Basic Statistics> - <Display descriptive statisctics> - <Ok> As hallamos el promedio de la muestra = 0.954, lo que nos permite encontrar el parmetro = 1/0.954 = 1.048218 (recuerde que estamos estimando un parmetro, por lo que los grados de libertad ser: n-1-k = 50-1-1 Paso 3: Obtencin de la distribucin de probabilidad <Calc>- <Probability distribution> - <Exponential> - Activamos <Probability density>. <Mean > = 0.954 <Input column > C1. Haremos que C7 contenga p(x) Paso 4: Usando la calculadora: <Calc > - < Calculator> obtenemos los siguientes clculos, para cada una de las columnas indicadas.

Para C2: Para C3: Para C4: Para C5: Para C6:

SUM(C1)*C7 50*C7 C2 C3 C4*C4/C3 SUM(C4) = 2.57437 Esta es la columna de los (Oi Ei)2.

Obtenemos como

Paso 5: Usamos la secuencia: <Calc> - <Probability distributions> - <Chi-Square> . Ingresando en grados de libertad: k 1 = 49 y en <Input constant> ingresamos 0.95 que representa el nivel de confianza. Finalmente encontramos los siguientes resultados: Exponential with mean = 0.954 P( X <= x ) x

0.95 2.85793

Como

no es mayor que

(48),

no rechazamos la afirmacin de que provengan de una poblacin exponencial. Esto se puede comprobar observando la siguiente figura cuya grfica de la izquierda corresponde a los datos y el de la derecha a una exponencial con media 0.954.

5. Anlisis de datos categricos (8)


2. Prueba de Independencia: Tablas de contingencia

Al estudiar la diferencia entre los parmetros poblacionales a travs de la diferencia muestral de los estadsticos muestrales correspondientes, lo que hemos hecho es realizar un anlisis comparativo de dos variables: X: Observaciones provenientes de la primera poblacin, e Y: Observaciones provenientes de la segunda poblacin. Y al plantear la Hiptesis Nula de la igualdad de dichos parmetros, lo que hemos hecho es afirmar que dichos parmetros tienen el mismo comportamiento o que no existe suficiente evidencia para afirmar que difieren, versus la Hiptesis Alternativa que la niega. Queremos ahora generalizar este tipo de comparaciones para ms de dos poblaciones. Pero a diferencia de probar el mismo comportamiento entre dos poblaciones, trataremos de probar hiptesis de independencia en el comportamiento de las mismas, versus la hiptesis alternativa que afirma la dependencia entre el comportamiento de las poblaciones. Veamos el siguiente problema:

Ejemplo 4
La empresa Limpia Ya S.A. comercializa tres tipos de detergentes A, B y C. En un anlisis de segmentacin de mercado para los tres productos, el grupo de investigacin encargado ha planteado la duda de si las preferencias para los tres detergentes son diferentes entre los consumidores de los sectores Alto, Medio y Bajo. Si la preferencia de los detergentes fuera independiente del sector consumidor, se iniciara una nica campaa de publicidad para los tres productos; sin embargo, si la preferencia depende del sector de consumo, se ajustarn las promociones para tener en cuenta los distintos mercados de venta. De manera que las hiptesis a plantearse sern: H0: La preferencia de detergente es independiente del sector de consumo H1: La preferencia de detergente no es independiente del sector de consumo Despus de identificar a la poblacin y sectores consumidores, se puede tomar una muestra y preguntar a cada elemento de la muestra sobre su preferencia entre los tres tipos de detergentes. El conjunto de datos definido como observaciones corresponder a un determinado detergente, consumido por un determinado sector. Esto nos lleva a conformar todas las posibles combinaciones o contingencias a las cuales llamaremos Tabla de Contingencias. De manera que una prueba de independencia utiliza como formato de trabajo una tabla de contingencias. Por esta razn este tipo de prueba recibe el nombre de Pruebas de Tabla de Contingencias o prueba con tabla de contingencias. El formato de la tabla se muestra a continuacin: Detergente A O11 O21 O31 O1. Detergente B O12 O22 O32 O2. Detergente C O13 O23 O33 O3. Total O.1 O.2 O.3 N

Sexo

Alto Medio Bajo Total

Supongamos que se tom una muestra de 120 consumidores. Despus de usar los tres tipos de detergentes, se les pide manifestar su preferencia. Los resultados de la muestra se presentan en la siguiente tabla: Producto Detergente A 14 21 15 50

Sexo

Alto Medio Bajo Total

Detergente B 12 16 12 40

Detergente C 10 8 12 30

Total 36 45 39 n= 120

5. Anlisis de datos categricos (9)


Si pudiramos obtener las frecuencias esperadas bajo la hiptesis de independencia entre la preferencia de los detergentes y el sector del consumidor, podramos usar la distribucin Chi Cuadrado para determinar si existe una diferencia significativa entre las frecuencias observadas y esperadas, como lo vimos en bondad de ajuste. Para encontrar las frecuencias esperadas haremos uso del siguiente razonamiento: Si es cierto que la preferencia de los detergentes y el consumo por sector son independientes entonces la proporcin de consumo por detergente debe se igual entre los tres sectores. Por ello, bajo la hiptesis de independencia, esperaramos que el total de los consumidores por sector estaran afectados por esta proporcin. En otras palabras, la proporcin de consumo por detergente es 50/120, 40/120 y 30/120. Luego el nmero esperado de consumidores por sector ser 36(50/120), 45(40/120) y 39(30/120). Todo esto se muestra en la siguiente tabla: Producto Detergente A 15 18.75 16.25 50

Sexo

Alto Medio Bajo Total

Detergente B 12 15 13 40

Detergente C 9 11.25 9.75 30

Total 36 45 39 n= 120

En consecuencia, hemos usado la siguiente frmula

Lo que falta ahora es repetir lo que hicimos en Bondad de Ajuste por Chi Cuadrado. Es decir obtener la suma de los cuadrados de las diferencias entre las frecuencias observadas y esperadas, dividido por las frecuencias esperadas. Slo que en este caso, la suma es con doble sumatoria, como aqu se indica,

tal que

donde k es el nmero de categoras(filas) y m es el nmero de contingencias (columnas) existentes en la muestra. El siguiente cuadro nos muestra la suma de los cuadrados mencionados lneas arriba.

Producto Detergente A Alto Medio Sexo Bajo Total 0.067 0.270 0.096 50 Detergente B Detergente C Total 0.000 0.067 0.077 40 0.111 0.939 0.519 30 36 45 39 120

Luego

= 2.146.

Usando Minitab encontramos el valor de

(4) = 9.4877

Puesto que

<

(4)

Entonces, podemos afirmar que existe evidencia para sospechar que la preferencia por los detergentes es independiente del sector al que pertenece el consumidor.

5. Anlisis de datos categricos (10)


Solucin por Minitab: El programa Minitab permite resolver problemas de contingencia usando Pruebas de Asociacin de variables por Chi Cuadrado Los test de Chi Cuadrado permite probar si las probabilidades de clasificacin de una variable dependen de la clasificacin de otra variable.

La siguiente figura(izuierda) muestra la secuencia que debemos usar para usar esta opcin de <Stat>.

De manera que usando <Stat> - <Table> - <Chi Square Test ...> pasamos a la siguiente ventana, que se muestra en la figura de la derecha. All se debe ingresar las columnas de los datos que, para nuestro ejemplo corresponden a los tipos de detergentes, que corresponden a las contingencias. Cada fila har referencia a cada una de las categoras.

Procedimiento:

La solucin de este tipo de problema en Minitab es muy sencillo: Paso 1: Ingresamos los datos: Cada categora en una fila; Cada contingencia en una columna. Evitar el uso de columnas de totales marginales por fila o columna. Paso 2: Usar la secuencia: < Stat > - < Tables > - < Chi Square Test >. En siguiente ventana se debe ingresar la lista de las columnas que contienen las contingencias. Paso 3: Finalmente hacemos clic en < Ok >. Aplicacin para el ejemplo propuesto: El mismo ejemplo lo hemos resuelto por Minitab, obteniendo los siguientes resultados Chi-Square Test Expected counts are printed below observed counts

Chi-Sq = 0.067 + 0.000 + 0.111 + 0.270 + 0.067 + 0.939 + 0.096 + 0.077 + 0.519 = 2.146 DF = 4, P-Value = 0.709

Siendo el p-value > 0.05, aceptamos la hiptesis nula, equivalente a nuestra conclusin usando el valor de Chi cuadrado = 2.146. NOTA: Pero el Minitab tambin resuelve pruebas de independencia cuando los datos no estn tabulados, como se explica en el siguiente ejemplo

5. Anlisis de datos categricos (11)


Ejemplo 5
El gerente de un centro comercial quera saber si hay diferencias en la proporcin de mujeres compradoras a diversas horas durante diversos das de la semana. Se seleccionaron muestras aleatorias de 300 clientes en el da, 300 en la noche y 400 compradores en los fines de semana; obtenindose los siguientes resultados: Dia Hombres Mujeres 90 210 Noche 125 175 Fin de Semana 185 215

Con un nivel de significacin del 5%, hay una diferencia en la proporcin de clientes en los diversos das y horas de la semana? Solucin De acuerdo a los datos las hiptesis a plantearse son: H0: No hay diferencia de eleccin del momento de compra H1: S hay diferencia de eleccin del momento de compra Para usar el Minitab seguiremos los siguientes pasos: Paso 1: Ingresamos los datos a la hoja de trabajo del Minitab definiendo a C1 como Da, C2 como Noche y C3 como Fin de Semana Paso 2: Usamos la siguiente secuencia:

<Stat> - <Tables> - <Chi Square test > En <Columns containing > ingresamos las tres columnas: Dia, Noche y Fin de Semana Luego <Ok> Obteneidno los resultados son: Chi-Square Test Expected counts are printed below observed counts Dia 1 90 120.00 120.00 2 210 180.00 Total 300 175 180.00 300 Noche 125 185 160.00 215 240.00 400 1000 600 Fin de S 400 Total

Chi-Sq = 7.500 + 0.208 + 3.906 + 5.000 + 0.139 + 2.604 = 19.358 DF = 2, P-Value = 0.000 Puesto que el p-value es menor que 0.05, diremos que se rechaza la hiptesis de que no hay diferencia; es decir, existe evidencia de que las preferencia de compra difiere sobre el da y hora de compra. Esto lo confirmamos con el valor de Chi-cuadrado calculado que es 19.358 vs el que encontramos usando <Calc> - <Probability distributions> - <Chi Square> - <Inverse cumulative probability> Con 2 grados de libertad En <Input constant> de 95% Encontramos 5.9915.

NOTA: SOBRE HOMOGENEIDAD


Realizar pruebas de independencia sobre una tabla de contingencia tambin resuelve otro tipo de preocupacin que tienen los investigadores sociales o estadsticos: El de la homogeneidad de los datos. Es lgico suponer que, si los datos obtenidos en la muestra, y organizados por diversas categoras, provienen de la misma poblacin, probablemente presenten una cierta homogeneidad en trminos de su dispersin. En el ejemplo anterior podramos preguntar si los resultados estadsticos obtenidos para los hombres tienen el mismo comportamiento que el de las mujeres. Segn esto, la Hiptesis Nula debiera plantearse como: La preferencia por el momento de compra es igual en mujeres que en hombres. De manera que las hiptesis a plantearse sern: H0: La preferencia por el momento de compra es igual en mujeres que en hombres H1: La preferencia del momento de compra difiere entre compradores hombres y mujeres. Realizar esta prueba en Minitab es la misma que hicimos para independencia en una tabla de contingencia.

5. Anlisis de datos categricos (12)


Ejemplo 6
Una compaa deseaba saber si sus obreros, sus empleados de oficina, sus empleados de ventas y sus otros empleados, se diferenciaban en cuanto a su opinin acerca de continuar laborando en la compaa, luego de una obligada reduccin de sueldos y salarios. Se tom una muestra aleatoria de cada uno de los cuatro grupos (poblaciones) y a cada uno se les solicit que diera su opinin sobre si continuara en la compaa o no. Las respuestas que se obtuvieron se encuentran en la siguiente tabla.

Opinin Mayor que el promedio Menor que el promedio Total

Obreros 68 57 125

Empleados De Oficina Vendedores 45 70 30 30 75 100

Total Otros 60 15 75 243 132 375

Debemos probar la Hiptesis: H0: La opinin de los trabajadores de la empresa es la misma en todos ellos.

H1: La opinin de los trabajadores de la empresa es diferente. Luego de ingresar los datos, excepto las columnas de totales, usamos la siguiente secuencia: <Stat> - <Tables> - <Chi Square Test> Ingresamos las tres columnas y obtenemos los mismos resultados del ejemplo anterior: Lo que nos lleva a rechazar la hiptesis de una opinin homognea entre los trabajadores.

5. Anlisis de datos categricos (13)


3. Anlisis de la varianza

Si bien la distribucin muestral de la diferencia de medias muestrales permite realizar una comparacin entre dos poblaciones, cuando se trata de ms de dos poblaciones el procedimiento estudiado no lo permite. Y en la prctica hay muchas situaciones en las que debemos realizar comparaciones de medias entre ms de dos poblaciones. Para resolver estos tipos de problemas usaremos el Anlisis de Varianza El Anlisis de Varianza (ANOVA) permite estudiar la relacin de dependencia que puede existir entre un conjunto de variables independientes a las cuales se denominan Tratamientos o variables explicativas y una variable dependiente llamada tambin variable explicada o variables de respuesta. En este sentido un ANOVA se comporta como un anlisis de regresin excepto que un Anlisis de Varianza no supone dependencia y la prueba puede llevarse a cabo sobre variables de diferentes categoras, tanto cuantitativas como cualitativas. Fundamentacin: Supongamos que 1, y representan las calificaciones medias de tres poblaciones que

poseen determinada caracterstica sujeta a estudio.

Supongamos que la hiptesis de estudio consiste en afirmar que el comportamiento promedio en las tres poblaciones es la misma. Esto quiere decir que = = .

Para ello probar esta hiptesis los resultados del muestreo nos permitir formular la hiptesis alternativa en la que se afirme que dichos promedios son diferentes, con (1- )100% de confianza. Por lo expuesto, debemos realizar la siguiente prueba: H0: = =

H1: Hay diferencia por lo menos en un par de calificaciones promedio Matemticamente el anlisis de la varianza se fundamenta en la demostracin por el absurdo: Puesto que queremos probar la igualdad de las medias, tomaremos como verdadera la hiptesis alternativa; es decir, que hay diferencia entre ellas. Si esto es cierto, entonces mediremos el desvo o error de medicin entre las medias muestrales (entre tratamientos) y el promedio de las medias muestrales. Del mismo modo evaluaremos la variabilidad dentro de cada poblacin (dentro de tratamientos) tomando en cuenta el error o desvo entre la media muestral y su promedio, en cada poblacin. Si la suma de estos cuadrados medios es bastante grande estaremos en posibilidad de rechazar la hiptesis nula. Para ello el Anlisis de Varianza requiere de tres supuestos: 1. Para cada poblacin, la variable respuesta (el dato observado, variable dependiente) tiene una distribucin normal. 2. La varianza de la variable respuesta es la misma para todas las muestras 3. Las observaciones deben ser independientes De manera que si

Xij
j

: Es la i-sima observacin, correspondiente al j-simo tratamiento : Es la media de la j-sima poblacin : Es la media muestral de la j-sima muestra(tratamiento) : Es la varianza muestral del j-simo tratamiento

: Es la media muestral de las medias muestrales n = n 1 + n 2 + ... + n k donde k: Total de tratamientos ( k muestras)

Calculemos ahora la Suma de los Cuadrados entre los Tratamientos (SSTR):

Que nos permitir calcular el Cuadrado Medio entre Tratamientos Del mismo modo, calculemos la Suma de los Cuadrados dentro de los Tratamientos (SSE):

Que nos permitir calcular el Cuadrado Medio debido al Error

5. Anlisis de datos categricos (14)

Ejemplo 7
Supongamos que la Binarios PC S.A. se dedica a ensamblar equipos informticos en tres plantas ubicadas en Lima, Chiclayo y Arequipa. Puesto que esta empresa debe competir con un mercado que se satura muy rpidamente con otros compatibles, la gerencia de investigacin de mercado ha recibido el encargo de evaluar la calidad de sus productos a travs de la opinin de sus clientes ms representativos. Para ello se han diseado encuesta que incluye 100 preguntas respecto de opinin a favor o en contra referido a una serie de caractersticas de los equipos. Para ello se someti a la prueba a 6 clientes de cada una de las ciudades de ensamble. Solucin De acuerdo a los datos, debemos realizar la siguiente prueba: H0: = = No hay diferencia significativa en el promedio de las calificaciones

H1: Hay diferencia por lo menos entre un par de promedio de las calificaciones La siguiente tabla muestra los resultados obtenidos del muestreo as como algunas estadsticas obtenidas a partir de <Stat> - <Basic statistics> - <Display descriptive ....> Cliente 1 2 3 4 5 6 7 Media Varianza Desv. estndar Lima 93 98 107 102 105 Arequipa 77 87 84 95 85 82 85 85 29.7025 5.45 Chiclayo 82 75 73 84 75 79 78 19.1844 4.38

101 31.4721 5.61

Para el caso de la empresa en estudio, tenemos:

n1 = 5, n2 = 7, n3 = 6 SSTR MSTR = SSE = =

;k=3 ,

con lo cual n = 18,

5(101 87.11) + 7( 85 87.11) + 6(78 87.11) = 1493.7778 1493.7778/2 = 746.8889 = 400.0254

(5-1)5.61 + (7-1)5.45 + (6-1)4.38

MSE

400.0254/15 = 26.66836

Siguiendo con nuestro anlisis por el absurdo, si la hiptesis nula fuera verdadera, entonces MSTR y MSE constituiran dos estimadores insesgados e independientes de la varianza poblacional . De esta forma y por lo que ya sabemos, la variable

es tal que Fc F( k 1, n k ) Por consiguiente, rechazaremos la hiptesis nula si Fc > F1- ( k 1, n k ) Para el ejemplo: Fc = 28.0066 y F0.95 ( 2, 15 ) = 3.6823 En consecuencia, rechazamos la hiptesis de que la calificacin promedio sean iguales en las tres plantas.

Das könnte Ihnen auch gefallen