Beruflich Dokumente
Kultur Dokumente
Diseo y
de experimentos
Anlisis
Portafolio
Contenido
Unidad 1...............................................................................................................................1
Diseo estadstico de experimentos....................................................................................2
Etapas...............................................................................................................................2
Principios Bsicos.............................................................................................................2
1.2. Principales estadsticos descriptivos.............................................................................3
Ejercicio 1.................................................................................................................................6
Pruebas de Hiptesis..........................................................................................................11
Hiptesis Nula H0............................................................................................................11
Hiptesis Alternativa H1...................................................................................................11
Interferencia estadstica para medias poblacionales (Prueba T).......................................12
PRUEBA t DE UNA MUESTRA.............................................................................................13
Estadstico de prueba t0......................................................................................................13
Ejercicio #2.............................................................................................................................16
Problema 3.............................................................................................................................20
Problema 4.............................................................................................................................24
Problema 5.............................................................................................................................27
PRUEBA T DE DOS MUESTRAS......................................................................................30
Hiptesis nula.....................................................................................................................30
Hiptesis alterna.................................................................................................................30
Hiptesis nula.....................................................................................................................30
Hiptesis alterna.................................................................................................................30
Estadstico de prueba.........................................................................................................31
Dos casos dependiendo de 1 y 1........................................................................................31
Caso 1: Si 1 se asume igual que 2..................................................................................31
Caso 2: Si se asume que 1 y 2 son diferentes................................................................31
Prueba t Pareada...................................................................................................................32
Hiptesis.............................................................................................................................32
Estadstico de prueba.........................................................................................................32
Resistencia.............................................................................................................................32
Estrategia para valores extremos.......................................................................................32
Robustez................................................................................................................................33
Unidad 2.................................................................................................................................34
Anlisis de varianza (ANOVA)...............................................................................................34
Herramientas del anlisis de varianza...............................................................................34
Prueba F.........................................................................................................................34
3
Unidad 1
Introduccin al diseo estadstico de experimentos.
1.1 Conceptos Bsicos
Estadstica:
4
Estadstica matemtica:
Establece las bases tericas de la estadstica
Estadstica Descriptiva:
Es el resumen y visualizacin de datos as como la abstencin de valores
estadsticos que representan a los fenmenos estudiados
Estadstica Inferencial:
Se encarga de la generacin de modelos deducciones y predicciones de los
fenmenos considerando la naturaleza aleatoria de las observaciones.
Inferencia Estadstica
Es una conclusin justificada por un modelo probabilstico de que los patrones
o tendencias observadas en los datos estn presentes en un contexto ms
amplio.
Poblacin:
Es un conjunto de identidades reales o realizables que poseen ciertas
caractersticas en comn, pero que generalmente es demasiado extenso
como para obtener informacin de todas las entidades. Una poblacin puede
estar formada por personas, objetos o resultados de mediciones o
experimentos.
Muestra
Es el subconjunto de entidades obtenido a partir de una poblacin. Al ser de
tamao reducido se obtiene informacin de todas las entidades en la muestra
y se espera que esta informacin sea representativa de las caractersticas de
la poblacin.
Distribucin
Discreta (Histograma) y Continua.
Distribucin de probabilidad
f ( x ) dx=1
f ( x ) dx=P(a x b)
Poblacin
n
1
= yi
n i=1
Media
1
( y )
n i=1 1
Varianza
Desviacin Estndar
= 2
Muestra
n
1
= yi
n i=1
y 1 2
n
1
2
s=
n1
i=1
s= s2
Grados de Libertad
Es el nmero de valores que en teora podran cambiarse arbitrariamente y aun as
obtener el mismo valor de un parmetro estadstico.
Ejercicio 1
Para el siguiente conjunto de datos, generar un histograma. Una grfica de caja y bigotes y
obtener los estadsticos descriptivos bsicos (Media, mediana, cuartiles inferior y superior,
varianza y desviacin estndar)
55
43
67
155
147
125
115
179
196
129
51
133
112
20
42
147
176
135
118
27
68
67
156
106
94
91
191
145
54
110
61
1
47
59
76
19
147
193
2
122
141
110
9
180
50
Con los datos podemos generar un grfico como se muestra en la Ilustracin 2, se puede
seleccionar el tipo de grfico que queremos en este caso el Histograma o grafico de caja y
bigotes.
10
Histograma de Datos
12
10
Frecuencia
40
80
120
160
200
Datos
Grfico 1 Histograma
11
200
Datos
150
100
50
Para obtener los datos estadsticos descriptivos bsicos se realiz como se muestra en la
Ilustracin 2
12
Percentil
Es un cierto porcentaje de valores menores que el valor dado P 20%
13
Cuartiles
Q1=
P25% =
Cuartil inferior
Q2 = P50% = Mediana
Q3 = P75% = Cuartil Superior
Coeficiente de asimetra
Muestra
y i 3
n
1
n i=1
1=
Poblacin
y 1 3
n
n
y 1=
Curtosis
14
Muestra
4
y i
n
1
n i=1
2=
Poblacin
2
n1
3
y 1 4
s
n
n(n+1)
y 1=
Pruebas de Hiptesis
15
Es el criterio por medio del cual se establece si se rechaza o no la hiptesis nula, basado
en el resultado de una prueba estadstica.
Hiptesis Nula H0
Corresponden al estado natural de las cosas. Corresponde a algn parmetro estadstico
teniendo valor cero.
Hiptesis Alternativa H1
Las hiptesis H0 y H1 no se pueden demostrar, se pueden aceptar o rechazar
Situacin real
H0 es
H0 es falsa
verdadera
Error Tipo
II(Falso
Conclu
Acepta
OK
negativo
sin
r H0
Probabilida
obteni
d )
da de
la
Error tipo
prueba
I (Falso
Rechaz
estads
positivo
OK
ar H1
tica
probabilid
ad
=Probabilidad de cometer un error tipo I nivel de significacin
(1-)x100%= Nivel de confianza
=0.05 es igual al 95% de confianza
=Probabilidad de cometer un error tipo II
(1-)x100= Poder o potencia estadstica
=0.05 Tpico pero puede ser tan alto como =0.4
Se utiliza para obtener el tamao de muestra
16
Estadstico t
O
S
SE( )
N
17
H0: =0
H1: <0
H1: 0
H1: >0
Estadstico de prueba
t0
SE( )
Si t0 es un valor cercano a 0 entonces est cerca del valor supuesto de 0 y se aceptara
H0.
Si t0 es un valor muy grande
entonces est muy lejos
del valor supuesto de 0 y se
rechaza H0.
H0: =0
t 0=
H1: 0
=0.05
Opcin 1.- Prueba de regin
Hiptesis: Aceptacin /rechazo
Si t0 es un valor cercano a 0
Valor P
Conclusin
0
a
0.01
a
0.05
a
0.1
a
19
Ejercicio #2
El protocolo de control de calidad de un laboratorio indica que entre las muestras se
incluyan aleatoriamente soluciones de control con una concentracin de 50 mg/L de
carbono orgnico total (TOC). Los analistas desconocen cuales muestras son las de
control. Los siguientes datos son una muestra de los resultados de las soluciones.
50.13 51.2 50.5 50.2 49.9 50.2 50.3 50.5 49.3 50.0 50.4 5.01 51.0 49.8 50.7 50.6
Efectuar una prueba t de una muestra para determinar si la medida de estaos datos es 50
mg/L, empleando como prueba de hiptesis (A) la regin de aceptacin/rechazo con
=0.05 y () valor de p.
Se introducen los datos en una columna llamada COT (Ilustracin 1)
Ilustracin 4 Datos
20
Ilustracin 5 Prueba
t
50 mg/L
21
Ilustracin 6 Pruebas de
Hiptesis
Conclusin
0
a
0.01
a
0.05
a
H0
0.1
a
1
Para hacer el anlisis de la regin de aceptacin y rechazo podemos encontrar las reas
que van a estar definidas con aceptacin y rechazo en la Tabla 1 ya que contamos con
que =0.05 y =15 por lo tanto el rea de aceptacin estar de -2.131 a 2.131 esta se
muestran grficamente en la Grafica 1.
Tabla 1 Distribucin t de
23
Grafico 3 Distribucin t
En el cual podemos concluir que como t 0 se encuentra en el rea de rechazo se rechaza H 0
(H0: =50).
24
Problema 3
El gas producido de una fermentacin biolgica se ofrece a la venta con garanta de que su
contenido promedio de metano es de 75%. Al finalizar una muestra aleatoria de n=7
cilindros de gas se obtuvo las siguientes concentraciones (en porcentaje) de metano 64,
65, 75, 67, 65, 74 y 75 A) Efectuar una prueba de hiptesis (Aceptacin / rechazo) con un
nivel de significancia de 0.05, para determinar si la concentracin promedio de metano es
menor que 75% B) Repetir con un nivel de significancia de 0.01 Cambia la conclusin
obtenida?
Se introdujeron los datos del problema en el software como se muestra en la Ilustracin 1
Ilustracin 9 Datos
Posteriormente se procede a realizar la prueba de Hiptesis con una prueba t para una
muestra (Ilustracin 2)
Ilustracin 11 H0
A) Y seleccionamos el Nivel de confianza para el inciso a es de 95%, y en el mismo
apartado definimos la hiptesis alterna H 1 : < 75% (Ilustracin 4)
Ilustracin 12 H1
Loa resultados de la Prueba de Hiptesis son los de la Ilustracin 5.
26
Como el valor de P es de 0.013 podemos decir que Hay evidencia moderada de que hay
que rechazar H0 Por lo cual podemos hacer el grafico de distribucin t para efectuar la
prueba de aceptacin o rechazo, mostrada en la Grafica 1
Grfica de distribucin
T, df=6
0.4
Densidad
0.3
0.2
0.1
0.05
0.0
-1.943
27
Densidad
0.3
0.2
0.1
0.01
0.0
-3.143
28
Problema 4
Bioslidos provenientes de una planta de tratamiento de agua residual se aplicaron a 10
terrenos que fueron seleccionados aleatoriamente de un total de 20 terrenos de prueba, Se
cultivo maz tanto en los terrenos tratados (T) como en los no tratados (NT). Obteniendo los
siguientes rendimientos:
T
NT
9.03
7.90
7.67
7.64
8.47
5.64
7.63
8.47
4.83
5.96
9.35
11.29
7.66
4.26
7.34
6.21
8.22
7.65
9.35
7.09
Hay evidencia estadstica de que el rendimiento de cultivo sea diferente cuando se aplican
los bioslidos? Cul es el intervalo de confianza del 95% para diferencia de medidas?
Los datos se introducen como se muestra en la Ilustracin 1.
Debido a que si se acomodaran en el programa en dos
columnas estaramos diciendo que en cada rengln que hay los
datos tienen algn tipo de relacin entre ellos lo cual no ocurre
en este problema.
Ilustracin 16 Datos
Segn lo que nos dice el problema podemos definir nuestras Hiptesis las cuales son:
H0: 1 =2
H1: 1 2
Mediante el software podemos realizar la prueba T de dos muestras como se muestra en el
Ilustracin 2.
29
Con los resultados podemos evaluar la prueba en las siguientes maneras para poder llegar
a una conclusin:
Valor p
Como p = 0.327 podemos decir que No hay evidencia de que hay que rechazar H 0 (Se
acepta H0)
Intervalo de confianza
El intervalo de confianza obtenido es (-2.302, 0.814)
La diferencia estimada obtenida es de -0.744 la cual se encuentra dentro del intervalo de
confianza por lo cual se Acepta H0.
rea de aceptacin y rechazo
El valor obtenido de t0 =-1.01 con lo cual podemos observar en la Grafico 1 t 0 se encuentra
dentro de el rea de aceptacin por lo cual podemos concluir que la H 0 se acepta.
Grfica de distribucin
T, df=19
0.4
Densidad
0.3
0.2
0.1
0.025
0.0
0.025
-2.093
2.093
Ilustracin 19 Distribucin t
31
Mediante el anterior anlisis estadstico podemos concluir que el rendimiento del cultivo no
es diferente cuando se aplica el tratamiento con bioslidos a cuando no se aplican.
Problema 5
Bioslidos provenientes de una planta de tratamiento de agua residual se aplicaron a 10
terrenos que fueron seleccionados aleatoriamente de un total de 20 terrenos de prueba, Se
cultivo maz tanto en los terrenos tratados (T) como en los no tratados (NT). Obteniendo los
siguientes rendimientos:
T
NT
9.03
7.90
7.67
7.64
8.47
5.64
7.63
8.47
4.83
5.96
9.35
11.29
7.66
4.26
7.34
6.21
8.22
7.65
9.35
7.09
Segn lo que nos dice el problema podemos definir nuestras Hiptesis las cuales son:
H0: 1 =2
H1: 1 2
Mediante el software podemos realizar la prueba T de dos muestras como se muestra en el
Ilustracin 2.
32
9 6.76 1.34
0.45
10 7.96 1.33
0.42
33
34
n1
n2
1, S1
2,
S2
Si
n1=n2 es
balanceada
Hiptesis nula
H0: 1- 2 = (1 2)0 (Diferencia hipottica que creemos que hay)
Hiptesis alterna
H1 : 1- 2 (1 2)0
H1 : 1- 2 < (1 2)0
H1 : 1- 2 > (1 2)0
Si (1 2)0 = 0
Hiptesis nula
H0 : 1= 2
Hiptesis alterna
H1: 12
H1: 1<2
H1: 1>2
Estadstico de prueba
t 0=
( 1 2 ) (1 2)
SE ( 1 2)
35
SE ( 1 2 ) =SP
1 1
+
n1 n2
= n1+n2-2
S21 S22
SE ( 1 2 ) =
+
n1 n2
V=
2 2
2 2
S2
n2
S1 S2
+
n1 n 2
2 2
( ) ( )
S1
n1
+
n11 n 21
Prueba t Pareada
A cada valor de yi1 de una poblacin le corresponde uno y solo uno de los valores y i2 de la
otra poblacin.
Se define la diferencia como:
di y1i y2i
36
Diferencia de la poblacin:
Hiptesis
Estadstico de prueba
H0: = 0
t 0=
H1: 0
d
0
SE( d)
H1: < 0
Sd
n
SE
H1: > 0
()=
Resistencia
Un mtodo estadstico es resistente si el resultado obtenido no cambia mucho si una
pequea parte de los datos cambia (tal vez drsticamente). Normalmente es de importancia
si hay valores extremos.
Las pruebas t no son resistentes por que se basan en promedios
Robustez
Se dice que un mtodo estadstico es robusto si proporciona resultados validos incluso si
hay desviaciones respecto a alguna de las suposiciones del modelo.
37
1 >>
n1 << n2
Problema 6
Dicen que la mejor comida es la del hogar. Cada domingo, Armando Esteban Quito
(estudioso de la estadstica) va a casa de sus padres a comer. A Armando le
preocupa que, como la comida es tan buena, tal vez est comiendo en exceso. As
38
Tabla 2
Datos
39
40
Unidad 2
Anlisis de varianza (ANOVA)
Se emplea para comparar la media de varios grupos (nmero de grupos a).
Prueba F (Fisher)
Hiptesis
H0: 1 = 2 = 3 == a = (todas la medias son iguales)
H1: Al menos una es diferente
Modelo matemtico
Modelo de Medias.
yij = i + ji
Donde:
i = Numero de grupo
j= dato individual.
i = Media de grupo
ji = Error o desviacin de cada dato.
Modelo de Efectos.
yij = + i + ji
Donde:
Ti = efecto del grupo
= Media global
ni= numero de datos del grupo
N = nmero total de datos.
41
Suposiciones de modelo.
Poblaciones tienen distribucin normal
Todas tienen la misma varianza
El anlisis de varianza es relativamente robusto respecto a la normalidad, aunque no tanto
si no es balanceado y es muy chico.
No es resistente por que se basa en clculo de medias.
y i y ij
j=1
y y ij = y i y =
i=1 j=1
i=1
y i
yi
n
y
N
Definicin de residuales.
Modelo completo:
y ij y i
Representa que tan diferente es cada dato con respecto a la media.
Modelo reducido:
y ij y
Representa que tan diferente es cada dato con respecto a la media global.
Sumas de cuadrados.
Modelo completo.
y 1 j
j=1
S S ERROR =
i=1
42
Modelo reducido.
y ij
j=1
S S ERROR =
i=1
Si H0 fuera cierta.
Ho: 1 = 2 = 3
Por lo tanto las sumas de cuadrados deberan ser esencialmente iguales.
de diferentes poblaciones
43
Estadstico F
( Suma de cuadrados extra )
(Grados de libertad extra)
F=
2Completo
Extra : Los obtenidos al agrupar los datos (es decir de los tratamientos)
SStratamiento =Suma de cuadrados extra
(a-1)=grados de libertad extra.
2Completo se estima con la varianza colectiva
S 2p=
S 2p=
S S error
Na
Tabla ANOVA
Fuente de
variacin
Tratamiento
(entre grupos)
Suma de
Cuadrados
SSTratamiento
Grados de
libertad
a-1 (v1)
Error (detro de
grupos)
Total (Modelo
reducido)
SSError
N-a (v2)
SSTotal
N-1
Cuadro medio
S STrat
a1
SS
M S Error = Error
N a
MS Trat =
Estadstico F
F0 =
M S Trat
M S Error
Ejercicio 7
Se pide a cuatro analistas de laboratorio que determinen por triplicado la concentracin de
un contaminante en una misma muestra de agua. Los resultados (en partes por milln) se
muestran en la tabla. Hay evidencia estadstica de que los analistas difieran
significativamente?
Analista 1
49.9
40.4
43.8
Analista 2
51.5
51.3
48.8
Analista 3
42.0
41.0
45.5
Analista 4
47.2
44.8
51.6
Ilustracin 24 Datos
Al querer hacer comparacin si existen diferencia ntrelos resultados de cada uno de los
analistas las hiptesis a aceptar o rechazar son las siguientes:
H0: 1 = 2 = 3 = 4
H1: Alguna es diferente
Se realiza el anlisis estadstico de la tabla ANOVA y los resultados obtenidos son los
siguientes:
Podemos observar que l valor obtenido de P = 0.081 con lo cual podemos decir que Hay
evidencia sugestiva pero no concluyente de que hay que rechazar H 0
Al realizar el anlisis con el valor de F0= 3.25 hacemos el grafico de distribucin F
(Grafico 1) para un = 0.05, 1 = 3 y 2=8. (Valores obtenidos de la Columna DF de la
tabla anova)
Grafica 1 Distribucin F
El grafico podemos observar que F0 se encuentra dentro del rea de aceptacin por lo
cual se acepta Ho y podemos concluir que no hay evidencia estadstica de que sean
diferentes las medias de cada analista.
Comparaciones Mltiples.
Comparaciones planeadas
No planeadas
= nivel de significancion de la familia de pruebas
i = Nivel de significancia de una prueba
n = Numero de pruebas
1 1 n
=1
*Si son independientes
Si no se pueden asumir independientes al menos
n 1
Prueba de Fisher
Para balanceados
2
n
2
Sp= desv. Estndar combinada
LSD=t
,N a
Sp
Para no balanceados
1 1
+
,N a
ni n j
2
Las medias de dos grupos se declaran diferentes si se cumple
| y i y j |> LSD
LSD=t
Sp
Prueba de Fisher
Se basa en el rango estudentizado (q).
y
( i)min ( y i)
Max
s
q
Para construir intervalos de confianza para cada par de grupos.
q
1 1
y i y j ,a , N a Sp
+
N
ni n j
Si el Intervalo de Confianza contiene el cero se declara que no hay diferencia.
Prueba de Dunnett
Es utilizado para comparar con un control.
Prueba de HSV
Sirve para comparar cada grupo con el mejor o peor de los otros grupos.
Comparaciones planeadas.
Una prueba t de dos muestras usando Sp como desviacin estndar (prueba con datos
resumidos)
Ejercicio 8
Se efectuaron mediciones de conductividad elctrica (en S/cm) en cuatro puntos de
muestreo en una laguna aireada en una planta de tratamiento de agua. El agua de la
laguna se supone que es completamente homognea debido al mezclado producido por los
aereadores.
(A) Efecte una prueba F del anlisis de varianza para estos datos. Qu conclusin se
obtiene respecto a la homogeneidad del agua de la laguna?
(B) Qu puede comentar respecto al valor de 1209 S/cm del punto de muestreo D?
(C) Si considera necesario, analice de nuevo los datos tomando las acciones pertinentes
respecto al dato mencionado en el inciso anterior. A qu conclusin se llega ahora?
(D)
Cules
puntos
de
muestreo
presentan
(estadsticamente
hablando)
igual
conductividad elctrica?
Hiptesis
H0: 1= 2= 3 = 4
H1: Alguna de las es diferente
Al obtener el valor de P= 0.753 se puede concluir que No hay evidencia estadstica para
rechazar H0 y podemos decir que la laguna est completamente mezclada .
B) Al observar que hay un dato anormal con respecto a los dems datos se elimina este
para realizar la prueba F de nuevo obteniendo los siguientes resultados:
Donde
obtenemos el
valor
P<0.00005
con lo que podemos concluir que Hay evidencia convincente de que hay que rechazar H 0
y por lo tanto se acepta H1 y podemos decir que al menos una media de medicin de los
puntos es diferente.
C) Como al eliminar el dato la conclusin de nuestro anlisis estadstico cambio el dato
se omitir en el anlisis siguiente y se tomara como conclusin previa la expresada
en el inciso B).
D) Al saber nosotros que al menos una de las medias es diferente haremos una
comparacion de Fisher para saber cuales son diferentes.