Conceptos

INSTITUTO TECNOLGICO DE CAMPECHE
INGENIERA INDUSTRIAL
PRUEBAS DE BONDAD Y AJUSTE Y PRUEBAS NO

PARAMETRICAS
TRABAJO NUMERO: 9
JOSU DANIEL CASTILLO MOO

ESTADISTICA INFERENCIAL.- UNIDAD IV
GRUPO. VI3
SAN FRANCISCO DE CAMPECHE A 24 DE NOVIEMBRE DEL 2014
UNIDAD IV.- PRUEBAS DE BONDAD Y AJUSTE Y PRUEBAS NO

PARAMETRICAS

COMPETENCIAS ESPECFICAS A DESARROLLAR:
-IDENTIFICAR Y APLICAR LOS CONCEPTOS DE LAS PRUEBAS DE BONDAD
DE AJUSTE.
-ESTABLECER CUAL ES LA METODOLOGIA APLICABLE A UNA PRUEBA DE
BONDAD DE AJUSTE.
-IDENTIFICAR Y APLICAR LOS CONCEPTOS DE UNA PRUEBA NO
PARAMETRICA.
-- TEMAS DE INVESTIGACION CONCEPTUAL
BONDAD DE AJUSTE........................................................................................2
o
ANALISIS JI-CUADRADA...............................................................................3
PRUEBA DE INDEPENDENCIA......................................................................4
P. D/LA BONDAD DEL AJUSTE....................................................................10
TABLAS DE CONTINGENCIA.......................................................................13
PRUEBAS NO PARAMETRICAS.....................................................................17
o
ESCALA DE MEDICION................................................................................18
PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA LA MEDIANA20
o PRUEBA DE SUMAS DE RANGOS CON SIGNO DE WILCOXON PARA LA

DIFERENCIA ENTRE 2 MEDIANAS (2 POBLACIONES INDEPENDIENTES). .22
o PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA LA
DIFERENCIA DE 2 MEDIANAS ( 2 POBLACIONES DEPENDIENTES, DATOS
PAREADOS)........................................................................................................24
PRUEBA DE CORRIDAS..............................................................................26
METODOS ESTADISTICOS CONTRA NO PARAMETRICOS........................27

o PRUEBAS PARA VERIFICAR LA NORMALIDAD EN UN GRUPO DE
DATOS.................................................................................................................33
PRUEBA DE KOLMOGOROV SMIRNOV..................................................33
PRUEBA DE ANDERSON DARLING.........................................................35
PRUEBA DE RYAN JOINER......................................................................36
PRUEBA DE SHAPPIRO WILK..................................................................36

BIBLIOGRAFIA BASICA...................................................................................37
BONDAD DE AJUSTE
1
JOSUE DANIEL CASTILLO MOO

Las pruebas de bondad de ajuste tratan de verificar si el conjunto de datos se
puede ajustar o afirmar que proviene de una determinada distribucin.
Las pruebas bsicas que pueden aplicarse son: la ji-cuadrada y la prueba de
Smirnov - Kolmogorov. Ambas pruebas caen en la categora de lo que en
estadstica se denominan pruebas de Bondad de Ajuste y miden, como el
nombre lo indica, el grado de ajuste que existe entre la distribucin obtenida a
partir de la muestra y la distribucin terica que se supone debe seguir esa
muestra. Ambas pruebas estn basadas en la hiptesis nula de que no hay
diferencias significativas entre la distribucin muestral y la terica, H 0 es la
distribucin que se supone sigue la muestra aleatoria. La hiptesis alternativa
siempre se enuncia como que los datos no siguen la distribucin supuesta.
Hablamos de bondad de ajuste cuando tratamos de comparar una distribucin de
frecuencia observada con los valores correspondientes de una distribucin
esperada o terica. Algunos estudios producen resultados sobre los que no
podemos afirmar que se contribuyen normalmente, es decir con forma
acampanada concentradas sobre la media.
Su frmula es la siguiente:
oi
f ei
i 1
f ei
fo i
= Valor observado en la i-simo dato.
fe i
Valor esperado en la i-simo dato.
Categoras o celdas.
Parmetros estimados sobre la base de los datos de la muestra
2

Los grados de libertad vienen dados por: gl= K-m-1.
Criterio de decisin es el siguiente:
2 t2; K m 1
Se rechaza H0 cuando
. En caso contrario se acepta.
Donde t representa el valor proporcionado por las tablas, segn el nivel de

significacin elegido.
Cuanto ms se aproxima a cero el valor de chi-cuadrada, ms ajustadas estn
ambas distribuciones.
o ANALISIS JI-CUADRADA
Es considerada como una prueba no paramtrica que mide la discrepancia
(bondad de ajuste) entre una distribucin observada a partir de la muestra y otra
terica que se supone debe seguir esa muestra, indicando en qu medidas las
diferencias existentes entre ambas se deben al azar en el contraste de la
hiptesis.
Esta prueba se basa en la hiptesis nula H 0 de que no hay diferencias
significativas entre la distribucin muestral y la terica.
La estructura bsica de la prueba para la bondad de ajuste se muestra en la
siguiente tabla:
Clases
1
2
.
.
K
Frecuencia observada
Foi1
Foi2
.
.
Foik
Total
N
Donde para calcular la Frecuencia esperada se tiene:
2=
( foifei )2
fei
Frecuencia esperada
Fe1
Fe2
.
.
Fek
N
foi=total de valores del intervalo
fei=numero esperadode valores en elintervalo
Frmula para el anlisis de ji-cuadrada
k =numero de intervalos de clase
3

k
2=
i1
( foifei )2
fei
Interpretacin: cuanto mayor sea el valor de ji-cuadrada menos creble es la

hiptesis nula H0. De la misma forma, cuanto ms se aproximan acero el valor de
2 , ms ajustadas estn las distribuciones.
2
=0
>0
H0 se acepta
H0 se rechaza
o PRUEBA DE INDEPENDENCIA
La prueba de independencia trata de la comparacin de dos situaciones en las
cuales podemos esperar que sean dependientes o independientes, esto quiere
decir que, pueden o no estar relacionados sus datos debido a muchos factores
que pueden influir en ellos, o bien, un problema no tenga relacin con otro.
Su objetivo es determinar si alguna situacin es afectada por otra, basndose en
datos estadsticos y valores probabilstico obtenidos de la tabulacin de datos o de
pronsticos por medio de formulas y tablas, para esto se basa en un nivel de
significancia en un caso y en el otro a comparar, valindonos de tablas de
contingencia para obtener frecuencias esperadas y poder aplicarlas, para as
obtener datos comparativos que son determinantes en la decisin de
independencia.
Para todas las pruebas de independencia, las hiptesis son:
H0: las dos variables de clasificacin son independientes.
H1: las dos variables de clasificacin son dependientes.
Los mtodos para poner a prueba H 0 contra H1 son idnticos a los usados para
poner a prueba las diferencias entre proporciones poblacionales basados en la
prueba de 2. De nuevo compararemos las frecuencias observadas con las
4

esperadas, las obtenidas bajo el supuesto de que H 0, para determinar que tan
grande debe ser el alejamiento permitido para que la hiptesis de independencia
pueda rechazarse. Si el valor del estadstico de prueba 2 es mayor o igual que el
valor critico calculado, ya no podremos suponer que pueda resultar de dos
variables de clasificacin independientes, siendo esta la razn de que todas las
pruebas de 2 sobre independencia sean de cola derecha.
La estadstica de prueba que ser utilizada en la toma de una decisin acerca de
la hiptesis nula es ji cuadrado X2. Los valores de ji-cuadrada se obtienen con la
siguiente frmula:
Grados de libertad
(Oiei)2
=
ei
i
2
v = (r-1)*(c-1)
Frecuencia Esperada = Total de la columna * Total del rengln

Gran total
Caractersticas
X2 toma valores no negativos; es decir, puede ser cero o positiva.
X2 no es simtrica; es asimtrica hacia la derecha.
Existen muchas distribuciones X2 como en el caso de la distribucin t, hay
una distribucin, X2 diferente para cada valor de los grados de libertad.
Nos dan una tabla de contingencia.
El procedimiento de la prueba ji-cuadrada puede tambin utilizarse para probar la
hiptesis de independencia de dos variables de clasificacin.
Ejemplo:
Supngase que desea determinar si las opiniones de los residentes votantes del
estado de Illinois respecto a una nueva reforma impositiva son independientes de
sus niveles de ingreso. Una muestra aleatoria de 1000 votantes registrados del
estado de Illinois se clasifica de acuerdo con sus ingresos como bajo, medio y alto
y si estn a favor o en contra de la nueva reforma impositiva. Las frecuencias
5

observadas se presentan en la siguiente tabla, la cual se conoce como una tabla
de contingencia.
Tabla de contingencia 2 x 3
Nivel de ingresos
Bajo
Medio
Alto
A favor
182
213
203
598
En contra
154
138
110
402
Total
336
351
313
1000
Reforma
Total
impositiva
A una tabla de contingencia con r renglones y c columnas se le conoce como una

tabla r x c (r x c se lee r por c), a los totales de renglones y columnas en la tabla
anterior se les denomina frecuencia marginales. La decisin de aceptar o
rechazar la hiptesis nula, H 0, de independencia entre la opinin de votantes
respecto a la nueva reforma de impuestos y su nivel de ingresos se basan en que
tan bien se ajustan las frecuencias observadas en cada una de las 6 celdas de la
tabla, y las frecuencias que se esperaran para cada celda bajo la suposicin de
que H0 es verdadera. Para encontrar estas frecuencias esperadas, defnanse los
siguientes eventos:
L: una persona seleccionada esta en el nivel bajo de ingresos.
M: una persona seleccionada esta en el nivel medio de ingresos.
H: una persona seleccionada esta en el nivel alto de ingresos.
F: una persona seleccionada est a favor de la nueva reforma fiscal.
A: una persona seleccionada est en contra de la nueva reforma fiscal.
6
Al utilizar las frecuencias marginales, es posible escribir las siguientes

estimaciones de probabilidad:
P (L)=
P ( F )=
598
1000
336
1000
P ( A )=
P (M )=
351
1000
P (H )=
313
1000
402
1000
Ahora si H0 es verdadera y las dos variables son independientes, debe tenerse:
P (LF) = P (L) P (F) =
336
598
( 1000
)( 1000
)
P (LA) = P (L) P (A) =
336
402
( 1000
)( 1000
)
P (MF) = P (M) P (F) =
351
598
( 1000
)( 1000
)
P (MA) = P (M) P (A) =
351
402
( 1000
)( 1000
)
P (HF) = P (H) P (F) =
313
598
( 1000
)( 1000
)
P (HA) = P (H) P (A) =
313
402
( 1000
)( 1000
)
Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una

celda por el nmero total de observaciones. Como antes, estas frecuencias se
redondean a un decimal de esta manera el nmero esperado de votantes de bajos
7

ingresos en la muestra y que favorecen la nueva reforma impositiva, se estima que
es:
336
598
( 1000
)( 1000
)
x 100 =
( 336 )( 598 )
1000
= 200.9
Cuando H0 es verdadera. La regla general para obtener la frecuencia esperada

de cualquier celda la proporciona la siguiente frmula:
Frecuencia Esperada = Total de la columna * Total del rengln
Gran total
La frecuencia esperada para cada celda se registra entre parntesis a un lado del
valor observado real en la siguiente tabla. Ntese que la suma de las frecuencias
esperadas en cualquier rengln o columna da el total marginal o apropiado.
Nivel de ingresos
Bajo
Medio
Alto
A favor
182(200.9)
213(209.9)
203(187.2)
598
En contra
154(135.1)
138(141.1)
110(125.8)
402
Total
336
351
313
1000
Reforma
Total
impositiva
En el ejemplo, se necesitan calcular nicamente las dos frecuencias esperadas del

rengln de arriba de la tabla y entonces encontrar las otras por sustraccin. El
numero de grados de libertad asociado a la prueba ji cuadrada que se utiliza aqu
es igual al nmero de frecuencias de celdas que pueden llenarse libremente
cuando se dan los totales marginales y el gran total; en este ejemplo ese nmero
es 2. Una formula simple que proporciona el nmero correcto de grados de
libertad es:
v = (r-1)*(c-1)
8

de aqu que, para este ejemplo V = (2-1)*(3-1) = 2 grados de libertad. Para
probara la hiptesis nula de independencia, se utiliza el siguiente criterio de
decisin:
Prueba De Independencia:
Calclese:
(Oiei)2
=
ei
i
2
Donde la sumatoria se extiende a todas las celdas rc en la tabla de contingencia

r x c. Si
2 >
con v = (r-1)(c-1) grados de libertad se rechaza la hiptesis
nula de independencia en el nivel de significancia ; de lo contrario, se acepta la

hiptesis nula.
Al aplicar este criterio a este ejemplo, se encuentra que:
2=
(182200.9)2
200.9
(213209.9)2
209.9
(138141.1)
141.1
(203187.2)2
187.2
(154135.1)2
135.1
(110125.8)
125.8
= 7.85
P 0.02
De la tabla de Valores crticos de las distribuciones 2 resulta que
0.05
= 5.991
para v= (2-1) (3-1) = 2 grados de libertad. La hiptesis nula se rechaza. Se

concluye que la opinin de un votante referente a la nueva reforma fiscal y su nivel
de ingresos no son independientes.
9

Es importante recordar que el estadstico sobre el cual se basa la decisin tiene
una distribucin que solo se aproxima por la distribucin JI cuadrada.
Los valores calculados 2 dependen de las frecuencias de la celda y, en
consecuencia, son discretos. La distribucin ji cuadrada continua parece
aproximar muy bien la distribucin muestral discreta de x 2 en la medida en la que
el numero de grados de libertad sea mayor que 1. En una tabla de contingencia de
2 x 2, donde se tiene nicamente un grado de libertad, se aplica una correccin
que recibe el nombre de correccin de yates para continuidad.
La formula corregida se convierte entonces en:
2 (corregida)=
i
(|Oi ei|0.5)
ei
Si las frecuencias esperadas de celdas son grandes, los resultados corregidos y

sin corregir son casi los mismos. Cuando las frecuencias esperadas estn entre 5
y 10, debe aplicarse la correccin de Yates. Para frecuencias esperadas menores
que 5, debe utilizarse la prueba exacta de Fisher-Irwin. Sin embargo, puede
evitarse el uso de la prueba Fisher-Irwin al seleccionar una muestra grande.
o P. D/LA BONDAD DEL AJUSTE
Es considerada como una prueba no paramtrica que mide la discrepancia entre
una distribucin observada y otra terica, indicando en qu medida las diferencias
existen entre ambas.
En este tema se describe un procedimiento formal para probar la bondad de ajuste
basado en la distribucin ji- cuadrada. El procedimiento de prueba requiere una
muestra aleatoria de tamao n de la poblacin cuya distribucin de probabilidad es
desconocida. stas n observaciones se ordenan en un histograma de frecuencia,
con k intervalos de clase. Sea O i la frecuencia observada en el intervalo de clase i.
Se calcula la frecuencia esperada a partir de la distribucin de probabilidad
10

hipottica, para el intervalo de clase i-simo, denotado por Ei, el estadstico de
( OiEi )2
=
Ei
i=1
2
0
prueba es:
Para demostrar que si la poblacin sigue la distribucin hipottica propuesta,
tiene, aproximadamente, una distribucin ji-cuadrada en donde los grados de

libertad vienen dados por:
gl= K-m-1
donde m representa el numero de parmetros de la distribucin
hipottica, estimados por los estadsticos muestrales. Esta aproximacin mejora

conforme n se incrementa.
El criterio de decisin es el siguiente:
Se rechaza H0 cuando el valor del estadstico de prueba
0 > , k p1 . En caso
contrario se acepta.
Donde t representa el valor proporcionado por las tablas, segn el nivel de
significacin elegido.
Cuanto ms se aproxima a cero el valor de ji-cuadrada, ms ajustadas estn
ambas distribuciones.
Un punto que cabe destacar en la aplicacin de este procedimiento de prueba se
refiere a la
magnitud de las frecuencias esperadas. Si stas frecuencias
esperadas son muy pequeas, entonces el estadstico de prueba
20
no
reflejar la desviacin de las frecuencias observadas y las esperadas, no

nicamente la pequea magnitud de las frecuencias esperadas. No hay consenso
generalizado en cuanto al valor mnimo de las frecuencias esperadas, pero valores
de 3, 4 y 5 se usan ampliamente como mnimos. Algunos autores proponen que
una frecuencia esperada podra ser tan pequea, como 1 o 2, siempre que la
11

mayora de ellas excedan 5. Cuando una frecuencia esperada sea muy pequea,
puede cambiarse con la frecuencia esperada de un intervalo de clase adyacente.
Las frecuencias observadas correspondientes tambin se combinaran, y k se
reducira una unidad. No es necesario que los intervalos de clase tengan la misma
anchura.
Ejemplo:
Una distribucin continua.
Un ingeniero est probando una fuente de poder usada en una computadora
notebook. Utilizando = 0.05, el quiere determinar si una distribucin normal
describe adecuadamente el voltaje de salida. De una muestra aleatoria de n = 100
unidades obtiene las estimaciones muestrales de la media y la desviacin
estndar x = 5.04 V y s = 0.08 V.
Una prctica comn cuando se construyen los intervalos de clase para la
distribucin de frecuencia usada en la prueba ji-cuadrada de la bondad del ajuste
es elegir los limites de clase de las celdas de tal modo que las frecuencias
esperadas Ei = npi sean iguales para todas lsa celdas o intervalos de clase. Para
usar este mtodo, los limites de clase a0,a1,,ak de los k intervalos de clase se
elegiran de tal modo que todas las probabilidades
ai
P1
P ( ai1 X ai ) = f ( x ) dx
ai1
sean iguales. Suponga que se decide usar k = 8 intervalos de clase. Para la

distribucin normal estndar, los intervalos que dividen la escala en ocho
segmentos igualmente factibles son [ 0, 0.32), [0.32, 0.675), [0.675, 1.15), [1.15,
) y los cuatro intervalos reflejados al otro lado de cero.
Para cada intervalo pi = 1/8 = 0.125, por lo que las frecuencias esperadas de las
celdas son Ei = npi = 100(0.125) = 12.5. La tabla completa de las frecuencias
observadas y las esperadas se presenta a continuacin:
Intervalo de clase
frecuencia observada
Oi
frecuencia observada
Ei
12

x < 4.948
4.948 x < 4.986
4.986 x < 5.014
5.014 x < 5.040
5.040 x < 5.066
5.066 x < 5.094
5.094 x < 5.132
5.132 x
Totales
12
14
12
13
12
11
12
14
100
12.5
12.5
12.5
12.5
12.5
12.5
12.5
12.5
100
La cota del primer intervalo de clase es x 1.15s = 4.948. Para el segundo

intervalo de clase es [x 1.15s, x 0.675s), y as sucesivamente. Puede aplicarse
el procedimiento de prueba de hiptesis de ocho pasos en este problema.
1. La variable de inters es la forma de la distribucin del voltaje de la fuente
de poder.
2. H0: la forma de la distribucin es normal.
3. H1: la forma de la distribucin no es normal.
4. = 0.05
5. el estadstico de la prueba es:
20=
i=1
( OiEi )2
Ei
6. puesto que se estimaron dos parmetros de la distribucin normal, el

estadstico ji-cuadrada anterior tiene k-p-1 = 8-2-1 = 5 grados de libertad.
2
Por lo tanto, se rechazar H0 si

7. clculos
>
0.05,5
= 11.07
( OiEi )2
=
Ei
i=1
2
0
(1212.5)2 (1412.5)2
(1412.5)2
+
+ +
=0.64
12.5
12.5
12.5
13

2
0 = 0.64 <
8. conclusiones: puesto que
0.05,5
= 11.07 no puede
rechazarse H0 y no hay evidencia robusta que indique que el voltaje de

salida no tenga una distribucin normal. El valor P del estadstico jicuadrada
20
= 0.64 es P = 0.9861.
o TABLAS DE CONTINGENCIA
En muchas ocasiones, los n elementos de una muestra de una poblacin pueden
clasificarse con base en dos criterios diferentes. Entonces es de inters saber si
los dos mtodos de clasificacin son estadsticamente independientes.
Suponga que el primer mtodo de clasificacin tiene r niveles y que el segundo
tiene c niveles. Ser Oij la frecuencia observada del nivel i del primer mtodo de
clasificacin y el nivel j del segundo mtodo de clasificacin. Los datos
apareceran, en general, como en la siguiente tabla. A una tabla como esta se le
llama tabla de contingencia r x c.
Renglones
TABLA DE CONTINGENCIA r x c
Columnas
1
2
1
O11
O12
O1c
O21
O22
O2c
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Orl
Or2
Orc
En estadstica las tablas de contingencia se emplean para registrar y analizar la

relacin entre dos o ms variables, habitualmente de naturaleza cualitativa
(nominales u ordinales).
Sea Pij la probabilidad de que un elemento seleccionado al azar est en la celda ij,
dado que las dos clasificaciones son independientes. Entonces pij = uivj, donde ui
es la probabilidad de que un elemento seleccionado al azar este en la clase del
14

rengln i y vj es la probabilidad de que un elemento seleccionado al azar est en la
clase de la columna j. ahora bien, con el supuesto de independencia, los
estimadores de ui y vj son
c
1
1
u^ i= oij v^ j = o ij
n j=1
n i=1
Por lo tanto, la frecuencia esperada de cada celda es

c
1
Eij =n u^ i v^ j= oij o ij
n j=1 i=1
Entonces, para n grande, el estadstico
( OijEij )2
=
Eij
i=1 j=1
2
0
Tiene una distribucin ji-cuadrada aproximada con (r-1) (c-1) grados de libertad si
la hiptesis nula es verdadera. Por lo tanto, la hiptesis de independencia se
rechazara si el valor observado del estadstico de prueba
20
excediera
2 ,(r1)(c1) .
Para calcular grados de libertad se tiene la siguiente frmula:
gl= (r-)(c-1)
NOTA: El clculo de grados de libertad nos dar la pauta para calcular el valor
total de frecuencias.
Ejemplo:
Una compaa tiene que elegir entre tres planes de pensiones. La administracin
quiere saber si la preferencia por los planes es independiente de la clasificacin
laboral y desea usar = 0.05.
15

En la siguiente tabla se muestran las opiniones de una muestra aleatoria de 500
empleados.
Plan de pensin
1
totales
Trabajadores asalariados
160
140
40
340
Trabajadores por hora
40
60
60
160
Totales
200
200
100
500
Clasificacin laboral
Para encontrar las frecuencias esperadas, primero debe calcularse

u^ 1=(340/500) = 0.68, u^ 2=(160/ 500)= 0.32, v^ 1=(200/ 500)=
100/500=
v^ 3=
0.40 y
0.20. Ahora pueden calcularse las frecuencias esperadas con la
ecuacin
c
1
Eij =n u^ i v^ j= oij o ij
n j=1 i=1
Por ejemplo, el nmero esperado de trabajadores asalariados que prefieren el plan
de pensin 1 es
Eij =n u^ i v^ j=500 ( 0.68 ) ( 0.40 )=136
En la siguiente tabla se muestran las frecuencias esperadas.
Plan de pensin
Clasificacin laboral
Trabajadores asalariados
Trabajadores por hora
Totales
totales
136
136
68
340
64
64
32
160
200
200
100
500
16

Ahora puede aplicarse el procedimiento de prueba de hiptesis de ocho pasos en
este problema.
1. La variable de inters es la preferencia de los empleados entre los planes
de pensiones.
2. H0: la preferencia es independiente de la clasificacin laboral asalariado o
por horas.
3. H1: la preferencia no es independiente de la clasificacin laboral asalariado
o por horas.
4. = 0.05
5. el estadstico de prueba es
r
20=
i=1 j=1
( OijEij )2
Eij
6. puesto que r = 2 y c = 3, los grados de libertad de ji-cuadrada son

2
2
(r-1) (c-1)= (1)(2) = 2, se rechazara H si 0 > 0.05,2 = 5.99
0
7. clculos
( OijEij )2
=
Eij
i=1 j=1
2
0
(160136) (140136) ( 4068) (4064) (6064 ) (6032)
+
+
+
+
+
=49.63
136
136
68
64
64
32
8. conclusiones: puesto que
20
= 49.63 >
20.05,2=5.99 , se rechazar la
hiptesis de independencia y se concluye que la preferencia por los planes

de pensiones no es independiente de la clasificacin laboral. El valor P para
2
= 49.63 es P = 1.671 x 10-11.
17
PRUEBAS NO PARAMETRICAS
La mayor parte de los procedimientos de prueba de hiptesis que se presentan en

las unidades anteriores se basan en la suposicin de que las muestras aleatorias
se seleccionan de poblaciones normales. Afortunadamente, la mayor parte de
estas pruebas an son confiables cuando experimentamos ligeras desviaciones de
la normalidad, en particular cuando el tamao de la muestra es grande.
Tradicionalmente, estos procedimientos de prueba se denominan mtodos
paramtricos. En esta seccin se consideran varios procedimientos de prueba
alternativos, llamados no paramtricos mtodos de distribucin libre, que a
menudo no suponen conocimiento de ninguna clase acerca de las distribuciones
de las poblaciones fundamentales, excepto que stas son continuas.
Los procedimientos no paramtricos o de distribucin libre se usan con mayor
frecuencia por los analistas de datos. Existen muchas aplicaciones en la ciencia y
la ingeniera donde los datos se reportan no como valores de un continuo sino
ms bien en una escala ordinal tal que es bastante natural asignar rangos a los
datos.
Se debe sealar que hay desventajas asociadas con las pruebas no paramtricas.
En primer lugar no utilizan la informacin que proporciona la muestra, y por ello
una prueba no paramtrica ser menos eficiente que el procedimiento paramtrico
correspondiente, cuando se pueden aplicar ambos mtodos. En consecuencia,
para lograr la misma eficiencia, una prueba no paramtrica requerir la
correspondiente prueba paramtrica.
Como se indic anteriormente, ligeras divergencias de la normalidad tienen como
resultado desviaciones menores del ideal para las pruebas paramtricas estndar.
EJEMPLO.Dos jueces deben clasificar cinco marcas de cerveza de mucha demanda
mediante la asignacin de un grado de 1 a la marca que se considera que tiene la
mejor calidad global, un grado 2 a la segunda mejor, etctera. Se puede utilizar
18

entonces una prueba no paramtrica para determinar donde existe algn acuerdo
entre los dos jueces.
Se debe sealar que hay varias desventajas asociadas con las pruebas no
paramtricas. En primer lugar, no utilizan la informacin que proporciona la
muestra, y por ello una prueba no paramtrica ser menos eficiente que el
procedimiento paramtrico correspondiente, cuando se pueden aplicar ambos
mtodos. En consecuencia, para lograr la misma potencia, una prueba no
paramtrica requerir la correspondiente prueba no paramtrica.
Como se indic antes, ligeras divergencias de la normalidad tienen como resultado
desviaciones menores del ideal para las pruebas paramtricas estndar. Esto es
cierto en particular para la prueba t y la prueba F. En el caso de la prueba t y la
prueba F, el valor P citado puede ser ligeramente errneo si existe una violacin
moderada de la suposicin de normalidad.
En resumen, si se puede aplicar una prueba paramtrica y una no paramtrica al
mismo conjunto de datos, debemos aplicar la tcnica paramtrica ms eficiente.
Sin embargo, se debe reconocer que las suposiciones de normalidad a menudo no
se pueden justificar, y que no siempre se tienen mediciones cuantitativas.
o ESCALA DE MEDICION
Definicin de escala
Cualquier recurso para determinar la magnitud o cantidad de un objeto o hecho de
cualquier clase; instrumento para asignar un nmero o guarismo que indicar
cunto hay de algo; un recurso de medicin que provee un conjunto de normas
(numeradas de acuerdo con ciertas reglas de trabajo) con las que se puede
comparar el objeto que ser medido, para asignarle un nmero o valor matemtico
que represente su magnitud. El trmino es de amplia aplicacin: una escala de
alguna clase est incluida en toda medicin o estimacin. Implcito en cada caso
hay un conjunto de reglas para asignar nmeros o valores: son estas reglas las
19

que dan significado a las cantidades. Los objetos pueden ser perceptuales o
conceptuales.
La escala de medida de una caracterstica tiene consecuencias en la manera de
presentacin de la informacin y el resumen. La escala de medicin-grado de
precisin de la medida de la caracterstica tambin determina los mtodos
estadsticos que se usan para analizar los datos. Por lo tanto, es importante definir
las caractersticas por medir. Las escalas de medicin ms frecuentes son las
siguientes:
Escala Nominal.- No poseen propiedades cuantitativas y sirven nicamente para
identificar las clases. Los datos empleados con las escalas nominales constan
generalmente de la frecuencia de los valores o de la tabulacin de nmero de
casos en cada clase, segn la variable que se est estudiando. El nivel nominal
permite mencionar similitudes y diferencias entre los casos particulares. Los datos
evaluados en una escala nominal se llaman tambin "observaciones cualitativas",
debido a que describen la calidad de una persona o cosa estudiada, u
"observaciones categricas" porque los valores se agrupan en categoras. Por lo
regular, los datos nominales o cualitativos se describen en trminos de porcentaje
o proporciones. Para exhibir este tipo de informacin se usan con mayor
frecuencia tablas de contingencia y grficas de barras.
Escala Ordinal.- Las clases en las escalas ordinales no solo se diferencian unas
de otras (caracterstica que define a las escalas nominales) sino que mantiene una
especie de relacin entre s. Tambin permite asignar un lugar especfico a cada
objeto de un mismo conjunto, de acuerdo con la intensidad, fuerza, etc.; presentes
en el momento de la medicin. Una caracterstica importante de la escala ordinal
es el hecho de que, aunque hay orden entre las categoras, la diferencia entre dos
categoras adyacentes no es la misma en toda la extensin de la escala. Algunas
escalas consisten en calificaciones de mltiples factores que se agregan despus
para
llegar
un
ndice
general.
Debe mencionarse brevemente una clase espacial de escala ordinal llamada

"escala de posicin", donde las observaciones se clasifican de mayor a menor (o
20

viceversa). Al igual que en las escalas nominales, se emplean a menudo
porcentajes y proporciones en escalas ordinales.
Escala de Intervalo.- Refleja distancias equivalentes entre los objetos y en la
propia escala. Es decir, el uso de sta escala permite indicar exactamente la
separacin entre 2 puntos, lo cual, de acuerdo al principio de isomorfismos, se
traduce en la certeza de que los objetos as medidos estn igualmente
separados a la distancia o magnitud expresada en la escala.
Escala de Razn.- Constituye el nivel ptimo de medicin, posee un cero
verdadero como origen, tambin denominada escala de proporciones. La
existencia de un cero, natural y absoluto, significa la posibilidad de que el objeto
estudiado carezca de propiedad medida, adems de permitir todas las
operaciones aritmticas y el uso de nmeros representada cantidades reales de
la
propiedad
medida.
Con esto notamos que esta escala no puede ser usada en los fenmenos
psicolgicos, pues no se puede hablar de cero inteligencia o cero aprendizaje,
etc.
o PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA LA MEDIANA

La prueba de los rangos con signo de Wilcoxon es una prueba no
paramtrica para comparar la mediana de dos muestras relacionadas y determinar
si existen diferencias entre ellas. Se utiliza como alternativa a la prueba t de
Student cuando no se puede suponer la normalidad de dichas muestras. Debe su
nombre a Frank Wilcoxon, que la public en 1945.1 Es una prueba no paramtrica
de comparacin de dos muestras relacionadas, debe cumplir las siguientes
caractersticas:
Es libre de curva, no necesita una distribucin especfica Nivel ordinal de la
variable dependiente Se utiliza para comparar dos mediciones de rangos
(medianas) y determinar que la diferencia no se deba al azar (que la diferencia sea
estadsticamente significativa).
21

Se utiliza cuando la variable subyacente es continua pero no se presupone ningn
tipo de distribucin particular.
Planteamiento
Suponga que se dispone de n pares de observaciones, denominadas
objetivo del test es comprobar si puede dictaminarse que los valores
e
no iguales.
. El
son o
Suposiciones
1 Si
, entonces los valores
son independientes.
2 Los valores tienen una misma distribucin continua y simtrica respecto

a una mediana comn .
Mtodo
La hiptesis nula es
:
. Retrotrayendo dicha hiptesis a los valores
originales, sta vendra a decir que son en cierto sentido del mismo tamao.
Para verificar la hiptesis, en primer lugar, se ordenan los valores
absolutos
y se les asigna su rango
. Entonces, el estadstico de
la prueba de los signos de Wilcoxon,
, es
es decir, la suma de los rangos
correspondientes a los valores positivos de
La distribucin del estadstico

se acepta o no la hiptesis nula.
puede consultarse en tablas para determinar si
En ocasiones, esta prueba se usa para comparar las diferencias entre dos
muestras de datos tomados antes y despus del tratamiento, cuyo valor central se
espera que sea cero. Las diferencias iguales a cero son eliminadas y el valor
absoluto de las desviaciones con respecto al valor central son ordenadas de
menor a mayor. A los datos idnticos se les asigna el lugar medio en la serie. La
suma de los rangos se hace por separado para los signos positivos y los
negativos. S representa la menor de esas dos sumas. Comparamos S con el valor
22

proporcionado por las tablas estadsticas al efecto para determinar si rechazamos
o no la hiptesis nula, segn el nivel de significacin elegido.
o PRUEBA DE SUMAS DE RANGOS CON SIGNO DE WILCOXON PARA

LA DIFERENCIA ENTRE 2 MEDIANAS (2 POBLACIONES
INDEPENDIENTES)
Esta prueba es un procedimiento libre de distribucin poderoso, muy sencillo y
ampliamente utilizado, para probar las diferencias entre las medianas de dos
poblaciones. Adems, la prueba de suma de rangos de wilcoxon es un
procedimiento excelente a escoger cuando solamente se pueden obtener datos
del tipo ordinal, como sucede a menudo cuando tratamos con estudios sobre
comportamientos de consumo, investigaciones de mercado y psicologa
experimental.
Esta prueba se emplea en combinacin con el diseo de grupos independientes,
con datos que tienen por lo menos una escala ordinal, puede sustituir a la prueba t
student cuando sta no cumple con la suposicin de normalidad de su poblacin.
La hiptesis nula y alternativa se enuncia sin mencionar los parmetros de la
poblacin.
Tambin puede emplearse en lugar de la prueba t cuando los datos no se
encuentran en una escala de razn o intervalo. Bsicamente compara la diferencia
entre las medianas de dos grupos.
Procedimiento:
Para efectuar la prueba de suma de rangos de wilcoxon debemos sustituir las
observaciones de las dos muestras de tamaos n1 y n2 por sus rangos
combinados. Los rangos son asignados de tal manera que el rango 1 se asigna a
la ms pequea de las n = n1 + n2 observaciones combinadas, el rango 2 se le
asigna a la siguiente ms alta y as sucesivamente, de modo que el rango n queda
asignado a la observacin mas grande.
Si varias observaciones tienen el mismo valor, asignamos a cada una de estas el
promedio de los rangos que, en otra circunstancia, se les habra asignado.
Por cuestiones de comodidad, siempre que los dos tamaos de muestras sean
distintos, haremos que n1 represente el de la muestra ms pequea y que n2
corresponda al de la ms grande. La estadstica de prueba de suma de rangos de
wilcoxon, T1, es simplemente la suma de rangos asignados a las n1
observaciones de la muestra ms pequea.
Para cualquier valor entero n, la suma de los n primeros enteros consecutivos
puede calcularse fcilmente como n(n + 1)/2. La estadstica de prueba, T1, mas la
23

suma de los rangos asignados a los n2 elementos de la segunda muestra, T2, por
consiguiente, debe sr igual a este valor; es decir,
De modo que esta ecuacin puede servir como una verificacin del
procedimiento de asignacin de rangos. La prueba de hiptesis nula puede ser de
dos extremos o de un extremo dependiendo de si estamos probando si las dos
medianas de poblacin son exclusivamente diferentes o si una de ellas es mayor
que la otra.
Cuando los tamaos de ambas muestras n1 y n2 son 10, se puede usar la tabla
para obtener los valores crticos de la estadstica de prueba T1 para pruebas de
uno y dos extremos, a varios niveles de significacin.
Para una prueba de dos extremos y para un nivel particular de significacin , si el
valor calculado de T1 es igual o mayor que el valor critico superior o si es menor o
igual que el valor critico inferior, la hiptesis nula pude ser rechazada.
Para pruebas de un extremo que tiene la hiptesis alternativa H1: M1 < M2, la
regla de decisin consiste en rechazar la hiptesis nula si el valor observado de
T1 es menor o igual que el valor critico inferior. Para la pruebas de un extremo
cuya hiptesis alternativa sea H1: M1 > M2, la regla de decisin consiste en
rechazar la hiptesis nula si el valor observado de T1 es igual o mayor que el valor
critico superior.
Utilizamos como estadstico de prueba:
Donde:
T1 = suma de rangos de la primera muestras.
N1 = nmero de observaciones de la primera muestra.
N2 = numero de observaciones de la segunda muestra.
Basndonos en el nivel de significacin seleccionado, la hiptesis nula puede
ser rechazada si el valor Z calculado cae en la regin de rechazo apropiada,
dependiendo de si se trata de una prueba de dos extremos o de uno solo.
24
o PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA LA

DIFERENCIA DE 2 MEDIANAS ( 2 POBLACIONES DEPENDIENTES,
DATOS PAREADOS)
UTILIDAD
Es til para probar la aseveracin de que una muestra proviene de una
poblacin con una mediana especfica.
Se emplea para grupos correlacionados (datos apareados) y cuyos datos
no siguen una distribucin normal
Esta prueba toma en cuenta la magnitud como la direccin de los puntajes
de diferencia
Puede emplearse en lugar de la prueba t para grupos dependientes cuando
no se tiene certeza de la distribucin de la muestra y no se tiene datos
sobre la poblacin
Es una prueba no par mtrica que utiliza rangos ordenados de datos
mustrales consistentes en datos apareados. Se usa para probar las diferencias
en las distribuciones poblacionales y se basa en los siguientes supuestos:
Los datos consisten
aleatoriamente.
en
datos
apareados
que
se
seleccionan
La podemos emplear para evaluar si dos grupos dependientes tienen

distribuciones similares.
La distribucin de las diferencias tiene una distribucin que es
aproximadamente simtrica.
Los datos dentro de cada pareja deben ser por lo menos de mediciones
ordinales.
Para calcular Tobt hay que ordenar por rangos de puntaje de diferencia.
25

Suposiciones y pasos a considerar:
1. Los datos se ordenan de acuerdo a un criterio, por ejemplo del ms
pequeo al ms grande, o del mayor a menor, etc.
2. El rango es el nmero que se asigna a un elemento muestral individual de
acuerdo con su orden en la lista ordenada
3. Se descartan todas las diferencias iguales a cero y se ordenan y etiquetan
las diferencias absolutas restantes, desde la mnima hasta la mxima.
4. Cuando las diferencias son iguales se les asigna la clasificacin media a
sus posiciones ordenadas en el conjunto combinado de datos
5. La idea bsica que est detrs de la prueba del signo es el anlisis de las
frecuencias de los signos positivos y negativos para determinar si son
significativamente diferentes
6. Emplearemos el estadstico de prueba con base en el nmero de veces que
ocurre el signo menos frecuente.
Criterios a considerar:
T= se elige a la ms pequea de las siguientes sumas:
La suma de los valores absolutos de los rangos negativos de las diferencias
d
La suma de los rangos positivos de las diferencias d
Si el tamao de la muestra es menor a 30, entones empleamos estadstico
T y se compara con T critico de tablas.
Si el valor de TOBT es menor o igual a TCRI rechazamos Ho
La suma de los rangos debe ser igual a T1 + T2 = n ( n + 1)/ 2
Entonces con respecto a las medianas:

Para probar la hiptesis nula de que se muestrean dos poblaciones simtricas
continuas con mediana1 = mediana2 para el caso de una muestra pareada,
clasificamos las diferencias de las observaciones pareadas sin importar el signo y
procedemos como en el caso de una sola muestra.
26

o PRUEBA DE CORRIDAS
Las pruebas de las corridas, que se basan en el orden en el que se obtienen las
observaciones muestrales, es una tcnica til para probar la hipoteis nula h 0 de
que las observaciones en realidad se extraen al azar.
Para ilustrar las pruebas de corridas. Supongamos que se encuestan 12 personas
para saber si utilizan cierto producto. Se cuestionara seriamente la supuesta
aleatoravilidad de la muestra si las 12 personas fueran del mismo sexo.
Designaremos un hombre y una mujer con los smbolos M y F, respectivamente, y
registraremos los resultados de acuerdo con su sexo en el orden en que ocurren.
Subsecuencia tpica para el experimento podra ser
MM FFF M FF MMMM
DONDE AGRUPAMOS LAS SUBSECUENCIAS DE SIMBOLOS SIMILARES.
TALES AGRUPAMIENTOS SE LLAMAN CORRIDAS.
Definicin: una corrida es una subsecuencia de uno o ms smbolos
idnticos que representan una propiedad comn de los datos
Sin importar si las mediciones de nuestra muestra representan datos cuantitativos
o cualitativos, la prueba de corridas divide los datos en dos categoras
mutuamente excluyentes; masculino o femenino ; defectuoso o no defectuoso
caras o cruzes; arriba o abajo; etc. En consecuencias, una secuencia siempre
estar limitada a dos smbolos distintos. Sea n el numero de smbolos asociados
con la categora. Entonces el tamao de la muestra n= n1 +n2
Para los n =12 smbolos en nuestra encuesta tenemos cinco corridas con la
primera que contiene dos m la segunda 3 f etc. si el numero de corridas es mayor
o menor que el que esperaramos al azar se debe rechazar la hiptesis de que la
27

muestra se extrajo al azar; ciertamente, una muestra que tiene como resultado
solo dos corridas.
O la inversa, es mas improbable que ocurra a partir de un proceso de seleccin
aleatoria. Tal c resultado indica que las primeras siete personas entrevistadas
fueron todas hombres seguidas de cinco mujeres. De la misma manera, si la
muestra tiene como resultado el numero mximo de 12 corridas, como en la
secuencia alternamente
Mfmfmfmfmfmf
De nuevo sospechamos del orden en que se seleccionaron los individuos para la
encuesta
La prueba de corridas para la aleatoriedad se basa en la variable aleatoria V el
numero total de corridas que ocurren en la secuencia completa de nuestro
experimento. Se dan valores de p (V<v) cuando h0 es verdadera para V=2,3.20
corridas, y valores de n1 y n2 menores que o iguales a 10, los valores p para
pruebas de una cola y de dos colas se pueden obtener con el uso de estos valores
tabulados.
METODOS ESTADISTICOS CONTRA NO PARAMETRICOS
1.- EL CASO DE DOS MUESTRAS: Las pruebas estadsticas de dos muestras se

usan criando el investigador desea establecer la diferencia entre chis tratamientos o si
un tratamiento es mejor que otro. Por ejemplo adiestramiento, uso de psicofrmaco,
en cada caso el grupo que ha sufrido el tratamiento es comparado con el que no lo ha
experimentado o que ha sufrido un tratamiento diferente.
En la comparacin de estos grupos, a veces se observan diferencias significativas que
no son el resultado del tratamiento, por ejemplo, en el estudio de los trabajadores que
se someten a un entrenamiento diferente para determinar cul es el mejor para elevar
28

su calificacin, puede ser que la diferencia no se deba, realmente, a uno u otra
tratamiento, sino que uno de los grupos estaba ms motivado por elevar rpidamente
su calificacin y, de esta forma, no se refleja verdaderamente la efectividad del
procedimiento de enseanza.
Una forma de eliminar esta dificultad, es usar MUESTRAS RELACIONADAS estas
se pueden lograr: Cuando el propio sujeto es su propio control. Con parejas de
sujetos en las que se asignan los miembros de cada pareja, a las dos condiciones.
La tcnica paramtrica usual para analizar datos provenientes de dos muestras
relacionadas es aplicar la prueba t a los puntajes, estos se pueden obtener de los
dos puntajes de cada pareja igualada o de los puntajes de cada sujeto bajo las dos
condiciones. stas pruebas determinan la medida en dije las diferencias de las
muestras indican, de forma convincente, una diferencia en el proceso aplicado en
ellos.
En el caso de dos MUESTRAS INDEPENDIENTES, ellas pueden obtenerse:
Tomando al azar sujetos de dos poblaciones. Asignando al azar ambos tratamientos
a miembros de algunas muestras de orgenes arbitrarios. No es necesario que la
muestra sea del mismo tamao.
En este caso, la prueba t es la tcnica paramtrica indicada para analizar los datos
de las dos muestras independientes.
29

Los mtodos estadsticos no paramtricos adecuados para estos casos, son:
2.-EL CASO DE K MUESTRA:

Hasta aqu hemos visto las pruebas estadsticas idneas para probar la significacin
de las diferencias. Entre una sola muestra y una poblacin determinada. Entre dos
muestras relacionadas o independientes. Ahora veremos las pruebas que
determinan la significacin de las diferencias entre 3 o ms grupos, relacionados o
independientes.
A veces las circunstancias requieren de diseos experimentales de ms de dos
muestras o condiciones que puedan estudiarse simultneamente y entonces es
necesario usar una prueba estadstica que indique si existe una diferencia total entre
las k muestras o condiciones, ya que no es posible tener confianza en una decisin
acerca de k muestras, en la que el anlisis se haga probando las muestras, 2 a 2.La
tcnica paramtrica para probar si varias muestras proceden de una misma
poblacin, es el anlisis de varianza o prueba F. La misma facilita que no haya
prdida de precisin al estimar la varianza por separado, pues se utiliza una
varianza combinada.
30

En el caso no paramtrico, tenemos:
31
EJEMPLO: Una compaa de taxis trata de decidir si el uso de llantas

radiales en lugar de llantas regulares con cinturn mejora la economa
de combustible.se equipan 16 automviles con llantas radiales y se
manejan por un recorrido de prueba establecido. Sin cambiar de
conductores, se equipan los mismos autos con las llantas regulares
con cinturn y se manejan una vez ms por el recorrido de prueba.se
registra el consumo de gasolina, en kilmetros por litro, de la siguiente
manera:
Automvil
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Llantas radiales
4.2
4.7
6.6
7.0
6.7
4.5
5.7
6.0
7.4
4.9
6.1
5.2
5.7
6.9
6.8
4.9
llantas con cinturn

4.1
4.9
6.2
6.9
6.8
4.4
5.7
5.8
6.9
4.9
6.0
4.9
5.3
6.5
7.1
4.8
Podemos concluir en el nivel de significancia de 0.05 que los autos

equipados con llantas radiales obtienen mejores economas de
combustible que los equipados con llantas regulares con cinturn?
32
Solucin: representemos con
1 y 2 los kilmetros por litro promedio
para los autos equipados con llantas radiales y con cinturn,

respectivamente.
1. H: 1-
2= 0
H1: 1- 2 > 0
2.
3. = 0.05
4. Estadstica de prueba : variable binomial x con p=

5. Clculos: despus de reemplazar cada diferencia positiva con un
smbolo + `` y cada diferencia negativa con un smbolo "-, y
despus descartar las dos diferencias cero ,obtenemos la
secuencia
+ - + - + - + - + - + - + - + - + -+ - +
Para la que n= 14 y x =11. Con el uso de la aproximacin de la curva
normal, encontramos que
Z= 10.5 7 = 1.87
14/2
Y entonces P= P(X 11) P ( Z>1.87)= 0.0307
6. DECISION: rechazar Ho y concluir que, en promedio, las llantas
radiales mejoran la economa de combustible.
o PRUEBAS PARA VERIFICAR LA NORMALIDAD EN UN GRUPO DE

DATOS
33

Un caso especfico de ajuste a una distribucin terica es la correspondiente a la
distribucin normal. Este contraste se realiza para comprobar si se verifica la
hiptesis de normalidad necesaria para que el resultado de algunos anlisis sea
fiable, como por ejemplo para el ANOVA.
Para comprobar la hiptesis nula de que la muestra ha sido extrada de una
poblacin con distribucin de probabilidad normal se puede realizar un estudio
grfico y/o analtico.
o PRUEBA DE KOLMOGOROV SMIRNOV

Recurdese que para aplicar la prueba de bondad de ajuste chi-cuadrada cuando
el modelo propuesto bajo
H0
es continuo, es necesario aproximar
F0 (x )
mediante el agrupamiento de los datos observados en un nmero finito de

intervalos de clase. Este requisito de agrupar los datos implica tener una muestra
ms o menos grande. De esta manera, la prueba de bondad de ajuste chicuadrada se encuentra limitada cuando
F0 ( x )
es continua y la muestra
aleatoria disponible tiene un tamao pequeo. Una prueba de bondad de ajuste

ms apropiada que la chi-cuadrada cuando
F0 ( x )
es continua, es la basad en
la estadstica de Kolmogorov Smirnov.

La prueba de Kolmogorov Smirnov no necesita que los datos se encuentren
agrupados y es aplicable a muestras de tamao pequeo. sta se basa en una
comparacin entre las funciones de distribucin acumulativa que se observa en la
muestra ordenada y la distribucin propuesta bajo la hiptesis nula. Si esta
comparacin revela una diferencia suficientemente grande entre las funciones de
distribucin muestral y propuesta, entonces la hiptesis nula de que la distribucin
es
F0 (x ) , se rechaza.
Considrese la hiptesis nula por
H 0 : F (x) F 0( x) , en donde
especifica en forma completa. Dentese por
X (1) , X (2) , , X (n)
F0 (x )
se
a las observaciones
34

n
ordenadas de una muestra aleatoria de tamao
y defnase la funcin de
distribucin acumulativa muestral como

x< x (1 ) ,
0
S n (x)= k /n x (k) x < x (k+ 1) ,
1
x xn .
En otras palabras, para cualquier valor ordenado

S n (x)
de la muestra aleatoria,
es la proporcin del nmero de valores en la muestra que son iguales o
menores a
x . Ya que
posible evaluar a
este ltimo
F0 ( x )
F0 ( x ) se encuentra completamente especificada, es

para algn valor deseado de
x , y entonces compara
S n ( x) . Si la hiptesis nula es
con el valor correspondiente de
verdadera, entonces es lgico esperar que la diferencia sea relativamente

pequea. La estadstica de Kolmogorov Smirnov se define como
D n=mx |S n ( x)F 0 ( x )| .
x
La estadstica
Dn
tiene una distribucin que es independiente del modelo
propuesto bajo la hiptesis nula. Por esta razn, se dice
Dn
es una estadstica
independiente de la distribucin. Lo anterior da como resultado que la funcin de

distribucin para cualquier
F0 (x ) . En la tabla J del apndice, se proporcionan
los valores cuantiles superiores de
Dn
para varios valores de la muestra. El
lector debe notar que los valores asintticos de
dn
que se encuentran en la
35

parte inferior de la tabla proporcionan una adecuada aproximacin para los valores
n
de
mayores de 50.
Para un tamao
P Dn >
del error de tipo i, la regin crtica es de la forma
c
= .
n
De acuerdo con lo anterior, la hiptesis

observado del valor
Dn
H0
se rechaza si para algn valor x
se encuentra dentro de la regin crtica de tamao
.
Como se hizo anteriormente, la estadstica de Kolmogorov Smirnov es, en
general, superior a la prueba de bondad de ajuste chi cuadrada cuando los datos
involucran una variable aleatoria continua, debido a que no es necesario agrupar
los datos. Adems, la prueba de Kolmogorov Smirnov tiene la atractiva
propiedad de ser aplicable a muestras de tamao pequeo. Por otro lado, la
estadstica se encuentra limitada, ya que el modelo propuesto bajo
H0
debe
especificarse en forma completa. La estadstica de Kolmogorov Smirnov no se

aplica a todos aquellos casos para los que las observaciones no son
inherentemente cuantitativas a consecuencia de las ambigedades que pueden
surgir cuando se ordenan las observaciones.
o PRUEBA DE ANDERSON DARLING

Esta prueba compara la funcin de distribucin acumulada emprica de los datos
de su muestra con la distribucin esperada si los datos son normales. Si esta
diferencia observada es suficientemente grande, la prueba rechazar la hiptesis
nula de normalidad en la poblacin.
36

En estadstica, la prueba de Anderson-Darling es una prueba no paramtrica
sobre si los datos de una muestra provienen de una distribucin especfica. La
frmula para el estadstico A determina si los datos
(observar
que los datos se deben ordenar) vienen de una distribucin con funcin
acumulativa F
A2 = N S
Donde:
El estadstico de la prueba se puede entonces comparar contra las distribuciones

del estadstico de prueba (dependiendo que F se utiliza) para determinar el
P-valor.
o PRUEBA DE RYAN JOINER

Esta prueba evala la normalidad calculando la correlacin entre sus datos y las
puntuaciones normales de sus datos. Si el coeficiente de correlacin se encuentra
cerca de 1, es probable que la poblacin sea normal.
La estadstica de Ryan-Joiner evala la solidez de esta correlacin; si se
encuentra por debajo del valor crtico apropiado, se rechazar la hiptesis nula
H0
de normalidad en la poblacin. Esta prueba es similar a la prueba de normalidad

de Shapiro-Wilk.
o PRUEBA DE SHAPPIRO WILK

En estadstica, la prueba de ShappiroWilk, se usa para contrastar la normalidad
de un conjunto de datos. Se plantea como hiptesis nula que una muestra X1,...,
Xn proviene de una poblacin normalmente distribuida. Se considera uno de las
37

pruebas ms potentes para el contraste de normalidad, sobre todo para muestras
pequeas (n<30).
El estadstico de la prueba de Shappiro Wilk es:
Donde:
x ( i)
= con el subndice i entre parntesis es el nmero que ocupa la i-
sima posicin en la muestra;

= (x1 + ... + xn) / n es la media muestral;
Las constantes ai se calculan
Donde:
Siendo m1,..., mn son los valores medios del estadstico ordenado, de variables
aleatorias
independientes
idnticamente
distribuidas,
muestreadas
de
distribuciones normales. V es la matriz de covarianzas de ese estadstico de

orden.
La hiptesis nula se rechazar si W es demasiado pequeo.
BIBLIOGRAFIA BASICA
Est. Bsica p Admn. - Berenson, Levine
38

Estadistica aplic. a los neg. y la econ. (Webster)
estadistica-para-administracion-y-economia-anderson-10-th
Probabilidad y est. 1 ed (Spiegel - Schaum)
Probabilidad y Est. p Ing. 6 ed (Walpole - Myers)
Probabilidad y Est. p Ing. y C. 6 Ed (Devore)
Probabilidad y estadstica (Canavos)
Probabilidad y Estadstica Aplicadas a la Ingeniera (Montgomery - Runger) - 2
Edicin [Cap 1 - 8]
39

Conceptos

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Conceptos

Hochgeladen von

Copyright:

Verfügbare Formate

INSTITUTO TECNOLGICO DE CAMPECHE

PRUEBAS DE BONDAD Y AJUSTE Y PRUEBAS NO

JOSU DANIEL CASTILLO MOO

SAN FRANCISCO DE CAMPECHE A 24 DE NOVIEMBRE DEL 2014

UNIDAD IV.- PRUEBAS DE BONDAD Y AJUSTE Y PRUEBAS NO

INSTITUTO TECNOLGICO DE CAMPECHE

P. D/LA BONDAD DEL AJUSTE....................................................................10

PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA LA MEDIANA20

o PRUEBA DE SUMAS DE RANGOS CON SIGNO DE WILCOXON PARA LA

METODOS ESTADISTICOS CONTRA NO PARAMETRICOS........................27

PRUEBA DE KOLMOGOROV SMIRNOV..................................................33

PRUEBA DE ANDERSON DARLING.........................................................35

PRUEBA DE RYAN JOINER......................................................................36

PRUEBA DE SHAPPIRO WILK..................................................................36

INSTITUTO TECNOLGICO DE CAMPECHE

= Valor observado en la i-simo dato.

Valor esperado en la i-simo dato.

Parmetros estimados sobre la base de los datos de la muestra

INSTITUTO TECNOLGICO DE CAMPECHE

. En caso contrario se acepta.

Donde t representa el valor proporcionado por las tablas, segn el nivel de

foi=total de valores del intervalo

fei=numero esperadode valores en elintervalo

Frmula para el anlisis de ji-cuadrada

k =numero de intervalos de clase

INSTITUTO TECNOLGICO DE CAMPECHE

Interpretacin: cuanto mayor sea el valor de ji-cuadrada menos creble es la

INSTITUTO TECNOLGICO DE CAMPECHE

Frecuencia Esperada = Total de la columna * Total del rengln

INSTITUTO TECNOLGICO DE CAMPECHE

A una tabla de contingencia con r renglones y c columnas se le conoce como una

INSTITUTO TECNOLGICO DE CAMPECHE

Al utilizar las frecuencias marginales, es posible escribir las siguientes

Ahora si H0 es verdadera y las dos variables son independientes, debe tenerse:

P (LF) = P (L) P (F) =

P (LA) = P (L) P (A) =

P (MF) = P (M) P (F) =

P (MA) = P (M) P (A) =

P (HF) = P (H) P (F) =

P (HA) = P (H) P (A) =

Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una

INSTITUTO TECNOLGICO DE CAMPECHE

Cuando H0 es verdadera. La regla general para obtener la frecuencia esperada

En el ejemplo, se necesitan calcular nicamente las dos frecuencias esperadas del

INSTITUTO TECNOLGICO DE CAMPECHE

Donde la sumatoria se extiende a todas las celdas rc en la tabla de contingencia

con v = (r-1)(c-1) grados de libertad se rechaza la hiptesis

nula de independencia en el nivel de significancia ; de lo contrario, se acepta la

De la tabla de Valores crticos de las distribuciones 2 resulta que

para v= (2-1) (3-1) = 2 grados de libertad. La hiptesis nula se rechaza. Se

INSTITUTO TECNOLGICO DE CAMPECHE

Si las frecuencias esperadas de celdas son grandes, los resultados corregidos y

INSTITUTO TECNOLGICO DE CAMPECHE

Para demostrar que si la poblacin sigue la distribucin hipottica propuesta,

tiene, aproximadamente, una distribucin ji-cuadrada en donde los grados de

donde m representa el numero de parmetros de la distribucin

hipottica, estimados por los estadsticos muestrales. Esta aproximacin mejora

magnitud de las frecuencias esperadas. Si stas frecuencias

esperadas son muy pequeas, entonces el estadstico de prueba

reflejar la desviacin de las frecuencias observadas y las esperadas, no

INSTITUTO TECNOLGICO DE CAMPECHE

sean iguales. Suponga que se decide usar k = 8 intervalos de clase. Para la

INSTITUTO TECNOLGICO DE CAMPECHE

La cota del primer intervalo de clase es x 1.15s = 4.948. Para el segundo