Sie sind auf Seite 1von 8

PRUEBA Q DE DIXON: DETECCIN DE UN VALOR ALEJADO O DATOS SOSPECHOSOS

Teora

En un conjunto de mediciones repetidas de una cantidad fsica o qumica, uno o ms de los


valores obtenidos pueden diferir considerablemente de la mayora del resto. En este caso
siempre hay una fuerte motivacin para eliminar esos valores desviados y no incluirlos en
ningn clculo posterior (por ejemplo, del valor medio y / o de la desviacin estndar). Esto
slo se permite si los valores sospechosos pueden caracterizarse "legtimamente" como valores
atpicos.
Por lo general, un dato sospechoso se define como una observacin que se genera a partir de
un modelo diferente o una distribucin diferente de la que era el principal "cuerpo" de datos.
Aunque esta definicin implica que un valor atpico se puede encontrar en cualquier lugar
dentro del rango de observaciones, es natural sospechar y examinar como posibles valores
atpicos slo los valores extremos.
El rechazo de las observaciones sospechosas debe basarse exclusivamente en un criterio
objetivo y no en motivos subjetivos o intuitivos. Esto puede lograrse utilizando pruebas
estadsticamente slidas para "la deteccin de valores extremos".
La prueba Q de Dixon es la prueba ms simple de este tipo y suele ser la nica descrita en los
libros de texto de Qumica Analtica en los captulos de tratamiento de datos. Esta prueba nos
permite examinar si una (y slo una) observacin de un pequeo conjunto de observaciones
repetidas (tpicamente 3 a 10) puede ser "legtimamente" rechazada o no.
Q-test se basa en la distribucin estadstica de las muestras de datos ordenados, extrados de la
misma poblacin normal. Por lo tanto, una distribucin normal (gaussiana) de los datos se
supone cada vez que se aplica esta prueba. En el caso de la deteccin y el rechazo de un dato
sospechoso, Q-test no puede volver a aplicarse en el conjunto de las observaciones restantes.

Cmo se aplica el Q-test

En ocasiones, un dato no es coherente con los resultados. Se puede usar el test Q como ayuda
para decidir si se retiene o descarta un dato sospechoso. Dicho test se lleva a cabo de la
siguiente manera:

1) se ordenan los datos en orden creciente para seleccionar el valor discordante, x 1, x2,x3,
, xN (supuesto discordante).
2) Se calcula la divergencia = xN XN-1 y el recorrido de la serie = xN x1
3) El valor de la divergencia se divide entre el recorrido de la serie para obtener el
Qcalculada

el criterio para rechazar el dato es Qcalculada > Qtabulada

Consideramos los siguientes 5 resultados 12.53, 12.56, 12.47, 12.67 y 12.48. es el 12.67 un
punto rechazable?. Para aplicar el test Q.
El recorrido es la dispersion total de los datos. La divergencia es la diferencia entre el valor
sospechoso y el valor mas proximo.

Si Qcalculada > Qtabulada, el punto sospechoso se descarta. Para los numeros del ejemplo anterior,
Qcalculada = 0.11/0.20 = 0.55. en la tabla se ve que Qttabulada = 0.64. puesto que Q calculada <
Qtabulada, el punto sospechoso se debe retener. Existe una probabilidad mayor que el 10% de
que el 12.67 sea un miembro de la misma poblacion que los otros 4 numeros . (la tabla se basa
en un nivel de confianza de 90%. Si Qcalculada > Qtabulada hay que descartar el punto sospechoso).

Algunos sostienen que no se debe descartar nunca un dato a menos que se sepa que existe un
error en el procedimiento que condujo a esa medida particular. Otros repetiran la medida
sospechosa varias veces mas, para tener mayor confianza de si la medida realmente esta o no
fuera de lo esperable. La decision depende de uno, y es por tanto una cuestion personal.
TESTS DE FISHER Y DE STUDENT

Los tests de Fisher y de Student sirven para comparar las medias y las varianzas de dos
muestras gaussianas. Retomemos el ejemplo del tratamiento destinado a disminuir los niveles
de colesterol en sangre. Se miden los niveles de colesterol en una poblacin de control sin
tratamiento, se hace lo mismo en un grupo de individuos despus del tratamiento. El nivel
promedio de colesterol despus del tratamiento es inferior (eso es lo que se espera) al nivel
promedio del grupo de control. El problema es saber si la diferencia observada basta para

rechazar la hiptesis , es decir que el tratamiento no tiene ningn efecto sobre el nivel de
colesterol.

Para el modelo probabilista se consideran dos muestras independientes:

es una muestra de la ley ,

es una muestra de la ley .

Denotamos por:

y las medias empricas,

y las varianzas
empricas.
El resultado terico que permite comparar las medias empricas, presupone el hacer la

hiptesis que las varianzas tericas y son iguales. El objetivo del test de Fisher es
comprobar esta hiptesis:

Segn el teorema 3.1, los cocientes de las varianzas empricas por las varianzas exactas siguen
leyes de chi-cuadrado. El cociente ponderado de dos variables aleatorias independientes que
siguen leyes de chi-cuadrado sigue una ley de Fisher.

Teorema 3.3 El cociente:

sigue la ley de Fisher .

El estadgrafo del test de Fisher es:

Si es verdad, sigue la ley . Se rechazar si el valor

observado para es muy grande o muy pequeo. Es, por tanto, untest bilateral cuya regla de

rechazo al umbral es:

Rechazo

de
Bajo la hiptesis de la igualdad de las varianzas, el teorema que presentamos a continuacin,
permite evaluar las diferencias entre medias empricas.

Teorema 3.4 Si , la variable aleatoria:

sigue la ley de Student .

Este resultado permite hacer un test de la hiptesis:

comparando el valor que toma el estadgrafo:

con los cuantiles de la ley de Student . Este procedimiento lleva el

nombre de test de Student. Supongamos que entre los pacientes del grupo de control se

observ un nivel promedio de colesterol de mg/dl con una desviacin estndar de

mg/dl. En los pacientes con tratamiento se observ un promedio de mg/dl con una

desviacin estndar de mg/dl. El estadgrafo del test de Fisher toma el valor , que
corresponde a un p-valor (para el test bilateral) de:

En consecuencia se aceptar la hiptesis de la igualdad de las varianzas. El estadgrafo del test


de Student toma el valor , con un p-valor de:
Se rechaza al umbral , la disminucin de la tasa de colesterol es considerada
como significativa.

La hiptesis de normalidad, bajo la cual se emplean los tests de Fisher y Student, no siempre es
vlida. Para muestras de gran tamao, el Teorema del Lmite Central asegura la normalidad
asinttica de las medias empricas. El siguiente resultado no supone ni que las muestras son
gaussianas ni que sus varianzas son iguales.

Teorema 3.5 Cuando y tienden a infinito, la ley de la variable aleatoria:

converge a la ley normal .

Retomemos los datos del ejemplo anterior. El estadgrafo:

toma el valor , cuyo p-valor con respecto a la ley es:


REGLA DE 4D

Concepto

Regla 4d es un mtodo para rechazar un valor dudoso, exige disponer de un grupo de cuatro
ms de 4 valores.

Cmo se hace?

PASO 1
Escogemos el nmero que creemos se podr rechazar de la secuencia de valores.
Ejemplo:
1-2-3-4-7
Rechazamos el nmero 7 por estar ms alejado de los dems
PASO 2
Hacemos la media con los valores nuevos.
xi/n
Ejemplo:
1-2-3-4
(1+2+3+4)/4= 2.5
PASO 3
Hacemos la desviacin media de los valores.
/Xi-xmed/ : n
(Siempre en valor absoluto)
Ejemplo:
1-2-3-4

1-2.5=1.5
2-2.5=0.5
3-2.5=0.5
4-2.5=1.5
(1.5+0.5+0.5+1.5)/4= 1
PASO 4
1) Multiplicamos por cuatro la desviacin media.
dm= 1
1x4=4
2) Le restamos al valor rechazado de la serie, la media de los valores.
Valor rechazado= 7
Media= 2.5
7-2.5= 4.5
PASO 5
Comparamos la desviacin media multiplicada por cuatro y la diferencia entre valor
rechazado y media de valores.
dm x4= 4
valor rech.- xmed= 4.5

4.5>4

RESULTADO
Si
valor rech. - xmed > dm x4
podremos rechazar el valor pensado inicialmente.

En nuestro caso:
v. rech. - xmed = 4.5
dm x4= 4

Como 4.5 es ms grande que 4, podremos rechazar el valor 7 de la secuencia inicial.

Das könnte Ihnen auch gefallen