Sie sind auf Seite 1von 7

11.

FUNCIONES DE DISTRIBUCIÓN ESPECIALES

DISTRIBUCIÓN CHI2 CUADRADO DE PEARSON

Si (X1,X2,...,Xn) son n variables aleatorias normales independientes de media 0 y


varianza 1, la variable definida como
Yn = X12 +  + X n2 = ∑i=1 X i2
n

se dice que tiene una distribución CHI con n grados de libertad. Su función de
densidad es
1
f (x) = x ( n −2 ) / 2 e −x / 2 x >0
n
Γ  2 n
2


siendo Γ( P) = ∫0 X P −1e −x dx la función gamma de Euler, con P>0. La función de
distribución viene dada por
x
F( x ) = P( X ≤ x ) = ∫ f ( x )dx
0

La media de esta distribución es E(X)=n y su varianza V(X)=2n. Esta distribución es


básica en un determinado número de pruebas no paramétricas.

Si consideramos una variable aleatoria Z~N(0,1), la variable aleatoria X=Z2 se


distribuye según una ley de probabilidad distribución CHI con un grado de libertad

Si tenemos n variable aleatoria independientes Zi~N(0,1), la suma de sus cuadrados


respectivos es una distribución CHI con n grados de libertad,
n
Z i ≈ N (0,1) → ∑ Z i2 ≈ χ 2n
i =1

La media y varianza de esta variable son respectivamente, E(X)=n y V(X)=2n

Ejemplo, El espesor de un semiconductor se controla mediante la variación estándar


no mayor a σ =0.60 mm. Para mantener controlado el proceso se toman muestras
aleatoriamente de tamaño de 20 unidades, y se considera que el sistema está fuera de
control cuando la probabilidad de que σ 2 tome valor mayor o igual al valor de la
muestra observado es que es 0.01. Que se puede concluir si s=0.84mm?

1
Solución. Existe fuera de control si ( n −1)s 2 / σ2 con n=20 y σ =0.60, excede
χ02.01 ,19 = 36 .191
(n − 1)s 2 19 * 0.84 2
Entonces, = = 37.24
σ2 0.60 2
Por tanto, el sistema está fuera de control

La función de distribución CHI tienen importantes variaciones de acuerdo con los


grados de libertad y del tamaño muestral (menor tamaño muestral y mayor tamaño
muestral respectivamente),

En consecuencia, si tenemos X1,..,Xn, variable aleatoria independientes, donde cada


X i ≈ N (µi , σi ) , se tiene
2
n
 Xi − µi 
∑ 
i =1  σi
 ≈ χ 2n

La distribución Chi muestra su importancia cuando queremos determinar la


variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor central
siguiendo un mecanismo normal.

Teorema (Cochran). Sean X1,…,Xn con distribución N(µ ,σ ), la variable aleatoria


independiente, entonces
n

∑X i
 σ  n
X −X
2

X= i =1
≈ N  µ,  y ∑  i  ≈ χ 2n −1
n  n i =1  σ 

2
La función Chi-cuadrado es igual a la función normal elevada al cuadrado. Esto es, el
producto de dos distribuciones de Gauss es una distribución de Chi-cuadrado. Si de
una población normal, o aproximadamente normal, se extraen muestras aleatorias e
independientes, y se le calcula el estadígrafo χ2 usando el valor muestral de la
varianza y el poblacional con:
( n − 1)s 2
χ2 =
σ2

Esta función matemática está caracterizada por el valor del número de grados de
libertad υ=n-1 (donde n es el tamaño muestral). Al igual que la t-Student, el valor
total del área bajo la curva es igual a la unidad, pero la diferencia principal es que esta
no es simétrica respecto al origen, sino que se extiende desde 0 hasta + ∞ porque no
puede ser negativa.

A medida que los grados de libertad aumentan, la curva cambia de forma y sus
valores se han tabulado en el anexo de tablas estadísticas, donde se muestran los
valores del área bajo la curva, para los principales valores de χ2, a la derecha de éste.
O sea, se muestra la zona de rechazo para diferentes niveles de significación y de
grados de libertad, lo cuales varían entre 1 y 100. Más allá, conviene usar
directamente la función de Gauss.

Para cada grado de libertad hay una tabla de valores que pueden obtenerse variando el
nivel de significación, parecida a la de Gauss. El problema de calcular los valores
críticos, para un nivel de confianza dado, se resuelve de dos maneras: usando
computadoras para resolver los cálculos, y la otra más común, usando tablas
resumidas, en forma análoga a la vista para el modelo de t-Student. La distribución de
χ2 se usa principalmente para analizar dispersiones. Se compara la dispersión muestral

3
expresada a través de sus cuadrados medios contra la dispersión poblacional
cuantificada a través de la varianza (σ2).

Existen otros criterios, como el de Thonks, que usa un error relativo admisible
máximo, y se calcula como un cuarto del rango de los valores normales de referencia,
dividido por el valor medio de dicho intervalo (referido a la magnitud clínica en
cuestión y expresado en porcentajes). También se emplea a este modelo para realizar
la llamada prueba de chi-cuadrado en las comparaciones de frecuencias observadas
contra las frecuencias esperadas, con datos de recuento. Más adelante se desarrolla
mejor este tema, lo mismo que su so para testear la independencia de dos o más
factores en una Tabla de Contingencia.

En la industria farmacéutica se la usa para analizar la dispersión de los componentes


de los productos terminados. Todo remedio fabricado debe cumplir estrictas normas
de calidad, generalmente referidas al contenido en peso de sus principales
componentes. Se usan dos límites: el superior e inferior, dentro de los cuales se los
debe mantener controlados. Este rango de valores define la dispersión máxima
admisible y lo ideal es que la dispersión de los productos terminados sea bastante
inferior a dicho rango. Ese control de la dispersión es muy similar al explicado más
arriba, para los bioquímicos.

Ejemplo. Un bioquímico sospecha que su micro-centrífuga no mantiene constante su


velocidad mientras trabaja, lo cual le da una variabilidad indeseada en sus
determinaciones. Para controlarla, consigue un tacómetro regulado y mide cada
minuto la velocidad durante 10 minutos. Los resultados fueron: una velocidad
promedio en las 10 mediciones de 3098 rpm con una desviación de 100,4 rpm.
Testear para un error relativo máximo del 2% o menos, si la centrífuga es estable.

La desviación estándar es σ =2%*3098=62 rpm, luego,


max
H0: σ max≤62 rpm
H1: σ max≥62 rpm

4
( n − 1)s 2 (10 − 1) * 100 .4 2
χ2 = = = 23.6
σ2 62 2

De la Tabla de valores críticos surge: χ20,99;9=21,666 y χ20,991;9=27,877. Por lo tanto, el


bioquímico ha encontrado una muy fuerte evidencia que la velocidad del equipo
oscila en forma indeseada, tal como sospechaba. Y deberá ajustarlo si desea disminuir
la variabilidad de sus mediciones. Los resultados fueron muy significativos χ2 = 23,6

Ejemplo. Un farmacéutico Jefe del Dpto. Control de Calidad en una industria


alimenticia, descubre que en su proceso de producción el contenido de ciclamato en
su línea de mermeladas dietéticas varía en forma indeseada. Sospechando que se trata
de una falla en el dosificador, decide tomar 10 muestras seguidas del mismo.
Encuentra un promedio de 20 gramos con una desviación de 8 gramos. Si en su
protocolo de fabricación la variación máxima permitida es del 3%, determinar si el
dosificador debe ser corregido.
El desviación estándar aceptable es: σ máx = 3% de 20 g = 6 g. Luego:
H0:σ máx ≤6 g.: el dosificador funciona correctamente
H1:σ máx > 6 g.: el dosificador debe ser cambiado

( n − 1)s 2 (10 − 1) * 8 2
χ =
2
= = 16
σ2 62

De la Tabla de valores críticos surge: χ 20,95;9=16,9. Por lo tanto, el farmacéutico no


ha encontrado evidencia que respalde sus sospechas. Sin embargo, el valor hallado es
muy cercano al crítico, por lo que le convendría hacer más pruebas.

En estadística, la distribución Chi-cuadrado, también denominada Chi-cuadrado de


Pearson, es una distribución de probabilidad continua con un parámetro k que
representa los grados de libertad de la variable aleatoria:
X = Z12 + Z 22 +  + Z 2k

donde Zi son variables de distribución normal, N(0,1) o de media cero y varianza uno.

Se suele usar la denominada prueba Chi-cuadrado como test de independencia y


como test de bondad de ajuste. La función de densidad Chi-cuadrado es
(1 / 2) k / 2 k / 2 −1 −x / 2
f k (x) = x e x ≥0
Γ(k / 2)

Γ es la función gamma. La función de distribución es


γ(k / 2, x / 2)
Fk ( x ) =
Γ(k / 2)

5
donde γ(k,z) es la función gamma incompleta.

El valor esperado y la varianza de una variable aleatoria X con distribución Chi-


cuadrada son
E[X] = k V[X] = 2k

La distribución Chi-cuadrado tiene muchas aplicaciones en inferencia estadística, por


ejemplo en el test Chi-cuadrado y en la estimación de varianzas. También está
involucrada en el problema de estimar la media de una población normalmente
distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, a
través de su papel en la distribución t-Student, y participa en todos los problemas de
análisis de varianza, por su papel en la distribución F-Snedecor, que es la distribución
del cociente de dos variables aleatorias de distribución Chi-cuadrado e
independientes.

Relación con otras distribuciones. La Chi cuadrado es una distribución binomial


inversa cuyo coeficiente de variabilidad es 10.1, esta tiene un intervalo de
confianza de 2.3 grados en la escala de desviaciones estándar. Posee una
distribución de Poisson elevada la cual asciende a 56.5 m Eq en los tres
primeros cuartiles de la recta. Para k=2 la distribución es una distribución
exponencial.

La prueba de Chi-cuadrado es una prueba no paramétrica que mide la discrepancia


entre una distribución observada y otra teórica (bondad de ajuste), indicando en qué
medida las diferencias existentes entre ambas, de haberlas, se deben al azar. También
se utiliza para probar la independencia de dos muestras entre sí, mediante la
presentación de los datos en tablas de contingencia. La fórmula que da el estadístico
es la siguiente:

χ =∑
2 (V Oa l bo − Vsr e Ta r lve) o aò r dr io c o
2

V Ta l e o ó r r i c o
Los grados de libertad nos vienen dados por: gl= (r-1)(k-1). Donde r es el número de
filas y k el de columnas.

6
Criterio de decisión: Se acepta H0 cuando χ < χα,n −1 . En caso contrario se rechaza.
2 2

Donde α representa el valor proporcionado por las tablas, según el nivel de


significación elegido. Cuanto más se aproxima a cero el valor de Chi-cuadrado, más
ajustadas están ambas distribuciones.

CORRECCIÓN DE YATES

La corrección de Yates se aplica a la prueba Chi-cuadrado cuando la frecuencia de las

( V Oa l b−oV s r Tea r le− 0vo.5)ò ar r di co o


observaciones en alguna de las celdas es menor de 10. La Chi-cuadrado corregida:

χ =∑
2

V T a le o ó r r i c o
En general, se aplica la corrección de Yates o también corrección por continuidad
cuando aproximamos una variable discreta a una distribución continua. La corrección
consiste en añadir y substraer 0,5 a la variable en cuestión. Por ejemplo, obtener 3
caras al lanzar una moneda es una medida discreta (nominal) que se ajusta a la
distribución binomial. Mientras que si la aproximáramos a la distribución normal, su
valor oscilará entre 2,5 y 3,5.

Das könnte Ihnen auch gefallen