Beruflich Dokumente
Kultur Dokumente
ESTADISTICA INDIFERENCIAL I
UNIDAD III Y IV
GRADO Y GRUPO: 4º FS
En este caso es necesario hacer una estimación puntual que es un valor que se usa para estimar
un valor poblacional. Pero una estimación puntual es un solo valor y se requiere un intervalo
de valor esa esto se denomina intervalo de confianza y se espera que dentro de este intervalo
se encuentre el parámetro poblacional buscado. También se utiliza una estimación mediante
un intervalo, el cual es un rango de valores en el que se espera se encuentre el parámetro
poblacional.
En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después
se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.
paso 2
paso 3
paso 4
paso 5
la hipotesis selecciona el el la regla de muestra y se
nula y nivel de estadistico decision decide
alternativa significancia de prueba
La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población,
no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay
diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio"
Podemos rechazar o aceptar Ho.
La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula
siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.
La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una
afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la
hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El
planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto
al valor especificado del parámetro.
Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más
poblaciones.
H0 : 50 cm/s
H1; ≠ 50 cm/s
La proposición Ho; = 50 cm/s, se conoce como hipótesis nula, mientras que la proposición
H1; ≠ 50 cm/s, recibe el nombre de hipótesis alternativa. Puesto que la hipótesis alternativa
especifica valores de que pueden ser mayores o menores que 50 cm/s, también se conoce
como hipótesis alternativa bilateral. En algunas situaciones, lo que se desea es formular una
hipótesis alternativa unilateral, como en
Ho; = 50 cm/s H0; = 50 cm/s
Es importante recordar que las hipótesis siempre son proposiciones sobre la población o
distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del
parámetro de la población especificado en la hipótesis nula se determina en una de tres
maneras diferentes:
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso
bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo.
Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el
nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del
empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta
información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo
si esta información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe
hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede
conocerse con certidumbre, a menos que pueda examinarse a toda la población. Usualmente
esto es imposible en muchas situaciones prácticas. Por tanto, es necesario desarrollar un
procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de llegar a una
conclusión equivocada.
La hipótesis nula, representada por Ho, es la afirmación sobre una o más características de
poblaciones que al inicio se supone cierta (es decir, la "creencia a priori").La hipótesis
alternativa, representada por H1, es la afirmación contradictoria a Ho, y ésta es la hipótesis
del investigador.
Para ilustrar los conceptos generales, considere el problema de la rapidez de combustión del
agente propulsor presentado con anterioridad. La hipótesis nula es que la rapidez promedio
de combustión es 50 cm/s, mientras que la hipótesis alternativa es que ésta no es igual a 50
cm/s. Esto es, se desea probar:
Ho; = 50 cm/s
H1; ≠ 50 cm/s
Supóngase que se realiza una prueba sobre una muestra de 10 especímenes, y que se observa
cual es la rapidez de combustión promedio muestral. La media muestral es un estimador de
la media verdadera de la población. Un valor de la media muestral ᵡ que este próximo al valor
hipotético = 50 cm/s es una evidencia de que el verdadero valor de la media es realmente 50
cm/s; esto es, tal evidencia apoya la hipótesis nula Ho. Por otra parte, una media muestral
muy diferente de 50 cm/s constituye una evidencia que apoya la hipótesis alternativa H1. Por
tanto, en este caso, la media muestral es el estadístico de prueba.
La media muestral puede tomar muchos valores diferentes. Supóngase que si 48.551.5 ≤ ᵡ ≤
51.1, entonces no se rechaza la hipótesis nula Ho; = 50 cm/s, y que si x <48.5 o >51.5,
entonces se acepta la hipótesis alternativa H1; ≠ 50 cm/s.
Los valores de x que son menores que 48.5 o mayores que 51.5 constituyen la región crítica
de la prueba, mientras que todos los valores que están en el intervalo 48.5≤x≤51.5 forman la
región de aceptación. Las fronteras entre las regiones críticas y de aceptación reciben el
nombre de valores críticos. La costumbre es establece conclusiones con respecto a la hipótesis
nula Ho. Por tanto, se rechaza Ho en favor de H1 si el estadístico de prueba cae en la región
crítica, de lo contrario, no se rechaza Ho.
Este procedimiento de decisión puede conducir a una de dos conclusiones erróneas. Por
ejemplo, es posible que el valor verdadero de la rapidez promedio de combustión del agente
propulsor sea igual a 50 cm/s. Sin embargo, para todos los especímenes bajo prueba, bien
puede observarse un valor del estadístico de prueba que cae en la región crítica. En este caso,
la hipótesis nula Ho será rechazada en favor de la alternativa H1 cuando, de hecho, Ho en
realidad es verdadera. Este tipo de conclusión equivocada se conoce como error tipo I.
El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es verdadera.
También es conocido como α o nivel de significancia.
Si tuviéramos un nivel de confianza del 95% entonces el nivel de significancia sería del5%.
Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de significancia
sería del 10%.
El error tipo II se define como la aceptación de la hipótesis nula cuando ésta es falsa.
Por tanto, al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes que
determinan si la decisión final es correcta o errónea.
3) Ho: m = m0 H1: m ¹ m0
Las pruebas de hipótesis para la media se basan en el estadístico dado por la media muestral
cuya distribución tiende a la distribución normal (m, s /n) para muestras grandes.
Para el caso de las hipótesis Ho: m = m0 contra H1: m > m0 vimos, al analizar las mejores
pruebas, que la mejor región crítica de tamaño a consistía en rechazar H0 si la media muestral
era mayor o igual que una constante c dada por. Por lo tanto, una vez tomada la muestra y
obtenidos los valores x1, x2,…, xn, se calcula la media muestral dada por:
Para el caso de las hipótesis Ho: m = m0 contra H1: m < m0 la mejor región crítica de tamaño
a consiste en rechazar H0 si la media muestral es menor o igual que una constante c dada por.
Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,…, xn, se calcula la
media muestral, y los criterios de decisión sería los siguientes:
ê³ Z a.
Por último, si las hipótesis fueran Ho: m = m0 contra H1: m ¹ m0 la mejor región crítica de
tamaño a (aunque no es uniformemente más potente como en el caso de las dos anteriores)
consiste en rechazar H0 si la media muestral es menor o igual que una constante c1 o mayor
igual que otra constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los valores
x1, x2,…, xn, se calcula la media muestral, y los criterios de decisión serían los siguientes:
Solución. Este problema lo podemos plantear como una prueba de hipótesis del siguiente
tipo:
Con n = 100, a = 0.05, s = 5 gramos. Se tiene que Z0.05 = 1.645. Por lo tanto, la región crítica
está dada por = 750 - 1.645 x 5/10 =749.18. Por lo tanto como la media muestral es748
gramos, se rechaza la hipótesis de que el promedio de cada caja sea 750 gramos. Por lo tanto,
deben tomarse las medias necesarias para corregir esta situación, que va encontrar de los
intereses del consumidor. Usando los otros criterios de aceptación tenemos que Z = - 4.0 y
el valor P es aproximadamente cero (P = 0.0).
Concepto de proporción.
n = tamaño de la muestra
Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma utilizada
cuando nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada
caso. Pueden utilizarse pruebas unilaterales o bilateral es dependiendo de la situación
particular.
Ho: p = p0
H1: p ¹ p0
La situación más frecuente es suponer que existen diferencias entre las proporciones dedos
poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las medias:
Ho: p1 = p2 Þ p1 - p2 = 0
H1: p1 ¹ p2
Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las muestras 1
y 2 respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula
una p conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas
proporciones y así se obtiene la varianza conjunta. Recuerda que q = 1-p.
Está de más que te diga que este estadígrafo se distribuye normal estándar.
H1: p1 ¹ p2
Observaciones:
Antes de realizar una prueba de hipótesis, debes revisar cuidadosamente las características
de los datos (naturaleza de las variables), la forma de selección de la muestra y su tamaño,
en fin, valorar el cumplimiento de los supuestos necesarios para aplicar la prueba adecuada
a cada caso. Fijando el nivel de significación antes de realizarla prueba y no después de
obtener el resultado, al igual que debes valorar seriamente si debes enunciar el problema de
forma bilateral o unilateral antes de realizar la prueba. Violar el cumplimiento de los
supuestos implica que la prueba pierda potencia, pudiendo no encontrarse diferencias cuando
realmente las hay o lo contrario.
A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta
varios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la
varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos
sencillos de cálculo del tamaño muestral delimitemos estos factores.
Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una
estimación de los parámetros.
Cualquier información que queremos recoger está distribuida según una ley de probabilidad
(Gauss o Student), así llamamos nivel de confianza a la probabilidad de que el intervalo
construido en torno a un estadístico capte el verdadero valor del parámetro.
2
𝑧𝑎𝑟2 𝛼2
𝑛=
ҽ2
Dónde:
N>n͚ (n͚-1)
Si esta condición se cumple el proceso termina aquí, y ese es el tamaño adecuado que
debemos muestrear.
𝑛∞
𝑛= 𝑛
1 + 𝑁∞
Ejemplo:
Buscamos en las tablas de la curva normal el valor de que corresponde con el nivel de
confianza elegido: = ±1.96 y seguimos los pasos propuestos arriba.
1.
1.962 ∗9.648
𝑛= = 3706
0.12
2.- Comprobamos que no se cumple, N> nα (nα -1), pues en este caso10000 < 3706 (3706 -
1); 10000 < 13730730
3.-
3706
𝑛= = 2704
3706
1 + 10000
La precisión con que se desea estimar el parámetro (2*d es la amplitud del intervalo de
confianza).
𝑧∝2 ∗ 𝑠 2
𝑛=
𝑑2
e: error máximo
N: tamaño de la población
Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar
la proporción de mujeres que trabajan diariamente 10 horas o más. De un estudio piloto se
dedujo que P=0.30, fijamos el nivel de confianza en 0.95 y el error máximo 0.02.
Ejemplo:
Dónde: Za2= 1.962 (ya que la seguridad es del 95%) p = proporción esperada (en este caso
5% = 0.05) q = 1–p (en este caso 1–0.05 = 0.95) d = precisión (en este caso deseamos un 3%)
Si la población es finita, es decir conocemos el total de la población y deseásemos saber
cuántos del total tendremos que estudiar la respuesta seria:
Dónde:
¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes para conocer
la prevalencia de diabetes? Seguridad = 95%; Precisión = 3%; proporción esperada =
asumamos que puede ser próxima al 5%; si no tuviese ninguna idea de dicha proporción
utilizaríamos el valor p =0.5 (50%) que maximiza el tamaño muestral. Según diferentes
seguridades el coeficiente de Za varía, así:
UNIDAD IV
Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste
involucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no
una hipótesis en favor de la otra. Una hipótesis estadística se denota por “H” y son dos: - Ho:
hipótesis nula - H1: hipótesis alternativa Partes de una hipótesis 1-La hipótesis nula “Ho” 2-
La hipótesis alternativa “H1” 3-El estadístico de prueba 4-Errores tipo I y II 5-La región de
rechazo (crítica) 6-La toma de decisión 1. Concepto: Una prueba de hipótesis estadística es
una conjetura de una o más poblaciones. Nunca se sabe con absoluta certeza la verdad o
falsedad de una hipótesis estadística, a no ser que se examine la población entera. Esto por
su puesto sería impráctico en la mayoría de las situaciones. En su lugar, se toma una muestra
aleatoria de la población de interés y se utilizan los datos que contiene tal muestra para
proporcionar evidencia que confirme o no la hipótesis. La evidencia de la muestra que es un
constante con la hipótesis planteada conduce a un rechazo de la misma mientras que la
evidencia que apoya la hipótesis conduce a su aceptación.
Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada. Esta
prueba estadística mide el acercamiento del calor de la muestra (como un promedio) a la
hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida
(normal, etc.) o se puede desarrollar una distribución para la prueba estadística particular.
Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la
distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se
puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de
la región de rechazo.
La distribución normal también es importante por su relación con la estimación por mínimos
cuadrados, uno de los métodos de estimación más simples y antiguos.
La distribución normal también aparece en muchas áreas de la propia estadística. Por
ejemplo, la distribución muestral de las medias muéstrales es aproximadamente normal,
cuando la distribución de la población de la cual se extrae la muestra no es normal. [1]
Además, la distribución normal maximiza la entropía entre todas las distribuciones con media
y varianza conocidas, lo cual la convierte en la elección natural de la distribución subyacente
a una lista de datos resumidos en términos de media muestral y varianza. La distribución
normal es la más extendida en estadística y muchos test estadísticos están basados en una
supuesta "normalidad".
√𝑉⁄𝑣
Donde
•Z y V son independientes
𝑧+𝜇
√𝑉⁄𝑣
Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la distribución t
de Student no central con parámetro de no-centralidad μ.
4.3 PRUEBAS DE SIGNIFICANCIA
Las pruebas de significancia estadística son un procedimiento que brinda un criterio objetivo
para calificar las diferencias que se presentan al comparar los resultados de dos muestras, con
el objetivo de explicar si dichas diferencias se mantienen dentro de los límites previstos por
el diseño estadístico (un error y una confianza esperados) o si, por el contrario, la diferencia
entre ellas resulta lo suficientemente grande como para inferir que ha ocurrido un cambio
real en el indicador
Analizar
Comparar
Medias
Prueba T para
muestras
independientes
Contrastar variables: donde se han de introducir las variables que se van a analizar, es decir,
aquellas variables sobre las que se va a contrastar si hay o no, diferencias de grupos.
Variable de agrupación: aquí se debe introducir la variable que se utiliza para definir los
grupos de sujetos sobre los que se estudian las diferencias. Entonces el sistema activa el botón
definir grupos y al presionarlo aparece una ventana donde se introducen los valores de la
variable que definen los dos grupos de sujetos a comparar, o el valor de la variable que hará
de corte para definir dichos grupos. Si el valor de la variable para un individuo es menor o
igual que el valor especificado, el individuo pertenecerá al primer grupo, y en caso contrario,
al segundo.
Opciones: presionando este botón se obtiene una ventana donde se especifica igual que en la
sección anterior el nivel de confianza para el intervalo y la forma de tratar los valores missing.
Ejemplo:
El resultado que muestra la Tabla contiene dos tablas. La primera recoge para ambos grupos,
profesores asociados y titulares de universidad, el número de casos en cada muestra, los
tiempos medios dedicados a la docencia, las desviaciones típicas y los errores típicos de la
media. La segunda tabla muestra el valor del estadístico para la prueba de Levene sobre la
igualdad de varianzas, junto con su p-valor. Este se distribuye como una F de Snedecor y
vale 0.808, mientras que su p-valor 0.373, lo que nos conduce a aceptar que las varianzas
sean iguales, ya que el p-valor es mayor que 0.05. También aparece en la tabla el valor del
estadístico para resolver el contraste de igualdad demedias, supuesto varianzas iguales y
distintas, (en ambos casos se distribuye como una t de Student), junto con los
correspondientes grados de libertad y sus p-valores. Puesto que hemos concluido que las
varianzas coinciden, fijémonos en el que se han asumido varianzas iguales, el cual vale 8.661,
y cuyo p-valor es 0, luego se rechaza que las medias coincidan. Razonamiento que también
se puede deducir del intervalo de confianza, que no contiene el cero.
Tabla: Contraste sobre las Medias de dos Poblaciones Independientes
Prueba de
Levene para
la igualdad Prueba T para la
igualdad de medias
De varianzas
F Sig. t gl Sig. Diferenci Error Interval
bilater as de típico o de
al medias de la confian
diferenc za para
ia la
diferenc
ia
inferior Superio
r
Tiem Asumien 0.80 0.37 8.66 50 0.000 64,2759 7,4209 49,3704
po do 8 3 1
Diario Varianza
iguales
Para No 8.92 49,96 0.000 64,2759 7,1983 49,8173
asumien 9 1
do
1,2, 3 de los mismos (aplicación del logaritmo, raíz cuadrada, etc.) o, en todo caso, se debería
recurrir a la utilización de procedimientos no paramétricos.
Normalmente en este tipo de análisis podremos establecer una hipótesis de partida (hipótesis
nula), que generalmente asume que el efecto de interés es nulo, por ejemplo que la tensión
arterial es la misma en hombres y mujeres o que dos tratamientos para la hipercolesterolemia
son igualmente efectivos. Posteriormente se puede evaluar la probabilidad de haber obtenido
los datos observados si esa hipótesis es correcta. El valor de esta probabilidad coincide con
el valor-p que nos proporciona cada test estadístico, de modo que cuanto menor sea éste más
improbable resulta que la hipótesis inicial se verifique.
En un primer apartado, se presentará el test t de Student para dos muestras independientes,
introduciendo las modificaciones necesarias en el caso de que la variabilidad de ambos
grupos sea distinta. A continuación se introducirá el test t de Student para el caso de dos
muestras dependientes.t de Student para dos muestras independientes
Bajo las hipótesis de normalidad e igual varianza la comparación de ambos grupos puede
realizarse en términos de un único parámetro como el valor medio (Figura 1a), de modo que
en el ejemplo planteado la hipótesis de partida será, por lo tanto:
Se denotará por {X1, X2,..., Xn} e {Y1, Y2,..., Ym} al peso observado en cada uno de los
sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no se exigirá que
coincida el número de observaciones en cada uno de los grupos que se comparan, de modo
que en el ejemplo n=40 y m=35.
(1)
Donde e denotan el peso medio en cada uno de los grupos:
Con lo cual, en este caso particular, el valor utilizado para el contraste será:
Si la hipótesis de partida es cierta el estadístico (1) seguirá una distribución t de Student con
n+m-2 grados de libertad. De ser así, el valor obtenido debería estar dentro del rango de
mayor probabilidad según esta distribución. Usualmente se toma como referencia el rango
de datos en el que se concentra el 95% de la probabilidad. El valor-p que usualmente reportan
la mayoría de paquetes estadísticos no es más que la probabilidad de obtener, según esa
distribución, un dato más extremo que el que proporciona el test.
Como ya se dijo, refleja también la probabilidad de obtener los datos observados si fuese
cierta la hipótesis inicial. Si el valor-p es muy pequeño (usualmente se considera p<0.05) es
poco probable que se cumpla la hipótesis de partida y se debería de rechazar. La región de
aceptación corresponde por lo tanto a los valores centrales de la distribución para los que
p>0.05. En el ejemplo planteado el valor-p correspondiente es de 0.425, de modo que no
existe evidencia estadística de que el peso medio en ambos grupos sea diferente. En la Tabla
2, se determina los grados de libertad (en la primera columna) y el valor de α (en la primera
fila). El número que determina su intersección es el valor crítico correspondiente. De este
modo, si el estadístico que se obtiene toma un valor mayor se dirá que la diferencia es
significativa. Otro modo de obtener esta misma información es mediante el cálculo de
intervalos de confianza para la diferencia de la respuesta media en ambos grupos. A mayores,
el intervalo de confianza constituye una medida de la incertidumbre con la que se estima esa
diferencia a partir de la muestra, permitiendo valorar tanto la significación estadística como
la magnitud clínica de esa diferencia
Donde denota el valor que según la distribución t de Student con n+m-2 grados de libertad
deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza con una
seguridad del 95% para la diferencia de peso viene dado por: Que expresa en definitiva un
rango de valores entre los que se puede encontrar el valor real de la diferencia entre los pesos
de ambos grupos. Proporciona además la misma información que obteníamos del contraste
estadístico. El hecho de que el valor cero pertenezca al intervalo indica que no se dispone de
evidencia para concluir que el peso sea distinto en ambos grupos. A medida que el tamaño
muestral aumenta, la distribución del estadístico (1) se hace más próxima a la de una variable
Normal estándar. De este modo, en algunos textos se opta por utilizar esta distribución para
realizar la comparación de medias. Aunque esta aproximación es correcta para muestras
suficientemente grandes, ambos métodos proporcionan en este caso resultados prácticamente
idénticos, por lo que resulta más simple utilizar, independientemente del tamaño de la
muestra, la misma metodología a partir de la distribución t. El mismo planteamiento podría
utilizarse en el caso de varianzas distintas o de muestras apareadas.
Supongamos que queremos comprobar, en los datos de la Tabla 1si realmente se produce una
pérdida de peso significativa en esos individuos, para lo que se recoge en cada sujeto su peso
antes y después de someterse a la dieta. En este tipo de análisis el interés no se centra en la
variabilidad que puede haber entre los individuos, sino en las diferencias que se observan en
un mismo sujeto entre un momento y otro. Por este motivo, resulta intuitivo trabajar con la
diferencia de ambas observaciones (en el ejemplo será la pérdida de peso), de modo que se
quiere contrastar la hipótesis: H0: La pérdida de peso es nula frente a la alternativa de que la
pérdida de peso sea importante (es decir, distinta de cero).La veracidad de dicha hipótesis
puede ser contrastada igualmente mediante el test t de Student. Como se ha dicho, este tipo
de métodos tienen como hipótesis fundamental la normalidad de los datos. En este caso, sin
embargo, no será necesario que las observaciones en ambos grupos provengan de poblaciones
normales, sino que únicamente se requiere verificar la normalidad de su diferencia.
Denotando por la pérdida media de peso la hipótesis de la que se parte es que: frente a la
alternativa A partir de las observaciones muéstrales {Y1, Y2,..., Yn} e {Y1, Y2,..., Yn} en
cada uno de los grupos se calcula la diferencia de peso para cada sujeto {d1, d2,..., dn} con
d j=X j-Y j j=1,2,..., n.
Nótese que en este caso un requisito fundamental es que se tenga un número igual de
observaciones en ambos grupos. A partir de estos datos, el contraste se basa en el estadístico:
o en el cálculo del 95% intervalo de confianza:
En nuestro ejemplo el valor del estadístico vendría dado por: a comparar del modo habitual
con la distribución t de Student con n-1=74 grados de libertad. El intervalo de confianza para
la pérdida media de peso correspondiente a unas seguridad del 95% es de (3.56; 4.41),
lo cual se traduce en una pérdida de pesosignificativamente distinta de cero, tal y como indi
ca el valor-p correspondiente dep<0.001.
Figura 1. Comparación de dos poblaciones normal esa) Poblaciones normales con igual
varianza y medias distintas) Poblaciones normales con igual y diferentes varianzas.
Tabla 1. Datos de 75 pacientes con sobrepeso sometidos a dos dietas alimenticias. Dieta
Peso inicial Peso final Dieta Peso inicial Peso final
Hσ= Desviación estándar de la población que, generalmente cuando no se tiene su valor,
suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles deconfianza.
Es un valor constante que, si no se tiene su valor, se lo toma en relación al95% de confianza
equivale a 1,96 (como más usual) o en relación al 99% de confianza equivale 2,58, valor que
queda a criterio del encuestador. e = Límite aceptable de error muestral que, generalmente
cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09),
valor que queda a criterio del encuestador.
Multiplicando fracciones:
Eliminando denominadores:
Eliminando paréntesis:
Transponiendo n a la izquierda:
Factor común de n
Ejemplo ilustrativo: Calcular el tamaño de la muestra de una población de 500 elementos con
un nivel de confianza del 99%Solución: Se tiene N=500, para el 99% de confianza Z = 2,58,
y como no se tiene los demás valores se tomará σ=0,5, y e = 0,05.
^2)=832,05/2,9116=285,77=286
Suponga que se tienen dos poblaciones distintas, la primera con media1 y desviación
estándar 1, y la segunda con media 2y desviación estándar 2.
Más aún, se elige una muestra aleatoria de tamaño n1de la primera población y una muestra
independiente aleatoria de tamaño n2de la segunda población; se calcula la media muestral
para cada muestra y la diferencia entre dichas medias. La colección de todas esas diferencias
se llama distribución muestral
Así mismo, este tipo de metodología exigirá que la varianza en ambos grupos de
observaciones sea la misma. En primer lugar se desarrollará el test t de Student para el caso
en el que se verifiquen ambas condiciones, discutiendo posteriormente el modo de abordar
formalmente el caso en el que las varianzas no sean similares.
(1)
A medida que el tamaño muestral aumenta, la distribución del estadístico (1) se hace
más próxima a la de una variable Normal estándar. De este modo, en algunos textos se opta
por utilizar esta distribución para realizar la comparación de medias. Aunque esta
aproximación es correcta para muestras suficientemente grandes, ambos métodos
proporcionan en este caso resultados prácticamente idénticos, por lo que resulta más simple
utilizar, independientemente del tamaño de la muestra, la misma metodología a partir de la
distribución t. El mismo planteamiento podría utilizarse en el caso de varianzas distintas o de
muestras apareadas.
Que, bajo la hipótesis nula seguirá una distribución t de Student con un número f de grados
de libertad que dependerá de las varianzas muéstrales según la expresión:
Al igual que en el caso anterior, podrá optarse por calcular el correspondiente 95%
intervalo de confianza para la diferencia de medias dado por:
En este tipo de análisis el interés no se centra en la variabilidad que puede haber entre
los individuos, sino en las diferencias que se observan en un mismo sujeto entre un momento
y otro. Por este motivo, resulta intuitivo trabajar con la diferencia de ambas observaciones.
poca evidencia para indicar que y no son iguales. Por otra parte, un valor muy
grande o muy pequeño para s21/s22, proporcionará evidencia de una diferencia en las
varianzas de las poblaciones.
y respectivamente.
Para
para
Para manejar las tablas de Fisher del libro de Introducción a la Inferencia Estadística del autor
Güenther, se tendrá que buscar primero los grados de libertad dos para luego localizar el área
correspondiente, relacionándola con los grados de libertad uno, para calcular el valor de F.
P 1 2 3…….….. 500 …
6 0.0005
0.001
0.005
0.9995 30.4
El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y 6
grados de libertad dos con un área de cero a Fisher de 0.995. Si lo vemos gráficamente:
Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma depende de
dos variables que son los grados de libertad.
Ejemplos:
=24
Solución:
a. Como el área que da la tabla es de cero a Fisher, se tiene que localizar primero los
grados de libertad dos que son 9, luego un área de 0.75 con 4 grados de libertad uno.
b. En este caso se puede buscar el área de 0.95 directamente en la tabla con sus
respectivos grados de libertad.
c. Se tiene que buscar en la tabla un área de 0.05, puesto que nos piden un área a la
derecha de F de 0.95.
Solución:
Se procede a ir a la tabla a buscar los grados de libertad dos que son 19 y se observa
que no están, por lo tanto se tiene que interpolar entre 15 y 20 grados de libertad,
buscando el valor de Fisher que quedaría:
Este valor de 2.42 se busca en la columna de 9 grados de libertad uno, con 15 grados
de libertad dos, y se encuentra el siguiente:
Área
0.90 2.09
0.95 2.59
Al interpolar entre estos dos valores nos queda un área de 0.933.
Área
0.95 2.39
0.975 2.84
Ahora ya se tienen las dos áreas referentes a los grados de libertad dos, por lo que se
interpolará para ver cuánto le corresponde a los grados libertad dos con un valor de
19.
Área
15 0.933
20 0.9516
Al interpolar nos queda que para 9 grados de libertad uno y 19 grados de libertad dos
con un valor de Fisher de 2.42 el área a la izquierda es de 0.9478.
Si s12 y s22 representan las varianzas de las muestras aleatorias independientes de tamaño n1=
2
25 y n2 = 31, tomadas de poblaciones normales con varianzas 1 =10 y 22 = 15,
respectivamente, encuentre P (s12/s22 > 1.26).
Solución:
dos varianzas muéstrales. Se desea conocer un intervalo de confianza del 100( ) por
2 2
ciento para el cociente de las dos varianzas, 1 / 2 .
Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales, se
coloca la varianza muestral mayor en el numerador del estadístico F.
Ejemplos:
Método 1 Método 2
n1 = 31 n2 = 25
s12 = 50 s22 = 24
2 2
Construya un intervalo de confianza del 90% para 1 / 2 .
Solución:
Al despejar: .
F toma dos valores dependiendo del nivel de confianza y de los grados de libertad.
En este caso los grados de libertad uno valen 30 y los grados de libertad dos 24.
Y
2
Con un nivel de confianza del 90% se sabe que la relación de varianzas 1 /
2
2 esta entre 1.07 y 3.93. Esto supondría que la varianza de la población 1 es mayor a
la varianza de la población 2 entre 1.07 y 3.93.
2
2 . Suponga que los dos procesos son independientes y que la rugosidad de la superficie está
distribuida de manera normal.
Solución:
En este caso los grados de libertad uno valen 11 y los grados de libertad dos 15.
Puesto que este intervalo de confianza incluye a la unidad, no es posible afirmar que las
desviaciones estándar de la rugosidad de la superficie de los dos procesos sean diferentes con
un nivel de confianza del 90%.
Ensayo de Hipótesis
Supóngase que se tiene interés en dos poblaciones normales independientes, donde las
medias y las varianzas de la población son desconocidas. Se desea probar la igualdad de las
dos varianzas, ya que para poder comparar las medias de estas dos poblaciones se utiliza la
distribución t de Student, en la cual podemos tener varianzas iguales o diferentes en la
población.
Para el ensayo de hipótesis se utilizará la relación de varianzas, la cual puede dar tres
resultados:
En base a lo que se quiera probar, el ensayo podrá ser unilateral derecho, izquierdo o bilateral.
Ejemplos:
¿Presentan los datos evidencia suficiente para indicar que las variaciones del proceso
son menores para el 2? Realice una prueba con un = 0.05.
Solución:
Datos:
Población 1 Población 2
n1 = 25 n2 = 20
= 0.05
Ensayo de hipótesis:
Estadístico de prueba:
Entonces los grados de libertad uno será el tamaño de la muestra de la población uno menos
Cálculo:
Decisión y Justificación:
Como 2.04 es menor que 2.11 no se rechaza Ho, y se concluye con un = 0.05 que no
existe suficiente evidencia para decir que la varianza del proceso 2 es menor que la del
proceso 1.
Solución:
Datos:
Robo-Fill
sRF = 1.9
nRF = 16
= 0.10
Automat-Fill
sAF = 2.1
nAF = 21
Ensayo de hipótesis:
Estadístico de prueba:
Entonces los grados de libertad uno será el tamaño de la muestra de la población uno menos
Cálculo:
Decisión y Justificación:
Como 1.22 es menor que 2.20 no se rechaza Ho, y se concluye con un = 0.10 que la
variación de llenado de la máquina Robo-Fill no es menor a la de Automat-Fill, por lo que
se selecciona cualquier máquina.
3. Las capas de óxido en las obleas semiconductoras son depositadas en una mezcla de
gases para alcanzar el espesor apropiado. La variabilidad del espesor es una
característica crítica de la oblea, y lo deseable para los siguientes pasos de la
fabricación es tener una variabilidad baja. Para ello se estudian dos mezclas diferentes
de gases con la finalidad de determinar con cuál se obtienen mejores resultados en
cuanto a la reducción en la variabilidad del espesor del óxido. Veintiuna obleas son
depositadas en cada gas. Las desviaciones estándar de cada muestra del espesor del
óxido son s1 = 1.96 angstroms y s2 = 2.13 angstroms. ¿Existe evidencia que indique
una diferencia en las desviaciones? Utilice =0.05.
Solución:
Datos:
s1= 1.96
n1 = 21
s2 = 2.13
n2= 21
Ensayo de hipótesis:
Estadístico de prueba:
Entonces los grados de libertad uno será el tamaño de la muestra de la población uno menos
Regla de decisión:
Si 0.406 Fc 2.46 No se rechaza Ho,
Cálculo:
Decisión y Justificación:
Como 0.85 está entre los dos valores de Ho no se rechaza, y se concluye con un = 0.05
que existe suficiente evidencia para decir que las varianza de las poblaciones son iguales.
Error Tipo II o
verdadera relación .
Solución:
1. Del ejercicio número 1 del ensayo de hipótesis en donde la variabilidad en la cantidad
de impurezas presentes en un lote de productos químicos dependía del tiempo que
tardaba el proceso y el fabricante empleaba dos líneas de producción 1 y 2, e hizo un
pequeño ajuste al proceso 2, calcular la probabilidad de cometer error tipo II si le
relación
1.5.
Solución:
Por lo tanto s12/s22 = 2.11 ya que esto fue lo que dio la tabla y al despejar
nos queda los mismo. Se calcula un nuevo valor de F con la relación de varianzas de 1.5.
Si se recuerda para este ejercicio se tienen 24 grados de libertad uno y 19 de grados de libertad
dos, por lo que se tiene que hacer una doble interpolación ya que 19 grados de libertad dos
no vienen en la tabla.
Área Valor de F
0.50 1.02
0.75 1.41
Al interpolar para un valor de Fisher de 1.406 se ve que este valor está muy cercano a 1.41,
el cual le corresponde un área de 0.75, por lo que queda un resultado de 0.7474
Ahora se procede a interpolar para 24 grados de libertad uno y 20 grados de libertad dos:
Área Valor de F
0.75 1.35
0.90 1.77
Teniendo los dos valores, se puede calcular el área correspondiente a 24 grados de libertad
uno y 19 grados de libertad dos:
Área
15 0.7474
20 0.77
Por lo tanto al interpolar para 19 grados de libertad dos nos dan un valor de 0.76548
Las técnicas iniciales del analistas de varianza fueron desarrolladas por el a estadístico y
genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como “Anova de
Fisher” o “análisis de varianza de Fisher”, debido al uso de la distribución F de Fisher como
parte del contraste de hipótesis.
Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren
diferencias incomparables en el material o grupo experimental. El ejemplo más simple es el
de estimar la media desconocida de una población compuesta de individuos diferentes y en
el que esas diferencias se mezclan con los errores del instrumento de medición.
Este método se supone cuando el investigador está interesado por una población de niveles,
teóricamente infinitos, del factor de estudio, de los que únicamente una muestra al azar (t
niveles) están presentes en el experimento.
Las K muestras sobre las que se aplican los tratamientos son independientes.
El Anova se basa en la composición de la variación total de los datos con respecto a la media
global.
BIBLIOGRAFÍA