Sie sind auf Seite 1von 64

INSTITUTO TECNOLOGICO SUPERIOR DE TEPEACA

INGENIERIA EN GESTION EMPRESARIAL

ESTADISTICA INDIFERENCIAL I

DOCENTE: ING SINUHE FLORES MUÑOZ

UNIDAD III Y IV

ALUMNA: TERESA ZARATE RAMOS

GRADO Y GRUPO: 4º FS

FECHA DE ENTREGA: 25 de mayo de 2017


Contenido
INTRODUCCION .............................................................................................................................. 3
3.1 METODOLOGIA PARA LA PRUEBA DE HIPOTESIS ........................................................... 3
Hipótesis y prueba de hipótesis ....................................................................................................... 4
Objetivo de la prueba de hipótesis. ................................................................................................. 5
3.2 HIPOTESIS NULA Y ALTERNATIVA ...................................................................................... 6
3.3 ERROR TIPO I Y ERROR TIPO II.............................................................................................. 9
3.4 PRUEBAS DE HIPÓTESIS Z PARA LA MEDIA (DESVIACIÓN
ESTÁNDARPOBLACIONAL CONOCIDA) .................................................................................. 10
3.5 PRUEBAS DE PROPORCIONES.............................................................................................. 12
3.6 SELECCIÓN DEL TAMAÑO DE MUESTRA PARA ESTIMAR LA MEDIA
POBLACIONAL............................................................................................................................... 14
3.7.- SELECCIÓN DEL TAMAÑO DE MUESTRA PARA ESTIMAR LA MEDIA DE
LAPOBLACIÓN............................................................................................................................... 15
3.7 SELECCIÓN DEL TAMAÑO DE MUESTRA PARA ESTIMAR LA
PROPORCIONPOBLACIONAL .........................................................Error! Bookmark not defined.
UNIDAD IV ...................................................................................................................................... 18
PRUEBA DE HIPÓTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS
NUMÉRICOS ................................................................................................................................... 18
4.1 INTRODUCCIÓN PRUEBAS DE HIPÓTESIS ........................................................................ 19
Introducción .................................................................................................................................. 19
4.2 DISTRIBUCIÓN NORMAL Y DISTRIBUCIÓN T DE STUDENT ........................................ 20
4.3 PRUEBAS DE SIGNIFICANCIA .............................................................................................. 22
4.4 COMPARACIÓN DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS T PARA
LASDIFERENCIAS ENTRE NORMALES..................................................................................... 22
Dos muestras dependientes ........................................................................................................... 28
t-STUDENT PARA 2 MUESTRAS INDEPENDIENTES........................................................... 35
DOS MUESTRAS INDEPENDIENTES CON VARIANZA DISTINTA ................................... 39
DOS MUESTRAS DEPENDIENTES .......................................................................................... 40
4.5 Prueba de Fisher para varianzas y de igualdad de las varianzas de dos poblaciones normales. . 41
Ensayo de Hipótesis ...................................................................................................................... 51
INTRODUCCION

Dentro del estudio de la inferencia estadística, se describe como se puede tomar


una muestra aleatoria y a partir de esta muestra estimar el valor de un parámetro poblacional
en la cual se puede emplear el método de muestreo y el teorema del valor central lo que
permite explicar cómo a partir de una muestra se puede inferir algo acerca de una población,
lo cual nos lleva a definir y elaborar una distribución de muestreo de medias muéstrales que
nos permite explicar el teorema del límite central y utilizar este teorema para encontrar las
probabilidades de obtener las distintas medias maestrales de una población.
Pero es necesario tener conocimiento de ciertos datos de la población como la media, la
desviación estándar o la forma de la población, pero a veces no se dispone de
esta información.
En este caso es necesario hacer una estimación puntual que es un valor que se usa para estimar
un valor poblacional. Pero una estimación puntual es un solo valor y se requiere un intervalo
de valores a esto se denomina intervalo de confianza y se espera que dentro de este intervalo
se encuentre el parámetro poblacional buscado. También se utiliza una estimación mediante
un intervalo, el cual es un rango de valores en el que se espera se encuentre el parámetro
poblacional
En nuestro caso se desarrolla un procedimiento para probar la validez de una aseveración
acerca de un parámetro poblacional este método es denominado Prueba de hipótesis para una
muestra.

3.1 METODOLOGIA PARA LA PRUEBA DE HIPOTESIS


Dentro del estudio de la inferencia estadística, se describe cómo se puede tomar una muestra aleatoria y a
partir de esta muestra estimar el valor de un parámetro poblacional en la cual se puede emplear el método de
muestreo y el teorema del valor central lo que permite explicar cómo a partir de una muestra se puede inferir
algo acerca de una población, lo cual nos lleva a definir y elaborar una distribución de muestreo de medias
muéstrales que nos permite explicar el teorema del límite central y utilizar este teorema para encontrar las
probabilidades de obtener las distintas medias maestrales de una población.
Pero es necesario tener conocimiento de ciertos datos de la población como la media, la desviación
estándar o la forma de la población, pero a veces no se dispone de esta información.

En este caso es necesario hacer una estimación puntual que es un valor que se usa para estimar
un valor poblacional. Pero una estimación puntual es un solo valor y se requiere un intervalo
de valor esa esto se denomina intervalo de confianza y se espera que dentro de este intervalo
se encuentre el parámetro poblacional buscado. También se utiliza una estimación mediante
un intervalo, el cual es un rango de valores en el que se espera se encuentre el parámetro
poblacional.

En nuestro caso se desarrolla un procedimiento para probar la validez de una aseveración


acerca de un parámetro poblacional este método es denominado Prueba de hipótesis para una
muestra.

Hipótesis y prueba de hipótesis


Tenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis. Hipótesis
es una aseveración de una población elaborado con el propósito de poner a prueba, para
verificar si la afirmación es razonable se usan datos.

En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después
se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.

Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestra y la


teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.
Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco paso:
se plantean se se identifica se formula se toma una
paso 1

paso 2

paso 3

paso 4

paso 5
la hipotesis selecciona el el la regla de muestra y se
nula y nivel de estadistico decision decide
alternativa significancia de prueba

Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazarla


hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración
de estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una
clase de prueba más allá de una duda razonable. Analizaremos cada paso en detalle.

Objetivo de la prueba de hipótesis.


El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico
(maestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra y un
valor planteado del parámetro.

3.- Procedimiento sistemático para una prueba de hipótesis de una muestra.

Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.

Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca


de las poblaciones que se estudian.

La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población,
no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay
diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio"
Podemos rechazar o aceptar Ho.

La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula
siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.

La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una
afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la
hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El
planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto
al valor especificado del parámetro.

3.2 HIPOTESIS NULA Y ALTERNATIVA

Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más
poblaciones.

Suponga que se tiene interés en la rapidez de combustión de un agente propulsor sólido


utilizado en los sistemas de salida de emergencia para la tripulación de aeronaves. El interés
se centra sobre la rapidez de combustión promedio. De manera específica, el interés recae en
decir si la rapidez de combustión promedio es o no 50 cm/s. Esto puede expresarse de manera
formal como

H0 : 50 cm/s

H1; ≠ 50 cm/s

La proposición Ho; = 50 cm/s, se conoce como hipótesis nula, mientras que la proposición
H1; ≠ 50 cm/s, recibe el nombre de hipótesis alternativa. Puesto que la hipótesis alternativa
especifica valores de que pueden ser mayores o menores que 50 cm/s, también se conoce
como hipótesis alternativa bilateral. En algunas situaciones, lo que se desea es formular una
hipótesis alternativa unilateral, como en
Ho; = 50 cm/s H0; = 50 cm/s

H1; < 50 cm/s H1; > 50 cm/s

Es importante recordar que las hipótesis siempre son proposiciones sobre la población o
distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del
parámetro de la población especificado en la hipótesis nula se determina en una de tres
maneras diferentes:

1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso,


entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el
valor del parámetro.

2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso
bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo.

3. Cuando el valor del parámetro proviene de consideraciones externas, tales como


las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación,
el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones.

Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el
nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del
empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta
información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo
si esta información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe
hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede
conocerse con certidumbre, a menos que pueda examinarse a toda la población. Usualmente
esto es imposible en muchas situaciones prácticas. Por tanto, es necesario desarrollar un
procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de llegar a una
conclusión equivocada.

La hipótesis nula, representada por Ho, es la afirmación sobre una o más características de
poblaciones que al inicio se supone cierta (es decir, la "creencia a priori").La hipótesis
alternativa, representada por H1, es la afirmación contradictoria a Ho, y ésta es la hipótesis
del investigador.

La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia muestral


sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho, se continúa
creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones posibles de un
análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho.

Para ilustrar los conceptos generales, considere el problema de la rapidez de combustión del
agente propulsor presentado con anterioridad. La hipótesis nula es que la rapidez promedio
de combustión es 50 cm/s, mientras que la hipótesis alternativa es que ésta no es igual a 50
cm/s. Esto es, se desea probar:

Ho; = 50 cm/s

H1; ≠ 50 cm/s

Supóngase que se realiza una prueba sobre una muestra de 10 especímenes, y que se observa
cual es la rapidez de combustión promedio muestral. La media muestral es un estimador de
la media verdadera de la población. Un valor de la media muestral ᵡ que este próximo al valor
hipotético = 50 cm/s es una evidencia de que el verdadero valor de la media es realmente 50
cm/s; esto es, tal evidencia apoya la hipótesis nula Ho. Por otra parte, una media muestral
muy diferente de 50 cm/s constituye una evidencia que apoya la hipótesis alternativa H1. Por
tanto, en este caso, la media muestral es el estadístico de prueba.

La media muestral puede tomar muchos valores diferentes. Supóngase que si 48.551.5 ≤ ᵡ ≤
51.1, entonces no se rechaza la hipótesis nula Ho; = 50 cm/s, y que si x <48.5 o >51.5,
entonces se acepta la hipótesis alternativa H1; ≠ 50 cm/s.

Los valores de x que son menores que 48.5 o mayores que 51.5 constituyen la región crítica
de la prueba, mientras que todos los valores que están en el intervalo 48.5≤x≤51.5 forman la
región de aceptación. Las fronteras entre las regiones críticas y de aceptación reciben el
nombre de valores críticos. La costumbre es establece conclusiones con respecto a la hipótesis
nula Ho. Por tanto, se rechaza Ho en favor de H1 si el estadístico de prueba cae en la región
crítica, de lo contrario, no se rechaza Ho.
Este procedimiento de decisión puede conducir a una de dos conclusiones erróneas. Por
ejemplo, es posible que el valor verdadero de la rapidez promedio de combustión del agente
propulsor sea igual a 50 cm/s. Sin embargo, para todos los especímenes bajo prueba, bien
puede observarse un valor del estadístico de prueba que cae en la región crítica. En este caso,
la hipótesis nula Ho será rechazada en favor de la alternativa H1 cuando, de hecho, Ho en
realidad es verdadera. Este tipo de conclusión equivocada se conoce como error tipo I.

3.3 ERROR TIPO I Y ERROR TIPO II

El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es verdadera.
También es conocido como α o nivel de significancia.

Si tuviéramos un nivel de confianza del 95% entonces el nivel de significancia sería del5%.
Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de significancia
sería del 10%.

Ahora supóngase que la verdadera rapidez promedio de combustión es diferente de 50cm/s,


aunque la media muestral caiga dentro de la región de aceptación. En este caso se acepta Ho
cuando ésta es falsa. Este tipo de conclusión recibe el nombre de error tipo II.

El error tipo II se define como la aceptación de la hipótesis nula cuando ésta es falsa.

Por tanto, al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes que
determinan si la decisión final es correcta o errónea.

Decisión H0 es verdadera H0 es falsa


Aceptar H0 No hay error Error tipo II
Rechazar H0 Error tipo I No hay error

1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad


de uno por lo general tiene como resultado un aumento en la probabilidad del otro.

2. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo


I, siempre se puede reducir al ajustar el o los valores críticos.
3. Un aumento en el tamaño muestral n reducirá α y ɣ de forma simultánea.

4. Si la hipótesis nula es falsa, es un máximo cuando el valor real del parámetro se


aproxima al hipotético. Entre más grande sea la distancia entre el valor real y el valor
hipotético, será menor.

3.4 PRUEBAS DE HIPÓTESIS Z PARA LA MEDIA (DESVIACIÓN


ESTÁNDARPOBLACIONAL CONOCIDA)

Cuando se van a realizar pruebas de hipótesis relativas a la media poblacional m se debe


saber si la varianza poblacional s es conocida o desconocida, ya que la distribución
subyacente al estadístico de prueba será la normal estándar si la varianza es conocida, y la
distribución t en caso contrario

.Las diferentes hipótesis que se pueden presentar son las siguientes:

1) Ho: m = m0 H1: m > m0

2) Ho: m = m0 H1: m < m0

3) Ho: m = m0 H1: m ¹ m0

Las pruebas de hipótesis para la media se basan en el estadístico dado por la media muestral
cuya distribución tiende a la distribución normal (m, s /n) para muestras grandes.

Prueba de hipótesis para la media con varianza conocida Cuando la varianza s

Es conocida, las pruebas de hipótesis se basan en el hecho de que la variable aleatoria Z


definida como, se distribuye normalmente con media cero y varianza unitaria.

Para el caso de las hipótesis Ho: m = m0 contra H1: m > m0 vimos, al analizar las mejores
pruebas, que la mejor región crítica de tamaño a consistía en rechazar H0 si la media muestral
era mayor o igual que una constante c dada por. Por lo tanto, una vez tomada la muestra y
obtenidos los valores x1, x2,…, xn, se calcula la media muestral dada por:

Y los criterios de decisión serían los siguientes:


a) Rechace Ho: m = m0 si ³ c, donde.

b) Calcule el “estadístico de prueba” y rechace Ho: m = m0 si Z ³ Za.

c) Calcule el “estadístico de prueba” y estime P como el área en la distribución normal


estándar a la derecha del valor Z calculado, y rechace Ho: m = m0 si P< a.

Para el caso de las hipótesis Ho: m = m0 contra H1: m < m0 la mejor región crítica de tamaño
a consiste en rechazar H0 si la media muestral es menor o igual que una constante c dada por.
Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,…, xn, se calcula la
media muestral, y los criterios de decisión sería los siguientes:

a) Rechace Ho: m = m0 si £ c, donde.

b) Calcule el “estadístico de prueba” y rechace Ho:

m = m0 si Z £ Z1-a. Como Za = -Z1-a se rechaza Ho si Z £ -Za o equivalentemente, si êZ

ê³ Z a.

c) Calcule el “estadístico de prueba” y estime P como el área en la distribución normal


estándar a la izquierda del valor Z calculado, y rechace Ho: m = m0 si P < a.

Por último, si las hipótesis fueran Ho: m = m0 contra H1: m ¹ m0 la mejor región crítica de
tamaño a (aunque no es uniformemente más potente como en el caso de las dos anteriores)
consiste en rechazar H0 si la media muestral es menor o igual que una constante c1 o mayor
igual que otra constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los valores
x1, x2,…, xn, se calcula la media muestral, y los criterios de decisión serían los siguientes:

a) Rechace Ho: m = m0 si £ c1 o ³ c2, donde y. b)

Calcule el “estadístico de prueba” y rechace Ho: m = m0 si Z £ -Za/2 o Z ³ Za/2, o


simplemente, si êZ ê³ Z a/2. c) Calcule el “estadístico de prueba” y estime P como el área en
la distribución normal estándar a la izquierda del valor Z calculado si Z es negativo, o a la
derecha del valor de Z si Z es positivo, y rechace Ho: m = m0 si P < a. También P se puede
calcular como el área a derecha del valor absoluto de Z. En resumen, el estadístico de prueba
se basa en:
Ejemplo. Un inspector de pesos y medidas visita una planta de empacado para verificar que
el peso neto de las cajas sea el indicado en la etiqueta. El gerente de la planta asegura al
inspector que el peso promedio de cada caja es de 750 gramos con una desviación estándar
de 5 gr. El inspector selecciona, al azar, 100 cajas y encuentra que el peso promedio es de
748 gr. Bajo estas condiciones y usando un nivel de significancia de0.05, ¿Qué actitud debe
tomar el inspector?

Solución. Este problema lo podemos plantear como una prueba de hipótesis del siguiente
tipo:

1) Ho: m = m0 = 750 H1: m < m0 (hay preocupación si el peso medio es inferior al


especificado)

Con n = 100, a = 0.05, s = 5 gramos. Se tiene que Z0.05 = 1.645. Por lo tanto, la región crítica
está dada por = 750 - 1.645 x 5/10 =749.18. Por lo tanto como la media muestral es748
gramos, se rechaza la hipótesis de que el promedio de cada caja sea 750 gramos. Por lo tanto,
deben tomarse las medias necesarias para corregir esta situación, que va encontrar de los
intereses del consumidor. Usando los otros criterios de aceptación tenemos que Z = - 4.0 y
el valor P es aproximadamente cero (P = 0.0).

3.5 PRUEBAS DE PROPORCIONES


Proporción: La fracción, porción relativa o porcentaje que expresa la parte de la población o
muestra que tiene u atributo particular de interés.

Concepto de proporción.

n = tamaño de la muestra

x = número de éxitos en la muestra

Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma utilizada
cuando nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada
caso. Pueden utilizarse pruebas unilaterales o bilateral es dependiendo de la situación
particular.

La proporción de una población.


Las hipótesis se enuncian de manera similar al caso de la media.

Ho: p = p0

H1: p ¹ p0

En caso de que la muestra sea grande n>30, el estadígrafo de prueba es:

Se distribuye normal estándar. Regla de decisión: se determina de acuerdo a la hipótesis


alternativa (si es bilateral o unilateral), lo cual puedes fácilmente hacerlo auxiliándote de la
tabla 4.4.1.

En el caso de muestras pequeñas se utiliza la distribución Binomial. No lo abordaremos por


ser complicado y poco frecuente su uso.

Diferencia entre las proporciones de dos poblaciones.

La situación más frecuente es suponer que existen diferencias entre las proporciones dedos
poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las medias:

Ho: p1 = p2 Þ p1 - p2 = 0

H1: p1 ¹ p2

Puede la hipótesis alternativa enunciarse unilateralmente.

El estadígrafo de prueba para el caso de muestras independientes:

Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las muestras 1
y 2 respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula
una p conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas
proporciones y así se obtiene la varianza conjunta. Recuerda que q = 1-p.

Está de más que te diga que este estadígrafo se distribuye normal estándar.

La regla de decisión se determina de manera similar a los casos ya vistos anteriormente.

El objetivo de la prueba es comparar estas dos proporciones, como estimadores

H1: p1 ¹ p2

Recuerda que la H1 también puede plantearse de forma unilateral.


Si el Ho es cierta entonces b - c =0 y el estadígrafo de prueba es:

Observaciones:

Las pruebas de hipótesis se realizan sobre los parámetros poblacionales desconocidos, es


decir, sólo tiene sentido realizarlas cuando se estudia una muestra de la población objeto y
deseamos hacer inferencias hacia el total poblacional. Si estudiaste al total de los elementos
de tú población objeto (definida de acuerdo a los objetivos de tú investigación), no tiene
sentido realizar PH ni otro tipo de inferencia.

Antes de realizar una prueba de hipótesis, debes revisar cuidadosamente las características
de los datos (naturaleza de las variables), la forma de selección de la muestra y su tamaño,
en fin, valorar el cumplimiento de los supuestos necesarios para aplicar la prueba adecuada
a cada caso. Fijando el nivel de significación antes de realizarla prueba y no después de
obtener el resultado, al igual que debes valorar seriamente si debes enunciar el problema de
forma bilateral o unilateral antes de realizar la prueba. Violar el cumplimiento de los
supuestos implica que la prueba pierda potencia, pudiendo no encontrarse diferencias cuando
realmente las hay o lo contrario.

3.6 SELECCIÓN DEL TAMAÑO DE MUESTRA PARA ESTIMAR LA MEDIA


POBLACIONAL

A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta
varios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la
varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos
sencillos de cálculo del tamaño muestral delimitemos estos factores.

Parámetro. Son las medidas o datos que se obtienen sobre la población.

Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una
estimación de los parámetros.

Error Muestral, de estimación o estándar. Es la diferencia entre un estadístico y su parámetro


correspondiente. Es una medida de la variabilidad de las estimaciones demuestras repetidas
en torno al valor de la población, nos da una noción clara de hasta dónde y con qué
probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido
por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la
investigación nos indicará hasta qué medida podemos cometerlo(los resultados se someten a
error muestral e intervalos de confianza que varían muestra a muestra). Varía según se calcule
al principio o al final. Un estadístico será más preciso en cuanto y tanto su error es más
pequeño. Podríamos decir que es la desviación de la distribución muestral de un estadístico
y su fiabilidad.

Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la realidad.

Cualquier información que queremos recoger está distribuida según una ley de probabilidad
(Gauss o Student), así llamamos nivel de confianza a la probabilidad de que el intervalo
construido en torno a un estadístico capte el verdadero valor del parámetro.

Varianza Poblacional. Cuando una población es más homogénea la varianza es menor y el


número de entrevistas necesarias para construir un modelo reducido del universo, o dela
población, será más pequeño. Generalmente es un valor desconocido y hay que estimarlo a
partir de datos de estudios previos.

3.7.- SELECCIÓN DEL TAMAÑO DE MUESTRA PARA ESTIMAR LA


MEDIA DE LAPOBLACIÓN
Veamos los pasos necesarios para determinar el tamaño de una muestra empleando el
muestreo aleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el
nivel de confianza al que queremos trabajar; en segundo lugar, cual es el error máximo que
estamos dispuestos a admitir en nuestra estimación. Así pues los pasos a seguir son:

1.- Obtener el tamaño muestral imaginando que N→͚:

2
𝑧𝑎𝑟2 𝛼2
𝑛=
ҽ2

Dónde:

zar: z correspondiente al nivel de confianza elegido

α2: varianza poblacionales


Ҽ: error máximo

2.- Comprobar si se cumple

N>n͚ (n͚-1)

Si esta condición se cumple el proceso termina aquí, y ese es el tamaño adecuado que
debemos muestrear.

Si no se cumple, pasamos a una tercera fase:

3.- Obtener el tamaño de la muestra según la siguiente fórmula:

𝑛∞
𝑛= 𝑛
1 + 𝑁∞

Ejemplo:

La Consejería de Trabajo planea un estudio con el interés de conocer el promedio de horas


semanales trabajadas por las mujeres del servicio doméstico. La muestra será extraída de una
población de 10000 mujeres que figuran en los registros dela Seguridad Social y de las cuales
se conoce a través de un estudio piloto que su varianza es de 9.648. Trabajando con un nivel
de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser
el tamaño muestral que empleemos?

Buscamos en las tablas de la curva normal el valor de que corresponde con el nivel de
confianza elegido: = ±1.96 y seguimos los pasos propuestos arriba.

1.

1.962 ∗9.648
𝑛= = 3706
0.12

2.- Comprobamos que no se cumple, N> nα (nα -1), pues en este caso10000 < 3706 (3706 -
1); 10000 < 13730730

3.-
3706
𝑛= = 2704
3706
1 + 10000

Si deseamos estimar una media: debemos saber:

El nivel de confianza o seguridad (1-a). El nivel de confianza prefijado da lugar a un


coeficiente (Za). Para una seguridad del 95% = 1.96; para una seguridad del 99% = 2.58.

La precisión con que se desea estimar el parámetro (2*d es la amplitud del intervalo de
confianza).

Una idea de la varianza S2 de la distribución de la variable cuantitativa que se supone existe


en la población.

𝑧∝2 ∗ 𝑠 2
𝑛=
𝑑2

Para calcular el tamaño de muestra para la estimación de proporciones poblacionales hemos


de tener en cuenta los mismos factores que en el caso de la media. La fórmula que nos
permitirá determinar el tamaño muestral es la siguiente:

Dónde: z correspondiente al nivel de confianza elegido

P: proporción de una categoría de la variable

e: error máximo

N: tamaño de la población

Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar
la proporción de mujeres que trabajan diariamente 10 horas o más. De un estudio piloto se
dedujo que P=0.30, fijamos el nivel de confianza en 0.95 y el error máximo 0.02.

Ejemplo:

¿A cuántas personas tendríamos que estudiar para conocer la prevalencia de diabetes?


Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que puede ser próxima
al 5%; si no tuviésemos ninguna idea de dicha proporción utilizaríamos el valor p= 0,5 (50%)
que maximiza el tamaño muestral:

Dónde: Za2= 1.962 (ya que la seguridad es del 95%) p = proporción esperada (en este caso
5% = 0.05) q = 1–p (en este caso 1–0.05 = 0.95) d = precisión (en este caso deseamos un 3%)
Si la población es finita, es decir conocemos el total de la población y deseásemos saber
cuántos del total tendremos que estudiar la respuesta seria:

Dónde:

N = Total de la poblaciónZa2= 1.962 (si la seguridad es del 95%) p = proporción esperada


(en este caso 5% = 0.05) q = 1–p (en este caso 1-0.05 = 0.95) d = precisión (en este caso
deseamos un 3%).

¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes para conocer
la prevalencia de diabetes? Seguridad = 95%; Precisión = 3%; proporción esperada =
asumamos que puede ser próxima al 5%; si no tuviese ninguna idea de dicha proporción
utilizaríamos el valor p =0.5 (50%) que maximiza el tamaño muestral. Según diferentes
seguridades el coeficiente de Za varía, así:

Si la seguridad Za fuese del 90% el coeficiente sería 1.645

Si la seguridad Za fuese del 95% el coeficiente sería 1.96

Si la seguridad Za fuese del 97.5% el coeficiente sería 2.24

Si la seguridad Za fuese del 99% el coeficiente sería 2.576

UNIDAD IV

PRUEBA DE HIPÓTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE


DATOS NUMÉRICOS
4.1 INTRODUCCIÓN PRUEBAS DE HIPÓTESIS
Introducción:
Prueba de hipótesis En esta unidad nos concentraremos en la prueba de hipótesis, otro aspecto
de la inferencia estadística que al igual que la estimación del intervalo de confianza, se basa
en la información de la muestra. Se desarrolla una metodología paso a paso que le permita
hacer inferencias sobre un parámetro poblacional mediante el análisis diferencial entre los
resultados observados (estadístico de la muestra)y los resultados de la muestra esperados si
la hipótesis subyacente es realmente cierta. En el problema de estimación se trata de elegir el
valor de un parámetro de la población, mientras que en las pruebas de hipótesis se trata de
decidir entre aceptar o rechazar un valor especificado (por ejemplo, si el nivel de centra
miento de un proceso es o no lo es).Prueba de hipótesis: Estadísticamente una prueba de
hipótesis es cualquier afirmación acerca de una población y/o sus parámetros.

Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste
involucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no
una hipótesis en favor de la otra. Una hipótesis estadística se denota por “H” y son dos: - Ho:
hipótesis nula - H1: hipótesis alternativa Partes de una hipótesis 1-La hipótesis nula “Ho” 2-
La hipótesis alternativa “H1” 3-El estadístico de prueba 4-Errores tipo I y II 5-La región de
rechazo (crítica) 6-La toma de decisión 1. Concepto: Una prueba de hipótesis estadística es
una conjetura de una o más poblaciones. Nunca se sabe con absoluta certeza la verdad o
falsedad de una hipótesis estadística, a no ser que se examine la población entera. Esto por
su puesto sería impráctico en la mayoría de las situaciones. En su lugar, se toma una muestra
aleatoria de la población de interés y se utilizan los datos que contiene tal muestra para
proporcionar evidencia que confirme o no la hipótesis. La evidencia de la muestra que es un
constante con la hipótesis planteada conduce a un rechazo de la misma mientras que la
evidencia que apoya la hipótesis conduce a su aceptación.

Definición de prueba de hipótesis estadística es que cuantifica el proceso de toma de


decisiones.

Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada. Esta
prueba estadística mide el acercamiento del calor de la muestra (como un promedio) a la
hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida
(normal, etc.) o se puede desarrollar una distribución para la prueba estadística particular.

La distribución apropiada de la prueba estadística se divide en dos regiones: una región de


rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se puede
rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente.

Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la
distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se
puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de
la región de rechazo.

4.2 DISTRIBUCIÓN NORMAL Y DISTRIBUCIÓN T DE STUDENT

En estadística y probabilidad se llama distribución normal, distribución de Gauss o


distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que
con más frecuencia aparece en fenómenos reales.

La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de


un determinado parámetro. Esta curva se conoce como campana de Gauss.

La importancia de esta distribución radica en que permite modelar numerosos fenómenos


naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte
de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse
asumiendo que cada observación se obtiene como la suma de unas pocas causas
independientes.

De hecho, la estadística es un modelo matemático que sólo permite describir un fenómeno,


sin explicación alguna. Para la explicación causal es preciso el diseño experimental, de ahí
que al uso de la estadística en psicología y sociología sea conocido como método
correlacional.

La distribución normal también es importante por su relación con la estimación por mínimos
cuadrados, uno de los métodos de estimación más simples y antiguos.
La distribución normal también aparece en muchas áreas de la propia estadística. Por
ejemplo, la distribución muestral de las medias muéstrales es aproximadamente normal,
cuando la distribución de la población de la cual se extrae la muestra no es normal. [1]
Además, la distribución normal maximiza la entropía entre todas las distribuciones con media
y varianza conocidas, lo cual la convierte en la elección natural de la distribución subyacente
a una lista de datos resumidos en términos de media muestral y varianza. La distribución
normal es la más extendida en estadística y muchos test estadísticos están basados en una
supuesta "normalidad".

En probabilidad y estadística, la distribución t (de Student) es una distribución de


probabilidad que surge del problema de estimar la media de una población normalmente
distribuida cuando el tamaño de la muestra es pequeño.

Aparece de manera natural al realizar la prueba t de Student para la determinación de las


diferencias entre dos medias muéstrales y para la construcción del intervalo de confianza para
la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica
de una población y ésta debe ser estimada a partir de los datos de una muestra. La distribución
t de Student es la distribución de probabilidad del cociente
𝑧

√𝑉⁄𝑣

Donde

•Z tiene una distribución normal de media nula yvarianza1

•V tiene una distribución chi-cuadrado con grados de libertad

•Z y V son independientes

𝑧+𝜇

√𝑉⁄𝑣

Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la distribución t
de Student no central con parámetro de no-centralidad μ.
4.3 PRUEBAS DE SIGNIFICANCIA

Las pruebas de significancia estadística son un procedimiento que brinda un criterio objetivo
para calificar las diferencias que se presentan al comparar los resultados de dos muestras, con
el objetivo de explicar si dichas diferencias se mantienen dentro de los límites previstos por
el diseño estadístico (un error y una confianza esperados) o si, por el contrario, la diferencia
entre ellas resulta lo suficientemente grande como para inferir que ha ocurrido un cambio
real en el indicador

4.4 COMPARACIÓN DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS


T PARA LASDIFERENCIAS ENTRE NORMALES.
Para comparar las medias de dos muestras aleatorias procedentes de dos poblaciones
normales e independientes, se utiliza el procedimiento Prueba T para muestras
independientes, y para ello, se selecciona:

Analizar

Comparar
Medias
Prueba T para
muestras
independientes

A continuación se abre una ventana con los siguientes campos:

Contrastar variables: donde se han de introducir las variables que se van a analizar, es decir,
aquellas variables sobre las que se va a contrastar si hay o no, diferencias de grupos.
Variable de agrupación: aquí se debe introducir la variable que se utiliza para definir los
grupos de sujetos sobre los que se estudian las diferencias. Entonces el sistema activa el botón
definir grupos y al presionarlo aparece una ventana donde se introducen los valores de la
variable que definen los dos grupos de sujetos a comparar, o el valor de la variable que hará
de corte para definir dichos grupos. Si el valor de la variable para un individuo es menor o
igual que el valor especificado, el individuo pertenecerá al primer grupo, y en caso contrario,
al segundo.

Opciones: presionando este botón se obtiene una ventana donde se especifica igual que en la
sección anterior el nivel de confianza para el intervalo y la forma de tratar los valores missing.

Ejemplo:

Vamos a comprobar si existen diferencias significativas entre los tiempos medios de


dedicación a la docencia, para los profesores asociados y los titulares de universidad de
Profesores2.sav. Para ello, seleccionamos el procedimiento Prueba T para muestras
independientes, y elegimos la variable Tiemdoc para llevarla al campo contrastar variables.
Seguidamente seleccionamos como variable agrupación la variable categoría, presionamos
el botón definir grupos, y tecleamos un 1 en el primer grupo y un 3en el segundo. Por último
pulsamos continuar y aceptar para ejecutar el procedimiento.

El resultado que muestra la Tabla contiene dos tablas. La primera recoge para ambos grupos,
profesores asociados y titulares de universidad, el número de casos en cada muestra, los
tiempos medios dedicados a la docencia, las desviaciones típicas y los errores típicos de la
media. La segunda tabla muestra el valor del estadístico para la prueba de Levene sobre la
igualdad de varianzas, junto con su p-valor. Este se distribuye como una F de Snedecor y
vale 0.808, mientras que su p-valor 0.373, lo que nos conduce a aceptar que las varianzas
sean iguales, ya que el p-valor es mayor que 0.05. También aparece en la tabla el valor del
estadístico para resolver el contraste de igualdad demedias, supuesto varianzas iguales y
distintas, (en ambos casos se distribuye como una t de Student), junto con los
correspondientes grados de libertad y sus p-valores. Puesto que hemos concluido que las
varianzas coinciden, fijémonos en el que se han asumido varianzas iguales, el cual vale 8.661,
y cuyo p-valor es 0, luego se rechaza que las medias coincidan. Razonamiento que también
se puede deducir del intervalo de confianza, que no contiene el cero.
Tabla: Contraste sobre las Medias de dos Poblaciones Independientes

Prueba T Estadísticos de Grupo

Desviación Error típ. de


Categoría N Media Típ. la media
Tiempo 1 29 251,3759 29,36731 5,4534
diario
para la 3 23 187,1000 22,5337 4,6986
docencia

Prueba de muestras independientes

Prueba de
Levene para
la igualdad Prueba T para la
igualdad de medias
De varianzas
F Sig. t gl Sig. Diferenci Error Interval
bilater as de típico o de
al medias de la confian
diferenc za para
ia la
diferenc
ia
inferior Superio
r
Tiem Asumien 0.80 0.37 8.66 50 0.000 64,2759 7,4209 49,3704
po do 8 3 1
Diario Varianza
iguales
Para No 8.92 49,96 0.000 64,2759 7,1983 49,8173
asumien 9 1
do

En muchos estudios, incluidos la mayoría de los ensayos clínicos, es necesario comparar


ciertas características en dos o más grupos de sujetos. Tal sería el caso, por ejemplo, si
pensamos que un tratamiento nuevo puede tener un porcentaje de mejoría mayor que otro
estándar, o cuando nos planteamos si los niños de las distintas comunidades autónomas tienen
o no la misma altura. En este artículo se analizará únicamente el problema de la comparación
de dos grupos con respecto a una variable continua. La elección de un método de análisis
apropiado en este caso dependerá de la naturaleza delos datos y la forma en la que estos hayan
sido obtenidos. Fundamentalmente, cuando se comparan dos o más grupos de observaciones
pueden darse dos tipos de diseño: aquel en el que las observaciones se refieren a dos grupos
independientes de individuos, o el caso en el que cada serie de datos se recoge en los mismos
sujetos bajo condiciones diferentes. El tipo de metodología será distinto según el caso en el
que nos encontremos. Otro aspecto a tener en consideración será el tipo y distribución de los
datos. Para grupos independientes, los métodos paramétricos requieren que las observaciones
en cada grupo provengan de una distribución aproximadamente normal con una variabilidad
semejante, de modo que si los datos disponibles no verifican tales condiciones, puede resultar
útil una transformación

1,2, 3 de los mismos (aplicación del logaritmo, raíz cuadrada, etc.) o, en todo caso, se debería
recurrir a la utilización de procedimientos no paramétricos.

Normalmente en este tipo de análisis podremos establecer una hipótesis de partida (hipótesis
nula), que generalmente asume que el efecto de interés es nulo, por ejemplo que la tensión
arterial es la misma en hombres y mujeres o que dos tratamientos para la hipercolesterolemia
son igualmente efectivos. Posteriormente se puede evaluar la probabilidad de haber obtenido
los datos observados si esa hipótesis es correcta. El valor de esta probabilidad coincide con
el valor-p que nos proporciona cada test estadístico, de modo que cuanto menor sea éste más
improbable resulta que la hipótesis inicial se verifique.
En un primer apartado, se presentará el test t de Student para dos muestras independientes,
introduciendo las modificaciones necesarias en el caso de que la variabilidad de ambos
grupos sea distinta. A continuación se introducirá el test t de Student para el caso de dos
muestras dependientes.t de Student para dos muestras independientes

Uno de los análisis estadísticos más comunes en la práctica es probablemente el utilizado


para comparar dos grupos independientes de observaciones con respecto a una variable
numérica. Como ejemplo, consideremos los datos que se muestran en la Tabla 1,
correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticias distintas,
de modo que se desea comparar el peso de los individuos que iniciaron cada una de las dietas.

Como ya se ha adelantado, la aplicación de un contraste paramétrico requiere la normalidad


de las observaciones para cada uno de los grupos. La comprobación de esta hipótesis puede
realizarse tanto por métodos gráficos (por medio de histogramas, diagramas de cajas o
gráficos de normalidad) como mediante test estadísticos (test deKolmogorov-Smirnov, test
de Shapiro-Wilks). Un número suficiente de observaciones (digamos mayor de 30) como
ocurre en el ejemplo planteado justifica, no obstante, la utilización del mismo test. Así
mismo, este tipo de metodología exigirá que la varianza en ambos grupos de observaciones
sea la misma. En primer lugar se desarrollará el test t de Student para el caso en el que se
verifiquen ambas condiciones, discutiendo posteriormente el modo de abordar formalmente
el caso en el que las varianzas no sean similares.

Bajo las hipótesis de normalidad e igual varianza la comparación de ambos grupos puede
realizarse en términos de un único parámetro como el valor medio (Figura 1a), de modo que
en el ejemplo planteado la hipótesis de partida será, por lo tanto:

H0: La media de peso inicial es igual en ambos grupos

Se denotará por {X1, X2,..., Xn} e {Y1, Y2,..., Ym} al peso observado en cada uno de los
sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no se exigirá que
coincida el número de observaciones en cada uno de los grupos que se comparan, de modo
que en el ejemplo n=40 y m=35.

La t test para dos muestras independientes se basa en el estadístico:

(1)
Donde e denotan el peso medio en cada uno de los grupos:

Y, las cuasi varianzas muéstrales correspondientes:

Con lo cual, en este caso particular, el valor utilizado para el contraste será:

Si la hipótesis de partida es cierta el estadístico (1) seguirá una distribución t de Student con
n+m-2 grados de libertad. De ser así, el valor obtenido debería estar dentro del rango de
mayor probabilidad según esta distribución. Usualmente se toma como referencia el rango
de datos en el que se concentra el 95% de la probabilidad. El valor-p que usualmente reportan
la mayoría de paquetes estadísticos no es más que la probabilidad de obtener, según esa
distribución, un dato más extremo que el que proporciona el test.

Como ya se dijo, refleja también la probabilidad de obtener los datos observados si fuese
cierta la hipótesis inicial. Si el valor-p es muy pequeño (usualmente se considera p<0.05) es
poco probable que se cumpla la hipótesis de partida y se debería de rechazar. La región de
aceptación corresponde por lo tanto a los valores centrales de la distribución para los que
p>0.05. En el ejemplo planteado el valor-p correspondiente es de 0.425, de modo que no
existe evidencia estadística de que el peso medio en ambos grupos sea diferente. En la Tabla
2, se determina los grados de libertad (en la primera columna) y el valor de α (en la primera
fila). El número que determina su intersección es el valor crítico correspondiente. De este
modo, si el estadístico que se obtiene toma un valor mayor se dirá que la diferencia es
significativa. Otro modo de obtener esta misma información es mediante el cálculo de
intervalos de confianza para la diferencia de la respuesta media en ambos grupos. A mayores,
el intervalo de confianza constituye una medida de la incertidumbre con la que se estima esa
diferencia a partir de la muestra, permitiendo valorar tanto la significación estadística como
la magnitud clínica de esa diferencia

6. En el caso que nos ocupa, el intervalo de confianza vendrá dado como:

Donde denota el valor que según la distribución t de Student con n+m-2 grados de libertad
deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza con una
seguridad del 95% para la diferencia de peso viene dado por: Que expresa en definitiva un
rango de valores entre los que se puede encontrar el valor real de la diferencia entre los pesos
de ambos grupos. Proporciona además la misma información que obteníamos del contraste
estadístico. El hecho de que el valor cero pertenezca al intervalo indica que no se dispone de
evidencia para concluir que el peso sea distinto en ambos grupos. A medida que el tamaño
muestral aumenta, la distribución del estadístico (1) se hace más próxima a la de una variable
Normal estándar. De este modo, en algunos textos se opta por utilizar esta distribución para
realizar la comparación de medias. Aunque esta aproximación es correcta para muestras
suficientemente grandes, ambos métodos proporcionan en este caso resultados prácticamente
idénticos, por lo que resulta más simple utilizar, independientemente del tamaño de la
muestra, la misma metodología a partir de la distribución t. El mismo planteamiento podría
utilizarse en el caso de varianzas distintas o de muestras apareadas.

Dos muestras dependientes


Ya se ha comentado que cuando se trata de comparar dos grupos de observaciones, es
importante distinguir el caso en el que son independientes de aquel en el que los datos están
apareados. Las series dependientes surgen normalmente cuando se evalúa un mismo dato
más de una vez en cada sujeto de la muestra. También se puede encontrar este tipo de
observaciones en estudios de casos y controles donde cada caso se aparea individualmente
con un control.

Supongamos que queremos comprobar, en los datos de la Tabla 1si realmente se produce una
pérdida de peso significativa en esos individuos, para lo que se recoge en cada sujeto su peso
antes y después de someterse a la dieta. En este tipo de análisis el interés no se centra en la
variabilidad que puede haber entre los individuos, sino en las diferencias que se observan en
un mismo sujeto entre un momento y otro. Por este motivo, resulta intuitivo trabajar con la
diferencia de ambas observaciones (en el ejemplo será la pérdida de peso), de modo que se
quiere contrastar la hipótesis: H0: La pérdida de peso es nula frente a la alternativa de que la
pérdida de peso sea importante (es decir, distinta de cero).La veracidad de dicha hipótesis
puede ser contrastada igualmente mediante el test t de Student. Como se ha dicho, este tipo
de métodos tienen como hipótesis fundamental la normalidad de los datos. En este caso, sin
embargo, no será necesario que las observaciones en ambos grupos provengan de poblaciones
normales, sino que únicamente se requiere verificar la normalidad de su diferencia.
Denotando por la pérdida media de peso la hipótesis de la que se parte es que: frente a la
alternativa A partir de las observaciones muéstrales {Y1, Y2,..., Yn} e {Y1, Y2,..., Yn} en
cada uno de los grupos se calcula la diferencia de peso para cada sujeto {d1, d2,..., dn} con
d j=X j-Y j j=1,2,..., n.

Nótese que en este caso un requisito fundamental es que se tenga un número igual de
observaciones en ambos grupos. A partir de estos datos, el contraste se basa en el estadístico:
o en el cálculo del 95% intervalo de confianza:

Donde denota la media de la pérdida de peso estimada a partir de la muestra:

Y denota la cuasi varianza muestral de la diferencia dada por:

En nuestro ejemplo el valor del estadístico vendría dado por: a comparar del modo habitual
con la distribución t de Student con n-1=74 grados de libertad. El intervalo de confianza para
la pérdida media de peso correspondiente a unas seguridad del 95% es de (3.56; 4.41),
lo cual se traduce en una pérdida de pesosignificativamente distinta de cero, tal y como indi
ca el valor-p correspondiente dep<0.001.

Figura 1. Comparación de dos poblaciones normal esa) Poblaciones normales con igual
varianza y medias distintas) Poblaciones normales con igual y diferentes varianzas.

Figura 2. Regiones de aceptación y rechazo en el contraste de hipótesis


VARIASMUESTRAS DE DATOS NUMÉRICOS

Tabla 1. Datos de 75 pacientes con sobrepeso sometidos a dos dietas alimenticias. Dieta
Peso inicial Peso final Dieta Peso inicial Peso final
Hσ= Desviación estándar de la población que, generalmente cuando no se tiene su valor,
suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles deconfianza.
Es un valor constante que, si no se tiene su valor, se lo toma en relación al95% de confianza
equivale a 1,96 (como más usual) o en relación al 99% de confianza equivale 2,58, valor que
queda a criterio del encuestador. e = Límite aceptable de error muestral que, generalmente
cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09),
valor que queda a criterio del encuestador.

La fórmula anterior se obtiene de la fórmula para calcular la estimación del intervalo de


confianza para la media: X -Z σ/√n ̅√ ((N-n)/(N-1)) ≤μ≤X +Z σ/√n √ ((N-n)/(N-1)) ̅

En donde el error es: e=Z σ/√n √ ((N-n)/(N-1))

Elevando al cuadrado el error se tiene:

〖 (e) 〗^2= (Z σ/√n √ ((N-n)/ (N-1))) ^2 e^2=Z^2σ^2/n (N-n)/ (N-1)

Multiplicando fracciones:

E^2= (〖Z^2 σ〗^2 (N-n))/n(N-1)

Eliminando denominadores:

E^2 n(N-1)=〖Z^2 σ〗^2 (N-n)

Eliminando paréntesis:

E^2 nN-e^2 n=〖Z^2 σ〗^2 N-〖Z^2 σ〗^2 n

Transponiendo n a la izquierda:

E^2 nN-e^2 n+〖Z^2 σ〗^2 n=〖Z^2 σ〗^2 n

Factor común de n

: N (e^2 N-e^2+Z^2 σ^2)=〖Z^2 σ〗^2 n


Despejando n:

n= (〖Z^2 σ〗^2 N)/ (e^2 N-e^2+Z^2 σ^2)

Ordenando se obtiene la fórmula para calcular el tamaño de la muestra:

n= (Nσ^2 Z^2)/ ((N-1) e^2+σ^2 Z^2)

Ejemplo ilustrativo: Calcular el tamaño de la muestra de una población de 500 elementos con
un nivel de confianza del 99%Solución: Se tiene N=500, para el 99% de confianza Z = 2,58,
y como no se tiene los demás valores se tomará σ=0,5, y e = 0,05.

Reemplazando valores en la fórmula se obtiene:

n= (Nσ^2 Z^2)/ ((N-1) e^2+σ^2 Z^2)

n= (500∙〖0,5〗^2〖∙2,58〗^2)/ ((500-1) 〖 (±0,05) 〗^2+〖0,5〗^2∙〖2,58

^2)=832,05/2,9116=285,77=286

Suponga que se tienen dos poblaciones distintas, la primera con media1 y desviación
estándar 1, y la segunda con media 2y desviación estándar 2.

Más aún, se elige una muestra aleatoria de tamaño n1de la primera población y una muestra
independiente aleatoria de tamaño n2de la segunda población; se calcula la media muestral
para cada muestra y la diferencia entre dichas medias. La colección de todas esas diferencias
se llama distribución muestral

T-STUDENT PARA 2 MUESTRAS INDEPENDIENTES

Uno de los análisis estadísticos más comunes en la práctica es probablemente el utilizado


para comparar dos grupos independientes de observaciones con respecto a una variable
numérica.

La aplicación de un contraste paramétrico requiere la normalidad de las observaciones


para cada uno de los grupos. La comprobación de esta hipótesis puede realizarse tanto por
métodos gráficos (por medio de histogramas, diagramas de cajas o gráficos de normalidad)
como mediante test estadísticos. Un número suficiente de observaciones (mayor de 30)
justifica la utilización del mismo test.

Así mismo, este tipo de metodología exigirá que la varianza en ambos grupos de
observaciones sea la misma. En primer lugar se desarrollará el test t de Student para el caso
en el que se verifiquen ambas condiciones, discutiendo posteriormente el modo de abordar
formalmente el caso en el que las varianzas no sean similares.

Bajo las hipótesis de normalidad e igual varianza la comparación de ambos grupos


puede realizarse en términos de un único parámetro como el valor medio.

La t test para dos muestras independientes se basa en el estadístico:

(1)

Donde e denotan el valor medio en cada uno de los grupos.

Si la hipótesis de partida es cierta el estadístico (1) seguirá una distribución t de


Student con (n+m-2 grados de libertad). De ser así, el valor obtenido debería estar dentro del
rango de mayor probabilidad según esta distribución.

Usualmente se toma como referencia el rango de datos en el que se concentra el 95%


de la probabilidad. El valor-p que usualmente reportan la mayoría de paquetes estadísticos
no es más que la probabilidad de obtener, según esa distribución, un dato más extremo que
el que proporciona el test. Como ya se dijo, refleja también la probabilidad de obtener los
datos observados si fuese cierta la hipótesis inicial. Si el valor-p es muy pequeño (usualmente
se considera p<0.05) es poco probable que se cumpla la hipótesis de partida y se debería de
rechazar. La región de aceptación corresponde por lo tanto a los valores centrales de la
distribución para los que p>0.05.

En la siguiente tabla se determina los grados de libertad (en la primera columna) y el


valor de α (en la primera fila). El número que determina su intersección es el valor crítico
correspondiente. De este modo, si el estadístico que se obtiene toma un valor mayor se dirá
que la diferencia es significativa.
Otro modo de obtener esta misma información es mediante el cálculo de intervalos
de confianza para la diferencia de la respuesta media en ambos grupos. A mayores, el
intervalo de confianza constituye una medida de la incertidumbre con la que se estima esa
diferencia a partir de la muestra, permitiendo valorar tanto la significación estadística como
la magnitud clínica de esa diferencia.

A medida que el tamaño muestral aumenta, la distribución del estadístico (1) se hace
más próxima a la de una variable Normal estándar. De este modo, en algunos textos se opta
por utilizar esta distribución para realizar la comparación de medias. Aunque esta
aproximación es correcta para muestras suficientemente grandes, ambos métodos
proporcionan en este caso resultados prácticamente idénticos, por lo que resulta más simple
utilizar, independientemente del tamaño de la muestra, la misma metodología a partir de la
distribución t. El mismo planteamiento podría utilizarse en el caso de varianzas distintas o de
muestras apareadas.

DOS MUESTRAS INDEPENDIENTES CON VARIANZA DISTINTA

El caso en el que se dispone de dos grupos de observaciones independientes con diferentes


varianzas, la distribución de los datos en cada grupo no puede compararse únicamente en
términos de su valor medio. Obviamente, el primer problema a resolver es el de encontrar un
método estadístico que nos permita decidir si la varianza en ambos grupos es o no la misma.
El test de la razón de varianzas viene a resolver este problema. Bajo la suposición de que las
dos poblaciones siguen una distribución normal y tienen igual varianza se espera que la razón
de varianzas:

Siga una distribución F de Snedecor con parámetros (n-1) y (m-1).


En este tipo de situaciones, donde no se debe aplicar el contraste basado en (1),
podemos utilizar una modificación del test para el caso de varianzas desiguales, conocido
como el test de Welch basada en el estadístico:

Que, bajo la hipótesis nula seguirá una distribución t de Student con un número f de grados
de libertad que dependerá de las varianzas muéstrales según la expresión:

La técnica para realizar el contraste es análoga a la vista anteriormente cuando las


varianzas son desconocidas e iguales.

Al igual que en el caso anterior, podrá optarse por calcular el correspondiente 95%
intervalo de confianza para la diferencia de medias dado por:

DOS MUESTRAS DEPENDIENTES

Ya se ha comentado que cuando se trata de comparar dos grupos de observaciones, es


importante distinguir el caso en el que son independientes de aquel en el que los datos están
apareados. Las series dependientes surgen normalmente cuando se evalúa un mismo dato
más de una vez en cada sujeto de la muestra. También se puede encontrar este tipo de
observaciones en estudios de casos y controles donde cada caso se aparea individualmente
con un control.

En este tipo de análisis el interés no se centra en la variabilidad que puede haber entre
los individuos, sino en las diferencias que se observan en un mismo sujeto entre un momento
y otro. Por este motivo, resulta intuitivo trabajar con la diferencia de ambas observaciones.

4.5 PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD DE LAS


VARIANZAS DE DOS POBLACIONES NORMALES.
La necesidad de disponer de métodos estadísticos para comparar las varianzas de dos
poblaciones es evidente a partir del análisis de una sola población. Frecuentemente se desea
comparar la precisión de un instrumento de medición con la de otro, la estabilidad de un
proceso de manufactura con la de otro o hasta la forma en que varía el procedimiento para
calificar de un profesor universitario con la de otro.

Intuitivamente, podríamos comparar las varianzas de dos poblaciones, y ,


utilizando la razón de las varianzas muéstrales s21/s22. Si s21/s22 es casi igual a 1, se tendrá

poca evidencia para indicar que y no son iguales. Por otra parte, un valor muy
grande o muy pequeño para s21/s22, proporcionará evidencia de una diferencia en las
varianzas de las poblaciones.

La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadrada


independiente, cada una dividida entre sus respectivos grados de libertad. Esto es,
Donde U y V son variables aleatorias ji-cuadrada independientes con grados de libertad

y respectivamente.

Sean U y V dos variables aleatorias independientes que tienen distribución ji cuadradas

con grados de libertad, respectivamente. Entonces la distribución de la variable

aleatoria está dada por:

Y se dice que sigue la distribución F con grados de libertad en el numerador y


grados de libertad en el denominador.

La media y la varianza de la distribución F son:

Para

para

La variable aleatoria F es no negativa, y la distribución tiene un sesgo hacia la derecha. La


distribución F tiene una apariencia muy similar a la distribución ji-cuadrada; sin embargo, se
encuentra centrada respecto a 1, y los dos parámetros proporcionan una flexibilidad
adicional con respecto a la forma de la distribución.

Si s12 y s22 son las varianzas muéstrales independientes de tamaño n1 y n2 tomadas

de poblaciones normales con varianzas y , respectivamente, entonces:

Para manejar las tablas de Fisher del libro de Introducción a la Inferencia Estadística del autor
Güenther, se tendrá que buscar primero los grados de libertad dos para luego localizar el área
correspondiente, relacionándola con los grados de libertad uno, para calcular el valor de F.

Las tablas tienen la siguiente estructura:

P 1 2 3…….….. 500 …

6 0.0005

0.001

0.005

0.9995 30.4
El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y 6
grados de libertad dos con un área de cero a Fisher de 0.995. Si lo vemos gráficamente:

Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma depende de
dos variables que son los grados de libertad.

Ejemplos:

1. Encontrar el valor de F, en cada uno de los siguientes casos:

a. El área a la derecha de F, es de 0.25 con =4 y =9.

b. El área a la izquierda de F, es de 0.95 con =15 y =10.

c. El área a la derecha de F es de 0.95 con =6 y =8.

d. El área a la izquierda de F, es de 0.10 con =24 y

=24

Solución:

a. Como el área que da la tabla es de cero a Fisher, se tiene que localizar primero los
grados de libertad dos que son 9, luego un área de 0.75 con 4 grados de libertad uno.
b. En este caso se puede buscar el área de 0.95 directamente en la tabla con sus
respectivos grados de libertad.

c. Se tiene que buscar en la tabla un área de 0.05, puesto que nos piden un área a la
derecha de F de 0.95.

d. Se busca directamente el área de 0.10, con sus respectivos grados de libertad.


1. Si s12 y s22 son las varianzas muéstrales de muestras aleatorias independientes de
tamaños n1=10 y n2 =20, tomadas de poblaciones normales que tienen las mismas
varianzas, encuentre P (s12/s22 2.42).

Solución:

Primero se establecen los grados de libertad. Como en el numerador está la población


uno y en el denominador la población dos, entonces los grados de libertad uno
equivalen a 10-1=9 y los grados de libertad dos a 20-1=19.

Se procede a ir a la tabla a buscar los grados de libertad dos que son 19 y se observa
que no están, por lo tanto se tiene que interpolar entre 15 y 20 grados de libertad,
buscando el valor de Fisher que quedaría:

Este valor de 2.42 se busca en la columna de 9 grados de libertad uno, con 15 grados
de libertad dos, y se encuentra el siguiente:

Área

0.90 2.09

0.95 2.59
Al interpolar entre estos dos valores nos queda un área de 0.933.

Se procede a hacer lo mismo pero con 20 grados de libertad dos:

Área

0.95 2.39

0.975 2.84

Al interpolar entre estos dos valores nos queda un área de 0.9516.

Ahora ya se tienen las dos áreas referentes a los grados de libertad dos, por lo que se
interpolará para ver cuánto le corresponde a los grados libertad dos con un valor de
19.

Área

15 0.933

20 0.9516

Al interpolar nos queda que para 9 grados de libertad uno y 19 grados de libertad dos
con un valor de Fisher de 2.42 el área a la izquierda es de 0.9478.
Si s12 y s22 representan las varianzas de las muestras aleatorias independientes de tamaño n1=
2
25 y n2 = 31, tomadas de poblaciones normales con varianzas 1 =10 y 22 = 15,
respectivamente, encuentre P (s12/s22 > 1.26).

Solución:

Calcular el valor de Fisher:

Luego se va a la tabla de Fisher a buscar 30 grados de libertad 2 con 24 grados de libertad


uno. Cuando se esté en esta posición se busca adentro de la tabla el valor de Fisher de 1.89.
Al localizarlo y ver a la izquierda de este valor se obtiene un área de 0.95, pero esta área
correspondería a la probabilidad de que las relaciones de varianzas muéstrales fueran menor
a 1.26, por lo que se calcula su complemento que sería 0.05, siendo esta la probabilidad de
que s12/s22 > 1.26.

Intervalo de Confianza para el Cociente de Varianzas de Dos Distribuciones


Normales

Supóngase que se tienen dos poblaciones normales e independientes con varianzas


2 2
desconocidas y 2 , respectivamente. De este par de poblaciones, se tienen
disponibles dos muestras aleatorias de tamaños n1 y n2, respectivamente, sean s12 y s22 las

dos varianzas muéstrales. Se desea conocer un intervalo de confianza del 100( ) por
2 2
ciento para el cociente de las dos varianzas, 1 / 2 .
Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales, se
coloca la varianza muestral mayor en el numerador del estadístico F.

Ejemplos:

1. Un fabricante de automóviles pone a prueba dos nuevos métodos de ensamblaje de


motores respecto al tiempo en minutos. Los resultados se muestran en la tabla:

Método 1 Método 2

n1 = 31 n2 = 25

s12 = 50 s22 = 24

2 2
Construya un intervalo de confianza del 90% para 1 / 2 .

Solución:

Por la recomendación de que la varianza muestral mayor va en el numerador se tiene


la siguiente fórmula:

Al despejar: .

F toma dos valores dependiendo del nivel de confianza y de los grados de libertad.
En este caso los grados de libertad uno valen 30 y los grados de libertad dos 24.
Y

Estos resultados los podemos interpretar de la siguiente manera:

2
Con un nivel de confianza del 90% se sabe que la relación de varianzas 1 /
2
2 esta entre 1.07 y 3.93. Esto supondría que la varianza de la población 1 es mayor a
la varianza de la población 2 entre 1.07 y 3.93.

2. Una compañía fabrica propulsores para uso en motores de turbina. Al ingeniero de


manufactura le gustaría seleccionar el proceso que tenga la menor variabilidad en la
rugosidad de la superficie. Para ello toma una muestra de n1=16 partes del primer
proceso, la cual tiene una desviación estándar s1 = 4.7 micro pulgadas, y una muestra
aleatoria de n2=12 partes del segundo proceso, la cual tiene una desviación estándar
s2 = 5.1 micro pulgadas. Se desea encontrar un intervalo de confianza del 90% para
2
el cociente de las dos varianzas 1 /

2
2 . Suponga que los dos procesos son independientes y que la rugosidad de la superficie está
distribuida de manera normal.

Solución:

Por la recomendación de que la varianza muestral mayor va en el numerador se tiene la


siguiente fórmula:
Al despejar: .

En este caso los grados de libertad uno valen 11 y los grados de libertad dos 15.

Estos resultados los podemos interpretar de la siguiente manera:

Puesto que este intervalo de confianza incluye a la unidad, no es posible afirmar que las
desviaciones estándar de la rugosidad de la superficie de los dos procesos sean diferentes con
un nivel de confianza del 90%.

Ensayo de Hipótesis

Supóngase que se tiene interés en dos poblaciones normales independientes, donde las
medias y las varianzas de la población son desconocidas. Se desea probar la igualdad de las
dos varianzas, ya que para poder comparar las medias de estas dos poblaciones se utiliza la
distribución t de Student, en la cual podemos tener varianzas iguales o diferentes en la
población.

Para conocer esto último se requiere de la distribución Fisher, y después de utilizarla, se


tomará la decisión de tener o no varianzas iguales en la población, dando pie a realizar la
comparación de las dos medias según estemos hablando. Primer caso en que las varianzas de
la población son desconocidas pero iguales, o en el caso dos donde se tienen varianzas
desconocidas pero disímiles.

Para el ensayo de hipótesis se utilizará la relación de varianzas, la cual puede dar tres
resultados:

En base a lo que se quiera probar, el ensayo podrá ser unilateral derecho, izquierdo o bilateral.

Ejemplos:

1. La variabilidad en la cantidad de impurezas presentes en un lote de productos


químicos, utilizada para un proceso en particular, depende del tiempo que tarda el
proceso. Un fabricante que emplea dos líneas de producción 1 y 2, hizo un pequeño
ajuste al proceso 2, con la esperanza de reducir la variabilidad, así como la cantidad
media de impurezas en los productos químicos. Muestras de n1=25 y n2=20
mediciones de dos lotes produjeron las siguientes medias y varianzas:

¿Presentan los datos evidencia suficiente para indicar que las variaciones del proceso
son menores para el 2? Realice una prueba con un = 0.05.

Solución:

Datos:

Población 1 Población 2
n1 = 25 n2 = 20

= 0.05

Ensayo de hipótesis:

Estadístico de prueba:

La sugerencia que se hace es que el numerador sea el de valor mayor.

Entonces los grados de libertad uno será el tamaño de la muestra de la población uno menos

uno. 1= 25-1 = 24 y 2 = 20-1=19.


Regla de decisión:

Si Fc 2.11 No se rechaza Ho,

Si la Fc > 2.11 se rechaza Ho.

Cálculo:

Decisión y Justificación:

Como 2.04 es menor que 2.11 no se rechaza Ho, y se concluye con un = 0.05 que no
existe suficiente evidencia para decir que la varianza del proceso 2 es menor que la del
proceso 1.

2. En su incansable búsqueda de un sistema de llenado adecuado, cierta empresa prueba


dos máquinas. Robo-fill se usa para llenar 16 tarros y da una desviación estándar de
1.9 onzas en el llenado. Con Automat-fill se llenan 21 frascos que dan una desviación
estándar de 2.1 onzas. Si la empresa tiene que elegir uno de estos sistemas en función
de la uniformidad de llenado. ¿Cual deberá seleccionar? Use un = 0.10.

Solución:
Datos:

Robo-Fill

sRF = 1.9

nRF = 16

= 0.10

Automat-Fill

sAF = 2.1

nAF = 21

Ensayo de hipótesis:

Estadístico de prueba:

La sugerencia que se hace es que el numerador sea el de valor mayor.

Entonces los grados de libertad uno será el tamaño de la muestra de la población uno menos

uno. 1= 21-1 = 20 y 2 = 16-1=15.


Regla de decisión:

Si Fc 2.20 No se rechaza Ho,

Si la Fc > 2.20 se rechaza Ho.

Cálculo:

Decisión y Justificación:

Como 1.22 es menor que 2.20 no se rechaza Ho, y se concluye con un = 0.10 que la
variación de llenado de la máquina Robo-Fill no es menor a la de Automat-Fill, por lo que
se selecciona cualquier máquina.

3. Las capas de óxido en las obleas semiconductoras son depositadas en una mezcla de
gases para alcanzar el espesor apropiado. La variabilidad del espesor es una
característica crítica de la oblea, y lo deseable para los siguientes pasos de la
fabricación es tener una variabilidad baja. Para ello se estudian dos mezclas diferentes
de gases con la finalidad de determinar con cuál se obtienen mejores resultados en
cuanto a la reducción en la variabilidad del espesor del óxido. Veintiuna obleas son
depositadas en cada gas. Las desviaciones estándar de cada muestra del espesor del
óxido son s1 = 1.96 angstroms y s2 = 2.13 angstroms. ¿Existe evidencia que indique
una diferencia en las desviaciones? Utilice =0.05.
Solución:

Datos:

s1= 1.96

n1 = 21

s2 = 2.13

n2= 21

Ensayo de hipótesis:

Estadístico de prueba:

La sugerencia que se hace es que el numerador sea el de valor mayor.

Entonces los grados de libertad uno será el tamaño de la muestra de la población uno menos

uno. 1= 21-1 = 20 y 2 = 21-1=20.

Regla de decisión:
Si 0.406 Fc 2.46 No se rechaza Ho,

Si la Fc < 0.406 ó si Fc > 2.46 se rechaza Ho.

Cálculo:

Decisión y Justificación:

Como 0.85 está entre los dos valores de Ho no se rechaza, y se concluye con un = 0.05
que existe suficiente evidencia para decir que las varianza de las poblaciones son iguales.

Error Tipo II o

1. Para el ejercicio anterior, encontrar la probabilidad de cometer error tipo II si la

verdadera relación .

Solución:
1. Del ejercicio número 1 del ensayo de hipótesis en donde la variabilidad en la cantidad
de impurezas presentes en un lote de productos químicos dependía del tiempo que
tardaba el proceso y el fabricante empleaba dos líneas de producción 1 y 2, e hizo un
pequeño ajuste al proceso 2, calcular la probabilidad de cometer error tipo II si le

relación

1.5.

Solución:

Por lo tanto s12/s22 = 2.11 ya que esto fue lo que dio la tabla y al despejar
nos queda los mismo. Se calcula un nuevo valor de F con la relación de varianzas de 1.5.
Si se recuerda para este ejercicio se tienen 24 grados de libertad uno y 19 de grados de libertad
dos, por lo que se tiene que hacer una doble interpolación ya que 19 grados de libertad dos
no vienen en la tabla.

Primero se interpolará para 24 grados de libertad uno y 15 grados de libertad dos:

Área Valor de F

0.50 1.02

0.75 1.41

Al interpolar para un valor de Fisher de 1.406 se ve que este valor está muy cercano a 1.41,
el cual le corresponde un área de 0.75, por lo que queda un resultado de 0.7474

Ahora se procede a interpolar para 24 grados de libertad uno y 20 grados de libertad dos:

Área Valor de F

0.75 1.35

0.90 1.77

La interpolación para un valor de Fisher de 1.406 es de 0.77.

Teniendo los dos valores, se puede calcular el área correspondiente a 24 grados de libertad
uno y 19 grados de libertad dos:

Área

15 0.7474

20 0.77
Por lo tanto al interpolar para 19 grados de libertad dos nos dan un valor de 0.76548

4.6 COMPARACIONES DE DOS MUESTRAS PAREADAS

Las muestras apareadas se obtienen usualmente como distintas observaciones realizadas


sobre los mismos individuos. Un ejemplo de observaciones paradas consiste en considerar a
un conjunto de n personas a las que se le aplica un tratamiento médico y se mide por ejemplo
el nivel de insulina en la sangre ante (x) y después del mismo (y). En este ejemplo no es
posible considerara a x e como variables independientes ya que va a existir una dependencia
clara entre las dos variables.

Si se quiere contrastar si hay diferencia entre las poblaciones, llamémosla di a la diferencia


entre las observaciones antes y después. El concepto de pruebe parada se puede extender a
comparaciones de más de dos grupos y hablemos entonces de bloques de m elementos (tantos
elementos por bloque como grupos o tratamientos), siendo por tanto una pareja un caso
particular de bloque de 2 elementos. Hablaremos de este tipo de diseños más adelante, cuando
indiquemos algún artículo al análisis de la varianza, que es la prueba que se utiliza para
comparar más de dos grupos.

En estas técnicas de formación de bloques el observador deja de ser un mero observador,


para pasar a “diseñar” el estudio o el experimento, y es una metodología de gran utilidad en
muchos tipos de trabajos de investigación en diversas áreas, desde la agricultura que fue
donde se inició, a la medicina, biología, e ingeniería. El fundamento en el que se basan es en
suponer que el bloque es más homogéneo que el conjunto, por lo que extinguiendo las
comparaciones entre tratamientos al interior de los bloques se espera obtener mayor
precisión.

4.7 MODELO TOTALMENTE ALEATORIO: ANÁLISIS DE VARIACIÓN DE


UN FACTOR.

En estadística, el análisis de la varianza (ANOVA, según terminología inglesa) es una


colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza esta
particionada en ciertos componentes debidos a diferentes variables explicativas.

Las técnicas iniciales del analistas de varianza fueron desarrolladas por el a estadístico y
genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como “Anova de
Fisher” o “análisis de varianza de Fisher”, debido al uso de la distribución F de Fisher como
parte del contraste de hipótesis.

Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren
diferencias incomparables en el material o grupo experimental. El ejemplo más simple es el
de estimar la media desconocida de una población compuesta de individuos diferentes y en
el que esas diferencias se mezclan con los errores del instrumento de medición.
Este método se supone cuando el investigador está interesado por una población de niveles,
teóricamente infinitos, del factor de estudio, de los que únicamente una muestra al azar (t
niveles) están presentes en el experimento.

El análisis de la varianza permite contrastar la hipótesis nula que las medidas de K


poblaciones (k> 2) son iguales, frente a la hipótesis alternativa de que por lo menos una de
las poblaciones difieren de las demás en cuanto su valor esperado. Este contraste es
fundamental en el análisis de resultados experimentales, en los que interesa comparar los
resultados de K “tratamientos” o “factores” con respecto a la variable dependiente o de
interés.

El ANOVA requiere el cumplimiento los siguientes supuestos:

Las poblaciones (distribuciones de probabilidad de la variable dependiente corresponde a


cada factor) son normales.

Las K muestras sobre las que se aplican los tratamientos son independientes.

Las poblaciones tienen toda igual varianza (homoscedasticidad).

El Anova se basa en la composición de la variación total de los datos con respecto a la media
global.

4.8 SELECCIÓN DEL TAMAÑO DE MUESTRA PARA ESTIMAR L A


DIFERENCIA DE DOS MEDIAS.
En ocasiones interesa definir un intervalo de valores tal que permita establecer cuáles son los
valores mínimos y máximos aceptables para la diferencia entre las medias de dos
poblaciones. Puede darse dos situaciones según las muestras sean o no independientes; siendo
en ambos casos condición necesaria que las poblaciones de origen sean normales o
aproximadamente normales.
4.9 APLICACIONES

BIBLIOGRAFÍA

• Walpole. Probabilidad y estadística. Editorial McGraw Hill.


• Levin I. Richard Estadística para administradores. Editorial: Prentice-Hall.
• Mendenhall, William, Richard L. Scheaffer & Dennis D. Wackerly,
Estadística Matemática con Aplicaciones, Grupo Editorial Iberoamérica.

Das könnte Ihnen auch gefallen