Resumen Muestras PDF

ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
Teorı́a de muestras
INTRODUCCIÓN A LA TEORÍA DE MUESTRAS
Cuando se lleva a cabo una investigación estadı́stica, se pretende realizar alguna inferencia
acerca de situaciones aparentemente influidas por el azar. Por ejemplo, si se quiere conocer el
grado de eficacia de un nuevo medicamento, la resistencia de un nuevo material para fabricar
bombillas, la evolución a corto plazo del número de parados, etc. El primer paso para emplear la
Estadı́stica como disciplina cientı́fica en el estudio de este tipo de fenómenos, consiste en identificar
el conjunto de entes reales o potenciales sobre los que se pretende obtener información, estudiando
una caracterı́stica dada, al que se denomina población. En los ejemplos anteriores, las personas
con la dolencia que trata el nuevo medicamento, las bombillas fabricadas con el nuevo material o
la población activa.
Cuando el investigador toma información de todos y cada uno de los elementos de la población
se dice que está realizando un censo. Sin embargo, esto no es muchas veces posible, ya sea por
el coste que resulta de la toma de información, bien porque ésta lleve consigo la destrucción del
ente en cuestión o también porque la población está constituida por entes potenciales, como por
ejemplo, enfermos con una determinada dolencia. Este problema lleva al investigador a tomar la
información de unos cuantos elementos de la población estadı́stica y este proceso recibe el nombre
de muestreo. El conjunto de elementos de los que se toma información se llama muestra y el
número de elementos que la componen, tamaño muestral.
Existen distintos tipos de muestreo (estratificado, por conglomerados, sistemático...) que
garantizan la representatividad de la muestra según sean las diferencias entre los elementos de
la población. Cuando no dispongamos de esta información y los elementos sean indistinguibles
o intercambiables a priori y perfectamente homogéneos respecto a la variable que estudiamos, la
muestra se selecciona con muestreo aleatorio simple, que es aquél en el que cada elemento de la
población tiene la misma probabilidad de ser elegido para la toma de información y las observa-
ciones se realizan con reemplazamiento, de manera que la población es idéntica en cada extracción.
El investigador básicamente selecciona una muestra de la población para que, a través de la

observación del comportamiento individual de cada uno de sus elementos, se puedan obtener unas
leyes generales acerca del comportamiento de todos los elementos de la población. La metodologı́a
que se utiliza para hacer referencias, predicciones y generalizaciones sobre la población, basándose
en la información contenida en la muestra, recibe el nombre de Inferencia Estadı́stica.
MUESTRA ALEATORIA. ESTADÍSTICOS. DISTRIBUCIONES EN EL MUESTREO.
Supongamos que disponemos de una población estadı́stica que es susceptible de ser descrita
mediante un modelo probabilı́stico de una sola variable aleatoria X. Dicho modelo dependerá
de uno o más parámetros que, si fueran conocidos, nos servirı́an para describir perfectamente el
modelo en cuestión. Sin embargo, en la realidad ocurre que estos parámetros son desconocidos
pero podemos obtener información acerca de ellos mediante la observación repetida de la variable
en estudio. Por ejemplo, supongamos que se está estudiando la longitud del caparazón de la especie
de tortuga marina más común en el Mediterráneo, caretta caretta. Es un hecho empı́ricamente
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 1

probado que muchas de las caracterı́sticas morfológicas (longitudes, pesos, diámetros, concentra-
ciones de ciertos compuestos en sangre, etc.) de los individuos de una población biológica, siguen
una distribución normal. Por tanto, se puede admitir que la variable X=”longitud del caparazón
de una caretta caretta” sigue un modelo de distribución normal N(µ, σ), cuyos parámetros µ y σ
son desconocidos.
Para conocer cuáles son los valores de dichos parámetros, se observaran la longitud, Xi , de los
caparazones de una muestra representativa de n tortugas. En lenguaje de la teorı́a de probabil-
idades, esto significa que estamos considerando n variables aleatorias independientes X1 , . . . , Xn
cuya distribución de probabilidad es la misma que la de la variable aleatoria X de partida, que
representa la longitud del caparazón de una caretta caretta del Mediterráneo. Las X1 , X2 , . . . , Xn
son, pues, una muestra aleatoria simple tomada de una hipótetica población de posibles obser-
vaciones. Para ser aún más explı́citos, X1 = ”longitud del caparazón de la primera tortuga de la
muestra tomada” es una variable aleatoria continua, que puede tomar infinitos valores reales, y
cuya distribución de probabilidad se admite que sigue un modelo normal de parámetros µ y σ.
Lo mismo sucede para X2 , X3 , . . . , Xn .
Fruto de la observación de la caracterı́stica objeto de estudio, en los elementos de la muestra,
se obtiene lo que se llama realización de la muestra, que no es más que el conjunto x1 , x2 , . . . , xn
de valores observados finalmente, de todos los posibles que podı́an tomar las n variables aleatorias
que forman la muestra.
Ası́, si el interés se centra en estimar la longitud media del caparazón y se sabe que dicha
variable se modeliza con una distribución normal, el primero de los dos parámetros de los que
depende dicha distribución, representa la cantidad que se pretende aproximar. Una vez observada
la caracterı́stica en los n individuos, se dispondrá de una realización de la muestra x1 , x2 , . . . , xn ,
es decir, de las longitudes del caparazón en n tortugas y entonces, nos preguntamos ¿qué valor
debe asignarse al parámetro µ? Evidentemente, a nadie le sorprende que sea un valor basado en la
realización de la muestra. Más aún, si se quiere obtener información sobre la media poblacional,
parece lógico pensar en que se puede utilizar la media muestral, esto es, la media aritmética de
los valores observados en la muestra: Pn
xi
x = i=1
n
Aunque podrı́a emplearse como medida alternativa, la media aritmética de los valores de la
muestra que quedan una vez que se hayan eliminado el más grande y el más pequeño, por ejemplo,
en lugar de todos los observados. No cabe duda de que, en cualquier caso, un procedimiento
razonable será utilizar una determinada función de las observaciones muestrales. Dando un paso
atrás, podemos pensar en todos los posibles valores teóricos que se podrı́an obtener para la media
muestral o para cualquier otra función que dependa de los valores de la muestra.
Surge ası́ el concepto de estadı́stico, como el de una función T de las variables aleatorias
X1 , X2 , . . . , Xn , que componen una muestra aleatoria. Al ser función de varias variables aleatorias,
un estadı́stico es también una variable aleatoria a cuya distribución se denomina distribución en
el muestreo o distribución muestral del estadı́stico, que dependerá en general de los parámetros
desconocidos de la población X.
Otro ejemplo de estadı́stico que puede usarse como estimador de otro parámetro poblacional,
lo constituye la varianza muestral, que se define de la forma natural, es decir, como la varianza
de los elementos de una muestra Pn
(Xi − X)2
s = i=1
2
n

Ésta es una variable aleatoria que podrá tomar infinitos valores, no previsibles, hasta que se hace
efectivo el muestreo, y que tendrá su propia distribución de probabilidad.
¿Para qué puede servir conocer la distribución en el muestreo de una determinado estadı́stico?
Téngase en cuenta que los dos estadı́sticos hasta ahora considerados, media y varianza muestral,
han surgido de forma natural como estimadores de la media y la varianza poblacional, respecti-
vamente, sin embargo no tenemos evidencias, de que dichas estimaciones vayan a ser fiables. Éso
va a depender precisamente, de la distribución en el muestreo del estadı́stico que se tome como
estimador, puesto que dicha distribución explica qué valores puede tomar dicho estadı́stico y con
qué probabilidades.
ESTIMACIÓN PUNTUAL
Asociado a infinidad de fenómenos no previsibles o aleatorios, se realizan constantemente esti-

maciones de los parámetros que determinan el comportamiento de dicho fenómeno. Con el objetivo
de prever el número de camas disponibles en un hospital, se hacen estimaciones del número de
pacientes atendidos diariamente; para poder atender la demanda, las empresas tienen que estimar
la media y dispersión de las ventas que van a realizar de sus productos; para sacar conclusiones
acerca de la eficacia de cierto retroviral, los investigadores necesitan conocer la concentración
media de leucocitos en sangre de los pacientes seropositivos, etc.
El proceso se basa en observar los valores que toma una muestra aleatoria X1 , X2 , . . . , Xn
de la población y combinar dichas observaciones x1 , x2 , . . . , xn adecuadamente, de forma que la
función resultante T (x1 , x2 , . . . , xn ) sea una buena aproximación del parámetro poblacional. Por
tanto, el proceso de estimación puntual utiliza un estadı́stico,T , que en este caso se denomina
estimador puntual y como tal estadı́stico tiene una distribución en el muestreo, que depende en
general del parámetro en cuestión. A una realización particular del estimador puntual se le llama
estimación puntual, que es el valor numérico que se toma para aproximar el parámetro poblacional
desconocido.
Pero, ¿cuál es el estadı́stico T más apropiado? Lo razonable es observar la distribución en el
muestreo de dicho estadı́stico para tener una idea aproximada de los posibles valores que puede
tomar y comparar éstos con el valor del parámetro poblacional.
Se utilizan diversos criterios para medir la bondad del estimador:
• Para que, en promedio, el valor del estimador T utilizado esté cercano al valor del parámetro
poblacional a determinar, debe ocurrir que el valor esperado o esperanza matemática de dicho
estadı́stico, sea el propio parámetro. En tal caso, se dice que el estimador es insesgado o
centrado y, en caso contrario, se dice sesgado, llamando sesgo del estimador T a la desviación
entre el valor esperado E(T ) y el verdadero valor del parámetro.
La insesgadez no es, en sı́ misma, aisladamente, una propiedad muy satisfactoria, ya que
no es posible afirmar nada acerca de lo alejado que resulte el valor de T , en una muestra
concreta. Además, no implica absolutamente nada respecto a la dispersión de la distribución
del estimador.
• Un estimador que sea insesgado pero que tenga una varianza muy alta, producirá a menudo
estimaciones muy alejadas del objetivo (es decir, muy alejadas del verdadero valor del
parámetro). Ello conduce a elegir un estimador centrado, cuya varianza sea lo menor posi-
ble. Obsérvese que una varianza pequeña, por sı́ sola, tampoco es una buena propiedad
para un estimador, puesto que si todos los valores están muy cercanos a un valor medio muy
distinto del parámetro, la estimación puntual que se haga con él en una muestra concreta,
será con una probabilidad alta, distinto al valor real del parámetro poblacional. Por tanto,
será bueno, elegir como estimador de un parámetro poblacional un estadı́stico centrado y de
varianza mı́nima.
ESTIMADORES PUNTUALES MÁS USUALES
Independientemente de cuál sea el proceso de selección del estimador a utilizar, una vez elegido,
lo lógico es analizar los resultados obtenidos. No es posible comparar el valor estimado con el real,
precisamente porque el valor del parámetro poblacional es desconocido. Pero sı́ se puede conocer
lo mejor posible la distribución de probabilidad del estimador, para saber cómo se distribuirán
sus posibles valores alrededor del parámetro a estimar.
A continuación se enumeran los estimadores puntuales más usados para distintos parámetros
poblacionales.
Supongamos que una población está representada por la variable estadı́stica X con distribución
conocida (por ejemplo, una distribución normal) y tal que E(X) = µ y Var(X) = σ 2 .
Media muestral
Para una muestra aleatoria simple X1 , X2 , . . . , Xn de tamaño n se define la media muestral
como el estadı́stico Pn
Xi
X = i=1
n
Siempre que se trate de obtener estimaciones puntuales sobre la media poblacional µ, se tomará
el valor observado de la media muestral, x.
Cuasivarianza muestral
Para una muestra aleatoria simple X1 , X2 , . . . , Xn de tamaño n se define la cuasivarianza
muestral como el estadı́stico Pn
(Xi − X)2
S = i=1
2
n−1
Es un estimador insesgado de la varianza poblacional y de varianza mı́nima.
Quizás lo natural, en principio, es considerar como estimador de la varianza poblacional al
estadı́stico varianza muestral definido por
Pn
2 i=1 (Xi − X)2
s =
n
No se hace ası́ porque este estadı́stico, no es centrado, es decir su esperanza o valor esperado no
coincide con el valor de la varianza poblacional, σ 2 , sino que tiene un sesgo que tiende a subestimar
por término medio, el valor real de la varianza.
Obsérvese que la cuasivarianza y la varianza de la muestra vienen relacionadas por:
n−1 2 n 2
s2 = S o lo que es igual S 2 = s
n n−1
Por lo anteriormente expuesto, siempre que se trate de obtener estimaciones puntuales sobre
la varianza poblacional σ 2 , se tomará el valor observado de la cuasivarianza muestral, S 2 .

Proporción muestral
Cuando se considera una prueba de Bernoulli, con probabilidad de éxito p, desconocida, se
repite la prueba n veces (se considera un muestra aleatoria de tamaño n), de forma que un
estimador puntual de p será
número de éxitos en las n pruebas
p̂ =
número de pruebas, n
Este estimador es insesgado y de varianza mı́nima, luego es el que se utiliza como estimador
puntual para la probabilidad de éxito.
Por ejemplo, supongamos que se quiere estimar la proporción de ciudadanos que piensan votar
a un determinado candidato en unas elecciones municipales. LLevadas a cabo n observaciones,
X1 , X2 , . . . , Xn , es decir preguntados n electores, se obtendrán unos o ceros, según los electores
preguntados piensen votar o no al candidato. Ası́, se tomará como estimación del porcentaje de
votos que tendrá dicho candidato en las elecciones, como la proporción de electores que piensan
votarle de los n preguntados.
ESTIMACIÓN POR INTERVALOS
La estimación puntual consiste en la asignación de un único número real, obtenido a partir de

las observaciones muestrales, como pronóstico del valor de un parámetro poblacional desconocido.
Sin embargo y, a pesar de que los estimadores se han tomado de manera que los posibles valores
que proporciona para el valor del parámetro están centrados alrededor del propio parámetro, serı́a
extraño que la estimación coincida exactamente con el valor real del parámetro para una realización
determinada de la muestra. Por esta razón, resulta más realista buscar un intervalo numérico I
en el cual se encuentre el valor del parámetro con una probabilidad prefijada, suficientemente alta
como para proporcionar una seguridad razonable de que el valor del parámetro se encuentra entre
el lı́mite inferior y el superior de dicho intervalo.
Supongamos que se pretende estimar un parámetro poblacional θ, para lo cual se toma una
muestra aleatoria X1 , X2 , . . . , Xn . Lo que ahora se pretende es buscar una pareja de estadı́sticos
Li , lı́mite inferior, y Ls , lı́mite superior (ambos obtenidos a partir de los elementos que forman la
muestra) de forma que
P (Li ≤ θ ≤ Ls ) = 1 − α
siendo 1 − α un número real prefijado al que se denomina nivel de confianza. El intervalo [Li , Ls ]
recibe el nombre de intervalo de confianza para el parámetro θ al nivel de confianza 1 − α.
Obsérvese que los valores de los estadı́sticos Li y Ls variarán según las realizaciones de la
muestra tomada. Es frecuente que el nivel de confianza, se exprese en porcentajes, de manera
que si, por ejemplo, el nivel de confianza es del 95%, ésto significa que si tuviéramos k mues-
tras diferentes y para cada una de ellas calculáramos el correspondiente intervalo de confianza,
sucederı́a que aproximadamente el 95% de los intervalos calculados contendrı́an el valor auténtico
del parámetro poblacional desconocido.
Los problemas más frecuentes en la práctica, en cuanto a la estimación de parámetros pobla-
cionales por medio de intervalos, son la determinación de intervalos de confianza para:
• la media de una distribución normal
• la varianza de una distribución normal

• diferencia de medias de dos poblaciones normales
• cociente de varianzas de dos poblaciones normales
• probabilidad de éxito en una prueba de Bernoulli, es decir, parámetro p de una binomial

B(1, p)
• diferencia entre las probabilidades de éxito en dos pruebas de Bernoulli independientes
• media de una distribución de Poisson.
Para determinar el intervalo de confianza que debe usarse en cada uno de estos casos, fijado el
nivel de confianza requerido, deben emplearse las distribuciones en el muestreo de los estimadores
puntuales de cada uno de dichos parámetros. Sin embargo, no entraremos en tanto detalle en este
curso, sino que emplearemos una tabla - resumen que refleja los intervalos de confianza que deben
utilizarse en cada caso práctico. Para poder utilizar dichas tablas, es necesario emplear también
los valores tabulados de tres variables aleatorias continuas muy relacionadas con la distribución
normal:
1. distribución Ji cuadrado
2. distribución T de Student
3. distribución F de Fisher - Snedecor
A continuación, detallamos en cada caso la definición de dichas distribuciones y el manejo de

sus tablas.
BREVES INSTRUCCIONES PARA EL USO DE LAS TABLAS
Distribución Ji cuadrado χ2n

Una distribución Ji cuadrado con n grados de libertad χ2n se genera mediante la suma de los
cuadrados de n variables aleatorias normales estandar independientes, por tanto es una variable
que sólo toma valores positivos. Su media y varianza son
µ = n y σ 2 = 2n.
Los valores numéricos asociados a esta distribución que se encuentran tabulados NO son
probabilidades (obsérvese que muchos de ellos son números mayores que 1), sino el valor del
número real χ2α,n positivo que verifica
P (χ2n ≥ χ2α,n ) = α
Para buscar el valor de χ2α,n , hay que buscar el valor de n en la primera columna de la tabla y
el valor de α en la primera fila.
Como sólo están tabulados los valores para distribuciones con grados de libertad entre 1 y 30,
cuando n ≥ 30 se utilizarán las tablas de la distribución normal tipificada, teniendo en cuenta lo
siguiente: √ √
Si X ∼ χ2n entonces 2X ∼ N( 2n − 1, 1)
Por ejemplo, para calcular χ20.05,40 :

q q √ q
0.05 = P (χ240 ≥ χ20.05,40 ) =P 2χ240 ≥ 2χ20.05,40 2
= P N( 2 · 40 − 1, 1) ≥ 2χ0.05,40 =
 q √ 
2χ20.05,40 − 2 · 40 − 1
P Z ≥ 
1
q √
2χ20.05,40 − 2 · 40 − 1
Obteniéndose que = z0.05 = 1.645, de donde se puede despejar el valor
√ 1
(1.645 + 79)2
de χ20.05,40 = = 55.474
2
Distribución T de Student
Una distribución T de Student con n grados de libertad se define como
Z
tn = s
χ2n
n
donde Z representa una distribución normal tipificada.
Su media y varianza son
n
µ=0 y σ2 = .
n−2
La gráfica de la función de densidad es muy parecida a la de la distribución normal estandar,
de hecho para n ≥ 30, prácticamente coinciden. Concretamente, un hecho a tener en cuenta es
que también es simétrica respecto al eje de ordenadas.
Igual que en el caso de la distribución Ji cuadrado, lo que se encuentra tabulado son los
números reales tα,n para los que se verifica
P (tn ≥ tα,n ) = α
Los grados de libertad se buscan en la primera columna de la tabla correspondiente y el valor

de la probabilidad α, en la primera fila.
Distribución F de Fisher - Snedecor

Una distribución F de Snedecor con n1 y n2 grados de libertad se obtiene mediante el cociente
de dos ji cuadrado:
χ2n1
n
Fn1 ,n2 = 21
χn2
n2
Su media y varianza son
n2 2n22 (n1 + n2 − 2)
µ= y σ2 =
n2 − 2 n1 (n2 − 4)(n2 − 2)2
Como esta variable depende de dos parámetros, (los grados de libertad) se dispone de cuatro
tablas, determinadas por diferentes valores de la probabilidad α. Como en los dos casos anteriores,

los valores que aparecen en la tabla, Fα;n1 ,n2 , representan aquellos números reales para los que se
verifica
P (Fn1 ,n2 ≥ Fα;n1 ,n2 ) = α
Para valores de α que sean próximos a 1, se utilizará la siguiente propiedad de reciprocidad:
1
Fα;n1 ,n2 =
F1−α;n1 ,n2
Interpolación
Cuando en alguna de las tablas no se encuentre exactamente el valor buscado, se tomarán los
dos valores de la tabla entre los que se encuentre comprendido y se realizará una interpolación
lineal. Por ejemplo:
Para calcular t0.25,30 , se toman los valores de α tabulados entre los que se encuentra 0.25.
En este caso son 0.3 y 0.2. Se consideran t0.3,30 = 0.53 y t0.2,30 = 0.854, con sus respectivas
probabilidades, como puntos del plano y la ecuación de la recta que pasa por ellos:
dados (0.3, 0.53) y (0.2, 0.854), la ecuación de la recta que pasa por ambos puntos será:
0.854 − 0.53
y − 0.53 = (x − 0.3) = −3.24(x − 0.3)
0.2 − 0.3
A continuación se considera x = 0.25, se sustituye en la ecuación de la recta y se obtiene el valor
de y:
y = 0.53 − 3.24 · (−0.05) = 0.692 = t0.25,30
CONTRASTE DE HIPÓTESIS ESTADÍSTICAS
Una hipótesis estadı́stica es cualquier afirmación que se hace, verdadera o falsa, sobre alguna
caracterı́stica desconocida de la población. El contraste de hipótesis es la técnica estadı́stica
usada cuando se pretende estudiar si una afirmación realizada sobre una caracterı́stica poblacional
se puede considerar cierta o no. Si la hipótesis formulada se refiere al valor de un parámetro
desconocido de la población, hablaremos de contraste paramétrico y si se refiere a la forma que
tiene la función de probabilidad de la población hablaremos de contraste no paramétrico. En este
curso únicamente van a tratarse contrastes paramétricos.
Desde luego, lo más fiable para comprobar la veracidad de una hipótesis estadı́stica, serı́a
hacer un censo en la población, es decir, tomar todos los elementos de la misma y observar la
caracterı́stica objeto de estudio en cada uno de ellos. Sin embargo, por cuestiones de tiempo,
dinero, la propia naturaleza de la población, etc, lo habitual es tomar una muestra y observar si la
información deducida a partir de ella, confirma o, por el contrario, invalida la hipótesis realizada.
Para que se permita la comercialización de un medicamento nuevo, la proporción de pacientes
que mejoren tras la administración del mismo debe ser al menos del 90%. Para ello, se podrı́a tomar
una muestra de pacientes, que aceptaran voluntariamente participar en el ensayo clı́nico, y observar
la proporción de pacientes de la muestra que mejoraron con el medicamento, al que llamaremos p̂.
El problema consiste en decidir si dicha proporción puede considerarse significativamente inferior
a 0.90 o, por el contrario, mejoraron suficientes pacientes como para seguir afirmando que el
medicamento resulta eficaz. Téngase en cuenta que el valor de p̂, va a depender de la realización
de la muestra, es decir, que si se tomaran cuatro grupos de pacientes distintos, seguramente
esta proporción serı́a diferente de unos grupos a otros: por ejemplo, 90.32%, 87.987%, 98.32% y
89.456%. Por tanto, para dejar de pensar que el medicamento es eficaz, no basta con considerar
los resultados obtenidos de una muestra tomada y si la proporción de pacientes mejorados sale
inferior al 90%, aceptar que el medicamento no es útil. Se deberá marcar un lı́mite a partir del
cual se rechaza su eficacia. Por ejemplo, si en la realización de la única muestra tomada se obtiene
una proporción de pacientes que mejoraron, inferior al 86.34%, se cuestiona la eficacia.
Se denomina hipótesis nula , H0 del contraste a aquélla que se está cuestionando y es, por
tanto, la que se acepta o se rechaza como consecuencia del contraste. La hipótesis alternativa Ha ,
es la que nos sitúa frente a la nula, en el sentido de que nos hace dudar de la veracidad de la
hipótesis nula. La filosofı́a de un contraste no es exactamente decidir cuál de las dos hipótesis es
cierta, si la nula o la alternativa, sino que
• si se acepta H0 es porque la realización de la muestra tomada no da indicios para pensar

que es falsa y
• si se rechaza H0 es porque sı́ hay indicios para no aceptarla, lo cual no implica, en general,
que Ha sea cierta.
Podemos comparar lo que aquı́ sucede con un proceso judicial: el acusado es inocente, salvo que
se aporten pruebas suficientes que hagan dudar de su inocencia. Sin embargo, éso no quiere decir
que, con seguridad, el acusado sea culpable, podemos equivocarnos.
El carácter que desempeñan en un contraste las hipótesis nula y alternativa no es, por tanto,
simétrico, lo que hace primordial entender el papel que hace cada una, para saber plantear el
contraste correctamente. Ésto va a estar determinado por la importancia que se le dé a los dos
tipos de errores que se pueden cometer en una prueba de hipótesis:
1. rechazar H0 , siendo cierta: error de tipo 1
2. aceptar H0 , siendo falsa: error de tipo 2
Por ejemplo, en la situación descrita anteriormente, si se plantea el contraste tomando como

hipótesis nula p = 0.90 (o p ≥ 0.90) frente a la hipótesis alternativa p < 0.90 (se supone que el
medicamento es eficaz), se tiene
• error de tipo 1: no se lanza al mercado un medicamento eficaz
• error de tipo 2: se lanza al mercado un medicamento que no es eficaz
En cambio, si se toma p ≤ 0.90 como hipótesis nula, frente a la alternativa p > 0.90 (se supone
que el medicamento no es eficaz) los dos tipos de errores se intercambian: lanzar al mercado un
medicamento no eficaz es ahora el error de tipo 1 y no comercializar uno eficaz, es el de tipo 2.
Las probabilidades de cometer estos dos tipos de errores representan una medida del riesgo
de tomar decisiones incorrectas al efectuar una prueba de hipótesis. Para un tamaño muestral
determinado no es posible que sean mı́nimos simultáneamente ambos riesgos de error. Por ello, se
adopta el criterio de fijar el error de tipo 1 y se denomina nivel de significación a la probabilidad
de cometerlo, es decir, el nivel de significación es la probabilidad de rechazar la hipótesis nula,
suponiendo que es cierta. Esta cantidad, que debe ser un número próximo a cero, ha de ser fijado
de antemano, puesto que viene a medir el riesgo que estamos dispuestos a correr al rechazar la
hipótesis nula siendo cierta. Ésto nos va a indicar, en general, cuál se debe tomar como hipótesis
nula y cuál como alternativa:

fijado un nivel de significación, la teorı́a que queremos detectar si es verdadera se

toma como hipótesis alternativa porque la forma de tomar decisiones en el contraste va a
estar determinado por la necesidad de hacer lo más pequeño posible el error de tipo 1. En el
ejemplo, se considera más grave lanzar un medicamento al mercado no eficaz, por tanto, éste debe
ser el error de tipo 1. Como consecuencia, la hipótesis alternativa debe ser Ha : p > 0.9 y la
hipótesis nula H0 : p = 0.9 (o, si se prefiere, p ≤ 0.9).
La toma de decisión de aceptar H0 o dudar de ella, se basa en la evidencia aportada por una
muestra, utilizada a través del valor que tome un estadı́stico T (al que se llama estadı́stico de
contraste), cuya distribución en el muestreo es conocida si se supone cierta la hipótesis nula. Para
contrastes paramétricos, es decir, aquéllos en los que las hipótesis a contrastar hacen referencia a un
parámetro poblacional desconocido, estos estadı́sticos son los mismos estimadores puntuales que
se utilizan para los intervalos de confianza (media muestral, cuasivarianza muestral, proporción
muestral). El test de hipótesis, esto es, la regla de decisión, basada en un estadı́stico T consiste
en
• rechazar H0 si el estadı́stico T toma determinados valores, T ∈ C
• aceptar H0 si el estadı́stico T toma valores en el complementario de C, es decir T ∈
/C
donde C es un subconjunto de los posibles valores de T , al que se denomina región crı́tica o de
rechazo. Al complementario de C, se le denomina región de aceptación. La determinación de la
región de rechazo depende de la hipótesis alternativa y del nivel de significación.
Supongamos que se quiere contrastar si el nuevo medicamento es o no eficaz a un nivel de
significación α. Planteamos el contraste según hemos ya comentado:
H0 : p = 0.9
Ha : p > 0.9
Se rechazará la hipótesis nula si el valor del estimador puntual correspondiente, en este caso,
la proporción muestral p̂, toma un valor suficientemente mayor que p0 = 0.9, es decir
p̂ > p0 + ε para una cantidad positiva ε
que dependerá del nivel de significación, del tamaño muestral y de la distribución en el muestreo
del estadı́stico p̂, cuando se supone cierta la hipótesis nula. En este caso concreto, con un nivel
de significación α, se puede comprobar que
s
p0 (1 − p0 )
ε = zα
n
donde n representa el tamaño de la muestra.
El test de hipótesis anterior se expresa del siguiente modo:
s
p0 (1 − p0 )
Se rechaza H0 si p̂ > p0 + zα
n
s
p0 (1 − p0 )
Se acepta H0 si p̂ ≤ p0 + zα
n
Según como sea la región de rechazo, se habla de contrastes unilaterales o bilaterales.
• Unilateral o de un extremo: la región de rechazo es una semirrecta de los números reales,
es decir, intervalos de la forma (−∞, b) o (a, ∞). Se obtienen con hipótesis alternativas
Ha : θ < θ0 y Ha : θ > θ0 , respectivamente.
• Bilateral o de dos extremos: la región de rechazo es la unión de dos semirrectas (−∞, b) ∪

(a, ∞). Se obtienen cuando la hipótesis alternativa es de la forma Ha : θ 6= θ0
donde, en ambos casos, θ representa el parámetro poblacional sobre el que se está realizando el
contraste.
De la misma forma que para los intervalos de confianza, utilizaremos una tabla - resumen en
la que están reflejados los principales contrastes de hipótesis con sus correspondientes regiones de
rechazo. Los casos considerados son los mismos que en los intervalos de confianza, a saber, se
establecen los tests de hipótesis para contrastes sobre:
• la media de una distribución normal
• la varianza de una distribución normal
• diferencia de medias de dos poblaciones normales
• cociente de varianzas de dos poblaciones normales
• probabilidad de éxito en una prueba de Bernoulli, es decir, parámetro p de una binomial

B(1, p)
• diferencia entre las probabilidades de éxito en dos pruebas de Bernoulli independientes
• media de una distribución de Poisson.
Para finalizar, un breve apunte para establecer la relación entre intervalos de confianza y
contraste bilaterales:
los intervalos de confianza están diseñados para ser bidireccionales, ası́ que sirven para tomar
decisiones en contrastes bilaterales. Concretamente, la región de aceptación de un contraste
bilateral sobre un parámetro θ a un nivel de significación α, es precisamente el correspondiente
intervalo de confianza para dicho parámetro a un nivel de confianza 1 − α. Dicho de otro modo, se
aceptará la hipótesis nula θ = θ0 , si el valor θ0 pertenece al intervalo de confianza correspondiente.

Resumen Muestras PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Resumen Muestras PDF

Hochgeladen von

Copyright:

Verfügbare Formate

ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.

El investigador básicamente selecciona una muestra de la población para que, a través de la

MUESTRA ALEATORIA. ESTADÍSTICOS. DISTRIBUCIONES EN EL MUESTREO.

Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 1

Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 2

Asociado a infinidad de fenómenos no previsibles o aleatorios, se realizan constantemente esti-

ESTIMADORES PUNTUALES MÁS USUALES

Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 4

ESTIMACIÓN POR INTERVALOS

La estimación puntual consiste en la asignación de un único número real, obtenido a partir de

• la media de una distribución normal

• la varianza de una distribución normal

• diferencia de medias de dos poblaciones normales

• cociente de varianzas de dos poblaciones normales

• probabilidad de éxito en una prueba de Bernoulli, es decir, parámetro p de una binomial

• diferencia entre las probabilidades de éxito en dos pruebas de Bernoulli independientes

• media de una distribución de Poisson.

3. distribución F de Fisher - Snedecor

A continuación, detallamos en cada caso la definición de dichas distribuciones y el manejo de

BREVES INSTRUCCIONES PARA EL USO DE LAS TABLAS

Distribución Ji cuadrado χ2n

Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 6

Los grados de libertad se buscan en la primera columna de la tabla correspondiente y el valor

Distribución F de Fisher - Snedecor

Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 7

CONTRASTE DE HIPÓTESIS ESTADÍSTICAS

• si se acepta H0 es porque la realización de la muestra tomada no da indicios para pensar

1. rechazar H0 , siendo cierta: error de tipo 1

2. aceptar H0 , siendo falsa: error de tipo 2

Por ejemplo, en la situación descrita anteriormente, si se plantea el contraste tomando como

• error de tipo 1: no se lanza al mercado un medicamento eficaz

• error de tipo 2: se lanza al mercado un medicamento que no es eficaz

Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 9

fijado un nivel de significación, la teorı́a que queremos detectar si es verdadera se

• Bilateral o de dos extremos: la región de rechazo es la unión de dos semirrectas (−∞, b) ∪

• la media de una distribución normal

• la varianza de una distribución normal

• diferencia de medias de dos poblaciones normales

• cociente de varianzas de dos poblaciones normales

• probabilidad de éxito en una prueba de Bernoulli, es decir, parámetro p de una binomial

• diferencia entre las probabilidades de éxito en dos pruebas de Bernoulli independientes

• media de una distribución de Poisson.

Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 11

Das könnte Ihnen auch gefallen