Beruflich Dokumente
Kultur Dokumente
Teorı́a de muestras
INTRODUCCIÓN A LA TEORÍA DE MUESTRAS
Cuando se lleva a cabo una investigación estadı́stica, se pretende realizar alguna inferencia
acerca de situaciones aparentemente influidas por el azar. Por ejemplo, si se quiere conocer el
grado de eficacia de un nuevo medicamento, la resistencia de un nuevo material para fabricar
bombillas, la evolución a corto plazo del número de parados, etc. El primer paso para emplear la
Estadı́stica como disciplina cientı́fica en el estudio de este tipo de fenómenos, consiste en identificar
el conjunto de entes reales o potenciales sobre los que se pretende obtener información, estudiando
una caracterı́stica dada, al que se denomina población. En los ejemplos anteriores, las personas
con la dolencia que trata el nuevo medicamento, las bombillas fabricadas con el nuevo material o
la población activa.
Cuando el investigador toma información de todos y cada uno de los elementos de la población
se dice que está realizando un censo. Sin embargo, esto no es muchas veces posible, ya sea por
el coste que resulta de la toma de información, bien porque ésta lleve consigo la destrucción del
ente en cuestión o también porque la población está constituida por entes potenciales, como por
ejemplo, enfermos con una determinada dolencia. Este problema lleva al investigador a tomar la
información de unos cuantos elementos de la población estadı́stica y este proceso recibe el nombre
de muestreo. El conjunto de elementos de los que se toma información se llama muestra y el
número de elementos que la componen, tamaño muestral.
Existen distintos tipos de muestreo (estratificado, por conglomerados, sistemático...) que
garantizan la representatividad de la muestra según sean las diferencias entre los elementos de
la población. Cuando no dispongamos de esta información y los elementos sean indistinguibles
o intercambiables a priori y perfectamente homogéneos respecto a la variable que estudiamos, la
muestra se selecciona con muestreo aleatorio simple, que es aquél en el que cada elemento de la
población tiene la misma probabilidad de ser elegido para la toma de información y las observa-
ciones se realizan con reemplazamiento, de manera que la población es idéntica en cada extracción.
Supongamos que disponemos de una población estadı́stica que es susceptible de ser descrita
mediante un modelo probabilı́stico de una sola variable aleatoria X. Dicho modelo dependerá
de uno o más parámetros que, si fueran conocidos, nos servirı́an para describir perfectamente el
modelo en cuestión. Sin embargo, en la realidad ocurre que estos parámetros son desconocidos
pero podemos obtener información acerca de ellos mediante la observación repetida de la variable
en estudio. Por ejemplo, supongamos que se está estudiando la longitud del caparazón de la especie
de tortuga marina más común en el Mediterráneo, caretta caretta. Es un hecho empı́ricamente
probado que muchas de las caracterı́sticas morfológicas (longitudes, pesos, diámetros, concentra-
ciones de ciertos compuestos en sangre, etc.) de los individuos de una población biológica, siguen
una distribución normal. Por tanto, se puede admitir que la variable X=”longitud del caparazón
de una caretta caretta” sigue un modelo de distribución normal N(µ, σ), cuyos parámetros µ y σ
son desconocidos.
Para conocer cuáles son los valores de dichos parámetros, se observaran la longitud, Xi , de los
caparazones de una muestra representativa de n tortugas. En lenguaje de la teorı́a de probabil-
idades, esto significa que estamos considerando n variables aleatorias independientes X1 , . . . , Xn
cuya distribución de probabilidad es la misma que la de la variable aleatoria X de partida, que
representa la longitud del caparazón de una caretta caretta del Mediterráneo. Las X1 , X2 , . . . , Xn
son, pues, una muestra aleatoria simple tomada de una hipótetica población de posibles obser-
vaciones. Para ser aún más explı́citos, X1 = ”longitud del caparazón de la primera tortuga de la
muestra tomada” es una variable aleatoria continua, que puede tomar infinitos valores reales, y
cuya distribución de probabilidad se admite que sigue un modelo normal de parámetros µ y σ.
Lo mismo sucede para X2 , X3 , . . . , Xn .
Fruto de la observación de la caracterı́stica objeto de estudio, en los elementos de la muestra,
se obtiene lo que se llama realización de la muestra, que no es más que el conjunto x1 , x2 , . . . , xn
de valores observados finalmente, de todos los posibles que podı́an tomar las n variables aleatorias
que forman la muestra.
Ası́, si el interés se centra en estimar la longitud media del caparazón y se sabe que dicha
variable se modeliza con una distribución normal, el primero de los dos parámetros de los que
depende dicha distribución, representa la cantidad que se pretende aproximar. Una vez observada
la caracterı́stica en los n individuos, se dispondrá de una realización de la muestra x1 , x2 , . . . , xn ,
es decir, de las longitudes del caparazón en n tortugas y entonces, nos preguntamos ¿qué valor
debe asignarse al parámetro µ? Evidentemente, a nadie le sorprende que sea un valor basado en la
realización de la muestra. Más aún, si se quiere obtener información sobre la media poblacional,
parece lógico pensar en que se puede utilizar la media muestral, esto es, la media aritmética de
los valores observados en la muestra: Pn
xi
x = i=1
n
Aunque podrı́a emplearse como medida alternativa, la media aritmética de los valores de la
muestra que quedan una vez que se hayan eliminado el más grande y el más pequeño, por ejemplo,
en lugar de todos los observados. No cabe duda de que, en cualquier caso, un procedimiento
razonable será utilizar una determinada función de las observaciones muestrales. Dando un paso
atrás, podemos pensar en todos los posibles valores teóricos que se podrı́an obtener para la media
muestral o para cualquier otra función que dependa de los valores de la muestra.
Surge ası́ el concepto de estadı́stico, como el de una función T de las variables aleatorias
X1 , X2 , . . . , Xn , que componen una muestra aleatoria. Al ser función de varias variables aleatorias,
un estadı́stico es también una variable aleatoria a cuya distribución se denomina distribución en
el muestreo o distribución muestral del estadı́stico, que dependerá en general de los parámetros
desconocidos de la población X.
Otro ejemplo de estadı́stico que puede usarse como estimador de otro parámetro poblacional,
lo constituye la varianza muestral, que se define de la forma natural, es decir, como la varianza
de los elementos de una muestra Pn
(Xi − X)2
s = i=1
2
n
Ésta es una variable aleatoria que podrá tomar infinitos valores, no previsibles, hasta que se hace
efectivo el muestreo, y que tendrá su propia distribución de probabilidad.
¿Para qué puede servir conocer la distribución en el muestreo de una determinado estadı́stico?
Téngase en cuenta que los dos estadı́sticos hasta ahora considerados, media y varianza muestral,
han surgido de forma natural como estimadores de la media y la varianza poblacional, respecti-
vamente, sin embargo no tenemos evidencias, de que dichas estimaciones vayan a ser fiables. Éso
va a depender precisamente, de la distribución en el muestreo del estadı́stico que se tome como
estimador, puesto que dicha distribución explica qué valores puede tomar dicho estadı́stico y con
qué probabilidades.
ESTIMACIÓN PUNTUAL
• Para que, en promedio, el valor del estimador T utilizado esté cercano al valor del parámetro
poblacional a determinar, debe ocurrir que el valor esperado o esperanza matemática de dicho
estadı́stico, sea el propio parámetro. En tal caso, se dice que el estimador es insesgado o
centrado y, en caso contrario, se dice sesgado, llamando sesgo del estimador T a la desviación
entre el valor esperado E(T ) y el verdadero valor del parámetro.
La insesgadez no es, en sı́ misma, aisladamente, una propiedad muy satisfactoria, ya que
no es posible afirmar nada acerca de lo alejado que resulte el valor de T , en una muestra
concreta. Además, no implica absolutamente nada respecto a la dispersión de la distribución
del estimador.
• Un estimador que sea insesgado pero que tenga una varianza muy alta, producirá a menudo
estimaciones muy alejadas del objetivo (es decir, muy alejadas del verdadero valor del
parámetro). Ello conduce a elegir un estimador centrado, cuya varianza sea lo menor posi-
ble. Obsérvese que una varianza pequeña, por sı́ sola, tampoco es una buena propiedad
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 3
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
para un estimador, puesto que si todos los valores están muy cercanos a un valor medio muy
distinto del parámetro, la estimación puntual que se haga con él en una muestra concreta,
será con una probabilidad alta, distinto al valor real del parámetro poblacional. Por tanto,
será bueno, elegir como estimador de un parámetro poblacional un estadı́stico centrado y de
varianza mı́nima.
Independientemente de cuál sea el proceso de selección del estimador a utilizar, una vez elegido,
lo lógico es analizar los resultados obtenidos. No es posible comparar el valor estimado con el real,
precisamente porque el valor del parámetro poblacional es desconocido. Pero sı́ se puede conocer
lo mejor posible la distribución de probabilidad del estimador, para saber cómo se distribuirán
sus posibles valores alrededor del parámetro a estimar.
A continuación se enumeran los estimadores puntuales más usados para distintos parámetros
poblacionales.
Supongamos que una población está representada por la variable estadı́stica X con distribución
conocida (por ejemplo, una distribución normal) y tal que E(X) = µ y Var(X) = σ 2 .
Media muestral
Para una muestra aleatoria simple X1 , X2 , . . . , Xn de tamaño n se define la media muestral
como el estadı́stico Pn
Xi
X = i=1
n
Siempre que se trate de obtener estimaciones puntuales sobre la media poblacional µ, se tomará
el valor observado de la media muestral, x.
Cuasivarianza muestral
Para una muestra aleatoria simple X1 , X2 , . . . , Xn de tamaño n se define la cuasivarianza
muestral como el estadı́stico Pn
(Xi − X)2
S = i=1
2
n−1
Es un estimador insesgado de la varianza poblacional y de varianza mı́nima.
Quizás lo natural, en principio, es considerar como estimador de la varianza poblacional al
estadı́stico varianza muestral definido por
Pn
2 i=1 (Xi − X)2
s =
n
No se hace ası́ porque este estadı́stico, no es centrado, es decir su esperanza o valor esperado no
coincide con el valor de la varianza poblacional, σ 2 , sino que tiene un sesgo que tiende a subestimar
por término medio, el valor real de la varianza.
Obsérvese que la cuasivarianza y la varianza de la muestra vienen relacionadas por:
n−1 2 n 2
s2 = S o lo que es igual S 2 = s
n n−1
Por lo anteriormente expuesto, siempre que se trate de obtener estimaciones puntuales sobre
la varianza poblacional σ 2 , se tomará el valor observado de la cuasivarianza muestral, S 2 .
Proporción muestral
Cuando se considera una prueba de Bernoulli, con probabilidad de éxito p, desconocida, se
repite la prueba n veces (se considera un muestra aleatoria de tamaño n), de forma que un
estimador puntual de p será
número de éxitos en las n pruebas
p̂ =
número de pruebas, n
Este estimador es insesgado y de varianza mı́nima, luego es el que se utiliza como estimador
puntual para la probabilidad de éxito.
Por ejemplo, supongamos que se quiere estimar la proporción de ciudadanos que piensan votar
a un determinado candidato en unas elecciones municipales. LLevadas a cabo n observaciones,
X1 , X2 , . . . , Xn , es decir preguntados n electores, se obtendrán unos o ceros, según los electores
preguntados piensen votar o no al candidato. Ası́, se tomará como estimación del porcentaje de
votos que tendrá dicho candidato en las elecciones, como la proporción de electores que piensan
votarle de los n preguntados.
Para determinar el intervalo de confianza que debe usarse en cada uno de estos casos, fijado el
nivel de confianza requerido, deben emplearse las distribuciones en el muestreo de los estimadores
puntuales de cada uno de dichos parámetros. Sin embargo, no entraremos en tanto detalle en este
curso, sino que emplearemos una tabla - resumen que refleja los intervalos de confianza que deben
utilizarse en cada caso práctico. Para poder utilizar dichas tablas, es necesario emplear también
los valores tabulados de tres variables aleatorias continuas muy relacionadas con la distribución
normal:
1. distribución Ji cuadrado
2. distribución T de Student
µ = n y σ 2 = 2n.
Los valores numéricos asociados a esta distribución que se encuentran tabulados NO son
probabilidades (obsérvese que muchos de ellos son números mayores que 1), sino el valor del
número real χ2α,n positivo que verifica
P (χ2n ≥ χ2α,n ) = α
Para buscar el valor de χ2α,n , hay que buscar el valor de n en la primera columna de la tabla y
el valor de α en la primera fila.
Como sólo están tabulados los valores para distribuciones con grados de libertad entre 1 y 30,
cuando n ≥ 30 se utilizarán las tablas de la distribución normal tipificada, teniendo en cuenta lo
siguiente: √ √
Si X ∼ χ2n entonces 2X ∼ N( 2n − 1, 1)
Por ejemplo, para calcular χ20.05,40 :
q q √ q
0.05 = P (χ240 ≥ χ20.05,40 ) =P 2χ240 ≥ 2χ20.05,40 2
= P N( 2 · 40 − 1, 1) ≥ 2χ0.05,40 =
q √
2χ20.05,40 − 2 · 40 − 1
P Z ≥
1
q √
2χ20.05,40 − 2 · 40 − 1
Obteniéndose que = z0.05 = 1.645, de donde se puede despejar el valor
√ 1
(1.645 + 79)2
de χ20.05,40 = = 55.474
2
Distribución T de Student
Una distribución T de Student con n grados de libertad se define como
Z
tn = s
χ2n
n
donde Z representa una distribución normal tipificada.
Su media y varianza son
n
µ=0 y σ2 = .
n−2
La gráfica de la función de densidad es muy parecida a la de la distribución normal estandar,
de hecho para n ≥ 30, prácticamente coinciden. Concretamente, un hecho a tener en cuenta es
que también es simétrica respecto al eje de ordenadas.
Igual que en el caso de la distribución Ji cuadrado, lo que se encuentra tabulado son los
números reales tα,n para los que se verifica
P (tn ≥ tα,n ) = α
n2 2n22 (n1 + n2 − 2)
µ= y σ2 =
n2 − 2 n1 (n2 − 4)(n2 − 2)2
Como esta variable depende de dos parámetros, (los grados de libertad) se dispone de cuatro
tablas, determinadas por diferentes valores de la probabilidad α. Como en los dos casos anteriores,
los valores que aparecen en la tabla, Fα;n1 ,n2 , representan aquellos números reales para los que se
verifica
P (Fn1 ,n2 ≥ Fα;n1 ,n2 ) = α
Para valores de α que sean próximos a 1, se utilizará la siguiente propiedad de reciprocidad:
1
Fα;n1 ,n2 =
F1−α;n1 ,n2
Interpolación
Cuando en alguna de las tablas no se encuentre exactamente el valor buscado, se tomarán los
dos valores de la tabla entre los que se encuentre comprendido y se realizará una interpolación
lineal. Por ejemplo:
Para calcular t0.25,30 , se toman los valores de α tabulados entre los que se encuentra 0.25.
En este caso son 0.3 y 0.2. Se consideran t0.3,30 = 0.53 y t0.2,30 = 0.854, con sus respectivas
probabilidades, como puntos del plano y la ecuación de la recta que pasa por ellos:
dados (0.3, 0.53) y (0.2, 0.854), la ecuación de la recta que pasa por ambos puntos será:
0.854 − 0.53
y − 0.53 = (x − 0.3) = −3.24(x − 0.3)
0.2 − 0.3
A continuación se considera x = 0.25, se sustituye en la ecuación de la recta y se obtiene el valor
de y:
y = 0.53 − 3.24 · (−0.05) = 0.692 = t0.25,30
Una hipótesis estadı́stica es cualquier afirmación que se hace, verdadera o falsa, sobre alguna
caracterı́stica desconocida de la población. El contraste de hipótesis es la técnica estadı́stica
usada cuando se pretende estudiar si una afirmación realizada sobre una caracterı́stica poblacional
se puede considerar cierta o no. Si la hipótesis formulada se refiere al valor de un parámetro
desconocido de la población, hablaremos de contraste paramétrico y si se refiere a la forma que
tiene la función de probabilidad de la población hablaremos de contraste no paramétrico. En este
curso únicamente van a tratarse contrastes paramétricos.
Desde luego, lo más fiable para comprobar la veracidad de una hipótesis estadı́stica, serı́a
hacer un censo en la población, es decir, tomar todos los elementos de la misma y observar la
caracterı́stica objeto de estudio en cada uno de ellos. Sin embargo, por cuestiones de tiempo,
dinero, la propia naturaleza de la población, etc, lo habitual es tomar una muestra y observar si la
información deducida a partir de ella, confirma o, por el contrario, invalida la hipótesis realizada.
Para que se permita la comercialización de un medicamento nuevo, la proporción de pacientes
que mejoren tras la administración del mismo debe ser al menos del 90%. Para ello, se podrı́a tomar
una muestra de pacientes, que aceptaran voluntariamente participar en el ensayo clı́nico, y observar
la proporción de pacientes de la muestra que mejoraron con el medicamento, al que llamaremos p̂.
El problema consiste en decidir si dicha proporción puede considerarse significativamente inferior
a 0.90 o, por el contrario, mejoraron suficientes pacientes como para seguir afirmando que el
medicamento resulta eficaz. Téngase en cuenta que el valor de p̂, va a depender de la realización
de la muestra, es decir, que si se tomaran cuatro grupos de pacientes distintos, seguramente
esta proporción serı́a diferente de unos grupos a otros: por ejemplo, 90.32%, 87.987%, 98.32% y
Inmaculada de las Peñas Cabrera. Dpto de Matemática Aplicada 8
ESTADÍSTICA APLICADA Y MODELIZACIÓN. I.T. DISEÑO INDUSTRIAL.
89.456%. Por tanto, para dejar de pensar que el medicamento es eficaz, no basta con considerar
los resultados obtenidos de una muestra tomada y si la proporción de pacientes mejorados sale
inferior al 90%, aceptar que el medicamento no es útil. Se deberá marcar un lı́mite a partir del
cual se rechaza su eficacia. Por ejemplo, si en la realización de la única muestra tomada se obtiene
una proporción de pacientes que mejoraron, inferior al 86.34%, se cuestiona la eficacia.
Se denomina hipótesis nula , H0 del contraste a aquélla que se está cuestionando y es, por
tanto, la que se acepta o se rechaza como consecuencia del contraste. La hipótesis alternativa Ha ,
es la que nos sitúa frente a la nula, en el sentido de que nos hace dudar de la veracidad de la
hipótesis nula. La filosofı́a de un contraste no es exactamente decidir cuál de las dos hipótesis es
cierta, si la nula o la alternativa, sino que
• si se rechaza H0 es porque sı́ hay indicios para no aceptarla, lo cual no implica, en general,
que Ha sea cierta.
Podemos comparar lo que aquı́ sucede con un proceso judicial: el acusado es inocente, salvo que
se aporten pruebas suficientes que hagan dudar de su inocencia. Sin embargo, éso no quiere decir
que, con seguridad, el acusado sea culpable, podemos equivocarnos.
El carácter que desempeñan en un contraste las hipótesis nula y alternativa no es, por tanto,
simétrico, lo que hace primordial entender el papel que hace cada una, para saber plantear el
contraste correctamente. Ésto va a estar determinado por la importancia que se le dé a los dos
tipos de errores que se pueden cometer en una prueba de hipótesis:
En cambio, si se toma p ≤ 0.90 como hipótesis nula, frente a la alternativa p > 0.90 (se supone
que el medicamento no es eficaz) los dos tipos de errores se intercambian: lanzar al mercado un
medicamento no eficaz es ahora el error de tipo 1 y no comercializar uno eficaz, es el de tipo 2.
Las probabilidades de cometer estos dos tipos de errores representan una medida del riesgo
de tomar decisiones incorrectas al efectuar una prueba de hipótesis. Para un tamaño muestral
determinado no es posible que sean mı́nimos simultáneamente ambos riesgos de error. Por ello, se
adopta el criterio de fijar el error de tipo 1 y se denomina nivel de significación a la probabilidad
de cometerlo, es decir, el nivel de significación es la probabilidad de rechazar la hipótesis nula,
suponiendo que es cierta. Esta cantidad, que debe ser un número próximo a cero, ha de ser fijado
de antemano, puesto que viene a medir el riesgo que estamos dispuestos a correr al rechazar la
hipótesis nula siendo cierta. Ésto nos va a indicar, en general, cuál se debe tomar como hipótesis
nula y cuál como alternativa:
donde, en ambos casos, θ representa el parámetro poblacional sobre el que se está realizando el
contraste.
De la misma forma que para los intervalos de confianza, utilizaremos una tabla - resumen en
la que están reflejados los principales contrastes de hipótesis con sus correspondientes regiones de
rechazo. Los casos considerados son los mismos que en los intervalos de confianza, a saber, se
establecen los tests de hipótesis para contrastes sobre:
Para finalizar, un breve apunte para establecer la relación entre intervalos de confianza y
contraste bilaterales:
los intervalos de confianza están diseñados para ser bidireccionales, ası́ que sirven para tomar
decisiones en contrastes bilaterales. Concretamente, la región de aceptación de un contraste
bilateral sobre un parámetro θ a un nivel de significación α, es precisamente el correspondiente
intervalo de confianza para dicho parámetro a un nivel de confianza 1 − α. Dicho de otro modo, se
aceptará la hipótesis nula θ = θ0 , si el valor θ0 pertenece al intervalo de confianza correspondiente.