Beruflich Dokumente
Kultur Dokumente
Estadística: rama de la ciencia que estudia las reglas para diseñar, planear, recolectar
capturar, organizar, presentar, procesar y analizar los datos obtenidos al realizar varios
ensayos repetidos de un experimento y para inferir conclusiones acerca de este último.
Proporciona además, los métodos para el diseño estadístico de experimentos y para
tomar decisiones cuando aparecen situaciones de incertidumbre. Algunos autores
establecen que la estadística no es ciencia ya que algunas de las reglas que emplea son
empíricas
Importancia.
La importancia de la estadística en la industria ha sido encaminada por la participación
de la industria en el aumento de la calidad. Muchas compañías se han dado cuenta que
la baja calidad de un producto, tiene un gran efecto en la productividad global de la
compañía, en el mercado, la posición competitiva, y finalmente, en la rentabilidad de la
empresa.
La importancia de las estadísticas a la industria y los negocios se refleja a menudo en el
uso de las varias técnicas de estudio de mercados.
Las compañías utilizan a agencias de investigación de mercados para conducir
investigaciones cuantitativas con clientes para productos nuevos y mejoramiento de los
existentes. Los modelos pueden ser desarrollados de los datos para determinar pruebas
potenciales, usos y éxitos de estos productos.
Las estadísticas son importantes en los negocios y la industria ya que sirven para que
las compañías desarrollen pronósticos de ventas para uno, dos e incluso cinco años en
el futuro. Las compañías pueden después modificar o mejorar sus productos, contratar
representantes de ventas adicionales y procurar los recursos necesarios para lograr esos
blancos de venta pronosticados. La mayoría de los negocios e incluso los competidores
en ciertas industrias utilizan estadísticas de pronóstico de ventas para desarrollar sus
planes de negocio y de comercialización.
2 Organización gráfica
Veamos ahora los conceptos estadísticos básicos relacionados con el tipo de datos que
se estudian.
Se llama variable estadística o carácter a cada una de las características que pueden
estudiarse de la población.
Cualitativas: son aquellas en la que los resultados posibles no son valores numéricos.
Por ejemplo: color del pelo, tipo de ropa preferida, lugar de veraneo, etc.
Cuantitativas: aquellas cuyo resultado es un número. A su vez, las hay de dos tipos:
Cuantitativas discretas: cuando se toman valores aislados. Por ejemplo: número de
amigos de tu pandilla, número de veces que vas al cine al mes, número de coches que
tiene tu familia.
Cuantitativas continuas: cuando, entre dos valores cualesquiera, puede haber valores
intermedios. Es decir, se toman todos los valores de un determinado intervalo. Por
ejemplo: peso de las personas, nivel sobre el mar en que se encuentra tu ciudad, medida
del perímetro torácico.
2.2 Descripción gráfica y numérica de datos
La descripción estadística organiza los datos y los presenta en forma de tablas y gráficas.
Esta área sólo describe, resume, organiza y represéntalos datos obtenidos de una
población o muestra de la población, sin elaborar inferencias ni obtener conclusiones.
La organización de datos se realiza a través de tablas que se utilizan para simplificar la
presentación y distribución de estos datos.
Las encuestas online son la mejor solución, ya que así puedes llegar a más personas en
menos tiempo y además, asegurar resultados más honestos para un posterior análisis.
A través de una encuesta online podrás conocer opiniones, actitudes de los encuestados
que formen parte de tu muestra representativa, por lo que también debes de valorar
este factor para reducir el margen de error y el éxito de tu investigación.
Ejemplo:
Medir la altura de una persona. (Puedes mediar la altura en metros, centímetros y hasta
dar una medida en milímetros, es decir, los datos son continuos.
Edad (Puedes definir una edad en años, meses y hasta días)
Ejemplo:
Son datos discretos, porque se cuentan por números indivisibles: no se puede tener 2,5
hijos, o 1,3 mascotas. Los datos discretos también puede ser categóricos, como decir si
prefieres el color “rojo” o “azul”, o si eres “hombre” o “mujer”, o si un producto es
“bueno” o “malo”.
3 Análisis descriptivo
1- Media aritmética
La media aritmética es la suma de todos los datos dividida entre el número total de
datos. Se calculan dependiendo de cómo vengan ordenados los datos.
Ejemplo:
¿Cuál es la media de las edades de Andrea y sus primos?
Se debe multiplicar cada dato con su respectiva frecuencia, sumar todos estos
productos, y el resultado dividirlo por la suma de los datos.
Ejemplo:
Se ha anotado el número de hermanos que tiene un grupo de amigos. Los datos
obtenidos son los siguientes:
Hermanos: 1, 1, 1, 1, 2, 2, 2, 3, 3, 4
La moda de un conjunto de datos es el dato que más veces se repite, es decir, aquel que
tiene mayor frecuencia absoluta. Se denota por Mo. En caso de existir dos valores de la
variable que tengan la mayor frecuencia absoluta, habría dos modas. Si no se repite
ningún valor, no existe moda.
- Ejemplo1:
- Ejemplo 2:
2, 3, 4, 5 , 6 , 9
En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este
conjunto de valores no tiene moda.
- Ejemplo 3:
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9
Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia
es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.
- Ejemplo 4:
0, 1, 3, 3, 5, 5, 7, 8 Mo = 4
3- La mediana
La mediana es el valor que ocupa el lugar central entre todos los valores del conjunto
de datos, cuando estos están ordenados en forma creciente o decreciente.
La mediana se representa por Me.
Calculo de la mediana:
- La mediana de un conjunto con un número impar de datos es, una vez ordenados los
datos, el dato que ocupa el lugar central.
Ejemplo:
Calcular la mediana del conjunto de datos:
- También podemos usar la siguiente fórmula para determinar la posición del dato
central:
(n + 1) /2 = mediana datos impares.
- La mediana de un conjunto con un número par de datos es, una vez ordenados, la
media de los dos datos centrales.
Ejemplo:
Calcular la mediana del conjunto de datos:
3.2 Desviación media, varianza y Desviación estándar
Desviación típica
Para conocer con detalle un conjunto de datos, no solo basta con conocer las medidas
de tendencia central, sino que necesitamos conocer también la desviación que
presentan los datos en su distribución respecto de la media aritmética de dicha
distribución, con objeto de tener una visión de los mismos más acorde con la realidad
al momento de describirlos e interpretarlos para la toma de decisiones.
Interpretación y aplicación
La desviación típica es una medida del grado de dispersión de los datos con respecto al
valor promedio. Dicho de otra manera, la desviación estándar es simplemente el
"promedio" o variación esperada con respecto a la media aritmética.
Por ejemplo, las tres poblaciones (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene
una media de 7. Sus desviaciones estándar poblacionales son 7, 5 y 1, respectivamente.
La tercera población tiene una desviación mucho menor que las otras dos porque sus
valores están más cerca de 7.
Desglose
La desviación estándar (DS/DE), también llamada desviación típica, es una medida de
dispersión usada en estadística que nos dice cuánto tienden a alejarse los valores
concretos del promedio en una distribución de datos. De hecho, específicamente, el
cuadrado de la desviación estándar es "el promedio del cuadrado de la distancia de cada
punto respecto del promedio". Se suele representar por una S o con la letra sigma,
{\displaystyle \sigma _{}^{}} \sigma^{}_{}.
4 Elementos de la probabilidad
4.1 Definición
Elementos de Probabilidades
Los primeros estudios fueron motivados por la posibilidad de acierto o fracaso en los
juegos de azar. La probabilidad es un mecanismo por medio del cual pueden estudiarse
sucesos aleatorios, es decir, operaciones cuyo resultado no puede ser predicho de
antemano con seguridad. Por ejemplo, el lanzamiento de una moneda o de un dado.
Ejemplo:
Ejemplos:
Ejemplos:
Desarrollo:
a) determine el espacio muestral.
Ejemplo:
Ejemplo:
ó 0,5 ó 50%
Ejemplo 2:
Calcula la probabilidad de los siguientes sucesos, con los experimentos asociados. Para
hacerlo determina espacio muestral e identifica los casos favorables .
a) Lanzar un dado, y obtener un cinco.
Ω = {Lanzamiento de un dado} ⇒ Ω= {1, 2, 3, 4, 5, 6} ⇒ casos totales 6
A = {obtener un cinco} ⇒ A = {5} ⇒ casos favorables 1
c) Si extrae una bolita verde sin reponerla, ¿cuál es la probabilidad de extraer una bolita
roja?
En este caso debemos sacar una bolita verde del total dado anteriormente:
Ω= {11 bolitas verdes, 24 amarillas, 6 rojas} ⇒ casos totales 41
S= {extraer una bolita roja} ⇒ casos favorables 6
Respuesta: 6/41
Conjuntos y probabilidades.
Como los eventos son subconjuntos de Ω, entonces es posible alplicar la teoría de
conjuntos para obtener nuevos eventos.
Podemos utilizar conjuntos para definir distintos sucesos de un experimento aleatorio,
y plantear las relaciones existentes entre ellos que nos permitan deducir sus
probabilidades. En general, dado un experimento aleatorio con dos sucesos A y B,
podemos definir las siguientes operaciones:
Si A y B son eventos, entonces también lo son A ∪ B, A ∩ B, Ac
A ∪ B ocurre sí, y solo si ocurre A o solo ocurre B u ocurren A y B a la vez.
A ∩ B ocurre si, y solo si ocurre A y ocurre B a la vez.
Ac ocurre si, y solo si no ocurre A
El complemento de un conjunto A se denota por Ac y se define como la colección de
aquellos elementos de Ω que no pertenecen a A.
P(A-B) = P(A) - P (A ∩ B)
P (AC) = 1 - P(A)
P (A ∪ B) = P(A) + P(B) - P (A ∩ B)
Play Video
ver explicación
ver explicación
Distribución Binomial
Siendo :
n es el número de pruebas.
k es el número de éxitos.
p es la probabilidad de éxito.
1.4 Ejemplos
Ejemplo 01
Un jugador encesta con probabilidad 0.55. Calcula la probabilidad de que al tirar 6 veces
enceste:
Ejemplo 02
Un jugador marca el 85% de los penaltis que intenta. Si lanza 8 penaltis calcular la
probabilidad de
ver solución
Ejemplo 03
ver solución
ver explicación
La distribución normal fue reconocida por primera vez por el francés Abraham de
Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró
desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la
conozca, más comúnmente, como la "campana de Gauss". La distribución de una
variable normal está completamente determinada por dos parámetros, su media y su
desviación estándar, denotadas generalmente por y . Con esta notación, la
densidad de la normal viene dada por la ecuación:
Ecuación 1:
que determina la curva en forma de campana que tan bien conocemos (Figura 2). Así,
se dice que una característica sigue una distribución normal de media y
varianza , y se denota como , si su función de densidad viene dada
por la Ecuación 1.
Al igual que ocurría con un histograma, en el que el área de cada rectángulo es
proporcional al número de datos en el rango de valores correspondiente si, tal y como
se muestra en la Figura 2, en el eje horizontal se levantan perpendiculares en dos
puntos a y b, el área bajo la curva delimitada por esas líneas indica la probabilidad de
que la variable de interés, X, tome un valor cualquiera en ese intervalo. Puesto que la
curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se
extienden asintóticamente hacia los ejes, cuando una variable siga una distribución
normal, será mucho más probable observar un dato cercano al valor medio que uno que
se encuentre muy alejado de éste.
Propiedades de la distribución normal:
La distribución normal posee ciertas propiedades importantes que conviene destacar:
i. Tiene una única moda, que coincide con su media y su mediana.
ii. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor
entre y es teóricamente posible. El área total bajo la curva es, por tanto, igual a
1.
iii. Es simétrica con respecto a su media . Según esto, para este tipo de variables existe una
probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un
dato menor.
iv. La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a
una desviación típica ( ). Cuanto mayor sea , más aplanada será la curva de la densidad.
v. El área bajo la curva comprendido entre los valores situados aproximadamente a dos
desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de
posibilidades de observar un valor comprendido en el intervalo .
vi. La forma de la campana de Gauss depende de los parámetros y (Figura 3). La media
indica la posición de la campana, de modo que para diferentes valores de la gráfica es
desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el
grado de apuntamiento de la curva. Cuanto mayor sea el valor de , más se dispersarán
los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro
indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la
distribución.
Como se deduce de este último apartado, no existe una única distribución normal, sino
una familia de distribuciones con una forma común, diferenciadas por los valores de su
media y su varianza. De entre todas ellas, la más utilizada es la distribución normal
estándar, que corresponde a una distribución de media 0 y varianza 1. Así, la expresión
que define su densidad se puede obtener de la Ecuación 1, resultando:
Ecuación 2:
Esta propiedad resulta especialmente interesante en la práctica, ya que para una
distribución existen tablas publicadas (Tabla 1) a partir de las que se puede
obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto
valor z, y que permitirán resolver preguntas de probabilidad acerca del comportamiento
de variables de las que se sabe o se asume que siguen una distribución
aproximadamente normal.
Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el
peso de los sujetos de una determinada población sigue una distribución
aproximadamente normal, con una media de 80 Kg y una desviación estándar de 10
Kg. ¿Podremos saber cuál es la probabilidad de que una persona, elegida al azar, tenga
un peso superior a 100 Kg?
Denotando por X a la variable que representa el peso de los individuos en esa población,
ésta sigue una distribución . Si su distribución fuese la de una normal
estándar podríamos utilizar la Tabla 1 para calcular la probabilidad que nos
interesa. Como éste no es el caso, resultará entonces útil transformar esta
característica según la Ecuación 2, y obtener la variable:
para poder utilizar dicha tabla. Así, la probabilidad que se desea calcular será:
Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso
entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un
95%. Resulta interesante comprobar que se obtendría la misma conclusión recurriendo
a la propiedad (iii) de la distribución normal.
No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que
habitualmente nos encontramos en la práctica. Generalmente no se dispone de
información acerca de la distribución teórica de la población, sino que más bien el
problema se plantea a la inversa: a partir de una muestra extraída al azar de la población
que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los
resultados obtenidos a la población de origen. En un ejemplo similar al anterior,
supongamos que se dispone del peso de n=100 individuos de esa misma población,
obteniéndose una media muestral de Kg, y una desviación estándar
muestral Kg, querríamos extraer alguna conclusión acerca del valor medio real
de ese peso en la población original. La solución a este tipo de cuestiones se basa en
un resultado elemental de la teoría estadística, el llamado teorema central del
límite. Dicho axioma viene a decirnos que las medias de muestras aleatorias de
cualquier variable siguen ellas mismas una distribución normal con igual media que la
Esta distribución es una de las más importantes distribuciones de variable discreta. Sus
principales aplicaciones hacen referencia a la modelización de situaciones en las que
nos interesa determinar el número de hechos de cierto tipo que se pueden producir en
un intervalo de tiempo o de espacio, bajo presupuestos de aleatoriedad y ciertas
circunstancias restrictivas. Otro de sus usos frecuentes es la consideración límite de
procesos dicotómicos reiterados un gran número de veces si la probabilidad de obtener
un éxito es muy pequeña .
Proceso experimental del que se puede hacer derivar
Esta distribución se puede hacer derivar de un proceso experimental de observación
en el que tengamos las siguientes características
· Se observa la realización de hechos de cierto tipo durante un cierto periodo de tiempo
o a lo largo de un espacio de observación
· Los hechos a observar tienen naturaleza aleatoria ; pueden producirse o no de una
manera no determinística.
· La probabilidad de que se produzcan un número x de éxitos en un intervalo de
amplitud t no depende del origen del intervalo (Aunque, sí de su amplitud)
· La probabilidad de que ocurra un hecho en un intervalo infinitésimo es prácticamente
proporcional a la amplitud del intervalo.
· La probabilidad de que se produzcan 2 o más hechos en un intervalo infinitésimo es un
infinitésimo de orden superior a dos.
En consecuencia, en un intervalo infinitésimo podrán producirse O ó 1 hecho pero
nunca más de uno
· Si en estas circunstancias aleatorizamos de forma que la variable aleatoria X signifique
o designe el "número de hechos que se producen en un intervalo de tiempo o de
espacio", la variable X se distribuye con una distribución de parámetro l . Así
:
El parámetro de la distribución es, en principio, el factor de proporcionalidad para la
probabilidad de un hecho en un intervalo infinitésimo. Se le suele designar como
parámetro de intensidad , aunque más tarde veremos que se corresponde con el
número medio de hechos que cabe esperar que se produzcan en un intervalo unitario
(media de la distribución); y que también coincide con la varianza de la distribución.
Por otro lado es evidente que se trata de un modelo discreto y que el campo de
variación de la variable será el conjunto de los número naturales, incluido el
cero:
Función de cuantía
A partir de las hipótesis del proceso, se obtiene una ecuación diferencial de
definición del mismo que puede integrarse con facilidad para obtener la función de
cuantía de la variable "número de hechos que ocurren en un intervalo unitario de
tiempo o espacio "
La función de
distribución vendrá dada por
:
Función Generatriz de Momentos
Su expresión será :
que
luego :
Para la obtención de la media y la varianza aplicaríamos la F.G.M.; derivándola
sucesivamente e igualando t a cero .
Así.
Una vez obtenida la media , obtendríamos la varianza en base a :
haciendo t = 0
por lo que =
así se observa que media y varianza coinciden con el parámetro
del modelo siendo , l
En cuanto a la moda del modelo tendremos que será el valor de la variable que tenga
mayor probabilidad , por tanto si Mo es el valor modal se cumplirá que
:
Y, en particular:
A partir de estas dos desigualdades, es muy sencillo probar que la moda tiene que
verificar: De manera que la moda será la parte entera del
parámetro l o dicho de otra forma, la parte entera de la media
Podemos observar cómo el intervalo al que debe pertenecer la moda tiene una
amplitud de una unidad , de manera que la única posibilidad de que una distribución
tenga dos modas será que los extremos de este intervalo sean números naturales, o lo
que es lo mismo que el parámetro l sea entero, en cuyo caso las dos modas serán l -1
yl.
Teorema de adición.
La distribución de Poisson verifica el teorema de adición para el parámetro l .
"La variable suma de dos o más variables independientes que tengan una distribución
de Poisson de distintos parámetros l (de distintas medias) se distribuirá, también con
una distribución de Poisson con parámetro l la suma de los parámetros l (con media, la
suma de las medias) :
En efecto:
Sean x e y dos variables aleatorias que se distribuyen con dos distribuciones de Poisson
de distintos parámetros siendo además x e y independientes
Así e
Debemos probar que la variable Z= x+y seguirá una Poisson con parámetro igual a
Para Y
De manera que la función generatriz de momentos de Z será el producto de ambas ya
que son independientes
2 0,5
3 0,25
4 0,25
Realizada la experiencia, las verosimilitudes de las tres alternativas nos vendrán dadas
por la función de cuantía de la distribución de Poisson, con
li
2 0,180447
3 0,224042
5 0,140374
2 0,497572
3 0,308891
5 0,193536
Esta distribución a posteriori nos dará cuenta de toda la información disponible acerca
del parámetro desconocido, (número medio de pacientes por hora); tanto de la
información subjetiva de los expertos (convenientemente ponderada) como de la
información empírica suministrada por la observación.
A partir de esta distribución a posteriori podemos plantear nos dar un valor concreto
para la estimación de considerando una función de pérdida cuadrática . La estimación
adecuada sería la media de la distribución a posteriori:
pacientes la hora
La distribución Multinomial
Este modelo se puede ver como una generalización del Binomial en el que, en lugar de
tener dos posibles resultados, tenemos r resultados posibles.
Supongamos que el resultado de una determinada experiencia puede ser r valores
distintos: A1, A2, ..., Ar cada uno de ellos con probabilidad p1, p2, ..., pr,
respectivamente.
como se ve, el modelo Multinomial queda definido por los parámetros (n, p1, p2, ..., pr).
La fórmula anterior puede deducirse de forma análoga al caso Binomial. En realidad, si
tomamos r = 2 tenemos exactamente el modelo Binomial.
Se debe destacar que este modelo es un ejemplo de distribución multivariante, es
decir, de distribución conjunta de varias (r) variables aleatorias. En efecto, si definimos
la variable aleatoria X1 como número de veces que se produce el suceso A1 de un total
de n experiencias, y así sucesivamente, tenemos un conjunto de r variables aleatorias
discretas cuya función de densidad conjunta (valorada a la vez) viene definida por la
anterior fórmula. Nótese que si consideramos cada una de estas variables Xi (i =
1, 2, ..., r) por separado, su distribución es la Binomial de parámetros n y pi.
3 5 4 6 4
6 3 4 3 5
4 5 4 4 6
5 3 5 4 5
B. 9 7 11 4 8
4 10 8 9 12
8 3 6 10 15
11 12 7 13 11
10 5 8 9 12
Números al azar
Un procedimiento muy útil y de amplia aplicación para tomar muestras al azar consiste
en utilizar números al azar, tal como se describe en la mayor parte de los libros de
estadística. A cada individuo de la población de la cual se quiere extraer una muestra se
le atribuye un número, y los que se tomen como muestra estarán determinados por la
tabla de números al azar. Por ejemplo, si se quieren elegir 5 individuos entre 100, como
una muestra, y los 5 primeros números de la tabla son 3, 47, 43, 73 y 86, se tomarán los
individuos correspondientes a estos números. Cuando la cantidad de individuos no sea
exactamente 100 (o 1.000, etc.) saldrán números que no correspondan a ningún
individuo, y no se tendrán en cuenta. Esta pérdida de tiempo puede ser reducida
atribuyendo a cada individuo dos o más números, con tal de que todos tengan igual
cantidad de números. Supongamos, por ejemplo, que se quieren tomar 5 unidades de
una población de 24; en este caso, a cada individuo se le adscriben cuatro números; así
la primera unidad tendrá, por ejemplo, los números 01 al 04, etc., la 24 tendrá 93-96,
con lo que quedarán sólo cuatro números, 97-100, sin utilizar. Los individuos sometidos
al muestreo, que corresponden a la serie previa de 5 números al azar, serían entonces
los números 1, 12, 11, 16 y 22 (si uno de los números al azar es 97 o más, se descarta y
se toma otro). En lugar de escoger todas las unidades en la muestra individualmente de
la tabla de números al azar, las unidades se pueden tomar a intervalos regulares, por
ejemplo, cada 5 ó 100 individuos, y solamente el primero elegido utilizando los números
al azar. En el primer ejemplo, la muestra era de 1/20 de la población, de modo que el
intervalo de la muestra será 20 y como el primer número elegido al azar era el 3, los
siguientes serían 23, 43, 63 y 83. Este sistema es peligroso si en la población hay una
periodicidad natural equivalente al intervalo elegido; por ejemplo, en el caso de
someter a muestreo los desembarcos totales en un puerto, no se debe anotar la captura
cada 7 ó 14 días, puesto que pudiera haber grandes variaciones sistemáticas asociadas
a los distintos días de la semana.
Ejemplo
En un determinado lugar se efectúan los desembarcos de pesca durante todo el año. Se
desea determinar la cantidad total anual desembarcada, mediante el muestreo de la
captura en 30 días del año. Determínense los días en que se debe efectuar el muestreo
por medio de números al azar:
a) directamente por medio de una serie de números al azar del 000 al 999, y numerando
los días del año de 1 a 365;
b) dando a cada día 2 números, desde el 1 y 2 al 729 y 730;
c) dando a cada día 27 números, de 1-27 a 9.829-9.855, y usando números al azar de
0000 a 9999;
d) haciendo un muestreo cada 12 días a partir de un día elegido al azar entre los 1-12
días primeros (algunas muestras podrán tener 31 días).
Si no se usan números al azar, o cualquier otro proceso similar, entonces lo más
probable es que no todos los individuos de la población tengan igual oportunidad de
salir en la muestra. Caso de haber alguna correlación entre la cantidad que se va a medir
y la probabilidad de que aparezca en la muestra, el resultado podría estar sesgado,
quizás demasiado. Por ejemplo, al hacer el muestreo de la captura procedente de un
barco en una lonja abarrotada de peces, muchas veces se hace necesario trabajar con
las cajas que se desembarcan primero. Dado que en éstas vendrán los peces
últimamente capturados, si es que se pretende conocer la frescura media obtendremos
una estimación muy sesgada; en cambio, lo más probable es que sus tamaños sean
similares a los de los peces capturados anteriormente, de modo que la muestra dará
estimaciones sin sesgo de la talla media. Nunca debe darse rápidamente por supuesto
que no existen sesgos, y la posibilidad de su existencia debe investigarse
cuidadosamente. En el ejemplo anterior existiría cierto sesgo si los barcos acostumbran
hacer una última calada cerca ya del puerto, donde el tamaño medio de los peces se
desvía del tamaño medio general. Estas y otras fuentes de posibles sesgos solamente
pueden encontrarse y eliminarse si se tiene un completo conocimiento de la pesquería
- cómo se capturan los peces, cómo se manipulan a bordo y qué distribución sufren en
el mercado.
La precisión de las estimaciones que se obtienen por verdaderos muestreos al azar
puede ser determinada rápidamente. Si se está efectuando el muestreo de una
población para conocer alguna de sus características (como el número de vértebras),
cuya media en la población es M y la variancia S2, y se toma al azar una muestra
de n individuos, cuyos valores son xi...xn, la estimación de la media de la población será
.....................................(2.1)
y la media de (si las estimaciones no están sesgadas) y la variancia de (o más
Ejemplo
a) Suponiendo que la media y la variancia de los datos en el Ejemplo 1.2.1 están
próximos a los valores de la población, calcúlese la variancia en la estimación de la
longitud media a partir de las muestras de 5, 20, y 100 peces;
b) mediante el empleo de números al azar, o por cualquier otro método, tómense 20
muestras al azar de 5 peces de los 449 del Ejemplo 1.2.1. Calcúlese la longitud media de
cada una de estas muestras; calcúlese la variancia de estos 20 valores, y compárese con
la variancia esperada tal como se calculó en (a). (Nótese cómo la variancia calculada a
partir de una serie de números no mayor de 20 está sujeta a cierta variabilidad);
c) si se necesita estimar la longitud media del bacalao del Mar del Norte con una
precisión de ±5 cm, determínese el tamaño de la muestra al azar que es preciso tomar
(para esto se requiere que el doble de la desviación típica de la longitud media estimada
sea igual a 5).
Muestreo estratificado
Ejemplo
................... (2.2)
obteniéndose una estimación sin sesgo de la media de la población total como la media
ponderada de las medias de los estratos, siendo el factor ponderador el número total
en cada estrato, es decir:
Si la variancia en el estrato i° es Si2
.............................(2.3)
suponiendo que ni, sea pequeño comparado con Ni. En otro caso, la variancia será
y se tiene:
Categ Si2 Si2/ Ni2Si
2
oría ni /ni
y de aquí
y desviación típica
Los límites de seguridad del 95 por ciento para la longitud media verdadera de los peces
capturados son, por tanto, 42,9 ± 2 × 0,17, es decir, 42,6 - 43,2 cm.
Los datos pueden usarse también para dar una medida aproximada de la variancia de la
estimación obtenida de una muestra al azar de 342 del conjunto de la captura. En este
caso tomaremos como una estimación de s2 la variancia del conjunto de la población,
por tanto, s2 = 66,4 (compárese con la mayor variancia obtenida dentro de un estrato,
que fue 22,85).
y
desviación típica
Aunque esta estimación de s2 no sea del todo correcta, puesto que la muestra estaba
lejos de ser una verdadera muestra al azar, ya que los peces medianos no estaban
completamente representados, no obstante, ha servido para poner de manifiesto la
gran reducción de la variancia al usar un muestreo estratificado, que es del orden de
1/7, lo que equivaldría a haber aumentado siete veces la muestra.
Se pueden incrementar las ventajas de un muestreo estratificado si se efectúa un
muestreo de cada estrato en la forma más conveniente. Los estratos conteniendo
muchos individuos, o que sean muy variables, requerirán mayor muestreo que los poco
numerosos o más homogéneos. La variancia será mínima para un cierto tamaño total
de muestra, n, si
Ni x Si µ ni
o
Si µ ni/Ni
es decir, si la proporción bajo muestra es proporcional a la variancia del estrato. Si ni no
es pequeña comparada con Ni, esta fórmula no es enteramente exacta, pero sirve para
tener una buena idea sobre la mejor distribución de las muestras.
Ejemplo
Determínese en el Ejemplo 2.3.1 la mejor distribución en cada estrato del número total
de peces sometidos a muestreo (342) y, usando los valores de S2, calcúlese la variancia
de la longitud media estimada por esta distribución de las muestras.
Ejemplo
A lo largo de una costa, los peces se desembarcan en 100 lugares, que pueden
clasificarse, grosso modo, en tres categorías, de acuerdo con el peso de los peces. En el
transcurso de una semana, los pesos de los desembarcos fueron:
Determínese, mediante el cálculo de la variancia en cada categoría y en el conjunto de
la población, cuál es el mejor método de estimación de la captura semanal total en toda
la costa, si es que sólo se puede registrar la captura en 20 lugares (uno de cada cinco,
visitando los lugares de desembarco), cuál es la variancia de esta estimación, y
compararla (a) con la obtenida de una sola muestra al azar del conjunto de la población,
y (b) usando un muestreo estratificado, tomando una muestra que sea de 1/5 de cada
categoría.
Submuestreo, o muestreo en dos etapas
Ejemplo
Cuando las poblaciones son muy extensas, o complejas, la simple toma de muestras al
azar se transforma en un gran problema, que suele requerir mucho tiempo. El tiempo
necesario para obtener una muestra de dimensiones determinadas puede ser muy
abreviado mediante el empleo de un muestreo en dos etapas. En primer lugar, el
conjunto de la población puede ser dividido en una serie de unidades primarias, o
subpoblaciones, varias de las cuales se toman como muestra. Se toma una muestra
secundaria, o submuestra, de cada una de estas subpoblaciones, que a su vez son
muestras de la población total. Por ejemplo, para estimar la captura total a lo largo de
una línea costera, se puede tomar como unidad básica cada desembarco. La medición
de una serie de desembarcos tomados al azar a lo largo de la costa requeriría efectuar
muchos viajes, imposibles de realizar; la solución consiste en seleccionar (por ejemplo,
mediante números al azar) ciertos lugares de desembarco en determinados días, y en
estos lugares seleccionar una serie de desembarcos.
Por supuesto, el submuestreo se puede realizar en más de dos etapas. En el ejemplo
anterior, podría interesar algún dato, como el estado de madurez, para lo cual se
tomaría una caja de pescado (o una parte de la misma), con lo que el muestreo se habría
realizado en tres (o cuatro) etapas.
La desventaja de un submuestreo consiste, desde luego, en que los individuos de una
misma unidad primaria son probablemente más parecidos entre sí que los del conjunto
de la población. De esta manera, después de examinar un individuo de una unidad, tal
como el peso de la captura de un barco en un lugar determinado, si se siguen
examinando individuos de esa unidad, se obtendrá menos información del conjunto de
la población (por ejemplo, la captura media por barco de todos los lugares de
desembarco) que si se examinan individuos de otras unidades primarias. El problema
consiste en deducir el número más conveniente de muestras que se debe tomar en un
tiempo dado al emplear un muestreo en dos etapas. En términos generales, si los
individuos dentro de una unidad primaria son muy variables, lo mejor será tomar
muchas muestras dentro de cada unidad en, comparativamente, pocas unidades
primarias. Por el contrario, si la variación de los individuos es pequeña dentro de cada
unidad, pero hay diferencias considerables entre las unidades, entonces deberán
someterse a muestreo muchas unidades primarias, con un pequeño número de
individuos por muestra en cada una de ellas.
El método puede ser ilustrado en términos matemáticos: supóngase, para mayor
sencillez, que la población puede dividirse en K unidades primarias, cada una
de N individuos, y que están sometidas a muestreo k unidades primarias, tomándose
una submuestra de n individuos en cada una.
Si M es la media de la población, y Mi la media de la ia unidad primaria, entonces la
estimación de la media de una unidad primaria bajo muestreo será:
donde xij es el valor del j° individuo en la unidad ia y la estimación de la media de la
población será
............................(2.4)
La variancia de mi en torno a Mi será 1/n × Sw2, en donde Sw2 es la variancia de los
individuos de la ia unidad primaria en torno a la media de la unidad. La variancia de la
media estimada para la población constará de dos partes: la variancia de las medias
estimadas para las unidades en torno a las medias verdaderas de las unidades, y la
variancia de estas últimas en torno a la media de la población; esto es
........................................(2.5)
2
donde SB es la variancia de las medias de las unidades en torno a la media de la
población. Una estimación no sesgada de la variancia de m será
.............................(2.6)
Ejemplo 2.4.1
(tomado de Pope, 1956)
Como muestra al azar del desembarco total de arenque en una semana, se toma una
serie de desembarcos individuales, y de cada desembarco seleccionado una muestra de
50 arenques, y se miden. Se obtienen los siguientes datos:
Barco 1 2 3 4 5
Suma 1 1 1 1 1
2 3 3 2 2
4 2 3 9 7
4, 4, 5, 9, 0,
3 2 4 7 5
Suma de 3 3 3 3 3
cuadrados 1 5 5 3 2
0 1 7 9 5
2 2 3 0 5
0, 7, 0, 0, 8,
9 0 3 9 5
7 8 0 9 5
Estímese la longitud media del arenque en los desembarcos de la semana, y su error
típico. Primero se obtendrá la media para cada barco, que son 24,9, 26,5, 26,7, 26,0 y
25,4. Por tanto, las estimaciones que se piden se obtendrán por
m2 = 1/5 (24,9 + ... + 25,4) = 25,9
sm=0,34
Las variancias entre y dentro de las unidades primarias pueden también estimarse
separadamente. Dentro de cada unidad primaria, se tendrá una estimación de Sw2 por
Estas estimaciones por separado en las unidades primarias pueden combinarse por
medio de
.............................(2.7)
Según las ecuaciones (2.5) y (2.6) la variancia entre las unidades puede deducirse de la
ecuación
.............................(2.8)
Siendo dados los valores de Sw2 por la ecuación (2.7)
Ejemplo 2.4.2
Calcúlese la variancia de la longitud del arenque dentro y entre los barcos, de acuerdo
con los datos del Ejemplo 2.4.1. Como estimación de la variancia dentro de los barcos,
se tiene que
5 x 49 x Sw2 = (31020,97 - 1/50 x 1244,32) + ... + ...
por tanto
245 Sw2 = 378,62
Sw2 = 1,545
También
............................(2.10)
Ejemplo 2.4.3
Utilizando los datos de los ejemplos anteriores, y suponiendo que en un minuto se
pueden medir 20 peces, y que el tiempo empleado para ir de un barco a otro es de 5
minutos, demuéstrese que la variancia mínima en la longitud media estimada y para
una cantidad dada de muestreo es de 17 peces aproximadamente, resultado obtenido
con muestras secundarias.
Hasta ahora, se había supuesto que todas las unidades primarias eran del mismo
tamaño, pero esto no es lo corriente. Cuando sean desiguales, se hará preciso aplicar
un factor de corrección para cada unidad. La ecuación (2.4) puede reescribirse como
sigue
..........................(2.11)
donde Ni = número de individuos en la ia unidad primaria
N = S Ni = número total en todas las unidades primarias de muestreo
o como ..................................(2.12)
donde ni es el número de individuos bajo muestra en la ia unidad primaria, que no tiene
por qué ser igual en todas ellas. Si se toma ni en cada unidad de tal manera que en todas
ellas la razón de muestreo ni/Ni sea la misma para todas las unidades, e igual
a p, entonces (2.12) se reduce a
es decir
..........................................(2.13)
donde n es el número total de individuos de la muestra, siendo ésta, desde luego, la
forma más conveniente de computación. La fórmula de la variancia (ecuación 2.5)
puede también reescribirse así
donde
La fórmula (ecuación 2.10) sobre el mejor número de individuos por muestra en cada
unidad no hay que aplicarla de manera estricta. Podría modificarse para que
determinara con precisión la mejor muestra en cada unidad primaria. Sin embargo, esta
fórmula sería más bien prolija, y necesitaría una información adicional sobre la variancia
en cada unidad primaria (que puede no ser igual en todas las unidades). Tanto esfuerzo
puede muy bien no merecer la pena, y ser más razonable utilizar la ecuación (2.10),
modificada empíricamente, incrementando la muestra en las unidades más grandes o
más variables.
Cuando el objetivo del muestreo sea medir alguna cantidad total, como el peso total
desembarcado de cierta especie de peces, y no un valor medio, como la longitud media
de los peces, el análisis de los resultados, como figura en las ecuaciones (2.11) - (2.13)
deberá modificarse. El total en la ia unidad bajo muestreo será
En donde
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
Q = probabilidad de fracaso
D = precisión (error máximo admisible en términos de proporción)
CÁLCULO DEL TAMAÑO DE LA MUESTRA CONOCIENDO EL TAMAÑO DE LA POBLACIÓN
La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la
población es la siguiente: