Beruflich Dokumente
Kultur Dokumente
UNIDAD TEMÁTICA 1:
CONCEPTOS BÁSICOS DE ESTADÍSTICA
CONTENIDOS
Terminología estadística. Población. Muestra. Variables. Resumen de datos:
distribuciones de frecuencia. Frecuencia absoluta y relativa. Histogramas.
Muestreo aleatorio simple. Herramientas estadísticas para el análisis de
datos. Medidas de posición: media aritmética, mediana y moda. Medidas de
variabilidad: amplitud o rango, varianza y desviación estándar.
1 INTRODUCCIÓN
A diario nos encontramos con estadísticas sobre el número de personas ocupadas
o desocupadas, sobre el número de automóviles producidos por la industria
automotriz, etc. Aunque estos ejemplos forman parte del concepto total de
estadística, la palabra tiene un sentido mucho más amplio para aquellas
personas que la utilizan en su actividad profesional. Podemos decir en
consecuencia que la estadística se encarga de la recopilación, organización,
resumen, interpretación y comunicación de la información numérica.
Generalmente, cuando se planifica un trabajo estadístico es para alcanzar uno de
los siguientes objetivos o ambos:
1. Describir cuantitativamente una serie de personas, lugares o cosas.
2. Obtener información y sacar conclusiones acerca de un grupo de personas,
lugares o cosas por medio de la observación de una pequeña parte del
conjunto total.
Las actividades estadísticas encaminadas a lograr el primer objetivo forman parte
de la estadística descriptiva y las encaminadas a lograr el segundo objetivo a la
estadística inferencial. Este primer capítulo incluye los aspectos más
sobresalientes de la estadística descriptiva.
2 TERMINOLOGÍA ESTADÍSTICA
A continuación definiremos algunos términos que serán utilizados de aquí en
adelante. Daremos solo el vocabulario básico pues los otros términos se definirán
a medida que se vayan presentando.
Variable aleatoria: Si los valores que toma una variable provienen de factores
fortuitos y si un determinado valor de la misma no se puede predecir
exactamente con anticipación, la variable se denomina aleatoria.
Para representar las variables aleatorias se utilizan letras mayúsculas como X, Y,
Z. Por ejemplo, la variable “peso” puede representarse como X y la variable
“longitud” como Y. Los valores que puede tomar una variable aleatoria se
representan con letras minúsculas. Por ejemplo, si la variable X puede tomar 5
valores, nos referiremos a ellos como x1 , x2 ,..., x5 .
Por ejemplo, sea X la variable peso de una persona, algunos valores de la misma
Variable discreta: Cuando los valores que puede tomar una variable están
separados entre sí por una determinada cantidad, la variable se denomina
discreta. Por ejemplo, si queremos saber cuantas unidades defectuosas hay en un
lote, podremos obtener 0, 1, 2,... unidades defectuosas pero nunca 1,5 o 1,75
unidades defectuosas. Las variables discretas surgen en el proceso de contar y
sus valores pertenecen al conjunto de los números naturales.
3 RESUMEN DE DATOS
Clase Intervalo fi
1 53 – 55 2
2 56 - 58 5
3 59 - 61 9
4 62 - 64 15
5 65 - 67 12
6 68 - 70 5
7 71 – 73 2
Total ------ 50
Longitud en pulgadas de
50 barras de acero
16
14 15
12
12
10
8 9
4 5 5
2
2 2
0
54 57 60 63 66 69 72
Longitud
Figura 1.1
65 63 65 63 69 67 53 58 60 61
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62
Tabla 1.2
Clase Intervalo fi
1 52,5 – 55,5 2
2 55,5 – 58,5 5
3 58,5 – 61,5 9
4 61,5 – 64,5 15
5 64,5 – 67,5 12
6 67,5 – 70,5 5
7 70,5 – 73,5 2
Total 50
Tabla 1.3
Marca de fj Fj fj /n Fj / n
Intervalo
clase
53 – 55 54 2 2 2/50 2/50
56 – 58 57 5 7 5/50 7/50
59 – 61 60 9 16 9/50 16/50
62 – 64 63 15 31 15/50 31/50
65 – 67 66 12 43 12/50 43/50
68 – 70 69 5 48 5/50 48/50
71 – 73 72 2 50 2/50 50/50
3.3 HISTOGRAMAS
Cuando una distribución de frecuencia se presenta en forma gráfica, la misma
recibe el nombre de histograma. En un histograma lo que se busca es tener
información visual sobre algunas características del conjunto de datos. Estas
características son entre otras: la forma, tendencia posicional, dispersión o
variabilidad del conjunto de datos.
Un histograma es una sucesión de rectángulos construidos sobre un sistema de
coordenadas cartesianas de la manera siguiente:
1. La base de los rectángulos se localiza en el eje horizontal, la longitud de cada
barra es igual al ancho de cada intervalo.
2. La altura de los rectángulos se registra sobre el eje vertical y corresponde a la
frecuencia absoluta de cada clase.
3. Los histogramas pueden ser de frecuencias absolutas o relativas. Esto
depende de si en el eje vertical se registran frecuencias absolutas o relativas.
La Figura 1.1 es el histograma de frecuencias absolutas del ejemplo que se ha
Tabla 1.4
Figura 1.2
30
Número de personas
20
20
10
10 10
0
Aseo Ayudante Operario Profesional Técnico
Actividad
Existen muchas otras maneras de presentar gráficamente un conjunto de datos;
algunas de ellas serán analizadas cuando sean requeridas.
apropiada para indicar que los elementos que le siguen deben sumarse. Por
4
ejemplo x indica que deben sumarse los elementos x desde x1 a x 4 , es decir
i 1 i
4
i 1
xi x1 x2 x3 x4
Cuando pongamos x o x i esto nos indicará que debemos sumar todos los
n
xi
x i 1
n
Por ejemplo, supongamos que una muestra consta de los valores x1 7 , x2 4 ,
4
xi 7 43 2
x i 1
4
4 4
N
xi
i 1
24 25 ... 17 196
x 19,6
10 10
4.4 LA MEDIANA
La mediana es aquel valor que se encuentra en la mitad de una muestra o
población cuyos valores están ordenados en orden ascendente de magnitud. Si el
número de valores es impar, la mediana es igual al valor de la mitad. Si el
número de valores es par, la mediana es igual a la media de los dos valores que
quedan en la mitad.
La mediana divide las observaciones en dos mitades. En una mitad los valores
son menores o iguales al valor de la mediana y en la otra mitad los valores son
mayores o iguales a la mediana. Antes de calcular la mediana hay que ordenar
4.5 LA MODA
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos.
5 MEDIDAS DE VARIABILIDAD
Una vez calculada una medida de posición para un conjunto de datos, el
siguiente paso es determinar la variabilidad o dispersión de los datos respecto de
la medida de posición. Varios conjuntos de datos pueden presentar iguales
Departamento I 7 8 8 9 9 9 9 10 10 11
Departamento II 3 4 5 6 9 9 12 13 14 15
Puede verse que ambos conjuntos de datos tienen igual media ( x1 x 2 9) pero
evidentemente la producción del departamento II está mas dispersa respecto de
este promedio. Ciertamente estos dos conjuntos de datos son diferentes, su
diferencia está en la dispersión de los mismos.
Los trabajadores del departamento I muestran relativamente poca dispersión en
sus producciones horarias, mientras que los trabajadores del departamento II
tienen mayor dispersión.
Una medida de variabilidad es un número que nos indica el grado de dispersión
de un conjunto de datos. Si el valor es pequeño (respecto de la unidad de medida)
entonces hay una gran uniformidad entre los datos. Por el contrario, un valor
grande nos indica poca uniformidad. Cuando es igual a cero, indica que todos los
datos son iguales.
Las medidas de variabilidad más utilizadas en el control estadístico de calidad
son: la amplitud o rango, la varianza y la desviación estándar. Analizamos a
continuación cada una de ellas.
A 12 2 10
5.2 LA VARIANZA
La varianza de un conjunto de datos (muestra) se define de la siguiente manera
n
( xi x ) 2
s 2
i 1
n 1
(2 6) 2 (3 6) 2 ... (12 6) 2 92
s2 13,14
8 1 7
En base a esta fórmula se puede ver que, exceptuando el hecho de que la división
es por n 1 y no por n, la varianza sería la media de las desviaciones, al
cuadrado, que tienen las observaciones con respecto a la media de la muestra.
Cabe preguntarse porque el denominador es n 1 y no n.
La respuesta más simple que ampliaremos en capítulos posteriores es que la
división por n 1 da una medida más útil para propósitos inferenciales.
Si el objetivo analítico consiste únicamente en describir la variabilidad que
presenta la muestra, es perfectamente satisfactorio calcular la varianza de la
n x 2 i ( xi ) 2
s 2
n(n 1)
Utilizando los datos del ejemplo anterior tendremos
(x n xi ( xi ) 2
2
i x) 2
s o s
n 1 n(n 1)
x6 43 .
s 2 19,9 ohm2
N
( x i ) 2
2
i 1
N
La fórmula de cálculo es
N xi ( xi ) 2
2
2
N2