Estadistica Parte 1

Universidad Nacional de Misiones
ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE
UNIDAD TEMÁTICA 1:
CONCEPTOS BÁSICOS DE ESTADÍSTICA
CONTENIDOS
Terminología estadística. Población. Muestra. Variables. Resumen de datos:
distribuciones de frecuencia. Frecuencia absoluta y relativa. Histogramas.
Muestreo aleatorio simple. Herramientas estadísticas para el análisis de
datos. Medidas de posición: media aritmética, mediana y moda. Medidas de
variabilidad: amplitud o rango, varianza y desviación estándar.
1 INTRODUCCIÓN
A diario nos encontramos con estadísticas sobre el número de personas ocupadas
o desocupadas, sobre el número de automóviles producidos por la industria
automotriz, etc. Aunque estos ejemplos forman parte del concepto total de
estadística, la palabra tiene un sentido mucho más amplio para aquellas
personas que la utilizan en su actividad profesional. Podemos decir en
consecuencia que la estadística se encarga de la recopilación, organización,
resumen, interpretación y comunicación de la información numérica.
Generalmente, cuando se planifica un trabajo estadístico es para alcanzar uno de
los siguientes objetivos o ambos:
1. Describir cuantitativamente una serie de personas, lugares o cosas.
2. Obtener información y sacar conclusiones acerca de un grupo de personas,
lugares o cosas por medio de la observación de una pequeña parte del
conjunto total.
Las actividades estadísticas encaminadas a lograr el primer objetivo forman parte
de la estadística descriptiva y las encaminadas a lograr el segundo objetivo a la
estadística inferencial. Este primer capítulo incluye los aspectos más
sobresalientes de la estadística descriptiva.
Control Estadístico de la Calidad Pag. 1

2 TERMINOLOGÍA ESTADÍSTICA
A continuación definiremos algunos términos que serán utilizados de aquí en
adelante. Daremos solo el vocabulario básico pues los otros términos se definirán
a medida que se vayan presentando.
Entidad: Todo trabajo estadístico concentra su atención en un conjunto de

personas, lugares o cosas. Un inspector de calidad puede estar interesado en el
número de piezas defectuosas producidas por una máquina. Cada una de estas
piezas puede considerarse como una entidad. Utilizaremos la palabra entidad
para referirnos a un miembro individual de un grupo de personas, lugares o
cosas.
Variable: Es el conjunto de características de las entidades que interesan en un

trabajo estadístico.
Un operario de una fábrica puede estar interesado en la longitud de las piezas
producidas por cierta máquina. Otro operario puede estar interesado en el peso
de los paquetes de yerba envasados por una máquina, etc.
En virtud que cualquiera de estas características, por regla general, presentan un
valor diferente cuando se observan en diferentes entidades, reciben el nombre de
variable. Otros ejemplos de variables: La duración de cierta marca de cubiertas
de automóvil; la estatura de las personas, etc.
Variable aleatoria: Si los valores que toma una variable provienen de factores
fortuitos y si un determinado valor de la misma no se puede predecir
exactamente con anticipación, la variable se denomina aleatoria.
Para representar las variables aleatorias se utilizan letras mayúsculas como X, Y,
Z. Por ejemplo, la variable “peso” puede representarse como X y la variable
“longitud” como Y. Los valores que puede tomar una variable aleatoria se
representan con letras minúsculas. Por ejemplo, si la variable X puede tomar 5
valores, nos referiremos a ellos como x1 , x2 ,..., x5 .
Por ejemplo, sea X la variable peso de una persona, algunos valores de la misma

pueden ser x1  58 kg., x2  70 kg. Etc.
Variable continua: Una variable continua es aquella que teóricamente puede

tomar cualquier valor dentro de un intervalo de valores. Un ejemplo de variable
continua es el peso de las personas. Sin tener en cuenta que tan próximos sean
los pesos de dos personas, es posible, al menos en teoría, encontrar otra persona
cuyo peso esté comprendido entre el peso de las dos personas. Otras variables
continuas son la longitud, la temperatura, etc. Las variables continuas se
generan en el proceso de medición y sus valores pertenecen al conjunto de los
números reales.
Variable discreta: Cuando los valores que puede tomar una variable están
separados entre sí por una determinada cantidad, la variable se denomina
discreta. Por ejemplo, si queremos saber cuantas unidades defectuosas hay en un
lote, podremos obtener 0, 1, 2,... unidades defectuosas pero nunca 1,5 o 1,75
unidades defectuosas. Las variables discretas surgen en el proceso de contar y
sus valores pertenecen al conjunto de los números naturales.
Variable cuantitativa: Se dice que una variable es cuantitativa cuando los

valores que puede asumir son los resultados de medidas numéricas. Por ejemplo
el peso, la longitud, el número de piezas defectuosas de un lote, etc.
Variable cualitativa: En muchos casos no es posible obtener una medida

numérica. Por ejemplo, al seleccionar una pieza fabricada se la podrá clasificar
como defectuosa o no defectuosa de acuerdo a alguna característica de interés. El
estado civil de una persona puede ser casado, soltero, viudo, etc. Una variable
cuyos valores consisten en categorías de clasificación se denomina cualitativa.
Población: El concepto más común de población es el de un conjunto de

personas como por ejemplo la población de una ciudad. Algunas veces

emplearemos el término población para referirnos a un grupo de entidades como

el recién nombrado. En otros casos la palabra población se utilizará para
referirnos al conjunto de valores de una variable aleatoria relacionada con un
conjunto de identidades.
Por ejemplo podremos referirnos a la población de los pesos de paquetes de yerba
producidos por una fábrica en un mes de producción. En dicho caso podremos
decir que una población es el conjunto más grande de valores de una variable
para la cual existe algún interés.
Las poblaciones son definidas por el investigador y no están predeterminadas por
algún proceso que exceda al control de éste. Las poblaciones pueden clasificarse
en finitas e infinitas.
Si el interés de un investigador se limita por ejemplo a las unidades producidas
por una fábrica en un día determinado, está definiendo una población finita. Pero
si está interesado por toda la producción pasada, presente y futura de la fábrica,
la población puede considerarse como infinita para cualquier propósito práctico.
Muestra: Una muestra es una parte de la población. El tamaño de una población

puede ser muy grande e investigar cada uno de los elementos con un propósito
práctico puede ser imposible por motivos de costo y tiempo. Por ello suele ser
conveniente examinar una parte (muestra) de la población.
Podemos ser ahora un poco más precisos para definir la inferencia estadística. Se
puede decir que la inferencia estadística es el procedimiento por el cual se
obtienen conclusiones acerca de una población a partir de la información
obtenida de una muestra de esa población.
3 RESUMEN DE DATOS
3.1 DISTRIBUCIONES DE FRECUENCIA

Los datos obtenidos al comienzo de toda actividad estadística no son
generalmente susceptibles de análisis e interpretación en la forma misma que se
recogen. Para facilitar los cálculos hay que sacar la información de registros y
cuestionarios, y organizarla convenientemente. A continuación estudiaremos

algunos procedimientos de resumen de datos. Debe tenerse presente que hoy en
día todo este trabajo se hace con la ayuda de la computadora y de programas
específicos.
Un instrumento muy utilizado para resumir grandes conjuntos de datos es la
distribución de frecuencia.
Una distribución de frecuencia consiste en una representación de categorías
numéricas de una variable junto con el número de entidades que clasifican en
cada categoría.
Las categorías que no se traslapan y son contiguas se denominan intervalos de
clase. Cada intervalo de clase se identifica por su límite inferior de clase y su
límite superior de clase. Los límites de clase especifican la magnitud de los valores
que pueden incluirse en un intervalo de clase determinado.
Una distribución de frecuencia se puede presentar en forma tabular o en forma
gráfica (histograma).
La tabla y la figura que siguen a continuación son ejemplos de una misma
distribución de frecuencia presentada en forma tabular y gráfica.
Tabla 1.1 - Longitud en pulgadas de 50 barras de acero
Clase Intervalo fi
1 53 – 55 2
2 56 - 58 5
3 59 - 61 9
4 62 - 64 15
5 65 - 67 12
6 68 - 70 5
7 71 – 73 2
Total ------ 50

Longitud en pulgadas de
50 barras de acero
16
14 15
12
12
10
8 9
4 5 5
2
2 2
0
54 57 60 63 66 69 72
Longitud
Figura 1.1
Nota: En el histograma hemos reemplazado el intervalo de clase por su punto

medio al que denominaremos marca de clase. Así el intervalo 53- 55 ha sido
reemplazado por (53+55)/2 = 54.
3.2 CONSTRUCCIÓN DE UNA DISTRIBUCIÓN DE FRECUENCIA

Para la construcción de una distribución de frecuencia hay que tener en cuenta
algunos aspectos que nos ayudarán a elaborarla. En primer lugar hay que
determinar el número de intervalos (clases) que la conformarán. Este número
depende sobre todo de la cantidad de datos a resumir.
El número de intervalos no puede ser muy grande (longitud de intervalos muy
pequeña) pues esto puede dar como resultado que haya clases sin ninguna
observación. A continuación damos algunas reglas que pueden ser de utilidad
para la determinación del número de intervalos y para la construcción de una
distribución de frecuencia.
1. El número de intervalos puede escogerse de acuerdo con el número de datos
como se indica a continuación

Número de datos Número de intervalos

De 10 a 100 De 4 a 8
De 100 a 1.000 De 8 a 11
De 1.000 a 10.000 De 11 a 14
2. Una vez escogido el número de intervalos (k) se debe determinar la longitud (l )

que deben tener.
Esto se obtiene por medio de la fórmula
Dato mayor  Dato menor

l
k
3. El primer intervalo debe contener al menor de los datos y el último al mayor.

No debe haber confusión de en cual intervalo se halla determinado dato. En lo
posible todos los intervalos deben tener la misma longitud.
4. Finalmente se construye una tabla en la cual en la primera columna se

colocan las clases (1,2,...), en la segunda se colocan los intervalos y en la
tercer columna el número de observaciones que caen dentro de cada clase.
Este número se simboliza f i y recibe el nombre de frecuencia absoluta
Ejemplo 1. Suponga que un operador desea determinar como varía la longitud

(en pulgadas) de cierto tipo de barras de acero producidas por una máquina. Para
ello toma una muestra de 50 barras, mide su longitud y registra los siguientes
resultados
65 63 65 63 69 67 53 58 60 61
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62
Construiremos en primer lugar una distribución de frecuencias en forma tabular.

Solución:
1. Dado que tenemos n  50 datos podemos elegir k  7
2. Determinamos la longitud de los intervalos de la siguiente manera

72  53
l  2,7
7
Redondeando al entero más próximo tomaremos l  3 .
Ya estamos preparados para construir la tabla de frecuencia pero nos

encontramos con el problema que consiste en donde comenzar el primer
intervalo. Hay una tendencia a tomar el extremo inferior del primer intervalo
coincidente con el dato menor.
Así que el primer intervalo tendrá 53 como extremo inferior. Como la longitud
fijada de los intervalos es 3, el primer intervalo será [53 – 55], el segundo [56 –
58], etc.
Una vez determinado los intervalos procedemos a precisar el número de datos
que caen dentro de cada intervalo (frecuencia absoluta). Por ejemplo, en el primer
intervalo hay dos observaciones. Por lo tanto f1  2 . En el segundo intervalo hay 5
observaciones y por lo tanto f 2  5 , etc. Una vez terminado este proceso

deberemos obtener la Tabla 1.1 mostrada en la página 4.
Observe que los intervalos que se han tomado están separados entre sí por una
unidad. Esto indica que la variable longitud está concentrada de intervalo en
intervalo y da saltos lo cual parece contradictoria con la condición de continuidad
que ofrece dicha variable.
Con el propósito de que se refleje la idea de continuidad, los intervalos deben
considerarse unidos y por ello se extienden al punto medio (tanto al lado derecho
como al izquierdo) del subintervalo que forma el extremo superior de uno con el
inferior del siguiente. De esta forma el primer subintervalo se toma como [52,5 –
55,5], el segundo como [55,5 – 58,5] y así sucesivamente. Esto da lugar a la
siguiente tabla

Tabla 1.2
Clase Intervalo fi
1 52,5 – 55,5 2
2 55,5 – 58,5 5
3 58,5 – 61,5 9
4 61,5 – 64,5 15
5 64,5 – 67,5 12
6 67,5 – 70,5 5
7 70,5 – 73,5 2
Total 50
Cuando los intervalos se toman de la forma indicada en la tabla anterior se los

llama intervalos reales en contraposición a los de la tabla 1.1 que se los conoce
con el nombre de intervalos ficticios. Para analizar una variable continua los
intervalos se deben tomar de manera real.
Definición: Se llama frecuencia acumulada absoluta de la clase j al número que

resulta de sumar la frecuencia de la clase j con las frecuencias de las clases que
le anteceden. Se denota F j .
Así por ejemplo, para la tabla 1.1 se obtienen F1  2; F2  7; F3  16 ;...; F7  50 .
¿Cómo se interpretan cada uno de estos valores? Por ejemplo, si consideramos la

frecuencia acumulada F4  31 esto nos indica que hay 31 observaciones menores
o iguales a 64. El resto de las frecuencias acumuladas se interpretan de manera
similar.
Definición: Se llama frecuencia relativa de la clase j al cociente entre la

frecuencia de la clase j y el número total de datos.. Se denota f j / n . Para el
conjunto de datos analizados tenemos f1 / n  2 / 50  0,04 ; f 2 / n  5 / 50  0,1 , etc. Las

frecuencias relativas muchas veces se expresan en porcentajes. Podemos decir
entonces que el 4% de las observaciones están comprendidas en el intervalo [53 –
55]; el 10% de las observaciones en el intervalo [56 – 58] etc.

Definición: La frecuencia acumulada relativa de la clase j es el cociente entre la

frecuencia acumulada absoluta de la clase y el número de datos. Se la denota
Fj / n . Para el ejemplo analizado tenemos F1 / n  2 / 50  0,04 ; F2 / n  7 / 50  0,14 ; etc.
Todas estas definiciones se pueden resumir en la siguiente tabla
Tabla 1.3
Marca de fj Fj fj /n Fj / n
Intervalo
clase
53 – 55 54 2 2 2/50 2/50
56 – 58 57 5 7 5/50 7/50
59 – 61 60 9 16 9/50 16/50
62 – 64 63 15 31 15/50 31/50
65 – 67 66 12 43 12/50 43/50
68 – 70 69 5 48 5/50 48/50
71 – 73 72 2 50 2/50 50/50
3.3 HISTOGRAMAS
Cuando una distribución de frecuencia se presenta en forma gráfica, la misma
recibe el nombre de histograma. En un histograma lo que se busca es tener
información visual sobre algunas características del conjunto de datos. Estas
características son entre otras: la forma, tendencia posicional, dispersión o
variabilidad del conjunto de datos.
Un histograma es una sucesión de rectángulos construidos sobre un sistema de
coordenadas cartesianas de la manera siguiente:
1. La base de los rectángulos se localiza en el eje horizontal, la longitud de cada
barra es igual al ancho de cada intervalo.
2. La altura de los rectángulos se registra sobre el eje vertical y corresponde a la
frecuencia absoluta de cada clase.
3. Los histogramas pueden ser de frecuencias absolutas o relativas. Esto
depende de si en el eje vertical se registran frecuencias absolutas o relativas.
La Figura 1.1 es el histograma de frecuencias absolutas del ejemplo que se ha

venido analizando hasta el momento. Si se observa el histograma vemos que los

datos están dispuestos en forma casi simétrica, que el valor medio ronda en el
orden del valor 63 y que los mismos están dispersos aproximadamente de la
misma manera respecto de este valor medio.
3.4 DISTRIBUCIÓN DE FRECUENCIA PARA DATOS CUALITATIVOS

La construcción de una tabla de frecuencia para datos cualitativos solo requiere
del conteo del número de elementos o individuos que caen dentro de determinada
clase o tienen determinada característica. La tabla se construye como:
1. En la primera columna se registran las cualidades o características.
2. En la segunda columna se registran las frecuencias absolutas.
Ejemplo 2. En una empresa el personal se distribuye de acuerdo a su actividad

desarrollada en la misma como se indica a continuación
Tabla 1.4
Actividad Número de personas

Profesional 8
Técnico 10
Operario 20
Ayudante 10
Aseo 6
El histograma de frecuencia para datos cualitativos también está formado por

rectángulos. Los rectángulos se distribuyen separados para enfatizar que entre
ellos hay una diferencia cualitativa y no cuantitativa. Los rectángulos pueden
trazarse vertical u horizontalmente. El siguiente histograma es el correspondiente
a los datos del ejemplo anterior.

Figura 1.2
30
Número de personas
20
20
10
10 10
0
Aseo Ayudante Operario Profesional Técnico
Actividad
Existen muchas otras maneras de presentar gráficamente un conjunto de datos;
algunas de ellas serán analizadas cuando sean requeridas.
4 MEDIDAS DESCRIPTIVAS NUMÉRICAS

Muchas veces el resumen de los datos en forma tabular o gráfica no condensa ni
describe en forma adecuada al conjunto de datos. A menudo se requiere de un
solo valor numérico que resuma alguna faceta de los datos y que al mismo tiempo
lleve la información relacionada con alguna característica de los mismos.
Es decir, el valor numérico que buscamos es aquel que en cierta medida describe
numéricamente el conjunto de datos. De ahí que reciben el nombre de medidas
descriptivas numéricas. Antes de entrar de lleno a este tema debemos dar un
concepto previo muy importante en todo trabajo estadístico.
4.1 MUESTREO ALEATORIO SIMPLE

En la mayoría de los trabajos estadísticos el objetivo es el de averiguar algo
acerca de la población. Pero puede ser poco práctico y muchas veces imposible
examinar todos los elementos de la misma.
Por ejemplo, si un operario recibe una partida de 5.000 componentes, le resultará
imposible examinar todos y cada uno de ellos para saber el porcentaje de

elementos defectuosos que tiene la partida. La solución es obtener el porcentaje

de defectuosos de una muestra extraída de la población e inferir a la misma.
Habíamos dicho que este proceso recibe el nombre de inferencia estadística. En
los capítulos posteriores la estudiaremos en detalle.
Por el momento veremos como se puede tomar una muestra. Existen muchas
formas de obtener una muestra de una población, sin embargo para que las
conclusiones obtenidas sean válidas para todos los elementos de la población, se
debe obtener un tipo especial de muestra llamada muestra aleatoria.
Un tipo particular de muestra aleatoria es la llamada muestra aleatoria simple.
Una muestra aleatoria simple de tamaño n es una muestra que se

selecciona de una población de tal forma que cada muestra de tamaño n
que se pueda sacar de esa población tiene la misma posibilidad de ser
seleccionada que la muestra realmente escogida.
Una muestra aleatoria simple puede obtenerse utilizando un método especial de

selección denominado muestreo aleatorio simple.
El muestreo aleatorio simple se puede hacer con reemplazo o sin reemplazo.

Cuando el muestreo es sin reemplazo, solamente se permite a una entidad dada
aparecer una vez en la muestra. Cuando empleamos números aleatorios para
seleccionar la muestra se descartan los números repetidos cuando salen. Cuando
el muestreo es con reemplazo no hay límite para el número de veces que una
entidad puede aparecer en la muestra. Generalmente en el control de calidad el
muestreo es sin remplazo.
4.2 EL SÍMBOLO SUMATORIA 

Con frecuencia se utilizará el símbolo  en este material. Esta es una notación
apropiada para indicar que los elementos que le siguen deben sumarse. Por

4
ejemplo x indica que deben sumarse los elementos x desde x1 a x 4 , es decir
i 1 i


4
i 1
xi  x1  x2  x3  x4
Cuando pongamos x o x i esto nos indicará que debemos sumar todos los
valores x, siendo el sentido de todos aclarado por el contexto.
4.3 LA MEDIA ARITMÉTICA

La media aritmética o media es la medida de posición más utilizada. Representa
el centro físico de un conjunto de datos.
Sea la variable X, de la cual se han tomado n medidas x1 , x2 ,..., xn . La media de las
n medidas se encuentra como sigue

x1  x2  ...  xn
Media 
n
Si representamos la media con el símbolo x , podemos indicar su cálculo en forma
más condensada de la siguiente manera

n
xi
x i 1
n
Por ejemplo, supongamos que una muestra consta de los valores x1  7 , x2  4 ,
x3  3 y x4  2 . La media de la muestra se calcula así

4
xi 7  43 2
x i 1
 4
4 4
Observe la diferencia entre el empleo de la mayúscula X y de la minúscula x.

Empleamos la mayúscula X para referirnos a variables aleatorias tales como
peso, longitud, etc. Los valores específicos de la variable aleatoria X se designan
con la minúscula x. Vamos a seguir la costumbre de emplear n para simbolizar el
número de valores de una muestra y x para representar la media de la muestra.
La media de la población se designa con la letra griega  (mu). Cuando la
población es finita, la media de la población se calcula de la siguiente manera


N
xi
 i 1
donde N indica el tamaño de la población.
Ejemplo 3. Sea X el número de automóviles vendidos por una empresa

mensualmente. En una muestra de 10 meses se obtuvieron los siguientes valores
de la variable: 24, 25, 22, 20, 15, 25, 17, 16, 15, 17. El número promedio de
automóviles vendidos por la empresa será
24  25  ...  17 196
x   19,6
10 10
O sea, en promedio se han vendido aproximadamente 20 autos por mes en dicha

empresa.
Una de las desventajas de la media es que puede ser influenciada muy
fuertemente por un solo valor extremo y dar una impresión distorsionada de los
datos. Supongamos que 10 estudiantes de una clase tienen las siguientes notas:
91, 95, 95, 94, 92, 93, 98, 97, 96 y 0. La media es 85,10. No parece una buena
representación del rendimiento de los 10 alumnos.
4.4 LA MEDIANA
La mediana es aquel valor que se encuentra en la mitad de una muestra o
población cuyos valores están ordenados en orden ascendente de magnitud. Si el
número de valores es impar, la mediana es igual al valor de la mitad. Si el
número de valores es par, la mediana es igual a la media de los dos valores que
quedan en la mitad.
La mediana divide las observaciones en dos mitades. En una mitad los valores
son menores o iguales al valor de la mediana y en la otra mitad los valores son
mayores o iguales a la mediana. Antes de calcular la mediana hay que ordenar

las observaciones de la muestra o población según su magnitud.

Tomemos por ejemplo el número de unidades vendidas por la empresa del
Ejemplo 3. Ordenando los valores de la variable de menor a mayor obtenemos
15, 15, 16, 17, 17, 20, 22, 24, 25, 25
La mediana es igual a (17  20) / 2  18,5 .

La mediana no se ve afectada por valores extremos como la media. Por ejemplo,
consideremos las notas de 10 estudiantes analizados con anterioridad. Si
ordenamos las notas de menor a mayor obtenemos
0, 91, 92, 93, 94, 95, 95, 96, 97, 98
La mediana es en este caso (94  95) / 2  94,5 . Evidentemente la mediana

representa mejor a este conjunto de datos.
4.5 LA MODA
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos.
Ejemplo 4. Once (11) operarios de una fábrica obtienen las siguientes

calificaciones en una evaluación
70, 83, 74, 75, 81, 75, 92, 75, 90, 94, 75
La moda de este conjunto de datos es 75 pues es la calificación que aparece con

más frecuencia. Un grupo de datos puede no tener moda o tener más de una.
Esto no ocurre con la media y la mediana. La moda no es una medida muy
utilizada en el control de calidad.
5 MEDIDAS DE VARIABILIDAD
Una vez calculada una medida de posición para un conjunto de datos, el
siguiente paso es determinar la variabilidad o dispersión de los datos respecto de
la medida de posición. Varios conjuntos de datos pueden presentar iguales

medias pero diferente variabilidad. Analicemos el siguiente ejemplo.
Ejemplo 5. Dos departamentos de 10 trabajadores cada uno tienen la siguiente

producción por hora
Departamento I 7 8 8 9 9 9 9 10 10 11
Departamento II 3 4 5 6 9 9 12 13 14 15
Puede verse que ambos conjuntos de datos tienen igual media ( x1  x 2  9) pero
evidentemente la producción del departamento II está mas dispersa respecto de
este promedio. Ciertamente estos dos conjuntos de datos son diferentes, su
diferencia está en la dispersión de los mismos.
Los trabajadores del departamento I muestran relativamente poca dispersión en
sus producciones horarias, mientras que los trabajadores del departamento II
tienen mayor dispersión.
Una medida de variabilidad es un número que nos indica el grado de dispersión
de un conjunto de datos. Si el valor es pequeño (respecto de la unidad de medida)
entonces hay una gran uniformidad entre los datos. Por el contrario, un valor
grande nos indica poca uniformidad. Cuando es igual a cero, indica que todos los
datos son iguales.
Las medidas de variabilidad más utilizadas en el control estadístico de calidad
son: la amplitud o rango, la varianza y la desviación estándar. Analizamos a
continuación cada una de ellas.
5.1 LA AMPLITUD O RANGO

La medida de variabilidad más elemental es la amplitud o rango. Es la diferencia
entre el valor máximo ( xM ) y el valor mínimo ( xm ) de los datos. Es decir, la
amplitud A se define como

A  x M  xm
Por ejemplo, para la sucesión de datos 2, 3, 3, 5, 5, 8, 10, 12 la amplitud será

A  12  2  10
El hecho de que para calcular la amplitud se tomen en cuenta solo el valor

máximo y el valor mínimo del conjunto de datos hacen de la amplitud una
medida de variabilidad poco precisa. No obstante se la utiliza en el control
estadístico de calidad.
5.2 LA VARIANZA
La varianza de un conjunto de datos (muestra) se define de la siguiente manera

n
( xi  x ) 2
s 2
 i 1
n 1
en donde n es el número de elementos de la muestra.
Ejemplo 6. Consideremos el mismo conjunto de datos del ejemplo anterior, es

decir 2, 3, 3, 5, 5, 8, 10, 12.
Calculemos en primer lugar la media de la muestra: x  6

Por la tanto, la varianza será
(2  6) 2  (3  6) 2  ...  (12  6) 2 92
s2    13,14
8 1 7
En base a esta fórmula se puede ver que, exceptuando el hecho de que la división
es por n  1 y no por n, la varianza sería la media de las desviaciones, al
cuadrado, que tienen las observaciones con respecto a la media de la muestra.
Cabe preguntarse porque el denominador es n  1 y no n.
La respuesta más simple que ampliaremos en capítulos posteriores es que la
división por n  1 da una medida más útil para propósitos inferenciales.
Si el objetivo analítico consiste únicamente en describir la variabilidad que
presenta la muestra, es perfectamente satisfactorio calcular la varianza de la

muestra dividiendo por n.

El denominador n  1 recibe el nombre de grados de libertad. Una definición
rigurosa de este concepto excede este material.
La fórmula anterior se denomina fórmula conceptual o de definición de la varianza
de la muestra. Cuando se utiliza una calculadora generalmente es más
conveniente emplear la fórmula de cálculo.
La fórmula de cálculo para la varianza de la muestra es
n  x 2 i  ( xi ) 2
s  2
n(n  1)
Utilizando los datos del ejemplo anterior tendremos
8(2 2  32  ...  12 2 )  (2  3  ...  12) 2 3040  2304

s2    13,14
8(8  1) 8.7
5.3 LA DESVIACIÓN ESTÁNDAR O TÍPICA

La raíz cuadrada positiva de la varianza se denomina desviación estándar o
típica. Para muchos fines prácticos es una medida de variabilidad más útil que la
varianza. Por un lado, la desviación estándar se expresa en las mismas unidades
que las observaciones originales, mientras que la varianza se expresa en
unidades elevadas al cuadrado lo que hace de la misma una medida de no muy
fácil interpretación.
Las siguientes fórmulas se utilizan para calcular la desviación estándar de una
muestra de tamaño n
 (x n xi  ( xi ) 2
2
i  x) 2
s o s
n 1 n(n  1)
Ejemplo 7. Se toma una muestra de 6 resistencias y se mide sus valores en ohm.

Los resultados fueron los siguientes, x1  45 , x2  38 , x3  47 , x4  41 , x5  35 y
x6  43 .

Calcular la varianza y la desviación estándar de la muestra.
Solución: La media es en este caso: x  41,5 ohm

Por lo tanto
n  xi  ( xi ) 2
2
6(10.433)  62.0001 597
s 
2
 
n(n  1) 6.5 30
s 2  19,9 ohm2
Luego, la desviación estándar es: s  4,46 ohm.
La varianza y la desviación estándar de la población se indican por medio de  2 y

 respectivamente. La letra griega  se llama “sigma”. La varianza de una
población finita de tamaño N se calcula mediante la fórmula

N
( x i  ) 2
 2
 i 1
N
La fórmula de cálculo es
N  xi  ( xi ) 2
2
2 
N2

Estadistica Parte 1

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Estadistica Parte 1

Hochgeladen von

Copyright:

Verfügbare Formate

Universidad Nacional de Misiones

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

Control Estadístico de la Calidad Pag. 1

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

Entidad: Todo trabajo estadístico concentra su atención en un conjunto de

Variable: Es el conjunto de características de las entidades que interesan en un

Control Estadístico de la Calidad Pag. 2

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

pueden ser x1  58 kg., x2  70 kg. Etc.

Variable continua: Una variable continua es aquella que teóricamente puede

Variable cuantitativa: Se dice que una variable es cuantitativa cuando los

Variable cualitativa: En muchos casos no es posible obtener una medida

Población: El concepto más común de población es el de un conjunto de

Control Estadístico de la Calidad Pag. 3

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

emplearemos el término población para referirnos a un grupo de entidades como

Muestra: Una muestra es una parte de la población. El tamaño de una población

3.1 DISTRIBUCIONES DE FRECUENCIA

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

cuestionarios, y organizarla convenientemente. A continuación estudiaremos

Tabla 1.1 - Longitud en pulgadas de 50 barras de acero

Control Estadístico de la Calidad Pag. 5

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

Nota: En el histograma hemos reemplazado el intervalo de clase por su punto

3.2 CONSTRUCCIÓN DE UNA DISTRIBUCIÓN DE FRECUENCIA

Control Estadístico de la Calidad Pag. 6

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

Número de datos Número de intervalos

2. Una vez escogido el número de intervalos (k) se debe determinar la longitud (l )

Dato mayor  Dato menor

3. El primer intervalo debe contener al menor de los datos y el último al mayor.

4. Finalmente se construye una tabla en la cual en la primera columna se

Ejemplo 1. Suponga que un operador desea determinar como varía la longitud

Construiremos en primer lugar una distribución de frecuencias en forma tabular.

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

2. Determinamos la longitud de los intervalos de la siguiente manera

Ya estamos preparados para construir la tabla de frecuencia pero nos

observaciones y por lo tanto f 2  5 , etc. Una vez terminado este proceso

Control Estadístico de la Calidad Pag. 8

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

Cuando los intervalos se toman de la forma indicada en la tabla anterior se los

Definición: Se llama frecuencia acumulada absoluta de la clase j al número que

Así por ejemplo, para la tabla 1.1 se obtienen F1  2; F2  7; F3  16 ;...; F7  50 .

¿Cómo se interpretan cada uno de estos valores? Por ejemplo, si consideramos la

Definición: Se llama frecuencia relativa de la clase j al cociente entre la

conjunto de datos analizados tenemos f1 / n  2 / 50  0,04 ; f 2 / n  5 / 50  0,1 , etc. Las

Control Estadístico de la Calidad Pag. 9

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

Definición: La frecuencia acumulada relativa de la clase j es el cociente entre la

Todas estas definiciones se pueden resumir en la siguiente tabla

Control Estadístico de la Calidad Pag. 10

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

venido analizando hasta el momento. Si se observa el histograma vemos que los

3.4 DISTRIBUCIÓN DE FRECUENCIA PARA DATOS CUALITATIVOS

Ejemplo 2. En una empresa el personal se distribuye de acuerdo a su actividad

Actividad Número de personas

El histograma de frecuencia para datos cualitativos también está formado por

Control Estadístico de la Calidad Pag. 11

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE

4 MEDIDAS DESCRIPTIVAS NUMÉRICAS

4.1 MUESTREO ALEATORIO SIMPLE

Control Estadístico de la Calidad Pag. 12

ESPECIALIZACIÓN EN GESTIÓN DE PRODUCCIÓN Y AMBIENTE