Sie sind auf Seite 1von 26

Lic.

Vicente Snchez y Ramrez


Estadstica Descriptiva
1. ESTADSTICA DESCRIPTIVA
1.1 Definicin y campo de la estadstica.
La palabra Statistik proviene de la palabra italiana statista que significa estadista.
Los primeros que introdujeron el trmino de estadstica a Inglaterra fue el Dr. E.A.W.
Zimmerman. Su uso fue popularizado por Sir John Sinclair en su obra Statistical
Account of Scotland 1791-1799 (Informe estadstico sobre Escocia 1791-1799).
Estadstica la podemos definir como la ciencia que se encarga de recolectar,
organizar, analizar e interpretar datos numricos con el propsito de auxiliar en una
toma de decisiones ms efectiva.
La estadstica se divide en dos ramas descriptiva e inferencial; la estadstica
descriptiva se encarga de recolectar, organizar, resumir y presentar datos de manera
conveniente, til y comprensible. La estadstica inferencial realiza inferencias a partir
de los estimadores de la muestra sobre los parmetros de la poblacin.
La definicin anterior nos presenta nuevos conceptos tales como: poblacin,
muestra, estimador y parmetro, para entenderla mejor definamos cada uno de
stos. Poblacin es un conjunto de elementos con una caracterstica comn
observable, muestra subconjunto de la poblacin, donde cada uno de los elementos
que la componen tuvo la misma probabilidad de salir elegido, parmetro es una
caracterstica numrica que identifica a una poblacin dada y estimador o
estadstico es un valor obtenido de la muestra que permite hacer predicciones sobre
los parmetros de una poblacin,
En dnde se aplica la estadstica? Sera prolijo describir todas las actividades
donde entra en juego la estadstica como herramienta de investigacin, creo que
sera ms fcil encontrar donde no es aplicable. En la medida que se logra un
incremento en el conocimiento cientfico se van encontrando nuevas aplicaciones de
le ciencia estadstica. Sin embargo, y a manera de ilustracin mencionaremos
algunos de los usos de la estadstica en alguno de sus campos.
Establecimiento de normas de calidad de productos agrcolas e industriales.
Encuestas de opinin.
Estudios de mercado.
Necesidades de los servicios de las ciudades.
Contaminacin ambiental.
Inventarios agrcolas, ganaderos, forestales e industriales.
Estimacin de cosechas.
Control estadstico de procesos.
Prevalencia o incidencia de alguna plaga o enfermedad.
Mejoras de calidad de los equipos.
Disminucin de costos de produccin.
Reduccin de niveles de contaminacin en procesos industriales, etc.
1
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
1.2 Medidas de tendencia central en datos no agrupados.
Estas medidas son llamadas de tendencia central porque su valor por lo general se
encuentra en el centro de los datos que se analizan, si stos son ordenados de
menor a mayor.
1.2.1 Media aritmtica.
Si las observaciones de una muestra aleatoria de tamao n son: x1, x2,...,xn, entonces
la media de la muestra se simboliza por.
n
x
n
x x x
x
n
i
i
n

+ + +

1 2 1
_
...
Donde:
= letra griega que simboliza suma.
xi = valor de la variable aleatoria.
n = nmero de observaciones.
Ejemplo. Sea una muestra de seis estudiantes donde la variable en estudio son
los aos de edad de cada uno de ellos.
1
x
2
x
3
x
4
x
5
x
6
x
19 23 21 24 20 18
83 . 20
6
125
6
18 20 24 21 23 19
_

+ + + + +
x
Lo que significa que la edad promedio de los alumnos es de 20.8 aos.
La media aritmtica es un punto potencial que equilibra todos los puntos ubicados a
uno y otro lado de ella; o sea representa el valor promedio de todas las
observaciones de la muestra.
La media aritmtica es muy sensible a las mediciones extremas, cuando estas
medidas no estn equilibradas en ambos lados de la misma, por ejemplo.
x1 x2 x3 x4 x5
9 11 20 19 150
8 . 41
5
209
_
x
Como puede apreciarse el valor 41.8 cae fuera del grupo de observaciones, cuando
esto suceda es recomendable verificar si este valor atpico es correcto, si lo es, la
2
1 2
3
0
4 5 6
7
0
8
0
9 10
11
0
12
0
13
0
14
0
15
0
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
medida de tendencia central recomendada para analizar la informacin es la
mediana.
La media aritmtica se puede comparar con el punto de apoyo en el juego de sube
baja, por ejemplo, sea una muestra de seis nios donde la variable aleatoria son los
aos de edad de cada uno de ellos. Puede observarse que seis es el valor que
equilibra a los datos.
1
x
2
x
3
x
4
x
5
x
6
x
4 2 6 2 7 15

As como hay la media de la muestra tambin existe la media poblacional y se
denota por la letra griega (miu) y se define por:
N
X
N
i
i

Donde:
= letra griega que simboliza suma.
Xi = variable que se esta estudiando.
N = total de elementos que componen la poblacin.

Puede observarse que para definir los parmetros de la poblacin se utilizan letras
maysculas o griegas, mientras que para definir los estimadores de la muestra se
emplean letras minsculas o nmeros.
1.2.2 Mediana ( M ).
Es la medida de tendencia central que divide la muestra en dos mitades iguales, o
sea es el estadstico que se ubica exactamente a la mitad de los datos, el 50% de la
informacin se encuentra a la izquierda y el otro 50% a la derecha.
Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor ms pequeo y xn el valor ms grande. Entonces la mediana
se define matemticamente como:
Si n es impar la mediana es
2 / ) 1 ( +

n
x M
y si n es par entonces
2
1 ) 2 / ( 2 / +
+

n n
x x
M

3
2 4
2
7 15
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Ejemplo. Sea la variable en estudio el nmero de hijos en siete familias.
9 5 8 2 0 1 5 n es impar
Primero ordenamos los datos de menor a mayor y posteriormente obtenemos la
mediana.
1
x
2
x
3
x
4
x
5
x
6
x
7
x
0 1 2 5 5 8 9
M = x (7+1) / 2 = x4 = 5 hijos por familia.
Lo anterior nos indica que el 50% de las familias tienen hasta cinco hijos y el 50%
restante tienen ms de cinco hijos.
Si obtenemos la media 28 . 4 x y la mediana M = 5, ambas cantidades brindan una
medida razonable de tendencia central (porque se ubican al centro de los datos).
La mediana tiene la ventaja sobre la media de que no se afecta considerablemente
por los valores atpicos, por ejemplo:
23 17 36 01 49 33 2520
Ordenando los valores tenemos:
01 17 23 33 36 49 2520
Aqu la mediana es M = 33 y la media aritmtica es 7 . 382 x , queda claro que la
media no nos dice mucho de la tendencia central de la mayor parte de los datos
cuando alguno de ellos se sale del rango de valores, cuando esto sucede es
recomendable utilizar para el anlisis a la mediana en lugar de la media aritmtica.
Veamos otro ejemplo donde n es par.
4 3 7 9 5 3
Ordenado:
1
x
2
x
3
x
4
x
5
x
6
x
3 3 4 5 7 9
( )
5 . 4
2
5 4
2 2
4 3
1
2
6
2
6

+
x x
x x
M
4
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
1.2.3 Moda ( Mo ).
De todas las medidas de tendencia central, la moda es la ms fcil de determinar ya
que se obtiene por inspeccin visual y no por cmputo, o sea es la observacin que
ocurre con mayor frecuencia.
Ejemplo, sea la variable aleatoria las calificaciones finales obtenidas en una muestra
de 10 alumnos en la materia de probabilidad.
1
x
2
x
3
x
4
x
5
x
6
x
7
x
8
x
9
x
10
x
91 87 99 86 91 79 93 82 91 86
Noventa y uno es la moda ya que ocurre tres veces, lo que significa que el 30% de
los estudiantes obtuvieron de calificacin 91 puntos.
Hay ocasiones en que se encuentran dos modas, en este caso se dice que tiene una
distribucin bimodal, ejemplo:
1 7 3 6 3 2 4 6
Aqu la moda puede ser 3 y 6. Cuando se tenga ms de una moda se dice que se
trata de una distribucin multimodal.
1.2.4 Media ponderada.
La frmula matemtica que simboliza a esta medida de tendencia central es:

n
i
i
i
n
i
i
w
w
x w
x
1
1
_
Donde:
xi = valor de la variable aleatoria.
wi = nmero de observaciones de la variable aleatoria.
Ejemplo. Un turista carga gasolina en 4 estaciones y paga en cada una 9.05, 8.90,
8.95 y 8.30 pesos por litro, si carg 15 litros en la primer gasolinera, 20 en la
segunda, 15 en la tercera y 10 en la cuarta. Cul es el costo promedio por litro?

i
x
= precio de la gasolina.

i
W
= nmero de litros en cada gasolinera.
( ) ( ) ( ) ( )
85 . 8
60
531
60
30 . 8 10 95 . 8 15 90 . 8 20 05 . 9 15
_

+ + +
w x
Lo que significa que el costo promedio por litro de gasolina es de $ 8.85 pesos.
5
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
1.2.5 Comparacin de la media, mediana y moda.
Considrese la negociacin de un contrato colectivo de trabajo en el que el punto
ms importante a discutir es el incremento salarial, en donde participa el lder
sindical, la parte patronal y la Junta de Conciliacin y Arbitraje, para la negociacin
de dicho punto se obtuvo una muestra con los siguientes sueldos:
2,700 5,400 5,400 8,700 11,400 18,600
La parte patronal decide no dar el incremento salarial, en funcin de que el sueldo
promedio de los empleados es alto, siendo este:
8700
6
52200
_
x
El lder sindical argumenta que esto es falso ya que la muestra es muy pequea y
adems estn mezclados los sueldos de los empleados de base con los de
confianza, ya que sueldos de 8,700 en adelante corresponden a empleados de
confianza. Por lo tanto el sueldo promedio de los empleados de base es el que ms
se repite, o sea la moda, la cual es Mo = 5,400.
Un honesto tribunal recomendara como medida de discusin para el incremento
salarial a la mediana, que es la medida de tendencia central ms acertada para este
tipo de casos.
7050
2
8700 5400

+
M
Como puede apreciarse, las medidas de tendencia central son utilizadas en funcin
del comportamiento de los datos, en este ejemplo se observa un valor atpico
(18,600) por lo que la medida de tendencia central ms recomendable para el
anlisis es la mediana.
1.3 Medidas de dispersin en datos no agrupados.
Es por todo conocido que un nmero por s mismo carece de significado, solo lo
adquiere cuando se compara con otros nmeros o estadsticos.
Si conocemos la media de una distribucin de una variable dada, podemos
determinar cuando una calificacin es mayor menor que dicha media pero cunto
es mayor o cunto es menor?
Para describir una distribucin en forma ms completa es necesario una informacin
adicional que acompae a la media, la mediana o la moda.
Esta informacin adicional debe de indicar el grado de dispersin de los valores de la
variable aleatoria alrededor de su promedio, para comprenderlo mejor veamos el
siguiente ejemplo numrico.
6
Muestra 1 = *
Muestra 2 = x
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Considere la resistencia al rompimiento en libras por pulgada cuadrada (psi) de doce
botellas de vidrio de un litro, tomadas de dos lotes de produccin.
Muestra 1 230 250 245 258 265 240
Muestra 2 190 228 305 240 265 260
La media de ambas muestras es igual a 248 psi, sin embargo la dispersin de los
datos de la muestra dos es mayor a la de la muestra uno, como puede apreciarse en
el siguiente grfico.
x x x x x x
* * * * * *
180 200 220 240 260 280 300 320

x = 248
En base a la dispersin de los datos de cada lote de la grfica anterior, queda
demostrado que las medidas de tendencia central no proporcionan suficiente
informacin para describir adecuadamente la distribucin de una poblacin, para que
esto suceda deben ser acompaadas de una medida de dispersin, siendo por lo
general la varianza.
1.3.1 Rango.
Es una medida de variabilidad que indica la distancia en la escala de calificaciones.
Es la ms sencilla y directa en las medidas de dispersin, se obtiene restando al dato
mayor el dato menor y sumndole uno.
El rango es poco usado por su notoria inestabilidad, si existe en la distribucin alguna
calificacin extrema, la dispersin de las calificaciones parecera ms grande. Si
hiciramos caso omiso de esa distribucin extrema, podramos encontrar que la
distribucin es por el contrario ms compacta Ejemplo:
4 1 3 9 8 11 13 7 29
Rango = (29 - 1) + 1 = 29
Si quitamos el 29 el nuevo rango ser: (13 - 1) + 1 = 13 lo que nos indica que los
datos estn ms compactos.
Dentro de los mayores defectos que tiene el rango son:
a) No permite hacer una interpretacin precisa de una calificacin dentro de la
distribucin.
7
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
b) No puede hacerse intervenir en ninguna de las relaciones matemticas,
importantes en la inferencia estadstica.

Su interpretacin ser: entre ms grande sea el rango mayor ser la dispersin de
las calificaciones.
1.3.2 Desviacin media (D. M.).
Consiste en restar a cada una de las calificaciones su media y sta diferencia se
suma pero en valor absoluto, dividindose posteriormente entre n.
Ejemplo.


La media aritmtica es 6
5
30
_
x

x x
i

= 1 2 1 1 4 1 1 -1 1 1 -2 1 1 -3 1


12
5
1

i
i
x x

Por lo tanto la desviacin media ser igual a:
4 . 2
5
12
. . M D
Su interpretacin ser: tanto mayor sea la desviacin media, tanto mayor es la
dispersin de las calificaciones.
La desviacin media por s sola tiene muy poco uso, si la estudiamos es debido a:
a) Est estrechamente relacionada con la varianza y la desviacin estndar.
b) La desviacin media es en cierta forma base para estimar errores en la prediccin.
Dentro de sus mayores defectos estn los mismos que los del rango.
1.3.3 Varianza y desviacin estndar.
La medida de dispersin ms utilizada dentro del anlisis estadstico es conocida
como varianza. S x1, x2,...,xn son las observaciones de una muestra de tamao n, el
algoritmo matemtico que define la varianza es:
1
x
2
x
3
x
4
x
5
x
8 10 5 4 3
8
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
( )
1
1
2
2

n
x x
S
n
i
i

Dicha frmula aplicando las leyes del lgebra podemos redefinirla como:
( )
2
1 1
2
2
1 1

,
`

.
|



n n
x
n
x
S
n
i
i
n
i
i
Para ver como la varianza de la muestra mide la dispersin de los datos, tomemos
los valores de la muestra dos de la resistencia al rompimiento en libras por pulgadas
de las botellas.
x x x x x x
180 200 220 240 260 280 300 320
x = 248
La grfica muestra las desviaciones de x x
i
, si sumamos estas desviaciones dar
como resultado cero, para evitar esto cambiamos las desviaciones negativas a no
negativas elevndolas al cuadrado, en consecuencia si las desviaciones son
pequeas, hay una relativamente pequea variabilidad en los datos, pero si las
desviaciones son grandes, la variabilidad es relativamente grande, por lo que la
varianza penalizar mucho las desviaciones grandes.
La varianza nos sirve para medir la variabilidad de los datos en una poblacin, o sea
nos permite conocer la homogeneidad o heterogeneidad de los datos que se estn
estudiando.
Ejemplo, obtengamos la varianza para la muestra uno y dos del rompimiento en
libras por pulgada cuadrada de los dos lotes de botellas.
Muestra 1 Muestra 2
n1 = 6 n2 = 6
1
x
= 1,488
2
x
= 1,488

2
1
x
= 369,814

2
2
x
= 376,534

1
x = 248
2
x = 248
9
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva


( )
( )
2
2
2
1
158
1 6 6
1488
1 6
814 , 369
psi S


( )
( )
2
2
2
2
502 , 1
1 6 6
1488
1 6
534 , 376
psi S

Al comparar estas dos varianzas vemos que la muestra uno tiene menor variabilidad
que la muestra dos, o sea que los datos estn ms apiladitos alrededor de su
promedio, dicho en otras palabras los datos de la muestra uno son ms
homogneos. Una varianza igual a cero significa que los valores de la variable
aleatoria son iguales.
Debido a que S
2
se expresa en el cuadrado de las unidades originales, no es fcil
interpretarlas, para resolver este problema de dimensionalidad, trabajamos con la
raz cuadrada (positiva) de la varianza la cual llamaremos desviacin estndar; esto
brinda una medida de dispersin expresada en las mismas unidades de la variable
con la que estamos trabajando.
Las desviaciones estndar de las muestras uno y dos de la resistencia al
rompimiento de las botellas son:
Para la primera muestra es: psi S S 57 . 12 158
2
1 1

Para la segunda muestra ser: psi S S 75 . 38 502 , 1
2
2 2

La interpretacin de la varianza y de la desviacin estndar ser: entre ms cercanos
se encuentren estos valores del cero, puede significar que los datos estn ms
agrupados alrededor de su promedio (existe poca variabilidad). Pero aqu se
recomienda tener cuidado cuando se trabaje con valores pequeos, ya que el
resultado de S
2
y S puede ser engaoso, en este caso se recomienda la utilizacin
del coeficiente de variacin para su interpretacin, el cual veremos a continuacin.
De igual forma que para la muestra hay una varianza, existe una medida de
variabilidad para la poblacin, la cual se denota con la letra griega
2
, su clculo es:
( )
2
2
1 1
2
1
2
2
N
X
N
X
N
X
N
i
i
N
i
i
N
i
i

,
`

.
|


1.3.4 Coeficiente de variacin.
Existe otra medida de dispersin que se conoce como coeficiente de variacin su
forma ms frecuente de encontrarlo es:
10
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
x
S
CV
En muchas ocasiones el coeficiente de variacin se establece en tanto por ciento y
se denota por:
) 100 (
x
S
CV
La interpretacin del coeficiente de variacin es similar al de la varianza, con la
ventaja de que ste varia de 0 a 100%, entre ms pequeo sea, significa que la
poblacin es ms homognea, o sea que la varianza es ms pequea. Y entre ms
cercano est el CV al 100% significa que la poblacin es ms heterognea.
En los ejemplos que nos ocupan los coeficientes de variacin son:
% 1 . 5 ) 100 (
248
57 . 12
1
CV

% 6 . 15 ) 100 (
248
75 . 38
2
CV
Puede observarse que hay menor variabilidad en cuanto a resistencia se refiere en la
muestra uno, por lo que podemos decir que este lote tiene ms calidad.
El coeficiente de variacin adems de indicarnos si una varianza es chica o grande,
nos sirve tambin para comparar poblaciones en donde se analiza diferente
variable, por ejemplo considere las siguientes dos poblaciones:
1. Un tirador realiza tres disparos a un
blanco y se mide la desviacin en mm.
de donde peg el disparo al blanco,
siendo estos:
2. El lanzamiento de tres cohetes a la
luna que tiene que alunizar en
un determinado lugar, la desviacin en
Km. son:
Disparo Desviacin Lanzamientos Desviacin
1
2
3
5 mm.
3 mm.
7 mm.
1
2
3
11 Km.
23 Km.
17 Km.
Calculemos ahora la media, varianza y desviacin estndar para ambas poblaciones.
1 = 5 mm.

2
1 = 2.67 mm
2
.
1 = 1.63 mm.
2 = 17 Km.
2
2
= 24 Km
2
.
2 = 4.9 Km.
Hasta aqu podramos suponer que la poblacin uno parece tener menor variabilidad
en sus datos que la poblacin dos.
Obtengamos ahora los coeficientes de variacin.
11
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
( ) % 6 . 32 100
5
63 . 1
1
CV ( ) % 8 . 28 100
17
9 . 4
2
CV
Aqu podemos afirmar que la variabilidad de la poblacin uno es ligeramente mayor
que la de la poblacin dos, o sea hay un mayor alejamiento de los disparos con
relacin a su media en comparacin con la poblacin dos. Aun cuando solo en un
3.8% la poblacin uno es ms variable que la poblacin dos.
1.4 Organizacin de poblaciones (datos agrupados).
1.4.1 Distribucin de frecuencias.
Cuando se tiene un gran nmero de datos lo ms conveniente es organizarlos y
presentarlos de tal manera que facilite su interpretacin.
Una de las primeras formas de organizarlos es mediante la presentacin de una
tabla de frecuencias, lo cual nos permite saber fcilmente que porcentaje de la
poblacin presenta las caractersticas que nos interesan.
Para ilustrar el mtodo, tomemos como ejemplo la resistencia al rompimiento en
libras por pulgada cuadrada (psi) de 72 botellas de vidrio no retornables de refresco
de un litro.
265
205
263
307
220
268
260
234
197
286
274
243
231
267
281
265
346
317
242
258
276
300
208
187
280
242
260
321
228
250
299
258
265
254
281
294
223
260
308
235
200
235
246
328
296
276
264
269
221
176
248
263
231
334
280
265
265
262
271
245
301
280
274
253
261
248
260
274
337
250
278
254
Como es obvio estas cantidades no tienen ni pies ni cabeza a menos que las
organicemos de un modo sistemtico. Las razones para ordenarlos en una tabla de
frecuencias son:
a) Es antieconmico e imprctico tratar con un nmero de casos distribuidos en
muchos puntajes.
b) Algunos puntos tienen asociada una frecuencia tan baja o inclusive cero, que no
se justifica para mantenerlas como unidades distintas o separadas.
Como factor negativo tenemos, al agrupar los puntajes se pierde inevitablemente
parte de la informacin. Esto se puede medio resolver, agrupando los datos en la
forma ms correcta de acuerdo a la experiencia que se tenga con la informacin. De
12
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
aqu la pregunta obligada cuntos intervalos se deben de utilizar en una tabla de
frecuencias? la respuesta es difcil...
Algunos autores que estudian el comportamiento indican que pueden ser de 10 a
20 intervalos de clase. Otros dedicados a trabajos agrcolas citan de 5 a 25
intervalos. Autores que escriben sobre ingeniera indican de 5 a 20 intervalos de
clase y los que investigan sobre administracin recomiendan de 5 a 15.
Como puede observarse no existe una regla definida para determinar el nmero de
intervalos, ya que solo la experiencia del investigador es la que lo decide. Sin
embargo como apoyo a los alumnos que inician en este tema, podemos citar estas
dos formas.
La primera es la regla de Sturgess, la cual obtiene el nmero de intervalos de la
siguiente manera k = 1 + 3.3 (Log. n), donde n es el total de observaciones. La
segunda es la obtenida en la prctica que a menudo funciona bien, y es tomar como
nmero de intervalos (k) la raz cuadrada del nmero de observaciones,
ajustando este valor entre 5 y 15 intervalos. Estas dos alternativas ms la
experiencia del investigador en el manejo de la variable a estudiar, lo llevar a
determinar el nmero adecuado de intervalos de clase.
El empleo de estas dos formas para la obtencin del nmero de intervalos no debe
considerarse como una verdad absoluta, ya que si al obtener las frecuencias en cada
uno de los intervalos en el trabajo que realicemos, encontramos que algunas son
muy bajas o incluso ceros, estos intervalos no tienen sentido tenerlos. Por lo que se
recomienda reducir el nmero de intervalos e iniciar nuevamente con los clculos
desde el principio.
Para iniciar con nuestro ejemplo, tenemos el caso prctico donde n = 72, por lo tanto
el nmero de intervalos a tomar ser k = 72 = 8.48 8.
Los pasos a seguir para la elaboracin de la tabla de frecuencia son:
1. Obtencin del rango. Se obtiene restando al dato mayor de los datos el dato
menor y sumando uno.
Rango = (346 - 176) + 1 = 171
Nota. Cuando los valores de la variable que se est analizando sean chicos y con
decimales, o sean muy parecidos entre s, se recomienda no sumarle uno al rango.
2. Obtencin del tamao del intervalo de clase. Para esto se divide el rango entre el
nmero de intervalos, si el resultado es fraccionario redondee al nmero entero
ms cercano.
171 8 = 21.4 21
3. Clculo de los intervalos de clase:
13
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
1
er
intervalo. Lmite inferior = dato menor = 176

Lmite superior = dato menor + (tamao del intervalo - 1)
= 176 + 20 = 196
2
o
intervalo. Lmite inferior = entero consecutivo al lmite superior del
primer intervalo = 197.
Lmite superior = lmite inferior del segundo intervalo +
(Tamao del intervalo - 1)
= 197 + 20 = 217.
Para los dems intervalos se sigue el mismo procedimiento.
176 196 260 280
197 217 281 301
218 238 302 322
239 259 323 343
4. Obtencin de las frecuencias de la clase. A cada intervalo se le asigna el
nmero de datos que caen en cada uno de ellos.
176 196 !!
197 217 !!!!
218 238 !!!!! !!!!
239 259 !!!!! !!!!! !!!!
260 280 !!!!! !!!!! !!!!! !!!!! !!!!! !!
281 301 !!!!! !!!
302 322 !!!!
323 343 !!!!
5. Obtencin de los lmites reales de clase. En cada intervalo de clase se le resta
media unidad al lmite inferior y se le suma media unidad al lmite superior, para
evitar que un dato caiga en ms de un intervalo. (Si los datos son pequeos y ms
an con decimales no les obtenga los lmites reales de clase).
6. Clculo del punto medio o marca de clase. Se obtiene de sumar los lmites
reales de cada intervalo y dividirlos entre dos.
7. Obtencin de la frecuencia relativa de clase. Se obtiene de dividir la frecuencia
de cada intervalo entre la suma de todas las frecuencias.
8. Obtencin de la frecuencia acumulada. A la frecuencia del primer intervalo se le
suma la frecuencia del segundo, a esta suma acumulada se le suma la frecuencia
del tercer intervalo y as sucesivamente.
9. Obtencin de la frecuencia relativa acumulada. Es similar al punto ocho pero con
la frecuencia relativa.
14
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
RESISTENCIA AL ROMPIMIENTO DE 72 BOTELLAS DE VIDRIO
Intervalo
de
clase
Frecuencia
de clase (
i
F
)
Marca de clase
o punto medio
(
i
X
)
Frecuencia
relativa
Frecuencia
acumulada
Frecuencia
relativa
acumulada
175.5 - 196.5
196.5 - 217.5
217.5 - 238.5
238.5 - 259.5
259.5 - 280.5
280.5 - 301.5
301.5 - 322.5
322.5 - 343.5
Total
2
4
9
14
27
8
4
4
72
186
207
228
249
270
291
312
333
0.03
0.06
0.12
0.19
0.37
0.11
0.06
0.06
1.00
2
6
15
29
56
64
68
72
0.03
0.09
0.21
0.40
0.77
0.88
0.94
1.00
Con los valores de esta tabla ya podemos obtener informacin que anteriormente no
podamos, tales como:
Cuntas botellas tienen una resistencia menor a 217.5 psi? R= 4 + 2 = 6

Qu porcentaje de las botellas tienen resistencia mayor a 301.5 psi?
R= (4 + 4) / 72 = 0.111 11.1%
Cuntas botellas tienen una resistencia entre 238.5 y 280.5? R = 41 compaas.
Si se toma una botella al azar, cul es la probabilidad de que su resistencia sea
mayor a 280.5 psi? R = 16 / 72 = 0.222.
Suponiendo que en la bodega de donde se tomo la muestra hay 500,000 botellas
cuntas de ellas tendrn una resistencia mayor a 259.5 psi? R = Segn la muestra
el 59.72 %. Por lo tanto 500,000 x 0.5972 es igual a 298,600.
1.4.2 Medidas de tendencia central en datos agrupados.
La medida de tendencia central ms utilizada es la media aritmtica, la cual se
define como:
n
f x
x
k
i
i i

1
Donde:
xi = punto medio o marca de clase.
fi = frecuencia de clase .
n = nmero de observaciones.
i = 1,2..., k intervalos.
En el ejemplo que nos ocupa la media aritmtica es:
15
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
00 . 263
72
18936
72
) 4 ( 333 ) 4 ( 207 ) 2 ( 186

+ + +
x
Significa que en promedio, una botella tiene una resistencia de 263 libras por
pulgada cuadrada.
Moda. El algoritmo matemtico que la define es:
Donde:
L = lmite inferior del
intervalo donde se encuentra la moda.
d1 = diferencia (sin consideracin de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo precedente.
d2 = diferencia (sin consideracin de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo siguiente.
w = tamao del intervalo de clase.
En nuestro ejemplo lo primero que debemos saber es en qu intervalo se
encuentra la moda, recordemos que sta se localiza en el intervalo que tiene la
mayor frecuencia, o sea el quinto intervalo.
En el ejemplo que estamos analizando su estimacin ser:

03 . 268 21
19 13
13
5 . 259
]
]
]

+
+ Mo
Significa que 268.03 psi es la resistencia que tiene el mayor nmero de botellas.
Tambin podramos decir que aproximadamente el 37% de las botellas tiene una
resistencia de 268.03 psi.
Mediana su clculo lo obtenemos por:
( )
w
f
S n
L M
]
]
]

+
+
2 1
Donde:
L = lmite inferior del intervalo donde se encuentra la mediana.
n = nmero de observaciones.
S = suma acumulada de las frecuencias, hasta antes del intervalo donde se
encuentra la mediana.
f = frecuencia del intervalo en donde se localiza la mediana.
w = tamao de intervalo de clase.
16
w
d d
d
L Mo
]
]
]

+
+
2 1
1
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Para encontrar su valor en la tabla de frecuencias, lo primero que tenemos que hacer
es localizar el intervalo donde se encuentra la mediana. sta se localiza exactamente
a la mitad de los datos, en nuestro caso est en el quinto intervalo, ya que ah se
encuentra del 41 al 77% de la informacin, su estimador se obtiene por:
33 . 265 21
27
29
2
1 72
5 . 259
]
]
]
]
]
]

+
+ M
Lo anterior significa que el 50% de las botellas tienen una resistencia hasta de
265.33 psi y el 50% restantes tienen una resistencia mayor a 265.33.
1.4.3 Medidas de dispersin en datos agrupados.
La varianza y desviacin estndar son las medidas de dispersin ms empleadas
en estadstica inferencial. La frmula matemtica que defina a la varianza de la
muestra es:
( )
( ) 1 1 1
2
1
1
2
1
2
2

,
`

.
|


n n
f x
n
f x
n
f x x
S
k
i
i i
k
i
i i
k
i
i i
En el ejemplo que venimos analizando la varianza de la muestra ser:
{
) 1 72 ( 72
) 4 ( 333 ) 4 ( 207 ) 2 ( 186
1 72
) 4 ( 333 ) 4 ( 207 ) 2 ( 186
2 2 2 2
2

+ + +

+ + +
S
92 . 1055
5112
18936
71
5055138
2
2
S
Y la desviacin estndar se define por:
49 . 32 92 . 1055
2
S S
El coeficiente de variacin en base a los estimadores obtenidos es:
( ) ( )
% 35 . 12
263
100 49 . 32 100
. .
x
S
V C
La interpretacin de S
2
y S podemos obtenerla mediante el clculo del CV que vara
del 0 al 100%. En nuestro caso es de 12.35%, lo que nos indica que hay poca
variacin, o sea que la resistencia en psi de las botellas no se encuentran tan
dispersos alrededor del promedio (263), o lo que es lo mismo, la varianza es chica.
17
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Otra medida importante que podemos obtener de la tabla de frecuencias son los
percentiles. El algoritmo matemtico para su clculo se expresa de la siguiente
manera:
w
f
d
L D
i ]
]
]

+

Donde:
L = lmite inferior del intervalo donde se encuentra el percentil buscado.
d = diferencia (sin considerar signo) que se necesita para alcanzar el rango
del percentil buscado, tomado de la columna de frecuencias
acumuladas.
f = frecuencia de clase del intervalo donde se encuentra el percentil.
w = tamao del intervalo de clase.
Ejemplo. Qu valor representa el 10% de la resistencia de las botellas? El dcimo
percentil (D10) es la observacin con rango (%) (n) + 0.5, que en nuestro caso ser
(0.10) (72) + 0.5 = 7.7, o sea que el dcimo percentil est entre la observacin que
ocupa el sptimo y el octavo lugar en la tabla de frecuencias.
Lo primero que debe hacerse es localizar el intervalo donde se encuentra el percentil
D10, para ello utilizamos la columna de frecuencia relativa acumulada, en ella
podemos observar que en el tercer intervalo se encuentra del 10 al 21% de los datos.
En la columna de frecuencia acumulada localizamos el intervalo donde puede
encontrarse el rango del percentil, en nuestro caso 7.7 se ubica en el tercer
intervalo, ya que ah esta del sptimo al quinceavo dato. El valor de d se obtiene por
la diferencia de 7.7 menos 6 que es 1.7
Por lo tanto la estimacin del percentil diez o el primer decil se obtiene por:
47 . 221 21
9
7 . 1
5 . 217
10

]
]
]

+ D
Lo que significa que el 10% de las botellas tienen una resistencia menor o igual a
221.47 psi. O lo que es lo mismo, el 90% de las botellas tienen una resistencia mayor
a 221.47 psi.
Ejemplo. Qu valor representa el primer cuartil.
Su rango es ( ) + 5 . 18 5 . 0 72 25 . 0 la estimacin del primer cuartil es:
75 . 243 ) 21 (
14
5 . 3
5 . 238
25
+ D
Ejemplo. Obtengamos el segundo cuartil.
18
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
El rango del segundo cuartil es: ( ) + 5 . 36 5 . 0 72 5 . 0 su valor estimado ser:
33 . 265 ) 21 (
27
5 . 7
5 . 259
50
+ D
Cuyo valor debe ser idntico al obtenido en la mediana, lo cual sirve para verificar si
su clculo fue bien realizado.
Ejemplo. Cul ser el valor en pesos del percentil 75.
( ) + 5 . 54 5 . 0 72 75 . 0 33 . 279 ) 21 (
27
5 . 25
5 . 259
75
+ D
Significa que le 75% de las botellas tienen una resistencia hasta de 279.33, mientras
que el 25% restante tienen una resistencia mayor a 279.33 psi.

1.5 Representaciones grficas.
1.5.1 Histograma.
La informacin de la tabla de frecuencias puede ser trasladada a un grfico, como un
histograma, un polgono de frecuencias o un polgono de frecuencias acumuladas los
cuales permiten lograr una apreciacin ms fcil de la informacin.
Qu es un histograma? Es una grfica de barras adyacentes, que muestra en el
eje horizontal las marcas de clase y en el eje vertical las frecuencias de clase, donde
la altura de cada rectngulo es proporcional a la frecuencia de clase que representa.
Por qu son utilizados los histogramas?
a) Para resumir datos y describir la historia respecto a un proceso.
b) Es mejor que tratar de obtener informacin de una lista de nmeros.
c) A menudo la forma del histograma puede proveer pistas acerca de un proceso,
para saber si est bajo control o fuera de control.
d) Nos indica grficamente si los datos se distribuyen de manera normal (tienen
forma de campana).
A continuacin se presenta el histograma, donde la base de cada rectngulo
representa el punto medio o marca de clase, y la altura est dada por la frecuencia
de la clase o nmero de observaciones que cae dentro de cada intervalo.
Con el fin de evitar que un grfico sea mal interpretado, se recomienda la realizacin
de grficas mediante la regla de los tres cuartos de altura. Dicha regla consiste en
que el eje de la ordenada (y) debe medir tres cuartas partes de lo que mide el eje de
la abscisa (x). Por ejemplo si el eje x mide 20 centmetros de longitud, el eje y debe
medir 15 cm.
19
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
La grfica siguiente presenta el histograma de nuestros datos, en l podemos
apreciar que a la mitad de la grfica se encuentra ms o menos el 263, que es la
resistencia promedio de las botellas (media aritmtica). As mismo podemos apreciar
que la mayor parte de la resistencia de las botellas est en 270 (moda), y de igual
manera la mediana tiene un valor un poco menor a 270.
Si unimos los centros de la parte superior de cada rectngulo obtenemos una nueva
grfica que se llama polgono de frecuencias, podemos ver que la figura que tiene
el histograma y la que tendra el polgono es el de una campana, lo anterior nos
indica que los datos se distribuyen de manera normal.
Histograma de la resistencia de las
botellas
0
5
10
15
20
25
30
186 207 228 249 270 291 312 333
Resistencia de las botellas en psi.
F
r
e
c
u
e
n
c
i
a
s
El histograma visto como histograma no nos dice mucho, para ver su aplicacin
tomemos como ejemplo una mquina despachadora de refrescos en vaso, donde
sirve un promedio de = 355 ml. y sus lmites de calidad son: LIC = 350 y LSC =
360 ml. Si tomamos una muestra de n vasos y realizamos su histograma, este puede
presentar las siguientes figuras:
20
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
EN CONTROL Y ES CAPAZ
EN CONTROL CON CAPACIDAD SI SE ENFOCA ADECUADAMENTE
EN CONTROL NO CAPAZ
1.5.2 Polgono de frecuencia acumuladas.
Otro tipo de grfico es el polgono de frecuencias acumuladas, que nos presenta
de una manera eficiente la distribucin de frecuencias acumuladas. Este se
construye graficando sobre el eje de las x los lmites de clase y sobre el eje de las y
su frecuencia acumulada; los puntos as determinados se unen mediante segmentos
de recta.
RESISTENCIA AL ROMPIMIENTO DE 72 BOTELLAS DE VIDRIO
21
Histograma fuera de lmites, hay que
corregirlo. (La mquina est dando
de menos y de ms).
Modelo ideal, los
datos quedan dentro
de los lmites.
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
La interpretacin para este grfico es: en la parte izquierda se leen los datos de la
muestra, as para cualquier punto considerado en el eje y (ordenada) nos
proporciona un nmero de elementos que son menores o iguales al eje de la x
(abscisa); as podemos observar que 29 botellas tienen una resistencia menor o
igual a 259.5 psi.
Si vemos el eje derecho del grfico encontramos la frecuencia relativa acumulada, y
obtiene la misma interpretacin pero ahora de manera generalizada para toda la
poblacin. Ah podemos ver que el 77% de las botellas tienen una resistencia menor
o igual 280.5 psi. O lo que es lo mismo el 23% de las botellas tienen una resistencia
mayor a 280.5 psi.
Con las frecuencias relativas acumuladas de este polgono como variable
dependiente y los lmites de clase como variable independiente, se puede calcular
una ecuacin que se ajuste a los puntos del modelo, la cual nos sirve para hacer
predicciones. La grfica sugiere que se puede ajustar una ecuacin de primer grado
de la forma y = a + bx a los valores observados.
As la ecuacin que mejor describe la relacin entre los lmites de clase y la
frecuencia relativa acumulada es: x y 607 . 7 354 . 1 + , con la cual ya podemos
hacer predicciones para la frecuencia relativa acumulada en funcin de los valores
de x, dentro del rango 175.5 a 343.5.
Apndice 1.1 Uso de Minitab en estadstica descriptiva.
Para ilustrar la manera de como Minitab es utilizado para obtener medidas de
tendencia central, de dispersin, de posicin y grficas en datos no agrupados, se
muestra el siguiente ejemplo.
1. Concentre los valores de la variable aleatoria que desea analizar en la hoja de
clculo, como se indica a continuacin.
C1
1 8
22
175.5 196.5 217.5 238.5 259.5 280.5 301.5 322.5 343.5
F
r
e
c
u
e
n
c
i
a
F
r
e
c
u
e
n
c
i
a
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
2 4
3 12
4 2
5 14
6 10
7 6
8 16
9 18
10 10
11 14
12 8
13 16
2. Seleccione el men Estadsticas.
3. Elegir Estadsticas bsicas.
4. Hacer clic en Mostrar Estadsticas descriptivas.
5. Cuando aparezca el cuadro de dilogo Mostrar estadsticas descriptivas.
Ingresar C1 en el cuadro Variables.
Hacer clic en Estadsticas.
6. Cuando aparezca el cuadro de dilogo Estadsticas Descriptivas-Estadsticas.
Hacer clic en las medidas de tendencia central, de dispersin o de posicin que
desee.
Hacer clic en Aceptar.
Hacer clic en Grficas.
7. Cuando aparezca el cuadro de dilogo Mostrar estadsticas descriptivas-
grficas.
Hacer clic en las grficas que desee.
Hacer clic en Aceptar.
Hacer clic en Aceptar.
Apndice 1.2 Uso de Excel en estadstica descriptiva.
Obtencin de las frecuencias de clase
Para ilustrar la forma de cmo Excel es utilizado para obtener una distribucin de
frecuencias con datos cuantitativos, tomaremos el ejemplo de la resistencia al
rompimiento en psi. de 72 botellas de vidrio no retornable (pgina 12).
1. Concentre la resistencia de las botellas, los intervalos de confianza y los lmites
superiores en la hoja de clculo como se indica a continuacin.
23
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
A B C D E
1 Resistenci
a
Resistenci
a
Limite
Superior
Frecuencia
2 265 176-196 196
3 205 197-217 217
4 263 218-238 238
5 307 239-259 259
6 220 260-280 280
7 268 281-301 301
8 260 302-322 322
9 234 323-343 343
10 197
. .
. .
. .
72 278
73 254
2. Seleccione las celdas E2:E6
3. Seleccione el man Insertar.
4. Hacer clic en Funcin.
5. Cuando aparezca el cuadro de dilogo Insertar funcin.
En la ventana O seleccionar una categora seleccione Estadsticas.
En la ventana Seleccionar una funcin seleccione Frecuencia.
Hacer clic en Aceptar.
6. Cuando aparezca el cuadro de dilogo Argumentos de funcin.
En el cuadro de Datos seleccione las celdas A2:A73
En el cuadro de Grupos seleccione las celdas D2:D9
Pulsar las teclas SHIFT+CTRL (maysculas)+ENTER
Los valores de las frecuencias de clase aparecern en las celdas D2:D9 de la
siguiente manera: 2, 4, 9, 14, 27, 8, 4, 3.
NOTA. Observe que en este caso el mayor valor de resistencia de 346 no est
incluido en la tabla de frecuencias, lo anterior es debido a que el mayor lmite
superior reportado en D9 es 343. Por lo tanto nosotros lo podemos ubicar en el
ltimo intervalo, as que en lugar de 3 ser 4.
Elaboracin de un histograma.
Para ilustrar el empleo de Excel como herramienta en la elaboracin de un
histograma, tomemos el ejemplo de la resistencia al rompimiento de las botellas de
vidrio (pgina 15); siga los siguientes pasos:
24
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
1. Concentre las frecuencias de clase y los puntos medios como aparece indicado en
la hoja de clculo.
A B
1 2 186
2 4 207
3 9 228
4 14 249
5 27 270
6 8 291
7 4 312
8 4 333
2. Seleccione las celdas A1:A8
3. Seleccione el icono Asistente para grficos de la barra de herramientas.
4. Cuando aparezca el cuadro de dilogo Asistente para grficos-paso 1 de 4: tipo
de grfico.
Hacer clic en Columna.
Hacer clic en Siguiente.
5. Cuando aparezca el cuadro de dilogo Asistente para grficos-paso 2 de 4:
datos de origen.
Seleccionar la pestaa Serie.
Haga clic en el cuadro Rtulo de ejes de categora (X):
Seleccione las celdas B1:B8
Hacer clic en Siguiente.
6. Cuando aparezca el cuadro de dilogo Asistente para grficos-paso 3 de 4:
opciones de grfico.
Seleccionar la pestaa Ttulos.
Digitar Histograma de la resistencia de las botellas en el cuadro Ttulo de grfico.
Digitar Resistencia de las botellas en psi. en el cuadro Eje de categoras (X).
Digitar Frecuencia en el cuadro Eje de valores (Y).
Seleccionar la pestaa Leyenda.
Quitar la paloma (marca de verificacin) que aparece en el cuadro Mostrar
leyenda.
Hacer clic en Siguiente.

7. Cuando aparezca el cuadro de dilogo Asistente para grficos-paso 4 de 4:
ubicacin del grfico.
Hacer clic en Como objeto en.
Hacer clic en Finalizar.
8. Cuando aparezca la grfica proceda de la siguiente manera.
Dar doble clic en cualquiera de las columnas de la grfica.
25
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
9. Cuando aparezca el cuadro de dilogo Formato de serie de datos.
Seleccionar la pestaa Opciones.
Digitar 0 en el cuadro Ancho del rango.
Hacer clic en Aceptar.
En los cuadros de dilogo, Excel tiene otras posibilidades ms que usted puede
aprovechar seleccionando las opciones que desee.
26