Sie sind auf Seite 1von 134

UNIDAD I REPASO DE MATEMÁTICA APLICADA A LA ESTADÍSTICA

Introducción a las técnicas del análisis gráfico


Una de las formas más fáciles de visualizar las características esenciales de un fenómeno, estudiado
experimentalmente, consiste en presentar en gráficas los resultados numéricos correspondientes a las
mediciones efectuadas, porque, además de su análisis, se puede obtener información adicional por
extrapolación, interpolación, cálculo de pendientes, etc. En este capítulo se dan algunos elementos básicos
para aprender y aplicar convenientemente las diversas técnicas para graficar.

1. VARIABLES
Una variable es una cantidad a la cual puede asignársele, durante un proceso, un número ilimitado de
valores.

Cuando una cantidad tiene un valor fijo, durante un proceso, se llama constante. Se distinguen dos tipos
de constantes: las absolutas y las arbitrarias; las primeras tienen el mismo valor en todos los procesos por
ejemplo, π, e, g, en tanto que las segundas pueden tener un valor diferente en cada proceso particular. En
la estadística se acostumbra llamar parámetros a estas últimas.

2. FUNCIONES
Cuando dos variables x e y están relacionadas de tal forma que a cada valor de x corresponde uno de y, se
dice que y es una función de x. Se emplea la notación y=. f(x), para significar este hecho.

A la variable x, en la función y = f(x), se le llama independiente porque toma el valor que se le asigna
arbitrariamente: la otra variable se llama dependiente, ya que debe tomar los valores que satisfagan la
relación particular.

3. SISTEMA COORDENADO RECTANGULAR


En la figura 1.1 se muestra un sistema coordenado rectangular, que consta de un par de líneas rectas
mutuamente perpendiculares. A la horizontal se le llama eje X o eje de las abscisas, y a la vertical, eje Y o
eje de las ordenadas; al punto donde se cruzan ambas se le da el nombre de origen, y a las cuatro regiones
en las cuales los ejes dividen al plano se les llama: primero, segundo, tercero y cuarto cuadrante,
respectivamente.

1
y
Segundo cuadrante Primer cuadrante

o x
Tercer cuadrante Cuarto cuadrante

Figura 1.1. El sistema coordenado rectangular divide el plano en cuatro cuadrantes.

La localización de puntos sobre los ejes es fácil al subdividir estos en segmentos iguales, numerándolos
progresivamente desde el origen, y alejándose de el (véase fig. 1.2). La dirección positiva del eje X es
hacia la derecha, y la dirección positiva del eje Y, hacia arriba.

y
3

o x
-4 -3 -2 -1 1 2 3 4
-1

-2

-3

Figura 1.2. Los segmentos en que se subdivide el eje X no necesariamente deben ser iguales a los del eje
Y.

Nótese que los segmentos del eje X no necesariamente son iguales a los del eje Y; por otro lado, el origen
tampoco es siempre el cero, ni las subdivisiones de magnitud unitaria (véase fig. 1.3).

2
y

0.90

0.88

0.86

0 x
37 41 45

Figura 1.3. Las subdivisiones de cada eje no siempre son unitarias.

Gracias a los sistemas de coordenadas, es posible localizar puntos en el plano, dando dos valores. En la
figura 1.4 se tiene un sistema coordenado rectangular, en el cual se identifican los puntos P (3,2), Q (-l, 4)
y R (2, - 2). En general, cualquier punto S se representa mediante la notación S(x, y), siendo x el valor de
la abscisa e y de la ordenada; la pareja (x, y) recibe el nombre de coordenadas del punto. Así pues las
coordenadas del punto Q son x = -1, y = 4; el primer número corresponde a la abscisa y el segundo a la
ordenada.

y
Q 4

2 P

o x
-2 -1 1 2 3
-1

-2 R

-3

Figura 1.4. Los sistemas coordenados rectangulares permiten la localización de puntos en el plano.

3
Problemas de aplicación grupo uno

1. Trácense, en un sistema coordenado rectangular, los puntos A (- 1, -1), B (-4,5), C (2, - 5) y D (4,3).
Indicar en qué cuadrante se encuentra cada uno.

2. Trácense, en un sistema coordenado rectangular, los puntos P (1,3), Q (2,6), R (3,9) y S (4, 12).

4. GRÁFICAS
La utilidad de los sistemas coordenados rectangulares no sólo reside en que permite la localización de
puntos en el plano, sino también en que ayuda al trazado de gráficas.
Una gráfica es una curva constituida por puntos [x, y) que satisfacen una ecuación de tipo y = f(x). Esto
significa que la línea es el lugar geométrico de los puntos que cumplen con la relación establecida entre
las variables.
Supóngase la función:
Y = 3x2 - 5
En ella la variable independiente es x, y como tal pueden dársele valores arbitrarios, pero y es la variable
dependiente cuyos valores resultan de sustituir los de x en la función. Entonces
Si x = 0, y = 3 (0) - 5 = -5; si x = 1, y = 3 (1) - 5 = -2,
Y así sucesivamente. Con las parejas de valores obtenidos, se forma una tabulación, en donde se
presentan los valores de cada variable (véase tabla 1.1).
TABLA 1.1
x Y
0 -5
1 -2
2 7
3 22
4 43

Por supuesto, ésta no es la única tabulación posible, ya que x puede tomar valores negativos,
fraccionarios, muy grandes, etc.; pero siempre dará lugar aun valor para y a través de la función. Como se
ve, la tabulación está constituida por parejas ordenadas de valores, que representan puntos en el plano y,
por tanto, pueden trazarse en un sistema coordenado rectangular (véase fig. 1.5).

50
40
30
20
10
0
-10 0 1 2 3 4 5

4
Figura 1.5. Representación gráfica de la función y = 3x2 — 5. Siendo iguales las escalas en ambos ejes.

Antes se dijo que la longitud de los segmentos en que se subdivide X no necesariamente es igual a la de
los segmentos en que se subdivide el eje Y. De acuerdo con esto, la misma gráfica de la figura 1.5 puede
hacerse según se muestra en la figura 1.6 en donde las unidades en el eje de las abscisas son mayores que
el eje de las ordenadas

50
40
30
20
10
0
-10 0 2 4 6 8 10

Figura 1.6. La misma función de la figura 1.5 en un sistema con la escala horizontal más grande que la
vertical.

También es posible trazar una gráfica sin conocer la función que representa. Esto sucede cuando en vez
de dicha función se tiene la tabulación, lo cual es típico de los resultados de experimentos; inclusive del
análisis de la gráfica se puede llegar, con la aplicación de ciertas técnicas que se verán posteriormente, al
establecimiento de la función satisfaciendo así el objetivo de muchas investigaciones empíricas.

Problemas de aplicación grupo dos


1. Refiriéndose al ejercicio 2 del grupo 1, hágase la gráfica correspondiente
Manualmente o utilizando cualquier programa y realice el análisis de las mismas.
Al realizar estos ejercicios se observa, en el primero, que la gráfica es una línea recta que, prolongándose
un poco por su extremo inferior, pasa por el origen, en tanto que en el segundo se trata de una curva de la
cual no puede asegurarse lo mismo, es decir, no es rigurosamente válido continuarla desde el punto P
hacia abajo.

Al hecho de prolongar en una pequeña cantidad una línea recta o curva—por cuales quiera de sus
extremos— se le llama extrapolación, y es una técnica que permite obtener coordenadas, en forma
aproximada, propias de la gráfica, que no se tenían inicialmente. En cuanto a la magnitud de dicha
prolongación, al decirse que sea pequeña significa que no irá más allá de una distancia que comprometa la
regularidad o simetría de la curva. Como esto es muy vago, sobre todo tratándose de curvas, se deja a
criterio del experimentador la decisión de llevar, hasta donde él juzgue prudente, una extrapolación. Sólo
puede decirse que el hacerlo no será un problema muy grave una vez que llegue a adquirir la habilidad
suficiente para apreciar el tipo de curva que está manejando y el intervalo en que refleja un

5
comportamiento familiar a través |curvas, representativas de funciones algebraicas elementales
(parábolas, hipérbolas, etc.)

Existe también la técnica de interpolación, consistente en obtener una de las coordenadas, por ejemplo x,
fijando la otra es decir, y a través de la correspondencia que establece entre ambas la gráfica
correspondiente (véase fig. 1.7).
La recta PQ se indica a través de los puntos A (3.6) y B (6.9); por extrapolación se tiene P (0,3) y por
interpolación, C (5,8), eligiendo inicialmente y = 8 y observando a partir de la gráfica que, dada esa
ordenada, la abscisa x es 5.
5. PENDIENTE DE LA RECTA

Pendiente de la recta, que pasa por los puntos P (x1,y1) y el punto Q (x2,y2) se define como: m =

y 2  y1 y

x 2  x1 x

10
y

. . Q

8 . C
B

5
. A

3
P
2

x
1 2 3 4 5 6 7

Figura 1.7. El punto P resulta de extrapolar la recta AB, y el punto C se obtiene por interpolación

Problemas de aplicación grupo tres.

1. Trácese la gráfica cuya tabulación aparece en la tabla siguiente y extrapólese para x = 0, ¿cuánto vale
y?

X Y
4.2 4.5
7.9 11.8
15.5 27.1

2. En la gráfica del problema anterior obténgase, por interpolación, la ordenada del punto cuya abscisa
es igual a 10

6
3. Obténgase la pendiente de la recta del problema 1, empleado las coordenadas del punto que resulta de
ese problema y las del punto del problema 2

6. PROPORCIONALIDAD
Muchas de los datos experimentales con las cuales se trabaja, se expresan mediante funciones del
siguiente tipo:
Y = axn
Siendo a y n constantes reales positivas o negativas. Esta expresión significa a que Y y x n son
proporcionales. En el caso particular en que n = 1, la proporcionalidad entre ambas variables es directa.
Siempre que la n sea negativa, la proporcionalidad será inversa. A la constante a se le conoce con el
nombre de constante de proporcionalidad. Ejemplo el precio de un artículo es directamente proporcional
al valor de la materia prima.

Problemas de aplicación grupo cuatro


1. Ponga tres ejemplos de proporcionalidad lineal, cuadrática e inversa en el campo en el que usted se
desempeña e indique cuales son las variables, el valor de n y el valor de la constante de
proporcionalidad a.
2. Hallar las ecuaciones que gobiernan a cada una de las curvas que se indica a continuación y diga a
que relación existe entre las variables.

y
1

3 4
6
5

o x

7. SUMATORIA Y PROPIEDADES

Corresponde a una de las tantas operaciones que se realizan en la estadística, ya que siempre se tendrá que
sumar numerosos términos, los cuales muchas veces deben ser expresados por símbolos o formulas, con
el fin de simplificar su presentación.

El signo de la sumatoria es ∑ (sigma), letra griega que indica suma de, o sumatoria de. Por definición se
tendrá que:

7
n


i 1
x i  x1  x 2  x3  ........  x n

En términos generales una operación de sumatoria se expresa así:

i 1
i ; Se observa al sigma le acompaña i = 1, que representa el límite inferior, donde i no

necesariamente debe ser igual a 1; n corresponde al limite superior y, finalmente, i es el elemento


genérico de la suma.
5
La expresión 
i 1
i se lee: sumatoria de i igual a uno, hasta cinco de i, lo que quiere decir que i toma

valores desde uno hasta cinco y el resultado final será la suma de estos valores.

Aplicaciones
5
a). 
i 1
i = 1+2+3+4+5 = 15

n
n( n  1)
Sí n es demasiado grande se puede aplicar la siguiente forma 
i 1
i=
2
50
50(51)
Ejemplo. i 
i 1 2
 1275

n
n(n  1)( 2n  1)
b) i
i 1
2

6
5
Ejemplo. i
i 1
2
12  2 2 3 2 4 2  5 2  55 o aplicando la formula anterior tenemos

5
5(5  1)(10  1)
i
i 1
2

6
 55

 n(n  1) 
n 2

c)  i  
3

i 1  2 
5
Ejemplo i
i 1
3
 13  2 3  3 3  4 3  5 3  225 o aplicando la formula anterior

 5(5  1) 
5 2


i 1
i  3

 2 
  225

d) En el caso de que sea una constante

8
5
Ejemplo 10  10  10  10  10  10  50
i 1

Siendo n = 5 y k = 10, se podrá realizar la operación mediante el producto de nk = 5(10) = 50, y la


propiedad se expondrá así: La sumatoria de una constante, es igual al producto del límite superior n por la
n
constante k  k  nk
i 1

e) La sumatoria de una constante por una variable


5

 5i  5(1)  5(2)  5(3)  5(4)  5(5)  5  10  15  20  25  75


i 1

Aquí es más fácil aplicar la propiedad que dice: “la sumatoria de una constante por una variable es igual
al producto de la constante por la sumatoria de la variable”.
n n 5 5

 ki  k  i   5i  5 i  51  2  3  4  5  51  2  3  4  5  75
i 1 i 1 i 1 i 1

f) Si la sumatoria cobija varios términos, dado que están dentro del paréntesis, o que uno de ellos
multiplique al paréntesis, se tendrán tantas sumatorias como términos tenga el paréntesis,
resolviendo cada uno de ellos en forma independiente, para luego obtener un solo total.
5 5 5 5

 (i 2  3i  8)  i 2  3 i   8  (12  2 2  3 2  4 2  5 2 )  3(1  2  3  4  5)  40  140


i 1 i 1 i 1 i 1
Si se expresa en la siguiente forma:
5

i
i 1
2
 3i  8 , la sumatoria solo cobija el primer término y el desarrollo de esta expresión nos quedaría

así: 55 + 3i + 8.
5
Ahora, si una sumatoria se expresa en la siguiente forma:  (i
i 1
2
 3i )4 , la sumatoria cobijaría a la

totalidad de los elementos que se encuentran dentro del paréntesis. Por consiguiente,
5 5 5 5

 (i
i 1
2
 3i )4 Será igual a  (4i
i 1
2
 12i )  4 i 2  12 i
i 1 i 1

= 4 (12 + 22 + 32 + 42 + 52 ) + 12 (1 + 2 + 3 + 4 + 5) = 4 (55) + 12 (15)


= 220 + 180 = 400

g) La sumatoria de n elementos se podrá expresar de diferentes formas


8

 i  4  5  6  7  8  30 ; Se observa que no siempre el límite inferior de la sumatoria será igual


i4

a uno. En este caso se debe tener cuidado con el uso de la propiedad de la sumatoria de una constante.
Veamos:
8

10  10  10  10  10  10  10  60  6(10)  60 ; Es decir, se tendrá:


i 3

9
(8  3)  110  6(10)  60 , o sea: k(n  i)  1
4

X
i 1
i  X 1  X 2  X 3  X 4 . Hasta aquí sería la solución, salvo que se indique que cada término

toma un determinado valor, por ejemplo: X 1  2 ; X 2  5 ; X 3  8 ; X 4  10 ; en este caso, la


sumatoria se dará reemplazando cada término por su respectivo valor:
4

X
i 1
i  X 1  X 2  X 3  X 4  2  5  8  10  15

 5X
i 1
i  5( X 1  X 2  X 3  X 4 )  5(2  5  8  10)  5(15)  75

Cuando el símbolo de la sumatoria se expresa sin límites explícitos (inferior y superior), se entiende que
la sumatoria abarca desde el límite inferior i = 1 hasta n.

8. PRODUCTORIA
El producto se simboliza por la letra griega π (pi mayúscula), que se lee “producto de”, y tiene una
aplicación parecida a la de la sumatoria, con la diferencia que en vez de ser sumados, los términos se
multiplican entre sí; por lo tanto, la productoria tendrá un límite inferior y superior, además del elemento
genérico del producto.
n
 i Se lee “productoria de i igual a uno hasta n de i”
i 1

Veamos algunas operaciones:


5
 i  1  2  3  4  5  120 . Para esta operación se pueden utilizar calculadoras de bolsillo que
i 1

tengan el signo !, que se lee factorial y se expresa así:


5! 5  4  3  2  1  120 .
4
 i 2  12  2 2  32  4 2  12  4  9  16  576
i 1

Como en el caso de la sumatoria, también en la productoria se cuenta con propiedades.


Algunas de ellas son:

a) La productoria de una constante es igual a una potencia, en la que la base es la constante y el


exponente el límite superior de la productoria.
5
 2  2 5  32  2  2  2  2  2
i 1

b) El producto de una constante por una variable es igual a la constante elevada al valor que toma
el límite superior por la productoria de la variable i, desde el límite inferior hasta el límite superior.
5 5
 2i  2 5  i  2 5 (1  2  3  4  5)  32(120)  3840
i 1 i 1

10
9. RAZÓN

Gran parte de esta compilación se dedicará a describir el comportamiento de un hecho o de un conjunto


de observaciones, mediante la elaboración de cuadros, gráficas y la aplicación de diferentes medidas.
Todo ello encaminado hacia características cuantitativas, olvidándonos un poco de las cualitativas, que en
algunos casos abarcan gran parte de la información que se investiga. Es ese el motivo por el cual se ha
considerado necesario explicar algunos conceptos, tales como: razón, proporción, porcentajes y tasas, que
de alguna manera serán utilizados en las diferentes unidades.

La razón, la proporción, el porcentaje y la tasa tienen en común la relación de dos cantidades que las
simbolizamos por A y B, una como numerador y otra como denominador.

A
La relación resultante se expresa así: , con los siguientes efectos:
B
a) Si A no está contenida en B, corresponde a una razón.
b) Si A está contenida en B, corresponde a una proporción.
c) Si A está contenida en B y el cociente se multiplica por 100, corresponde a un porcentaje.
d) Si A representa un evento y B es el total a riesgo de sufrir el evento A, aparecido y medido en un
período dado, se le denomina tasa. En otras palabras, es la razón aquella que mide la probabilidad de
ocurrencia de un resultado en un universo siendo utilizado de preferencia en demografía y en
actividades financieras.

Recordemos que las características cualitativas se expresan mediante palabras, y para que sean
consideradas dentro del campo estadístico, requieren ser cuantificadas mediante el conteo, es decir, se
debe determinar cuántas veces se repite la característica. Su agrupación en una tabla o cuadro nos permite
describir o comparar el hecho, y lo podemos hacer, en parte, mediante el uso de estos conceptos,
denominados por algunos como medidas de intensidad, siendo siempre una medición relativa.

10. RAZÓN
Es aquella que mide la relación entre dos cantidades, permitiendo su comparación, calculada
generalmente por cociente. Se consideran varios tipos de razones, dependiendo de las características que
se quieran comparar.

a) Razón de coexistencia. Se refiere bien a la intensidad de un fenómeno en dos lugares diferentes, o


bien a los dos fenómenos en un mismo lugar.
b) Razón de composición. Mide la relación entre la intensidad de un fenómeno y la de otro fenómeno
más amplio, del que el primero forma parte.
c) Razón de derivación. Con esta se compara la intensidad de un fenómeno con la de otro, que es
prerrequisito de su existencia.
d) Razón de repetición. Mide la recurrencia de un fenómeno durante cierto tiempo.

11
La mayoría de los textos de estadística clasifican en dos los tipos de razones:

a) Razón de dos números de la misma población.


b) Razón de dos números de distinta población.

La razón se simboliza mediante R y se obtiene dividiendo una cantidad qué sé puede simbolizar con Yi,
por otra cantidad que simbolizamos mediante Xi.

R
Y i

Y
X i X

Supongamos que se tomó una muestra de 10 establecimientos comerciales (n = 10), los que fueron
investigados. Una parte de los resultados está en la siguiente tabla:

NUMERO VALOR MENSUAL VENTAS NUMERO DE EMPLEADOS


DE ORDEN ( $)
Total Hombres Mujeres
1 2220,70 12 8 4
2 3366,00 15 10 5
3 1187,60 9 7 2
4 2234,80 9 3 6
5 4411,50 12 9 3
6 1154,50 7 3 4
7 1198,80 8 2 6
8 2222,90 6 5 1
9 2287,00 6 4 2
10 1154,80 10 7 3
Σ 21 438,60 94 58 36

Se puede observar que el número de observaciones es n = 10 y que puede calcularse el promedio mensual

de ventas por establecimiento, mediante la aplicación de la media aritmética X = 21 438,60/10 =


2143,86 dólares. Sin embargo, si se quiere determinar el promedio de ventas mensuales por empleado,
debe utilizarse la razón: R = 21438,60  94 = 228,07 dólares por empleado en el mes. Otro ejemplo de
razón utilizando la anterior información sería establecer la relación hombres empleados/mujeres
empleadas: R = 58/36 =1,61. Significa que por cada mujer empleada hay 1,61 hombres, y que
multiplicadas ambas cifras por dos nos daría una forma más clara de interpretarla, es decir, que por cada 2
mujeres hay aproximadamente tres hombres, luego la relación será de 2 a 3.

Cuando veamos las medidas de asimetría y de apuntamiento, encontraremos que su expresión matemática
corresponde a una razón de momentos, en la cual el numerador y denominador son momentos o funciones
simples de momentos.

12
11. PROPORCIÓN

Es una forma especial de la razón, en la cual la cantidad dada en el numerador es la frecuencia de una
cierta característica y la del denominador será el número total de unidades consideradas, sea cual fuere el
tamaño de la muestra. En una característica cuantitativa, la proporción corresponde a la frecuencia
relativa que se verá en la elaboración de una tabla de frecuencias.

12. PORCENTAJES

Cuando la proporción se multiplica por 100, el resultado obtenido se denomina porcentaje, generalmente
utilizado en la presentación de los datos, ya sean cualitativos o cuantitativos

Supongamos que una empresa industrial tiene clasificado su personal por años y sexo.

AÑOS SEXO TOTAL


Masculino Femenino
2 005 780 320 1 100
2 006 880 620 1 500

La relación hombre/mujer en esta empresa para el año de 2 005 fue 780 / 320 = 2,44, es decir, que por
cada dos mujeres contratadas se contrataron 5 hombres en ese período; en cambio, para 2 006, esa
relación bajó, ya que por cada dos mujeres hay aproximadamente tres hombres. La razón se calculó así: R
= 880/620 = 1,42.

En cuanto a la aplicación de la proporción, encontramos que para el año de 2 005 la proporción de


hombres fue 0,7090, y la de mujeres es el complemento (0,2910), ya que la suma debe ser igual a uno.

Consideremos que a simboliza el número de elementos que presenta la característica investigada, y b la


cantidad de elementos que no la presenta.

a + b = n = total de elementos investigados.


p = a/n = a / (a+b); p = 780/1.100 = 0,7090

La proporción de elementos que no presenta la característica se simboliza mediante la letra q, y su valor


debe ser el complemento de p, ya que p + q = 1.
q = 320  1.100 = 0,2910
Con los resultados anteriores, pueden determinarse los porcentajes de hombres y mujeres que laboran en
la empresa, multiplicando por 100 las proporciones obtenidas:
(780  1.100) 100 = 70,90%; (320  1.100) 100 = 29,10%

13
13. TASAS

Se le considera como un tipo especial de razón, con la cual se desea hacer una descripción de los cambios
sucedidos en un hecho, generalmente en un período dado.

Los componentes de una tasa son:


a) El numerador corresponde al número de unidades que posee algún tipo particular de eventualidad que
ocurre durante un período determinado.
b) El denominador es el número de algún tipo de unidades relacionadas con la anterior.
c) El cociente anterior se multiplica por cien o por mil.

Se utiliza en muchos campos, como en economía, administración, especialmente en las áreas financiera y
contable, en evaluación de proyectos, en demografía, entre otros.

Vale la pena recordar algunas de las tasas que el estudiante ha escuchado o que posiblemente las utiliza.

Tasa de interés Tasa de descuento


Tasa efectiva Tasa social de rendimiento
Tasa nominal Tasa de rendimiento para la inversión
Tasa interna de retorno Tasa marginal de reinversión de las utilidades
Tasa de desempleo Tasa de cambio normalizada

14
UNIDAD II: GENERALIDADES
Objetivos:
 Conocer el origen de la palabra estadística
 Conocer y comprender el desarrollo histórico
 Conocer y distinguir las escuelas que se han formado alrededor de esta ciencia
 Entender y manejar lo conceptos de estadística descriptiva e inferencia
 Conocer las instituciones que producen estadística
 Precisar la importancia y la aplicación de la estadística.
 Estar en capacidad para determinar qué hechos son propios de la estadística.
 Identificar casos de mal uso de la estadística.

ETIMOLOGÍA

No se ha logrado un acuerdo sobre el origen etimológico de la palabra Estadística. Para algunos autores,
se deriva del latín status que significa estado, en el sentido político. Si se tiene en cuenta que en un
principio los gobiernos la utilizaban para la recolección de datos, también significa posición o situación
de personas o cosas. Para otros, se deriva del vocablo griego statera que significa balanza, dado en parte
a la función que cumple en la medición o peso de los hechos que son objeto de estudio; otros, sostienen
que proviene del alemán staat que también significa estado, considerado como una organización política.

Por lo anterior, se observa que no hay claridad sobre el origen de la palabra Estadística; sin embargo,
puede afirmarse que la etimología latina es la más aceptada, por ser la que más explica la finalidad de esta
disciplina.

DESARROLLO HISTÓRICO
Desde la antigüedad se encuentran estadísticas rudimentarias relacionadas con registros, censos, ya sea en
el campo económico, social o educacional. Es así como se tienen informes de su aplicación e importancia
en tiempos anteriores a la era Cristiana. Se dice
que 2.000 años antes de Cristo, en China, ya se habían hecho registros y recuentos de la población,
cultivos, fortunas, etc. En otros pueblos, como Siria, Persia, Egipto, se conocían censos de poblaciones y
catastro de territorios. La Biblia también nos habla de recuentos estadísticos; lo mismo, Moisés habla de
un registro de los israelitas, de las personas dedicadas a las faenas agrícolas. El nacimiento de Cristo
coincide con la realización del empadronamiento o censo de los israelitas.

En épocas del Imperio Romano se tiene conocimiento de estadísticas en todos aquellos hechos en que los
gobernantes requerían información sobre las diferentes provincias en las que estaba dividido su Estado.
Dentro del mundo de habla hispana, se tienen informes del año 727, en el cual los árabes levantaron
diversas estadísticas en la Península Ibérica, así como también durante el reinado de los Reyes Católicos y
de Felipe II, se realizaron censos.

15
En épocas posteriores al Imperio Romano se hizo más frecuente y menos rudimentaria la realización de
investigaciones, con el fin de producir informaciones más completas que sirvieran, a la vez, para efectuar
previsiones futuras.

En la Edad Media se encuentran estadísticas más sistematizadas, a tal punto que en algunos lugares se dio
comienzo a organizaciones estatales.

Para algunos, el análisis estadístico se inicia con el tendero inglés John Graunt (1620- 1674), quien
intenta analizar las causas de las defunciones en Londres, en la primera mitad del siglo XVII. Otros
mencionan a Herman Conring (1600-1681), quien se dedicó a describir y a examinar aquellos hechos
sobresalientes del Estado.

En 1 749, aparece lo que se considera la primera obra en que la estadística es tratada en forma sistemática,
como ciencia, y es Godofredo de Achenwall o Anchersen (1719-1772) quien la introduce como
asignatura universitaria, con el nombre de Estadística.

Sin necesidad de citar a "todos aquellos que de una u otra forma contribuyeron al desarrollo de la
estadística, se debe resaltar a quienes más aportaron ¡deas básicas para su fundamentación, entre ellos
Laplace (1749-1827), quien aplicó el cálculo de probabilidades al análisis estadístico; Karl Friedrich
Gauss (1777-1855), quien estableció la distribución gaussiana de errores resultantes, con su forma de
campana y su simetría, denominada como Curva Normal de Errores. E! belga Adolph Quetelet (1796-
1874) aplicó métodos modernos a conjuntos, y es reconocido como el padre moderno de la estadística;,
W.S. Gosset (1876-1937), un estadístico de !a Cervecería Guiness, de Dublin, quien escribió con el
seudónimo de "Student" y contribuyó con la teoría de las muestras pequeñas; Sir Ronald A. Fisher (1890-
1962) contribuyó a ampliar !a anterior teoría y, además de los diferentes e importantes aportes, se le
menciona con frecuencia por el hallazgo de la Distribución F.; así mismo Karl Pearson (1857-1936), con
su periódico Biométrica, influyó enormemente en el desarrollo de la estadística y contribuyó con
numerosos métodos, medidas o procedimientos, siendo el más sobresaliente el de la Distribución Chi-
cuadrado; Florence Nightingale (1820-1910), defensora de los métodos estadísticos, sostenía que el
fracaso de muchos directores, empresarios y gobernantes se debía a la insuficiencia de conocimientos
estadísticos.

Además de los anteriores vale la pena mencionar, como los que más han influido en los modernos
procedimientos estadísticos, a: Jacobo y James Bernoulli, Poisson, Pierre de Fermat, Pierre Laplace,
Charles Darwin, Francisco Galton, Gregor Mendel, Karl Pearson, David Duncan, Blaise Pascal, Charles
Spearman, Karl Gauss y Frank Yates.

ESCUELAS
Podemos considerar tres grandes escuelas, importantes, que han influido en el desarrollo de la estadística:

16
a) La Escuela Administrativa, localizada en Alemania, creó la primera cátedra y cursos de estadística,
dándole importancia a la información requerida por el Estado. Se consideran como los principales
representantes de esta escuela a: Vito de Seckendorff (1626-1689); Hermann Conring, quien inició un
curso de estadística en la Universidad de Helmstadt, preocupado por los casos más notables del Estado; su
discípulo Godofredo de Achenwall quien le dio el nombre de estadística y la separó de la sociología.
b) La Escuela Probabilística algunos la consideran originaria de Italia, otros de Francia, dada la atención
prestada a los juegos de azar, que se efectuaban para la recreación de la nobleza, con el consiguiente
desarrollo de la Teoría de las Probabilidades.

Sus principales representantes son: Pascal (1623-1662), Fermat (1601-1665), Laplace (1749-1827),
Poisson (1781 -1840), los Bernoulli y Gauss.

c) La Escuela Demográfica, creada en Inglaterra, se preocupa por problemas actuariales. Dentro de ésta
sobresalen: Sir William Petty, Edmund Halley, Jhon Graunt, King y Devenaut, entre otros. A principios
de este siglo hay una gran preocupación por su aplicación en los campos de la agronomía y biometría, lo
cual leda a la estadística mayor relevancia, colocando así los cimientos y siendo sus principales
exponentes: Galton, Karl Pearson, Gosset y Fisher.

Algunos consideran las siguientes escuelas como las menos importantes: la escandinava, la
norteamericana y la hindú, que también han colaborado en la fundamentación estadística.

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL


La palabra Estadística se menciona y se utiliza a diario, sin que se tenga una definición o significado
igual para personas de formación e intereses distintos, encontrándonos con una gran variedad de
interpretaciones. Sin embargo, la relacionan con todos o algunos de los siguientes términos: recolección,
clasificación, tabulación, descripción e interpretación de resultados, estimaciones, proyecciones y
adopción de decisiones frente a la incertidumbre.

Se podría decir que la palabra estadística está asociada a términos o frases tales como: análisis de datos;
realización de experimentos; procesos aleatorios; métodos cuantitativos; prueba de hipótesis; diseños de
experimentos; decisiones prácticas. Por otra parte, en numerosas ocasiones nos encontramos con muchos
datos, y el problema que se nos presenta es: ¿cómo se pueden organizar, resumir, presentar e
interpretarlos? La estadística es una buena herramienta para resolver el interrogante. A pesar de la buena
impresión que a primera vista ofrece la estadística, también presenta motivos de impopularidad,
especialmente cuando se hacen encuestas sobre simpatizantes por un candidato o por el gobernante del
momento; los indicadores económicos entre ellos el índice de precios al consumidor, utilizado para
indicar las variaciones en los precios de los artículos de primera necesidad y para calcular el porcentaje de
inflación o pérdida del poder de compra del dinero respecto a un período determinado.

17
Para la mayoría de tratadistas, la estadística es un método de investigación, no sólo para la observación de
un hecho, sino también para la formulación de hipótesis, el diseño de experimentos, la comprobación de
ciertas teorías, cuando no se puede hacer experimentalmente.

Otros la definen, a menudo, como un conjunto de métodos para la toma de decisiones en condiciones de
incertidumbre.

Algunos la sintetizan, como e! profesor ROS, quien nos da una definición que abarca a muchas otras, al
decir que la Estadística "es la ciencia que estudia los hechos colectivos, mediante la observación
numérica, el análisis matemático y la interpretación lógica, investigando especialmente sus causas y leyes
empíricas".

Podríamos dar nuestra propia definición, que sintetice gran parte de las definiciones existentes, diciendo
que la Estadística es un conjunto de métodos aplicados en la recolección, clasificación, presentación
e interpretación de datos numéricos, obtenidos de la observación de hechos, que permiten, a la vez,
inferir hacia conclusiones lógicas. Vale la pena recalcar que la estadística moderna es la teoría de la
información que tiene como objetivo la inferencia.

Por lo anterior, observamos que este conjunto de métodos cumple dos funciones, igualmente
importantes: la de describir e inferir, permitiendo su clasificación en:

Estadística descriptiva. Como su nombre lo indica, describe el comportamiento de un hecho, a través de


la recolección, ordenamiento, clasificación, presentación mediante cuadros y gráficas, análisis e
interpretación y utilización de medidas.

La estadística descriptiva podría resumirse como un conjunto de instrumentos que colaboran en la


depuración de los datos, en su presentación clara y en su simplificación para la interpretación, análisis y
publicación. Se podría agregar que un cuadro claro, acompañado de una gráfica que visualice, más la
aplicación de una o varias medidas bien empleadas, permite descubrir y describir la "verdad" que encierra
un conjunto de datos.

Algunos consideran que si sólo se investigara la totalidad de las observaciones de una población objetivo,
bastaría con la aplicación de la estadística descriptiva, cuyo proceso sería, como ya se ha dicho
repetidamente, la recolección, presentación y análisis de la información obtenida. Sabemos, además, que
en la mayoría de los casos eso no es posible por varios motivos, entre otros: costo y tiempo, que obligan a
realizar investigaciones más pequeñas denominadas muestras, a través de las cuales se estiman los valores
de esa población, para los cuales el investigador requiere determinar la extensión, validez y confianza del
proceso, valiéndose para ello de la inferencia estadística.

18
Estadística inductiva o inferencia. Son aquellas técnicas aplicadas en investigaciones parciales,
denominadas muestras, que permiten la obtención de ciertos resultados mediante la aplicación de
medidas, considerados como estimadores de los valores estadísticos de la población, es decir, los
parámetros.

La estadística inductiva parte de los datos depurados y condensados, que facilitan el análisis, el
establecimiento de relaciones y correlaciones, la aplicación de mediciones especiales que permiten inferir
y contrastar hipótesis en aquellos campos donde no existen verificaciones físicas.

Estadístico es aquella persona que aplica métodos estadísticos y maneja cifras, que representan
información de hechos, recogidos a través de la observación o experimentación.

Estadísticas son todas aquellas informaciones que aparecen en publicaciones en forma de cifras, cuadros
o gráficas, las cuales han sido ordenadas en forma sistemática, para mostrar el comportamiento de un
hecho que ha sido objeto de estudio.

IMPORTANCIA
La importancia que hoy tiene la estadística radica en sus grandes aplicaciones en las diferentes
actividades. En la vida cotidiana leemos, interpretamos o usamos datos, muchas veces sin tener
conocimiento de lo que es la estadística, pero la persona con algunos principios estadísticos, sacará mejor
provecho de la información. Si se trata de un profesional, la importancia de estos instrumentos será mejor,
ya que será utilizada en su campo de acción.

La estadística es considerada como una herramienta de vital importancia en la toma de decisiones, pues
nos suministra información para la valoración de planes y programas; además, su adecuada utilización
dependerá en especial del conocimiento, habilidad y experiencia de quien la emplea.

Vale la pena repetir lo dicho por Salomón Fabricanl, sobre su importancia: "todo el mundo parece
coincidir en que la estadística puede ser útil para comprender, evaluar y controlar el funcionamiento de la
sociedad". Por otra parte, H. G. Wells decía: "el pensamiento estadístico un día será tan necesario
para una ciudadanía el eficiente como el saber leer y escribir". Todo lo anterior queda corroborado si
observamos que la mayor parle de los acontecimientos que diariamente ocurren en la sociedad, en
cualquier campo, se encuentran estrechamente ligados a la concepción de número y medida. Es tan
cierto esto que podríamos afirmar, sin temor a equivocarnos, que la mayor parte de las actividades del
hombre o de las instituciones, por no decir que todas, no importa la rama que desarrollen, están afectadas
en mayor o menor grado por decisiones basadas en antecedentes de tipo cuantitativo.

El profesional podrá comprender la importancia que tiene la estadística si observa desprevenidamente


algunos de estos puntos de reflexión:

19
a) los métodos estadísticos se utilizan a diario, tanto en el sector público como en el privado;

b) las noticias que frecuentemente se dan en los diferentes medios de comunicación requieren la
interpretación estadística;

c) algunas de las materias del plan de estudios necesitan de la aplicación de estos conocimientos;

d) para saber su rendimiento académico a través del promedio de calificaciones o la posición en el


curso, se utiliza la estadística.

CAMPOS DE APLICACIÓN
Es tan vasto el campo de aplicación dado a la estadística que sería larga su enumeración, y que podríamos
resumirlo diciendo que todas las ciencias, en una o en otra forma, la aplican. Sin embargo, podríamos
decir que en las Actividades económicas el empresario, el industrial o el hombre de negocios, en general,
la utiliza, ya sea para el análisis financiero, en las ventas o en los procesos de la producción; también en la
investigación de mercados, para el lanzamiento de un producto, para averiguar su grado de aceptación o
para la proyección de su producción y de sus ventas; también cuando desea aceptar o rechazar un lote de
su producción o de la materia prima comprada; en la elaboración del presupuesto, o como parte integrante
en el desarrollo de políticas y decisiones de carácter administrativo.

El Estado la utiliza frecuentemente para trazar políticas económicas y administrativas; en la elaboración


de planes de desarrollo, ya sea para lodo el país, para una región o un sector en especial; en la elaboración
del presupuesto de inversión y de funcionamiento; en la formulación de políticas, ya sea en lo fiscal,
aduanero, carcelario, educativo, etc. También es utilizada en las campañas electorales, para determinar el
grado de aceptación o popularidad que presenta el candidato a una corporación pública.

En la Salud y medicina, el Estado, los fabricantes de drogas, las instituciones o profesionales del campo
de la salud, realizan investigaciones encaminadas al tratamiento de ciertas enfermedades, como por
ejemplo el Sida, o al mejoramiento de los productos existentes, buscando que sean más efectivos, o para
determinar los posibles efectos secundarios que puedan tener; también en el desarrollo de programas
sanitarios, en la prevención de enfermedades.

En el sector Agrícola, por ejemplo, observamos la aplicación de la Teoría Mendeliana de la herencia, en


la obtención de nuevas variedades de mayor rendimiento o más resistentes frente a plagas o
enfermedades; en la aplicación de fertilizantes e insecticidas, etc. Se observa en este campo, así como en
la biología, la utilización de métodos estadísticos para la realización de investigaciones que permitan
detectar las reacciones, no sólo de las plantas sino de los animales. Hoy día es preocupación permanente
el aumento y mejoramiento de los recursos alimenticios, para atender a una población creciente y, en gran
parte, en condiciones nutricionales nada satisfactorias, lo cual requiere del apoyo de los métodos
estadísticos.

20
En Física y química se emplea con frecuencia, siendo una de sus aplicaciones la contrastación de
hipótesis con base en resultados obtenidos a través de experimentos, aplicando la técnica estadística
conocida como Diseño Experimental.

La estadística tiene un vasto campo de aplicación, tanto en las empresas comerciales como en las
industriales. Si consideramos que la empresa es una organización dentro de la cual se realiza una serie de
operaciones, casi siempre con la meta de obtener beneficios del capital invertido, concluimos que requiere
una información organizada que sirva de control y que permita hacer planes futuristas.

Podríamos decir que la estadística, dentro de la empresa, cumple, entre otras, las siguientes funciones:

a) permite obtener una visión general de la empresa y de algunos de sus aspectos en particular;

b) facilita descubrir las relaciones causa-efecto en las distintas manifestaciones económicas;

c) ayuda a analizar y a separar lo que es normal de lo que no lo es, es decir, permite ejercer control en
muchas de las actividades u operaciones de la empresa.

La estadística aplicada en la empresa es importante para: la planeación de operaciones, el control de


calidad del producto, la determinación del mercado, en las actividades financieras, en el control y
elaboración del presupuesto, en la realización de inventario, en la administración de personal, etc.

Así, podríamos seguir mencionando una gama de actividades, profesiones o campos donde la aplicación
de la estadística es necesaria para: el economista, el contador, el auditor, el ingeniero en todas sus ramas,
el actuario, el sociólogo, el geólogo, el mercadotecnista, el periodista, etc., tendrán que aplicar estas
técnicas en su ejercicio profesional.

Hoy el uso del microcomputador y algunas calculadoras manuales, facilitan la utilización de paquetes
estadísticos, tales como: SAS, MICROSTAT, TSP, SPSS y otros más, necesarios para el manejo de
abundantes datos numéricos, permitiendo su agilización y la aplicación de una variedad de medidas que
estos paquetes ofrecen, que facilitan el proceso de análisis y la toma de decisiones.

Se podrá decir que en todos los campos, la utilización de los métodos estadísticos se encamina hacia:
a) aquellos procesos que permitan recolectar, agrupar, concentrar o describir con mayor facilidad ese
cúmulo de información, a través de lo que algunos llaman "reducción de datos";

b) el análisis de los datos, mediante la observación directa o el desarrollo de experimentos, con el fin de
realizar estimaciones o comprobación de hipótesis;

21
c) determinar o indicar los cambios que sufren los datos a través del tiempo, o estimar su
comportamiento futuro.

HECHOS QUE ABARCA LA ESTADÍSTICA


Dentro de la múltiple utilidad que ofrece la estadística, vale la pena recordar que todas aquellas
actividades que se realizan en procura de un mejoramiento económico, en salud y educación, elevando,
por consiguiente, las condiciones de vida, están ligadas a los programas de desarrollo de un país a través
de sus instituciones, las cuales necesitan detectar y diseñar políticas basadas en informaciones recogidas,
tratadas y analizadas mediante la aplicación de métodos estadísticos. Sin embargo, muchas veces se
critica al gobierno de no contar con información estadística confiable, sin saber que estos hechos de
ocurrencia diaria o periódica, requieren cumplir ciertas condiciones, para que formen parte de las
estadísticas. Ellas son:
a) Deben manifestarse al exterior, es decir, no se refiere a observar su presentación, como por ejemplo
el contrabando, pues para ello bastaría visitar los Sanandresitos. La manifestación, o su observación,
debe hacerse mediante registros. Si en los registros se presentan deficiencias, ellas se reflejarán en las
estadísticas. Muchos usuarios critican las estadísticas del sector oficial así como las del sector
privado, encontrándolas poco confiables o deficientes, pero no se dan cuenta de que la falta de
conciencia o el desinterés de algunas personas hace que muchas de las informaciones no se registren;
tal es el caso de los robos, violaciones domiciliarias, entre otras, donde la gente no acude a colocar el
denuncio correspondiente. Así que los indicadores sobre estos hechos sólo harán referencia a las
informaciones registradas, y sólo sobre ellas se aplicarán los instrumentos de medición. Así se
podrá decir que aquellos hechos que no son registrados, no serán abarcados por la estadística.

b) Además de ser registrados, requieren para su estudio que correspondan a hechos colectivos,
descartando los individuales; es decir, lo sucedido a una persona no será analizado en forma
particular, debiendo formar parte de un grupo, masa o colectivo de datos para su estudio. El registro
de la producción por parte de una empresa, sólo tendrá un interés particular, pero si el gobierno es
quien piensa intervenir el mercado, la información formará parte del sector que se analiza.

c) Se podrá agregar otra condición como es la de su frecuente repetición. Un hecho que se presente en
forma aislada, es decir, que ocurre una vez y difícilmente vuelve a ocurrir, no es observado por la
estadística y queda sólo como un registro histórico. Cuando decimos que el hecho debe repetirse, no
nos referimos a que ocurra a cada momento; es posible, en algunos casos, que transcurra cierto
tiempo parque se repita, tal como sucede con aquellos productos estacionales, o en él caso de la
matrícula que ocurre cada año o cada semestre. Debido a su presentación en forma periódica, se les
considera como hechos distantes en el tiempo.

d) Además de su frecuente repetición, deben ser a la vez de distinta frecuencia. Si la frecuencia es


constante, de este hecho no se ocupa la estadística. Por ejemplo, las transacciones comerciales, el
volumen o valor de las ventas que se registran todos los días, los nacimientos, defunciones, etc., si

22
son de interés para la estadística, pues la intensidad es diferente de un período a otro. Si por el
contrario el valor o la cantidad fuera igual a cada momento, bastaría con registrarlo una vez. No se
requiere que el hecho se presente en el mismo lugar, puede estar ocurriendo en diferentes sitios; por
lo tanto, la estadística abarca también aquellos hechos distantes en el espacio.

e) Finalmente, se podrá decir que aquellos hechos cuyas características cualitativas pueden
cuantificarse, son tenidos en cuenta por la estadística. El amor a la patria o al trabajo no se pueden
medir, pero sí el número de personas por cargos, ocupación, sexo, profesión, el número de artículos
vendidos por departamento, marcas, modelos, sucursales, etc., son ejemplos de características
cualitativas que sí abarca la estadística.

23
CUESTIONARIO
1. ¿Qué se entiende por reducción de datos?

2. Dé tres ejemplos, relacionados con una empresa o con su trabajo respecto a:


a) Finalidad de la estadística.
b) Hechos de frecuente repetición.
c) Hechos distantes en el tiempo.
3. Explique brevemente las razones que usted sostiene para que se enseñe la estadística en cursos de
formación económica, contable, administrativa y financiera.
4. Describa las aplicaciones estadísticas en los siguientes campos:
a) Deportes d) Investigación de mercados
b) Publicidad e) Economía o finanzas
c) Plantel de enseñanza f) Política
5. Identifique y describa con ejemplos las condiciones básicas que debe reunir un hecho para ser
estudiado por la estadística.
6. Dé tres ejemplos de hechos que no abarca la estadística y justifique.
7. Para ilustrar la importancia y aplicación que tiene la estadística dé ejemplos, para cada una, de las
siguientes funciones que desarrolla una empresa:
a) Administración de propiedad raíz
b) Dirección de personal
c) Dirección de producción
8. Diga en cuáles de los siguientes casos debe aplicarse la estadística:
a) La calificación de Pedro Pica piedra en un curso de artesanía.
b) El consumo de gasolina por los vehículos de servicio público de la ciudad, en un período.
c) Unidades producidas por una fábrica en un mes.
d) Asistencia de pacientes a una clínica, según enfermedad.

24
ALGUNOS CONCEPTOS BÁSICOS
Para el buen desarrollo y entendimiento de los diferentes temas que trataremos más adelante, es necesario
hacer claridad sobre los conceptos que se utilizan en estadística y tenerlos presentes a cada momento.

POBLACIÓN
En la forma más simple, puede decirse que este término estadístico se refiere a un conjunto finito o
infinito de elementos. Es sinónimo de agregado y, cuando lo empleamos, no nos estamos refiriendo
únicamente a un conjunto de seres vivientes, a la población de una región o a una ciudad, como se podría
entender en principio.

El termino población, también conocido como universo, se refiere a la totalidad o conjunto de medidas, o
al recuento de todos los elementos que presentan una característica común.

De acuerdo con el número de elementos que constituyen la población, la clasificamos en finita o infinita.
En el primer caso, se tendrá un número limitado de elementos o unidades; en el segundo, será ilimitado.
Definir la cobertura, es decir, identificar y determinar el tamaño de la población que va a ser objeto de
estudio, es de gran importancia en una de las primeras etapas de la investigación estadística.

El conjunto de estudiantes de un plantel, podríamos considerarlo como una población finita; pero si nos
referimos a todos los estudiantes de un país, no sólo en el presente, sino en el pasado, tendríamos una
población infinita. En una empresa comercial serían numerosas las poblaciones de estudio que
podríamos mencionar. Algunas de ellas podrían ser: lotes de unidades producidas durante un
período; cuentas por cobrar o de difícil cobro; número de empleados que laboran, etc.

UNIDAD O ELEMENTO
Es el objeto, institución, región, persona, familia, animal, etc., que va a ser sometido a estudio, en cuanto
a aquellas características que más nos interesan. Esta unidad debe estar claramente definida, entendida
por todos, sin equívocos; además, debe permitir ser medida o contada, adecuada al tipo de estudio y,
finalmente, que nos permita hacer comparaciones.

CARACTERÍSTICA
Los elementos que conforman la población objetivo deben poseer ciertos rasgos o cualidades
denominadas características y son las estudiadas en cada una de ellas; por lo tanto, todas las deben poseer,
es decir, debe ser común su presentación, para que guarden relación con el objetivo de la investigación.

En los ejemplos dados en la definición de población, mencionábamos los estudiantes de un plantel; éstos
como conjunto, constituyen la población objeto; el estudiante es el elemento y las características que se
van a estudiar podrían ser: calificaciones, asistencia, edad, sexo, curso, nivel o grado, procedencia,
aficiones, etc. En el caso de la empresa comercial, las poblaciones serían el total de unidades o lotes
producidos en un período; las cuentas por cobrar, el número de trabajadores, etc. Los elementos

25
son: unidades, cuentas y empleados de la empresa, respectivamente, y las características que se van a
estudiar, entre otras, serían: calidad, peso, resistencia, dureza del artículo; valor de las cuentas, tiempo de
vencimiento, concepto de la deuda; horas trabajadas; accidentes de trabajo; asistencia, antigüedad,
salarios devengados, cargos, estudios realizados, tiempo de experiencia, visitas al médico, tiempo de
incapacidades, etc.
Observando las anteriores características notamos que se conforman dos grupos: el primero se expresa
mediante palabras, tales como: sexo (masculino, femenino); grado (primero, segundo,..., undécimo);
aficiones (canto, lectura, deportes, teatro,...); calidad (defectuosos, no defectuosos); estudios (economía,
administración, „.), entre otros. Consideradas como características cualitativas, su cuantificación se
obtiene mediante el recuento: cuántos hombres y mujeres hay; cuantos alumnos hay en cada grado, etc.
Estas son conocidas también como atributos, y pueden admitir varias formas de presentación,
denominándolas modalidad o categorías.

El segundo grupo está conformado por aquellas características que se expresan en forma numérica, tales
como: peso, valor, tiempo, número de accidentes o visitas al médico. A las anteriores se les considera
como características cuantitativas, conocidas también como variables, las que, a su vez, teóricamente
se clasifican en variables discretas y continuas. Las primeras son aquellas que admiten únicamente
valores enteros: el número de accidentes o visitas al médico, son ejemplos. Las continuas admiten
fracciones, como por ejemplo, peso: 30 libras y 10 onzas; tiempo de experiencia dada en años, meses y
días, etc. Las variables discretas se cuantifican mediante el recuento; en cambio en las variables
continuas se procede mediante la medición.

INVESTIGACIÓN TOTAL
Denominada también censo o investigación exhaustiva, se presenta cuando investigamos la totalidad de
los elementos que constituyen la población objetivo.

Cuando nos referimos a un censo de población, de viviendas, agropecuario o industrial, por ejemplo,
estamos indicando una enumeración completa de unidades, ya sean personas, familias, viviendas,
establecimientos industriales o explotaciones agrícolas en un tiempo dado, con unas características
específicas.
La investigación total, en muchos casos, es impracticable, como por ejemplo:
a) cuando el número de observaciones es demasiado grande o infinito, siendo imposible investigar a la
totalidad de los elementos;

b) cuando se requiere demasiado tiempo en su observación, presentándose el inconveniente de estar


desactualizados cuando se van a utilizar;

c) cuando los costos son elevados, superando los recursos disponibles para su realización;

26
d) en casos tales como en el control de calidad, el elemento sometido a prueba puede destruirse,
impidiendo la investigación de la totalidad; se podrán añadir algunas situaciones más: cuando la
empresa no cuenta con personal suficiente para su realización; también, cuando existe dificultad en la
recolección de la información.

MUESTRA
Es la parte seleccionada de la población, que contiene una característica igual a la que no quedó
seleccionada.
Podríamos ampliarla, diciendo que corresponde a una parte de la población o subconjunto de un conjunto
de elementos, que resulta de la aplicación de algún proceso estadístico, generalmente selección
deliberada, con el objeto de investigar las características de los elementos de la población o del conjunto
del cual proviene.

Utilizamos la investigación por muestreo, cuando no es posible la investigación total.


Este procedimiento es menos costoso, más rápido, requiere menos personal y nos puede proporcionar
mayor precisión en los resultados.

Nos referimos a la observación parcial o muestra cuando investigamos parte de los elementos de una
población. Algunos la denominan como subpoblación, sin ninguna diferenciación; otros, por el contrario,
y con la cual no nos identificamos, la consideran como aquella parle seleccionada, cuyos elementos
presentan una característica tan especial, que el resto de la población no la tiene. Lo anterior no
corresponde a la definición de muestra y más bien concuerda con el concepto de estrato.

La muestra será representativa de la población si las probabilidades de selección de los elementos


son todas iguales, durante todo el proceso, y que denominaremos como muestra aleatoria.

En el caso de que algunos de los elementos de la población tengan más probabilidad de presentación que
otros, la denominaremos como muestra no aleatoria. Este es el caso de la mayoría de las encuestas de
opinión, donde los elementos se seleccionan en forma caprichosa o por conveniencia; por esta razón, sus
resultados no merecen confianza.

Por muestreo se entiende la utilización de cualquiera de los procedimientos establecidos para obtener una
muestra. No debe perderse el objetivo del muestreo, que es considerar el mayor número de elementos con
el menor costo posible.

MUESTREO ALEATORIO
Se tienen diferentes métodos de muestreo al azar, cuya aplicación dependerá de las condiciones en que se
presente la población y de las características que se van a investigar en sus unidades. Haremos mención
de algunos de ellos, en forma bastante sintetizada:

27
Muestreo aleatorio simple. Como su nombre lo indica, los elementos de la población deben tener igual
probabilidad de ser seleccionados para formar parte de la muestra. En este método debe elaborarse un
listado, completo, actualizado y correctamente identificado, de los elementos que forman parte de la
población, y que van a ser seleccionados por algún método al azar, como el sorteo, extrayendo de un
recipiente fichas o papeletas, cada una de ellas identificando a la unidad, procedimiento similar al del
bingo; además, se podrá utilizar la calculadora, oprimiendo primero la tecla INV y, luego, punto,
despreciando el 0, que aparece en pantalla; también se puede hacer mediante las Tablas de Números
Aleatorios, construidas específicamente para esto.
Muestreo estratificado. Aplicado cuando la población requiere ser dividida en subpoblaciones o estratos,
buscando que cada uno de ellos sea lo más homogéneo posible, y donde un elemento dado no pueda
pertenecer a más de un estrato. Una vez establecidos los estratos, se elige en cada uno de ellos una
muestra al azar.
Muestreo sistemático. Es muy aplicado en aquellos casos en los que la característica investigada está
ordenada, ya sea alfabéticamente, por valor o cantidad, o en forma cronológica. El procedimiento de
aplicación es bastante simple: se calcula un intervalo de selección, obtenido al dividir el tamaño de la
población por el número de elementos en la muestra. Al seleccionar al azar un número dentro de ese
intervalo, éste es el que se constituye en punto de iniciación o primer elemento seleccionado, y luego se le
va sumando el valor del intervalo.
N
l = intervalo de selección
n

Muestreo por conglomerados. Se emplea a menudo para reducir el costo de muestrear una población
dispersa en un área geográfica extensa. También se utiliza cuando es imposible elaborar un marco con
elementos finales o de análisis; por tanto, se toma la unidad, es decir aquella que contiene más unidades o
elementos y que constituye el denominado conglomerado. En este caso seleccionamos al azar
conglomerado y tomamos de ellos los elementos de la muestra.

Muestreo por etapas. Cuando de un marco se extrae una muestra de conglomerados, para luego de esa
muestra extraer otra muestra y así sucesivamente hasta llegar a la unidad o al elemento de análisis, se le
denomina muestreo por etapas. Algunos lo denominan muestreo por áreas o geográfico.

El muestreo aleatorio tiene grandes aplicaciones en el campo de la auditoria y la contabilidad, y los


más conocidos son:
a) muestreo de estimación de atributos;
b) muestreo de aceptación y
c) muestreo de descubrimiento.

Vale la pena mencionar algunas pruebas que se realizan en auditoria.

28
- Pruebas de cumplimiento, cuyo propósito es comprobar la efectividad de un sistema de control; para
ello debe reunir evidencia suficiente sobre la eficacia de un control interno, mas no sobre la transacción
en particular.
- Pruebas sustantivas, cuyo objetivo es obtener evidencia acerca de la validez y tratamiento contable
apropiado de las transacciones, para detectar los errores o irregularidades que pudo haberse cometido.

MUESTREO NO PROBABILÍSTICA
En este método las unidades no se seleccionan al azar, sino en forma caprichosa, por conveniencia o con
alguna intención; de ahí se deduce que sus resultados no son confiables. Dentro de este método se tiene,
entre otros, el muestreo voluntario, el muestreo de juicios y el muestreo por cuotas.

Muestreo voluntario. Es aquel en el cual las unidades o elementos seleccionados llenan un cupón que
aparece en alguna publicación o realizan una llamada, para dar la información solicitada en forma
voluntaria.

Muestreo de juicios. Llamado también intencional, ya que las unidades se seleccionan a juicio del
investigador, ya sea por conveniencia o con alguna intención. Algunos las denominan muestras dirigidas.

Muestreo por cuotas. A cada persona encargada de recolectar la información se le asigna cierto número
de unidades o elementos muéstrales, en donde la selección de ellos depende de la decisión que tome el
entrevistador, aunque para ello se le dan ciertas indicaciones.

PARÁMETROS Y ESTIMADORES
En cuanto a las características de las unidades de la población, frecuentemente nos interesa la aplicación
de algunas de estas medidas:
La media o promedio, por ejemplo, de horas trabajadas, el ingreso medio de los empleados, el
rendimiento medio de algodón por hectárea.

El total de establecimientos comerciales en una ciudad, es de granos recolectados en una cosecha, el total
de faltas de asistencia de alumnos a clase durante un período.

La proporción de niñas que estudian bachillerato comercial; de establecimientos dedicados a la


distribución de cierto artículo; la de bachilleres que prestan el servicio militar obligatorio.

La razón del gasto en alimentos y vivienda, la relación o razón de hombres y mujeres, cuando decimos
que por cada hombre hay dos mujeres en el establecimiento escolar.

A estas y otras medidas aplicadas a las características de la población se les denomina parámetros o
valores estadísticos de la población y aplicadas a las características de las unidades en la muestra se
les llama estimadores; algunos las identifican como estadígrafos.

29
Pitman establece diferencia entre estimador y estimación. Al primero lo considera como la norma de
procedimiento utilizada para estimar una constante perteneciente a una población; y la segunda, para los
resultados o valores obtenidos.

El estimador se clasifica en puntual cuando hace referencia a un solo valor o punto calculado; y por
intervalos cuando corresponde a dos puntos dentro de los cuales se considera estará contenido el
parámetro, con cierto grado de confiabilidad establecido por el investigador.

Un intervalo de confianza nos indica los límites de precisión en una inferencia. Recordemos que uno
de los objetivos de la estadística es sacar conclusiones o generalizar acerca del parámetro, mediante el
cálculo de estimadores, en una muestra extraída de una población.

SERIES DE TIEMPO
Conocidas también con el nombre de Series Cronológicas. En las actividades diarias hay cantidades de
investigaciones que se realizan una vez y no vuelven a repetirse; son investigaciones aisladas no
periódicas. En cambio, existen otras; que requieren que su observación sea periódica, guardando un
orden cronológico, es decir, que son registradas a través del tiempo, a medida que se van produciendo.
Estas, series son de gran utilidad tanto parar el gobierno como para las empresas, permitiendo observar e
indicar los cambios o variaciones que se producen en el dato, durante un determinado período; por otra
parte, facilita predecir su comportamiento futuro, suponiendo que las condiciones observadas durante su
registro van a ser las mismas en el lapso estimado.
Son ejemplos: las ventas, producción, matrícula, deserción, exportaciones, etc. El análisis de cada una de
ellas permite tomar decisiones.

PROBABILIDAD
Es uno de esos términos imposibles de ser definidos adecuadamente. Sin embargo, diremos que es la
creencia que tenemos de la ocurrencia de un suceso, para lo cual nos basamos en la experiencia. Puede
decirse que es un valor comprendido entre uno y cero, el cual resulta de dividir el número de éxitos por el
total de casos posibles. Se define como probabilidad clásica o empírica.

La probabilidad apriori es aquella que podemos determinar sin necesidad de realizar el experimento. Tal
es el caso del lanzamiento de una moneda, evento en el cual consideramos la aparición de cara como
éxito, igual a 0,5.

NÚMEROS ÍNDICES
Son cifras relativas expresadas en términos porcentuales, que indican las variaciones en las cantidades,
valores o precios durante el período que se está investigando, respecto a otro que se considera base.
Los rasgos más importantes de la construcción de un número índice son: su cobertura, el período base, el
sistema de ponderación y el método de promediación de las observaciones.

30
GLOSARIO
Atributo Muestreo sistemático
Cobertura Muestreo de atributos
Características Muestreo de aceptación
Características cualitativas Números índices
Características cuantitativas Observación parcial
Censo Período base
Elementos Población
Estimación Población objetivo
Estimador Población finita
Estimación puntual Población infinita
Estimación por intervalo Promedio
Error Proporción
Intervalo de confianza Probabilidad
Investigación total Probabilidad apriori
Investigación exhaustiva Razón
Medición Recuento
Media Series de tiempo
Muestra Series cronológicas
Muestreo Sesgo
Muestreo aleatorio Subpoblación
Muestreo por cuotas Unidad
Muestreo voluntario Universo
Muestreo no aleatorio Variables
Muestreo aleatorio simple Variables discretas
Muestreo aleatorio estratificado Variables continuas

31
CUESTIONARIO
1. En cada uno de los casos señalados, en la siguiente lista, indicar si es variable o atributo; al mismo
tiempo, establecer la medida más indicada (media, total, proporción).
a) Biología: peso de un ser vivo.
b) Agricultura: cultivo de legumbres.
c) Economía: ventas efectuadas por una empresa.
d) Demografía: número de hijos de una familia.
e) Demografía: estado civil.
2. El directorio de una ciudad data de 4 años atrás y tiene las direcciones a lo largo de cada calle, con
los nombres de las personas que viven en cada dirección. ¿Cuáles son las deficiencias de este marco,
si se utiliza para tomar una encuesta por muestreo? ¿Pueden ser corregidas tales deficiencias durante
los trabajos de terreno? Al usar el directorio, ¿extraería usted una lista de direcciones o una lista de
personas?

3. Explique brevemente qué diferencias puede haber entre:


a) Estadística y estadísticas. c) Variable discreta y continua.
b) Parámetro y estimador. d) Característica cuantitativa y cualitativa.

4. Mencione algunos aspectos relacionados:


a) Con las limitaciones que hay para la realización de un censo.
b) Con la finalidad o aplicación de la Estadística.

5. Utilizando como población los estudiantes de su plantel, identifique 10 características. Diga cuáles
son atributos y cuáles variables. En las variables distinga las discretas y las continuas.

6. Señale con una (A) las series constituidas por datos cualitativos y con una (V) las que son
cuantitativas:
a) Nacionalidad d) Profesión h) Gasto en alimentación
b) Temperatura f) Número de tornillos producidos i) Llamadas diarias
c) Estado civil g) Filiación política

7. Los directivos de una fábrica estudian un programa de vivienda para sus empleados y solicitan
información a un grupo de 30 de ellos de un total de 350 empleados, sobre el número de habitaciones
que requerirá su vivienda, en el caso de salir favorecido en el programa. Es de aclarar que la
investigación se hace únicamente a aquellos que tiene más de cuatro años de antigüedad y en la
actualidad no tienen vivienda. ¿Cuál es la:
a) Población? b) Muestra? d) Característica? e) Cómo clasifica la característica

8. Diga cuales de los siguientes casos corresponden al muestreo aleatorio:

32
a) Si de las jaulas de un criadero de gallinas se toma una muestra de 25 animales, seleccionando
aquellos que alcanza la mano.
b) Si se toman las hojas de registro de matrícula de los alumnos de un instituto y se selecciona una
muestra de 20 hojas a intervalos regulares.
c) Si de una muestra de frutas que se encuentran en un recipiente bastante grande, se toma como
muestra la porción correspondiente a los 10 centímetros de la parte superior de la vasija.
d) Si para conocer el sentimiento popular sobre una medida de orden público, se, entrevistan a 30
personas que pasan por; un sitio importante de la ciudad.

FUENTES DE INFORMACIÓN
Las fuentes de información se clasifican en internas y externas.
Las fuentes internas: allí los datos se producen y se registran internamente dentro de la empresa, donde se
puede obtener información sobre ventas, producción, cuentas por cobrar, consumo de materia prima,
horas trabajadas, etc.

Quizá por desconocimiento, o ignorancia, muchos no le dan importancia a las fuentes de información
interna, y sólo las consideran como operaciones corrientes que forman parte de la rutina de los
departamentos de contabilidad, ventas, producción, recursos humanos, etc., desconociendo que la
verdadera investigación comienza precisamente allí para iniciar, de esta manera, la búsqueda de
información externa, por no encontrarse ésta dentro de los archivos y documentos de la empresa.

Las fuentes externas: son aquellas que nos suministran informaciones o datos de lo que sucede fuera de la
empresa. Estas informaciones se obtienen de boletines, revistas, periódicos, publicaciones especializadas
o informes realizados por otras entidades o empresas.

También las fuentes de información se clasifican en primarias y secundarias. Cuando una persona,
entidad o empresa realiza una investigación, con las consiguientes etapas de recolección, procesamiento y
análisis, esta información se constituye en fuente primaria; en cambio, para otra persona, entidad o
empresa diferente a quien la produce, se convierte en fuente secundaria.

Algunos denominan a las fuentes primarias métodos de observación directa, ya que la información la
recoge el interesado, mediante la aplicación de un formulario o cuestionario. Gracias a ellas se observan o
se registran los datos directamente de la fuente de información, o sea, de la unidad que es objeto de
estudio.

CLASES DE INVESTIGACIÓN
La investigación se podrá clasificar en dos clases: descriptiva y experimental.

Investigación descriptiva. Se realiza sobre hechos reales con e] fin de explicar, de modo sistemático,
sus características. Esta clase de investigación comprende etapas como la recolección, descripción,

33
análisis e interpretación de los datos; también puede referirse al análisis de datos provenientes de fuentes
secundarias. Se puede decir que, generalmente, se utilizan el método de casos y el estadístico.

En el Departamento de Mercados de una empresa, la investigación descriptiva podría estar encaminada,


por ejemplo, a describir las características del mercado de un producto o de la empresa en general; la
aplicación de algunas medidas para determinar la proporción de personas que prefieren esa marca, es
decir, conocer la reacción de los consumidores frente al producto, o el comportamiento futuro de las
ventas, etc.

Investigación experimental. Corresponde a una observación dirigida en condiciones rigurosamente


controladas, determinando las relaciones de causa y efecto. Debe quedar claro que el experimento es una
situación provocada, siendo esencial el empleo de un diseño adecuado, evitando de esta manera
situaciones que invaliden la investigación.

Se podrá sintetizar diciendo que la investigación experimental difiere de la investigación descriptiva,


porque la primera tiene su base en realidades físicas, y la segunda sobre abstracciones; además, si las
condiciones no varían, no se puede actuar sobre ellas y no se pueden reproducir, como se reproduce una
experiencia en el laboratorio para comprobar su desarrollo.

Algunos las denominan modelos metodológicos, y las clasifican en; a) Histórico; b) Experimental; c)
Descriptivo; d) Correlacional; e) Expost-facto sobre hechos cumplidos; f) Cuasi experimental; g) Teórico;
h) Participativo; i) Evaluativo; j) Estudios de casos; y k) De investigación bibliográfica.

ETAPAS EN UNA INVESTIGACIÓN


En cuanto al modelo descriptivo, que también lo llamaremos estadístico, requiere para su ejecución
observar algunas etapas, entre las cuales mencionaremos las más importantes:
1. Planteamiento o formulación del problema.
2. Formulación de objetivos.
3. Unidad de investigación.
4. Formulación de hipótesis.
5. Método de investigación (censo o diseño de la muestra).
6. Recolección de datos.
7. Clasificación, tabulación y descripción de los resultados.
8. Generalización o inferencia final.
9. Presentación del informe y publicación.

1. Planteamiento o formulación del problema. El conocimiento del problema es lo que plantea la


necesidad de realizar una investigación. Por ejemplo, un empresario siempre estará atento a la
situación interna de la empresa, y constituye la tarea diaria de dirección. Evalúa los resultados de
gestión frente a los objetivos trazados, que se van visualizando a través de informaciones recogidas

34
en los diferentes departamentos, sobre: ventas, participación del mercado, costos, liquidez, imagen,
etc., que en algunos casos pueden mostrar anormalidad, síntomas sobre los cuales se deben diseñar
los correctivos por aplicar, con base en la formulación de una serie de hipótesis.
La decisión de realizar una investigación nace cuando se siente la necesidad de diseñar correctivos o
fijar políticas a corto o largo plazo, que mejoren la situación de la empresa, y cuando no se dispone
de una información adecuada, lo cual requiere de la elaboración de un plan de investigaciones, que
permita la recolección y análisis de esos resultados.
Se debe tener muy en cuenta que las conclusiones estadísticas dependerán en gran parte de la
información recogida y ésta, a su vez, dependerá de la formulación del problema.

2. Formulación de objetivos. Tendrán que estar claramente definidos, indicándose lo que se desea
hacer. ¿Qué se va a investigar? ¿Cómo se va a realizar? ¿Cómo se pueden obtener los datos? Si
mediante una investigación parcial o total. ¿Cuál sería el diseño de muestreo? ¿Qué cobertura
tendría? ¿Dónde se va a investigar? ¿En qué lugar? ¿Qué áreas deberán ser incluidas? ¿Cuándo es el
momento más indicado para llevarlo a cabo? ¿Cuándo se necesitan? ¿Para qué se requiere la
información? ¿A quién va dirigida? ¿Cuál es la unidad de investigación?

3. La unidad de investigación se tendrá definida cuando los objetivos de la investigación se han


determinado con precisión. Se podrá saber si hay necesidad de otras unidades de selección para poder
llegar al elemento final, o sea, el objeto de estudio. Nos permite elaborar el marco o marcos, es decir,
conformar y actualizar el listado de unidades o elementos de la población que serán seleccionados al
azar o en forma sistemática. De esta manera, se establecerá con exactitud la cobertura, el tiempo
necesario, la naturaleza cuantitativa y cualitativa del hecho. No olvidar que las unidades deben ser
accesibles al observador.
Lo anterior se podría resumir diciendo que la claridad del objetivo nos dará una visión perfecta de lo
que se va a hacer, es decir: a) el fin de la observación; b) la elección y definición de la unidad; c) la
lista de los elementos y de las características; d) el momento en que se va a realizar; e) el método de
observación; f) las condiciones en que se desarrollará; g) la elección de las medidas que se
emplearán.

4. Formulación de hipótesis. Las hipótesis son supuestos que se hacen en una investigación para luego
ser comprobados. Las hipótesis estadísticas son aquellos supuestos hechos respecto a valores de la
población o parámetros, y cuya comprobación requiere la aplicación de métodos estadísticos.
Aquellas que no hacen referencia a un valor: media, proporción, razón, etc., son simplemente
hipótesis. Son ejemplos de hipótesis descriptivas: que el rendimiento del curso en el presente período
lectivo es bueno; que en un Gobierno de coalición, la inmoralidad de los funcionarios disminuirá; que
si hay inversión social, la situación de orden público mejorará, etc.
En cambio si dijéramos que los salarios en el año venidero aumentarán por encima del índice de
precios al consumidor, o que los precios en diciembre subirán en una proporción inferior a la del año
pasado, todos ellos serán ejemplos de hipótesis estadísticas.

35
5. Método de investigación. Se vio anteriormente, que la investigación puede ser total (censo) o parcial
(muestra), dependiendo de ciertos factores que también se mencionaron: como costo, tamaño de la
población, tiempo. Sabiendo, además, que cada elemento tendrá cierta cantidad de información, se
deberá seleccionar la estrictamente necesaria, dependiendo también del número de unidades que se
va a investigar, su dispersión geográfica y el grado de variabilidad que la característica presenta.
El diseño de la encuesta por muestreo nos ayudará a controlar la cantidad de información y su
variación, y en la decisión sobre cuál es el método más indicado en esa investigación. Se procederá
luego a establecer el método de medición o recolección de datos, siendo los más usuales entre otros:
las entrevistas personales, por teléfono, la observación directa, cuestionarios enviados por correo,
Internet, etc. Cada uno de ellos presentará ventajas y desventajas. Cualquiera de estos métodos que se
vaya a aplicar, se tendrá muy en cuenta al elaborar preguntas que minimicen la falla de respuestas, o
contestaciones incorrectas. Al diseñar un cuestionario vale la pena considerar ciertos aspectos: a)
Incluir únicamente las preguntas que sean necesarias, puesto que un elevado número incrementará su
costo y tiempo; b) hacer preguntas claras, concisas, utilizando términos a nivel del informante, para
que sean entendidas por todas aquellas personas involucradas en el estudio; c) no hacer preguntas que
de antemano estamos seguros no van a ser contestadas; d) iniciar con las preguntas generales, para
luego seguir con las específicas.

Las preguntas, hasta donde sea posible, deben ser cerradas, teniendo el informante dos posibilidades
de respuestas: sí o no. También podrían corresponder a una respuesta numérica simple, por ejemplo,
la edad, para que una persona coloque en un espacio indicado, el número de años o para que elija uno
de los intervalos preestablecidos. Se acostumbra, con mucha frecuencia, utilizar preguntas de
selección múltiple, donde la persona podrá señalar más de una, como en la pregunta referente al
deporte o deportes que practica, las preguntas poco recomendables por la dificultad que presentan en
su tabulación son las abiertas, que permiten la libre expresión, de acuerdo con la opinión que se tenga
en el momento de la entrevista.
Antes de aplicar el cuestionario, es necesario someterlo a prueba realizando una pequeña pre-
encuesta, lo cual permitirá hacer las correcciones que sean necesarias, mejorar su diseño tanto en las
preguntas como en las instrucciones. Se podría agregar que la encuesta preliminar o piloto permite,
entre otros aspectos, familiarizar al entrevistador con el formulario y con la unidad a la que se va
aplicar el instrumento; conocer la reacción de los informantes; determinar el tiempo que dura la
entrevista. De esta manera se estimará el tiempo necesario en la recolección. Algo que es
indispensable en cualquier investigación hoy día, es tener conocimiento sobre la población objeto de
estudio, para poder estimar la varianza o la proporción, indispensables para determinar el tamaño
óptimo de la muestra.

6. Viene luego la recolección de datos, distribuyendo o aplicando los instrumentos de medición, de los
cuales ya hicimos referencia. Se recomienda la supervisión permanente del trabajo de los
encuestadores, quienes con anterioridad recibieron un riguroso entrenamiento sobre la forma de
entrevistar, el manejo del instrumento y el propósito de la encuesta. Por otra parte, es el momento de
volver a la fuente de información cuando se detecten inconsistencias, para así corregir fallas de algún

36
entrevistador, o para hacer planes para las no respuestas o unidades que no fueron detectadas o
localizadas.

7. Recolectada, verificada y controlada la información, debe precederse a su organización y manejo.


La información, la cual podrá procesarse en forma manual o mecánica, dependiendo de la cantidad
de unidades o de preguntas determinadas. También la disponibilidad de equipo o dinero nos
permitirá agruparlas de acuerdo con los criterios preestablecidos, que estarán acordes con la forma de
presentación, análisis y descripción del hecho, de manera que faciliten la obtención de conclusiones o
recomendaciones.

8. Luego de organizada la información, se procederá al análisis de los datos, comenzando por la


aplicación de aquellas medidas que permitan la obtención de estimadores que faciliten la
comprobación de las hipótesis establecidas.

9. Finalmente, llegamos a la etapa de elaboración del informe y su publicación, ya sea para uso interno
de la empresa o para los particulares.
La redacción y entrega del informe final, corresponde a la última etapa de la investigación y a la
culminación de todos los trabajos que la misma causó.
A pesar de que el informe constituye un todo indivisible, podemos considerar tres partes
perfectamente identificables: introducción, conclusiones y apéndices.
Introducción. En esta parte del informe se utilizará un lenguaje sencillo y ameno, dejando aparte los
tecnicismos, de manera que sea entendible; además, debe mantenerse una secuencia que guarde
armonía con el proceso utilizado en la investigación. Se hará claridad sobre el planteamiento del
problema que nos condujo a la realización del estudio, la fijación de objetivos, elección del método
de investigación aplicado, incluido el método de selección utilizado; el tamaño de la muestra
calculada, así como el diseño del cuestionario, las preguntas que dieron lugar, la indicación de la
fecha en que se inició y terminó la recolección de la información. En las páginas siguientes, en forma
breve y descriptiva, se hará la exposición de los puntos más importantes, apoyados en cuadros,
gráficas y otros resultados que sean consecuencia de la aplicación de métodos estadísticos.
Conclusiones. Constituye la parte fundamental del informe, ya que en ella aparecen relacionados los
resultados obtenidos, la confrontación con lo esperado, la exposición de cómo deben ser
interpretados y qué es lo que de ellos se deduce. El informe, además, debe remitir al lector, cuando
sea necesario, a consultar los cuadros y gráficas que hagan más comprensible la explicación y, sobre
todo, presentar recomendaciones.
Apéndices. Integra toda la documentación que se ha citado en la introducción y en las conclusiones,
para que el lector del informe pueda consultar rápidamente y con facilidad cualquier información
contenida en el mismo.

37
PROCESO EN LA SELECCIÓN DE ELEMENTOS
Cuando nos referimos al Muestreo Aleatorio Simple (MAS), se mencionaron y explicaron, en forma
simple, algunos de los métodos para la selección de unidades; sin embargo, parece recomendable
detenernos en ello y dar una explicación un poco más amplia, que permita su aplicación inmediata a
través de ejercicios desarrollados en clase.

Para la utilización de cualquiera de los métodos de selección es necesario tener en cuenta los siguientes
aspectos:

- Elaborar un listado completo y actualizado de los elementos o unidades que conforman la población
objetivo. Por ejemplo, si se considera como población los alumnos matriculados en un plantel; si se
va a investigar el total de droguerías existentes en una ciudad; a los trabajadores de una empresa; o el
total de manzanas de una zona o barrio, en todas estas poblaciones se deberá elaborar un listado o
croquis que se constituye en el marco de referencia, y del cual se extraerán los elementos que
constituirán la muestra.
En la elaboración de un marco, se podrá utilizar el libro o actas de matrícula que tenga el plantel; el
listado de droguerías inscritas en la Secretaría de Salud o en la Cámara de Comercio; la nómina que
utilizó la empresa para el pago de los salarios. La oficina de Catastro nos puede suministrar el
croquis donde se localizan las zonas, barrios o vivienda que son objeto de estudio.

- Las unidades o elementos estarán identificados en el marco, ya sea mediante el nombre, su dirección
o el código que utiliza el elemento. Generalmente, se procede a la enumeración de la población. Si
ésta está constituida por 82 elementos, serán numerados desde 01 hasta 82; si es 480 elementos, se
numerarán desde 001 hasta 480, utilizando tres dígitos para cada cifra; si la población es 1350
elementos, se utilizarán cuatro dígitos, y así sucesivamente.

- Confeccionado el marco e identificada cada unidad, se hará la selección aplicando cualquiera de los
siguientes métodos; sorteo, tablas de números aleatorios, selección sistemática o la utilización de
calculadoras.
Sorteo. Se procede en forma similar a la realización de un sorteo o al juego de lotería. Para ello,
preparamos fichas, papeletas, cartoncitos o balotas. Cada balota, por ejemplo, identificará un
elemento. Introducidas en un recipiente, se extrae de una en una, con reposición o sin el la, teniendo
en cuenta revolverlas en cada extracción.
Selección sistemática. Denominada también selección a intervalos regulares, se emplea de
preferencia cuando las unidades están ordenadas en cuanto al valor o al tiempo de ocurrencia. En las
oficinas se cuenta con gavetas que contienen archivos diseñados en tarjetas, que permiten extraer
varias de ellas a intervalos regulares.
El procedimiento que se sigue es calculando un intervalo de selección, siendo: I = N/n; N es el tamaño

de la población, y n el tamaño de la muestra. Supongamos que N=50 y n=10. El valor de I será 50/10

igual a 5. Luego, seleccionamos un número al azar dentro de este intervalo, es decir, entre 1 y 5.

38
Supongamos que se obtuvo 3. Este será el primer elemento seleccionado; el segundo será 8; e! tercero

13, y así sucesivamente se le irá sumando a cada número resultante el valor del intervalo, hasta

completar el valor de n.

Uso de las tablas de números aleatorios. Este método es el más utilizado, ya que garantiza que
todos los elementos tengan igual probabilidad de ser seleccionados, pues se eliminan aquellos
factores negativos, como son el factor humano y las condiciones físicas del material utilizado en la
elaboración de las fichas. En los diferentes textos de estadística se podrán observar estas tablas,
presentadas en formas diferentes, con cifras de 2, 4, 6, 8 o 10 dígitos, en busca de hacer más fácil su
observación. Para ello, ver tabla. Para la lectura de esta tabla se harán algunas recomendaciones:
— Seleccionamos una tabla al azar (para nosotros, va a ser la tabla indicada mas abajo).
— Luego, sin mirar la tabla seleccionada, colocamos el dedo en un lugar determinado, el que será
considerado como punto de partida.
— Determinamos cuántos dígitos se tendrán que utilizar, de acuerdo con el tamaño de la población.
— Se establece la dirección que se seguirá en su lectura.
— Sólo serán seleccionados aquellos números que formen parte del marco muestral.
— La selección se hará con reposición o sin ella. En el primer caso el elemento podrá ser
seleccionado más de una vez; en el segundo, una vez tenido en cuenta, no podrá ser nuevamente
seleccionado.

Hagamos un pequeño ejercicio. Supongamos que en una población de 250 elementos se va a


seleccionar una muestra de 25. Asignamos números a cada elemento desde 001 hasta 250. Luego,
seleccionamos una de las tablas al azar.
Luego, determinamos el punto de partida, por ejemplo, la fila 16 y columna 11. Tenemos el primer
número: 524, y si leemos de izquierda a derecha, el segundo será 962; luego, 094, 008. También se
hubiesen podido obtener los siguientes números: 524, 249, 496, 620,209,.... Si hubiéramos leído por
columnas se tendrían: 524, 601, 100, 557, siendo 421 el último en la columna. La forma de continuar
depende de lo establecido antes de iniciar la selección, es decir, si se toma en la parte inferior, el
número será 681; luego, el 044, y así sucesivamente hacia arriba y en esa misma columna; o por el
contrario, haber comenzado desde la parte superior con los números 646, 676, 686 ...

03 70 22 67 59 98 10 64 6 8 08 79 06 89 48 41 15 72 10 87 24 96 04 20 68 00
08 45 79 46 89 74 73 67 6 0 15 70 37 61 44 07 27 89 81 54 26 57 17 63 27 74
37 80 05 75 64 08 51 68 6 8 27 71 75 45 32 27 36 35 26 58 88 67 74 48 90 94
90 63 56 69 37 19 74 48 6 3 31 52 36 84 40 66 02 66 03 41 87 65 29 12 36 64
22 69 38 02 88 89 71 43 0 1 87 41 79 42 99 29 11 08 47 32 19 45 29 59 69 90

05 79 69 67 64 36 14 82 65 26 40 51 63 42 48 25 48 34 12 04 33 26 52 26 52
48 91 53 03 82 64 24 06 31 03 97 44 82 24 89 88 48 66 54 10 41 27 09 11 61
94 64 97 27 25 62 23 94 40 54 56 32 97 78 90 38 86 41 75 19 42 90 85 36 68
15 85 82 52 08 52 96 26 92 88 93 11 03 23 52 08 23 57 85 43 53 90 42 22 22
09 81 37 66 56 99 08 59 19 48 29 69 21 64 95 52 08 15 24 45 59 25 22 76 96

39
43 83 99 02 76 12 16 45 52 66 35 70 93 09 52 15 40 34 35 62 65 42 27 20 59
31 98 09 80 62 75 26 64 57 26 46 41 47 90 97 29 46 10 51 42 73 28 98 89 91
81 35 42 62 84 37 02 59 78 16 17 96 05 71 39 08 05 34 05 92. 22 43 89 66 89
97 95 56 39 75 65 47 61 86 33 14 88 55 33 69 10 87 79 94 46 17 61 72 27 01
37 63 35 93 23 17 30 14 51 51 17 28 21 74 67 3211 57 19 27 38 70 73 82 92

39 22 96 00 48 52 4 9 62 09 4 0 08 30 27 54 70 46 06 52 12 80 36 12 38 68 05
61 29 84 34 51 60 1 9 77 82 16 64 45 02 27 04 65 55 90 95 04 20 39 29 96 28
38 84 18 10 29 10 0 9 66 06 78 37 09 60 50 21 22 72 01 52 70 29 65 05 37 16
64 29 48 04 08 55 7 2 25 25 77 54 26 27 24 39 36 67 06 40 00 99 35 70 69 58
64 02 32 99 63 62 4 2 89 32 20 81 14 08 40 45 82 15 37 49 38 96 51 19 08 27

13 83 39 51 30 31 4 9 94 83 66 02 50 95 18 98 98 84 90 58 81 00 40 91 12 46
83 30 90 09 35 41 1 2 87 93 66 85 96 20 65 34 13 13 05 41 01 91 48 95 59 45
46 63 53 97 63 18 8 6 37 56 20 35 62 66 11 37 20 91 89 97 51 64 78'06 95 65
54 43 40 02 41 55 7 0 52 96 87 02 82 61 21 88 50 65 98 42 09 03 61 20 83 01
27 18 65 62 01 97 4 5 79 51 37 74 47 20 11 48 77 93 73 86 50 46 61 95 01 24

45 42 16 13 20 34 5 1 08 71 52 39 17 71 39 84 17 27 72 49 42 81 62 32 87 22
35 92 97 02 34 93 3 2 95 81 13 92 05 40 70 95 11 66 61 24 08 77 32 73 66 79
60 55 35 57 24 52 9 5 84 90 64 38 39 72 70 17 28 42 85 96 67 41 11 83 17 78
43 17 21 09 60 58 8 6 12 31 11 66 61 43 96 00 53 97 00 15 20 37 96 73 56 63
07 85 74 58 28 38 7 4 68 32 61 87 14 71 83 47 60 11 96 70 08 67 04 34 46 08

33 00 29 08 87 42 5 9 40 24 97 44 99 13 56 87 65 02 47 97 89 23 51 45 37 83
97 14 00 42 23 72 0 3 19 02 41 11 23 36 98 32 29 91 42 03 58 62 23 74 45 06
68 58 32 80 82 40 4 9 71 83 37 93 49 99 69 72 38 14 26 88 95 48 69 35 40 63
39 87 38 16 06 82 9 2 62 32 75 67 64 50 49 39 49 55 53 92 97 04 48 60 53 90
37 73 01 84 87 42 8 8 30 93 75 01 18 34 73 30 58 44 28 18 01 00 38 26 38 57

15 62 38 72 92 03 7 6 09 3 0 75 77 80 04 24 54 67 60 i 3 79 26 21 60 03 48 14
77 81 15 14 67 55 2 4 22 2 0 55 36 93 67 69 37 72 22 46 46 32 56 15 75 25 12
18 87 05 09 96 45 1 4 72 4 1 46 12 67 46 72 02 59 06 10 49 12 73 28 23 52 48
08 58 53 63 66 13 0 7 04 4 8 71 39 07 46 96 40 20 86 72 11 81 74 11 15 23 17
16 07 79 57 61 42 1 9 68 1 5 12 60 21 59 12 07 04 99 84 22 39 75 16 69 13 84

GLOSARIO
Encuesta Modelo teórico
Encuesta preliminar Modelo participativo
Formulación del problema Modelo evaluativo
Fuentes internas Objetivos generales
Fuentes externas Objetivos específicos
Fuentes primarias Observación directa
Fuentes secundarias Preguntas abiertas
Hipótesis Preguntas cerradas
Investigación bibliográfica Preguntas de selección múltiple
Investigación descriptiva Preguntas de control
Investigación experimental Proporción
Marco Recolección
Marco muestral Tabulación
Métodos estadísticos
Métodos de medición
Modelo experimental
Modelo histórico
Modelo correlacional
Modelo expost-facto

40
CUESTIONARIO

1. Analice el uso de las preguntas cerradas. Compárelas con las preguntas abiertas. Dé tres ejemplos de
cada una. Formúlese dos preguntas en forma cerrada y abierta.

2. Los entrevistados comúnmente reciben llamadas por teléfono, de personas que realizan encuestas
durante la hora de la comida.
Quienes planean la encuesta, probablemente piensan que muchos de los entrevistados se encuentran
en casa en esos momentos. Analice los pros y contras de dicho procedimiento

3. Mencione como mínimo tres características de interés en el caso que tenga como unidad:
a) familia;
b) predio agrícola;
c) establecimiento industrial;
d) paciente de una clínica de previsión social;
e) producto terminado.

4. Se requiere información para el lanzamiento de un nuevo producto y se cuenta, apenas, con los siguientes
datos:
a) Demanda de productos similares por las amas de casa, en la ciudad.
b) Producción nacional de este artículo, información tomada de las publicaciones del ministerio
c) Costo de la producción, en la empresa.
d) Análisis de los precios de la materia prima, obtenido de la Asociación de Productores.
Determinar si los datos son internos o externos; además, si las fuentes son primarias o secundarias.

5. ¿Qué es un marco muestral?

6. Analice la importancia do realizar una prueba preliminar, antes do iniciar la encuesta.

7. Una población consta de 1.200 unidades numeradas desde 0001 hasta 1.200. Es necesario seleccionar una
muestra aleatoria simple sin reemplazamiento de tamaño 25. ¿Cómo lo haría usted si le pidieran que lo
hiciera aplicando la selección sistemática?

8. En un periódico o una revista reciente, donde usted pueda tomar ejemplos de la aplicación de la
estadística, seleccione un artículo que dé respuesta a los siguientes interrogantes:
a) ¿Cuál es la población investigada?
b) ¿La investigación fue total o parcial?
c) ¿Qué tipo de datos se utilizó?
d) ¿Qué fuente de datos considera para usted este informe?
e) ¿Qué estadística se aplicó, descriptiva o de inferencias?

9. Se debe responder "verdadero" si el enunciado lo es. Si, por el contrario, no es válido, hay que sustituir la
palabra destacada por otra, con la cual el enunciado adquiere validez.
a) Un parámetro es la medida de alguna característica estudiada en las unidades de una muestra.
b) El número de peces de una laguna corresponde a una población finita.
c) El número de pacientes atendidos en una clínica de la ciudad, según enfermedad diagnosticada, es un
ejemplo de variable.

10. Diga si son ciertas o falsas las siguientes aseveraciones:


a) El muestreo sistemático consiste en seleccionar uno por uno los elementos de la muestra en un orden
indeterminado.
b) Una muestra aleatoria es aquella en la cual ciertas unidades tienen mayor posibilidad que otras de ser
seleccionadas.
c) La muestra debe ser representativa del universo de procedencia.
d) El marco del muestreo lo constituye una lista o relación actualizada de todos y cada uno de los
elementos.
e) La selección de informantes por parte de los entrevistadores, conlleva el riesgo de introducir
propensiones o vicios.

41
f) La idea básica de la estratificación es la posibilidad de dividir una población heterogénea en
subpoblaciones, cada una de las cuales es homogénea.

11. En un estudio de actitudes en un conjunto de empleados de, una empresa, se dispone de un listado de
empleados por departamentos, cargos y tiempo de servicio, para un total de 567 empleados. Sin embargo,
por uno u otro motivo el estudio se retarda 14 meses. Si continuara en las mismas condiciones anteriores
al retardo y con el mismo marco, ¿qué problema se puede presentar?

42
UNIDAD III ELABORACIÓN DE CUADROS Y GRAFICAS

OBJETIVOS

- Desarrollar habilidades para la elaboración de cuadros e interpretación de los mismos.

- Estar en capacidad de seleccionar, elaborar e interpretar gráficas en las investigaciones que realice.

GENERALIDADES
Una vez que se ha recogido toda la información, por cualquiera de los métodos indicados: censo, muestra
o mediante el registro continuo, tal como sucede en las diferentes empresas, se debe proceder a la
organización de esos datos, mediante la clasificación y tabulación.

El primer procedimiento que debe seguirse consiste en fijar cuál va a ser el criterio de clasificación u
ordenación que se va a utilizar, ya que su determinación depende de la clase de datos recolectados.
Algunos de los criterios que pueden tenerse en cuenta son:

a) Si hacemos una investigación en una empresa sobre su personal, referente a cargos, profesión, sexo,
departamento en el que labora, se observa que todas esas características son cualitativas, que se
pueden clasificar cada una de ellas en un orden alfabético.

b) Si al personal de esa empresa lo clasificamos por lugar de procedencia o de nacimiento, la


clasificación será geográfica, donde no necesariamente requiere un orden alfabético, pues en esos
casos, en algunos países, se suele utilizar un orden de presentación por regiones o zonas, por ejemplo,
de norte a sur, de oriente a occidente.

c) Los accidentes de tránsito según las causas que los originan, se pueden ordenar alfabética y
geográficamente. Pero si esta característica es representada por días, meses o años, se le denomina
clasificación histórica o cronológica.

FORMAS DE MEDICIÓN O DE CLASIFICACIÓN


Se ha visto que las características se dividen en cualitativas y cuantitativas. Las cualitativas se clasifican
utilizando escalas nominales.

Supongamos la realización de una investigación a fumadores sobre las marcas más preferidas, cuyos
resultados fueron: Líder, Belmo, Kool, Luky Strike, Marlboro y Lark. Observamos que la característica
"marca de cigarrillos" queda totalmente clasificada por las seis categorías encontradas. Si con la anterior
información clasificamos a los fumadores por nivel socio-económico dentro de tres categorías: alto,
medio y bajo, se estará utilizando una escala ordinal, puesto que clasificamos en orden jerárquico.

43
Escalas numéricas son las que utilizamos para clasificar las características cuantitativas o variables.
Algunos las dividen en escalas a intervalos regulares, las que son establecidas cuando no existen patrones
de medición de uso común, por ejemplo, cuando se requiere medir la inteligencia, hábitos, actitudes,
formas de comportamiento. Las escalas proporcionales, al contrario de las anteriores, están dadas por
unidades de uso corriente, como cuando clasificamos 50 establecimientos por volumen de ventas, número
de empleados, etc.

TABULACIÓN Y PRESENTACIÓN DE LOS DATOS


Después de haber determinado el criterio de clasificación que se va a seguir, es necesario iniciar el
proceso de tabulación, que consiste en un recuento de las veces que se repite la característica observada,
por ejemplo, ¿cuántos de los fumadores prefieren cigarrillos de marca Lider?, ¿cuántos de la marca
Belmo? y así sucesivamente.

La tabulación puede realizarse en forma manual o mecánica. La decisión sobre cuál de ellas se debe
elegir, depende de muchos factores, entre otros: el número de formularios, la cantidad de preguntas que
tenga el instrumento de recolección y la disponibilidad de equipo. De todas formas, se requiere la
elaboración de un plan de tabulación, que debe referirse al diseño de una serie de cuadros o tablas, que
deben atender al objetivo de la encuesta, permitiendo la presentación de los datos en forma clara y su
análisis, mediante la aplicación de algunas medidas, o su representación gráfica.

Los cuadros que constituyen el plan de tabulación, sea esta manual o mecánica, no deben ser
necesariamente iguales a los finales o de publicación de resultados; sin embargo, es preferible que sean
iguales por economía de tiempo y dinero. Los cuadros, de acuerdo con el número de características que se
van a presentar, se clasifican en simples, de doble entrada y múltiple entrada. Los cuadros simples
siempre representan una sola variable o un atributo; los cuadros de doble entrada se elaboran para
presentar dos variables, dos atributos o una variable y un atribulo; finalmente, una tabla múltiple permite
la presentación de más de dos características. Cuando en un cuadro se combinan variables con atributos,
algunos lo denominan tabla mixta.

En la elaboración de cuadros finales o de publicación, es necesario observar algunas recomendaciones:


a) Si el informe tiene más de un cuadro, éstos deben estar numerados en forma consecutiva.
b) Todo cuadro debe tener un título, lo más completo posible, de manera que al leerlo tengamos una
visión general sobre su contenido.
c) La mayoría de los técnicos recomienda que el título debe situarse en la parte superior del cuadro; sin
embargo, otros consideran que debe ir debajo.
d) Las líneas que encierran el cuadro deben ser más gruesas que las internas. Algunos aconsejan, por
presentación, cerrar el cuadro por encima y por debajo, es decir, suprimir las líneas laterales.
e) Los títulos en las columnas deben ir en mayúsculas y los subtítulos en minúsculas.
f) Cualquier observación que se haga, debe indicarse en el sitio correspondiente con una llamada, y al
final, debajo del cuadro, hacer la aclaración. En ese mismo sitio se acostumbra colocar la fuente de la
cual se tomó la información.

44
ELABORACIÓN DE LAS TABLAS DE FRECUENCIAS
Las tablas de frecuencias corresponden a una agrupación o clasificación de los datos, con el fin primordial
de determinar la frecuencia con que se repite el atributo o el valor que toma la variable. En este último
caso nos referiremos como distribución de frecuencias a aquellas tablas que son elaboradas atendiendo al
número de observaciones o datos relativamente grande, siendo, a la vez, la aplicación primaria de la
estadística.

ATRIBUTOS
Se ha dicho que estas características se expresan mediante palabras. El término se emplea habitualmente
para distinguirlo de la palabra "variable" o característica cuantitativa. Así, por ejemplo, el sexo, estado
civil, profesión, cargo, ocupación, aficiones, estudios realizados y otros más, se clasifican como atributos,
pero la edad, salario, tiempo de servicio, personas a cargo, retardos en el mes, horas laboradas, etc., son
ejemplos de variable. Con frecuencia los atributos son dicotómicos, de modo que cada miembro de una
población se incluye en uno de los dos grupos conforme posea una característica específica o no la posea.
Los atributos también permiten clasificaciones múltiples, ya que una persona puede tener preferencia por
más de una opción, por ejemplo, sobre una marca de un determinado producto. La tabulación en atributos
es muy sencilla, pues su cuantificación se hace mediante el conteo del número de veces que se presenta o
se repite la característica investigada. Supongamos una encuesta realizada a 20 trabajadores sobre el
hábito de fumar, con tos resultados siguientes:

HABITO DEL CIGARRILLO NÚMERO DE FUMADORES PORCENTAJE


%
SÍ 12 60
NO 8 40
Total... 20 100

Hay casos en que el total no puede corresponder al tamaño de la encuesta, ni al ciento por ciento de su
distribución porcentual.

Consideremos una encuesta a 80 fumadores sobre las marcas que prefieren, con el siguiente resultado:

PORCENTAJE
MARCA DE CIGARRILLO NÚMERO DE FUMADORES
%
Lider 12 15.0
Kool 8 10.0
Luky Strike 6 7.5
Marlboro 10 12.5
Piel roja 30 37.5
Royal 16 20.0
28 35.0

Puede observarse que en vez de darnos un total de 80 fumadores encuestados, el resultado es 110; ello se
debe a que existen fumadores que tienen preferencias por más de una marca; algo similar ocurre con el

45
porcentaje que sumado da 137,5, diferente al 100%; en este caso el porcentaje de cada marca tiene como
base el 100%, es decir, se considera como total los 80 fumadores que corresponden al tamaño de la
encuesta.

Un cuadro de doble entrada podría ser la clasificación de 150 empleados, según estado civil y sexo.
SEXO TOTAL
ESTADO CIVIL Masculino Femenino
Soltero 28 22 50
Casado 52 10 62
Separado 17 5 22
Viudo 3 1 4
Unión libre 10 2 12
Total 110 40 150

VARIABLES

Se ha dicho que éstas se clasifican en discretas y continuas. Las primeras son todas aquellas que admiten
únicamente valores enteros; las segundas las que admiten valores fraccionarios. Así que el procedimiento
que se debe seguir en la elaboración de una tabla de frecuencias se hará atendiendo a la anterior
clasificación.

Variable discreta
Para la elaboración de una tabla de frecuencias, tanto para la variable discreta como para la continua,
utilizamos una serie de símbolos, con los cuales tenemos que familiarizarnos, ya que continuamente los
emplearemos, pues son una forma de entendernos, es decir, de hablar un mismo lenguaje. Estos términos
son:

xi es una manera de simbolizar el valor de cada observación, esto es, el valor que toma la variable.
Donde i puede tomar valores desde uno, dos, tres... hasta n, cuando corresponde a datos
originales o no agrupados. En datos agrupados, cuando se ha elaborado una tabla de
frecuencias, i toma valores desde uno hasta m. Puede simbolizar también marcas de clase, siendo
el promedio entre el límite inferior y el superior en un intervalo.

m es el número de valores que toma la variable en una tabla de frecuencias. En la variable continua
recibe el nombre de número de marcas de clase o número de intervalos.

n corresponde al tamaño de la muestra.

N es el número de elementos que tiene una población.

fi = ni se denomina frecuencia absoluta y corresponde al número de veces que se repite cada valor de la
variable, dentro de los límites determinados. Siempre son números enteros y su suma debe ser
igual al total de las observaciones investigadas, es decir n.

46
fi/n=h es la frecuencia relativa, entendida como los cuocientes obtenidos entre el valor de una
determinada frecuencia absoluta y el total de observaciones. Las frecuencias relativas serán
valores fraccionarios, es decir, comprendidos entre 0 y 1. Además, la suma de todas estas
frecuencias debe ser igual a uno, o sea, el 100%.

Ni frecuencia absoluta acumulada, la cual se determina si se desea saber el total de datos u


observaciones desde el origen hasta un valor de la variable dado. Ello se obtiene acumulando o
agregando frecuencias absolutas.

Hi frecuencia relativa acumulada. Se obtiene en forma análoga a las frecuencias absolutas


acumuladas.

Supongamos un ejemplo de variable discreta para construir una tabla de frecuencias: una empresa tiene
220 empleados, de los cuales selecciona una muestra al azar de 50 de ellos, con el fin de investigar qué
porcentaje y con qué frecuencia hay retardos en la llegada del personal en las horas de la mañana; para
ello, se recogen las tarjetas de control de la última quincena, cuyos resultados fueron:

x1 = 2 x2 = 1 x3 = 3 x4 = 4 x5 = 0 x6 = 2 x7 = 3 x8 = 1
x9 = 3 x10 = 5 x11 = 6 x12 = 3 x13 = 3 x14 = 4 x15 = 1 x16 = 2
x17 = 2 x18 = 3 x19 = 5 x20 = 3 x21 = 4 x22 = 0 x23 = 2 x24 = 1
x25 = 3 x26 = 4 x27 = 2 x28 = 3 x29 = 1 x30 = 0 x31 = 2 x32 = 5
x33 = 3 x34 = 1 x35 = 2 x36 = 4 x37 = 5 x38 = 1 x39 = 4 x40 = 3
x41 = 0 x42 = 2 x43 = 3 x44 = 6 x45 = 3 x46 = 5 x47 = 4 x48 = 3
x49 = 2 x50 = 4

Cada elemento queda representado por un símbolo; así, si se nos pide cuáles son los valores para x 11, x26 y
x42, diremos que son 6, 4 y 2, respectivamente.

Ahora determinamos los valores que toma la variable y observamos que son: 0 1 2 3 4 5 6; en total 7, el
cual lo simbolizamos con m = 7.

A continuación tabulamos, es decir, determinamos cuántas veces se presenta cada valor que toma la
variable.

Vamos a presentar dos tablas, una con los valores de las frecuencias y la otra con los símbolos
respectivos.

47
xi fi fi/n Ni Hi xi fi fi/n Ni Hi
0 3 0,06 3 0,060 x1 f1 f1/n N1 H1
1 7 0,14 10 0,20 x2 f2 f2/n N2 H2
2 10 0,20 20 0,40 x3 f3 f3/n N3 H3
3 15 0,30 35 0,70 x4 f4 f4/n N4 H4
4 8 0,16 43 0,86 x5 f5 f5/n N5 H5
5 5 0,10 48 0,96 x6 f6 f6/n N6 H6
6 2 0,04 50 1,00 x7 f7 f7/n N7 H7
∑ 50 1,00 - - ∑ n 1,00 - -

Es necesario tener en cuenta las siguientes propiedades de las frecuencias:

a) Las frecuencias absolutas son números enteros.

b) La suma de las frecuencias absolutas es igual al número de observaciones, en este caso n.

c) Las frecuencias relativas son números fraccionarios así: 0 < fi/n <1

d) La suma de las frecuencias relativas es igual a uno.

e) El último término de la .frecuencia absoluta acumulada es igual al total de observaciones, en este


caso, n.

f) El último término de la frecuencia relativa es igual a uno.

Variable continua
Corresponde a aquella variable que admite fracciones siendo el resultado de la aplicación de algún
método de medición. A los símbolos anteriores dados para una variable discreta, es necesario agregarles
algunos más, que son propios de esta variable.

xmáx es el valor máximo que toma la variable, cuando los datos se encuentran sin agrupar.

xmín es el valor mínimo que toma dicha variable. ;

Rango = Recorrido es la diferencia entre el valor máximo y mínimo que toma la variable. R = xmáx –
xmín.

m número de intervalos o marcas de clase. Es un valor que en algunos casos se toma por
conveniencia o porque la información se ha venido presentando en esa misma forma. Se aconseja
que el valor de m no debe ser menor que cinco ni mayor que 16. Es preferible utilizar la fórmula
m = l + 3,3 log n.

48
C es la amplitud del intervalo y no necesariamente debe ser constante. Por facilidad, se utilizará
una amplitud constante: c = rango  m, y siempre que su resultado sea fraccionario, por
pequeña que ella sea, se aproximará al número inmediatamente superior.

Consideremos un estudio realizado a 50 establecimientos comerciales, sobre el volumen de ventas (miles


de $) en el mes, con el siguiente resultado:

x1 = 42 x37 = 61
x9 = 51 x45 = 53
x17 = 42
x25 = 50 x6 = 62
x33 = 55 x14 = 61
x41 = 65 x22 = 46
x49 = 50 x30 = 58
x2 = 56 x38 = 50
x10 = 56 x46 = 40
x18 = 60
x26 = 36 x7 = 45
x34 = 60 x15 = 56
x42 = 53 x23 = 54
x50 = 46 x31 = 62
x3 = 39 x39 = 58
x11 = 37 x47 = 65
x19 = 61
x27 = 56 x8 = 45
x35 = 54 x16 = 50
x43 = 56 x24 = 62
x32 = 48
x4 = 48 x40 = 57
x12 = 42 x48 = 55
x20 = 46
x28 = 52
x36 = 38
x44 = 57

x5 = 54
x13 = 56
x21 = 51
x29 = 63

49
Pasos que deben seguirse para la confección de una tabla de frecuencias, cuando se tiene una variable
continua.

a) Se ordena los datos en forma ascendente


b) Determinar el valor máximo y mínimo que toma la variable. xmáx = 65, o sea la observación x47 y xmín
= 36, que corresponde a la observación X26.

c) Se obtiene el Rango o Recorrido: R = xmáx - xmín = 65 - 36 = 29.

d) Se determina el valor de m o número de intervalos necesarios para agrupar los datos. Se puede tomar
un valor arbitrario. Recordemos que no se deben elegir muchos ni pocos intervalos o marcas de clase,
generalmente debe utilizarse un número no mayor que 16 ni menor que 5. También se puede
observar si la empresa o entidad que realiza el estudio lo utilizó en publicaciones o estudios
anteriores, tablas similares, con el fin de continuarlas presentando en la misma forma, con fines
comparativos.
Puede utilizarse la fórmula m = 1 +3,3 log n para calcular el número de intervalos o marcas de clase.
m = 1 + 3,3 log 50 = 1 + 3,3 (1,698970)
m = 1 + 5,60660 = 6,6066  7 se aproximó al número inmediatamente superior.

A pesar de que muchas personas calculan el valor de m = n , o sea, m = 50 = 7,07  8, el


procedimiento no es muy recomendable.

e) Determinar el valor de la amplitud, es decir, la diferencia que hay en cada uno de los intervalos de
clase y que simbolizamos por C. Por comodidad y presentación, se le considera como un número
entero; en la mayoría de los casos, como constante para cada uno de los intervalos de clase.
C = rango /m = 29/7 = 4,14  5. De todas formas, por pequeña que sea la fracción, siempre se
aproxima al número inmediatamente superior.
Si mantenemos constantes los valores de m = 7 y C = 5, notamos que el valor del rango cambia.
5 = rango + 7; el nuevo rango será 35, es decir, se incrementó en 6 unidades, y siempre que esto
suceda debe repartirse, sumándole una parte al límite superior y restando la otra al límite inferior. En
este caso, como el incremento es 6, le sumamos 3 a 65 y obtenemos 68 como nuevo xmáx y le
restamos también 3 a 36 que nos da 33 como x mín. El nuevo rango será igual a 68 - 33 = 35. Lo más
indicado es repartir el incremento, hasta donde sea posible, en partes iguales, pero no necesariamente.

f) Una vez establecido el nuevo rango, se coloca como límite inferior del primer intervalo al valor
mínimo del rango, en este caso 33, y se le va sumando el valor de la amplitud.

50
Puede observarse que al límite inferior se le ha agregado 0,1, pero sólo se hace con el fin de clasificar los
datos. Es decir, si un valor de x es igual a 48, quedará dentro del tercer intervalo, ya que el cuarto
corresponde para valores superiores a 48.

Confeccionemos la tabla de frecuencias, calculando, a la vez, las marcas de clase.

Y ´i - 1 – Y ´ i fi fi/n Ni Hi Yi
33,1 – 38 3 0,06 3 0,06 35,5
38,1 – 43 5 0,10 8 0,16 40,5
43,1 – 48 7 0,14 15 0,30 45,5
48,1 – 53 9 0,18 24 0,48 50,5
53,1 – 58 15 0,30 39 0,78 55,5
58,1 – 63 9 0,18 48 0,96 60,5
63,1 – 68 2 0,04 50 1,00 65,5

Σ 50 1,00 – – –

Estos valores en símbolos, corresponden a los de la siguiente tabla:

Y ´i - 1 – Y ´ i fi fi/n Ni Hi Yi
y´0 – y´1 f1 f1/n N1 H1 y1
x´1 – x´2 f2 f2/n N2 H2 y2
– – – – – –
– – – – – –
– – – – – –

Las marcas de clase, que aparecen en la última columna de la tabla, se pueden calcular de varias maneras:

a) Promediando los valores en cada intervalo. Para ello se suma el límite inferior con el límite superior
del intervalo y se divide por dos. (33 + 38) + 2 = 35,5; (38 + 43) + 2 = 40,5, y así sucesivamente.

b) Si la amplitud es constante, basta con obtener la primera marca de clase por el método anterior y se le
va sumando el valor de la constante, que en este caso es igual a 5.

c) Se divide la constante por 2 y el resultado se le suma al límite inferior, o se le resta al límite superior
del intervalo.

CUESTIONARIO

1. Consultar todo lo referente a gráficos estadísticos y sus aplicaciones


2. Suponga que se realiza una investigación sobre los precios de un artículo distribuido en la ciudad,
con los siguientes resultados:
$ 250 265 250 290 238 260 248 270 232 275
262 262 240 270 272 236 263 258 248 254

51
280 263 246 236 288 254 270 263 265 240
270 280 260 250 246 260 284 290 272 268
230 300 284 240 254 258 296 278 280 278
Se pide:
a) Elaborar una tabla de frecuencias, trabajando con una amplitud constante. Obtenga el número de
intervalos aplicando
m = 1 + 3,3 log n
b) Dibuje el histograma, el polígono y la ojiva.
c) ¿Aproximadamente qué porcentaje de establecimientos vende el producto a un precio inferior a
$270?

3. La sección de cobro de una empresa comercial registra los días de mora en el cumplimiento de sus
obligaciones, en un mes, a 70 deudores. Los resultados son:
0 4 4 20 3 5 0 3 3 0 4 2
0 10 5 3 3 0 0 0 2 0 0 2
0 10 5 2 8 0 5 3 5 3 10 3
5 10 5 0 4 4 0 20 10 10 0 10
16 10 12 25 12 2 16 8 12 8 3 2
3 5 3 2 16 5 25 8 4 4
a) Considere los días como variable discreta y elabore una tabla de frecuencias.
b) Dibuje el diagrama de frecuencias absolutas.
c) La empresa da tres días de gracia en los cuales no se cobra intereses por mora. ¿Qué proporción
de deudores tendrán que pagar intereses de mora?

4. Explique la diferencia que puede haber entre un diagrama de barras y un histograma.

5. Una empresa realiza una encuesta a sus 800 empleados, respecto al traslado de sus cesantías a los
fondos de reciente creación. El objetivo era determinar cuántos empleados estaban dispuestos a
aceptar el traslado de sus cesantías. Los resultados son:
Sí 256
NO 474
INDECISOS 70

Convierta los datos en porcentajes y construya:


a) Un diagrama circular.
b) Un diagrama de barras.
c) Un diagrama do barras de componentes en porcentajes (% acumulado).

6. Una muestra realizada a 250 familias de un barrio, sobre el consumo de chocolate en el desayuno de
acuerdo con las marcas de su preferencia, arrojó los siguientes datos:

52
MARCAS NÚMERO DE
FAMILIAS
A 116
B 44
C 172
D 80
E 58

Construya la gráfica que mejor représenle a este conjunto de observaciones. Explique el por que de
su decisión.

7. ¿Cuándo es aconsejable usar la distribución de frecuencias para organizar los datos?

8. ¿En qué casos se debe graficar en papel semilogarítmico? ¿Cuándo en papel logarítmico?

9. Según la regla de Sturges de m = 1 + 3,3 1og n, ¿cuántas clases o marcas de clases se obtienen:
a) Si la muestra es 80 observaciones?; b) ¿si la muestra es 1.500?

10. Una programadora de T.V. realiza una encuesta telefónica sobre la aceptación de uno de sus
programas, de acuerdo con la edad del televidente. Los resultados obtenidos se presentan a
continuación:
GRUPOS DE EDADES
ACEPTACIÓN 18 a 30 30 a 50 Más de 50
Menos de 18
GUSTO 156 112 86 26
NO GUSTO 74 86 50 20
NO VIERON 10 24 18 18

Elabore el gráfico que mejor representa la información anterior.

11. Supongamos que 30 empleados, de acuerdo con el rendimiento en el trabajo durante una semana,
fueron clasificados así:
A = Excelente C = Aceptable F = Deficiente
B = Bueno D = Regular
Los resultados fueron: C B C A F A D B D C A B F D C A B D C C B A A C B F A D D F
Se pide:
a) Elaborar un cuadro de tabulación.
b) Presentar la información para una futura publicación.
c) Acompañar al cuadro anterior con una gráfica bien representativa.

12. Las personas que trabajan en una empresa han sido clasificadas en los últimos años por niveles de
estudio y sexo.

53
2 000 2 001 2 002 2 003
CARACTERÍSTICA
Con grado universitario 40 70 62 85
Mujeres 12 16 14 18
Hombres 28 54 48 67
Con bachillerato 120 130 118 165
Mujeres 36 38 35 42
Hombres 84 92 83 123
Total 160 200 180 250

Cómo elaboraría un cuadro? Suponga que la información que debe presentar a la Gerencia es sobre la

proporción de empleados vinculados a la empresa en los últimos años, por niveles de estudio y sexo.

13. Una encuesta de 30 trabajadores de una empresa sobre el número de accidentes de trabajo sufridos
durante su vida laboral, arrojó los siguientes resultados:
3 2 0 4 3 10 5 5 0 2 0 7 6 0 2
0 3 0 7 0 2 4 2 3 4 0 2 3 2 4
a) Construir una tabla de frecuencias.
b) Elaborar un diagrama de frecuencias absolutas.

Se ha dicho que éstas se clasifican en discretas y continuas. Las primeras son todas aquellas que admiten
únicamente valores enteros; las segundas las que admiten valores fraccionarios. Así que el procedimiento
que se debe seguir en la elaboración de una tabla de frecuencias se hará atendiendo a la anterior
clasificación.

Variable discreta
Para la elaboración de una tabla de frecuencias, tanto para la variable discreta como para la continua,
utilizamos una serie de símbolos, con los cuales tenemos que familiarizarnos, ya que continuamente los
emplearemos, pues son una forma de entendernos, es decir, de hablar un mismo lenguaje. Estos términos
son:

xi es una manera de simbolizar el valor de cada observación, esto es, el valor que toma la variable.
Donde i puede tomar valores desde uno, dos, tres... hasta n, cuando corresponde a datos
originales o no agrupados. En datos agrupados, cuando se ha elaborado una tabla de

54
frecuencias, i toma valores desde uno hasta m. Puede simbolizar también marcas de clase, siendo
el promedio entre el límite inferior y el superior en un intervalo.

m es el número de valores que toma la variable en una tabla de frecuencias. En la variable continua
recibe el nombre de número de marcas de clase o número de intervalos.

n corresponde al tamaño de la muestra.

N es el número de elementos que tiene una población.

fi = ni se denomina frecuencia absoluta y corresponde al número de veces que se repite cada valor de la
variable, dentro de los límites determinados. Siempre son números enteros y su suma debe ser
igual al total de las observaciones investigadas, es decir n.

fi/n=h es la frecuencia relativa, entendida como los cuocientes obtenidos entre el valor de una
determinada frecuencia absoluta y el total de observaciones. Las frecuencias relativas serán
valores fraccionarios, es decir, comprendidos entre 0 y 1. Además, la suma de todas estas
frecuencias debe ser igual a uno, o sea, el 100%.

Ni frecuencia absoluta acumulada, la cual se determina si se desea saber el total de datos u


observaciones desde el origen hasta un valor de la variable dado. Ello se obtiene acumulando o
agregando frecuencias absolutas.

Hi frecuencia relativa acumulada. Se obtiene en forma análoga a las frecuencias absolutas


acumuladas.

Supongamos un ejemplo de variable discreta para construir una tabla de frecuencias: una empresa tiene
220 empleados, de los cuales selecciona una muestra al azar de 50 de ellos, con el fin de investigar qué
porcentaje y con qué frecuencia hay retardos en la llegada del personal en las horas de la mañana; para
ello, se recogen las tarjetas de control de la última quincena, cuyos resultados fueron:

x1 = 2 x2 = 1 x3 = 3 x12 = 3 x21 = 4 x30 = 0 x39 = 4 x48 = 3


x9 = 3 x10 = 5 x11 = 6 x20 = 3 x29 = 1 x38 = 1 x47 = 4
x17 = 2 x18 = 3 x19 = 5 x28 = 3 x37 = 5 x46 = 5 x8 = 1
x25 = 3 x26 = 4 x27 = 2 x36 = 4 x45 = 3 x7 = 3 x16 = 2
x33 = 3 x34 = 1 x35 = 2 x44 = 6 x6 = 2 x15 = 1 x24 = 1
x41 = 0 x42 = 2 x43 = 3 x5 = 0 x14 = 4 x23 = 2 x32 = 5
x49 = 2 x50 = 4 x4 = 4 x13 = 3 x22 = 0 x31 = 2 x40 = 3

55
Cada elemento queda representado por un símbolo; así, si se nos pide cuáles son los valores para x 11, x26 y
x42, diremos que son 6, 4 y 2, respectivamente.

Ahora determinamos los valores que toma la variable y observamos que son: 0 1 2 3 4 5 6; en total 7, el
cual lo simbolizamos con m = 7.

A continuación tabulamos, es decir, determinamos cuántas veces se presenta cada valor que toma la
variable.

Vamos a presentar dos tablas, una con los valores de las frecuencias y la otra con los símbolos
respectivos.

xi fi fi/n Ni Hi xi fi fi/n Ni Hi
0 3 0,06 3 0,060 x1 f1 f1/n N1 H1
1 7 0,14 10 0,20 x2 f2 f2/n N2 H2
2 10 0,20 20 0,40 x3 f3 f3/n N3 H3
3 15 0,30 35 0,70 x4 f4 f4/n N4 H4
4 8 0,16 43 0,86 x5 f5 f5/n N5 H5
5 5 0,10 48 0,96 x6 f6 f6/n N6 H6
6 2 0,04 50 1,00 x7 f7 f7/n N7 H7
∑ 50 1,00 - - ∑ n 1,00 - -

Es necesario tener en cuenta las siguientes propiedades de las frecuencias:

g) Las frecuencias absolutas son números enteros.

h) La suma de las frecuencias absolutas es igual al número de observaciones, en este caso n.

i) Las frecuencias relativas son números fraccionarios así: 0 < fi/n <1

j) La suma de las frecuencias relativas es igual a uno.

k) El último término de la .frecuencia absoluta acumulada es igual al total de observaciones, en este


caso, n.

l) El último término de la frecuencia relativa es igual a uno.

Variable continua
Corresponde a aquella variable que admite fracciones siendo el resultado de la aplicación de algún
método de medición. A los símbolos anteriores dados para una variable discreta, es necesario agregarles
algunos más, que son propios de esta variable.

56
xmáx es el valor máximo que toma la variable, cuando los datos se encuentran sin agrupar.

xmín es el valor mínimo que toma dicha variable. ;

Rango = Recorrido es la diferencia entre el valor máximo y mínimo que toma la variable. R = xmáx –
xmín.

m número de intervalos o marcas de clase. Es un valor que en algunos casos se toma por
conveniencia o porque la información se ha venido presentando en esa misma forma. Se aconseja
que el valor de m no debe ser menor que cinco ni mayor que 16. Es preferible utilizar la fórmula
m = l + 3,3 log n.

C es la amplitud del intervalo y no necesariamente debe ser constante. Por facilidad, se utilizará
una amplitud constante: c = rango  m, y siempre que su resultado sea fraccionario, por
pequeña que ella sea, se aproximará al número inmediatamente superior.

Consideremos un estudio realizado a 50 establecimientos comerciales, sobre el volumen de ventas (miles


de $) en el mes, con el siguiente resultado:

x1 = 42 x11 = 37 x21 = 51 x31 = 62 x41 = 65


x2 = 56 x12 = 42 x22 = 46 x32 = 48 x42 = 53
x3 = 39 x13 = 56 x23 = 54 x33 = 55 x43 = 56
x4 = 48 x14 = 61 x24 = 62 x34 = 60 x44 = 57
x5 = 54 x15 = 56 x25 = 50 x35 = 54 x45 = 53
x6 = 62 x16 = 50 x26 = 36 x36 = 38 x46 = 40
x7 = 45 x17 = 42 x27 = 56 x37 = 61 x47 = 65
x8 = 45 x18 = 60 x28 = 52 x38 = 50 x48 = 55
x9 = 51 x19 = 61 x29 = 63 x39 = 58 x49 = 50
x10 = 56 x20 = 46 x30 = 58 x40 = 57 x50 = 46

57
Pasos que deben seguirse para la confección de una tabla de frecuencias, cuando se tiene una variable
continua.

g) Se ordena los datos en forma ascendente


h) Determinar el valor máximo y mínimo que toma la variable. xmáx = 65, o sea la observación x47 y xmín
= 36, que corresponde a la observación X26.

i) Se obtiene el Rango o Recorrido: R = xmáx - xmín = 65 - 36 = 29.

j) Se determina el valor de m o número de intervalos necesarios para agrupar los datos. Se puede tomar
un valor arbitrario. Recordemos que no se deben elegir muchos ni pocos intervalos o marcas de clase,
generalmente debe utilizarse un número no mayor que 16 ni menor que 5. También se puede
observar si la empresa o entidad que realiza el estudio lo utilizó en publicaciones o estudios
anteriores, tablas similares, con el fin de continuarlas presentando en la misma forma, con fines
comparativos.
Puede utilizarse la fórmula m = 1 +3,3 log n para calcular el número de intervalos o marcas de clase.
m = 1 + 3,3 log 50 = 1 + 3,3 (1,698970)
m = 1 + 5,60660 = 6,6066  7 se aproximó al número inmediatamente superior.

A pesar de que muchas personas calculan el valor de m = n , o sea, m = 50 = 7,07  8, el


procedimiento no es muy recomendable.

k) Determinar el valor de la amplitud, es decir, la diferencia que hay en cada uno de los intervalos de
clase y que simbolizamos por C. Por comodidad y presentación, se le considera como un número
entero; en la mayoría de los casos, como constante para cada uno de los intervalos de clase.
C = rango /m = 29/7 = 4,14  5. De todas formas, por pequeña que sea la fracción, siempre se
aproxima al número inmediatamente superior.
Si mantenemos constantes los valores de m = 7 y C = 5, notamos que el valor del rango cambia.
5 = rango + 7; el nuevo rango será 35, es decir, se incrementó en 6 unidades, y siempre que esto
suceda debe repartirse, sumándole una parte al límite superior y restando la otra al límite inferior. En
este caso, como el incremento es 6, le sumamos 3 a 65 y obtenemos 68 como nuevo x máx y le
restamos también 3 a 36 que nos da 33 como x mín. El nuevo rango será igual a 68 - 33 = 35. Lo más
indicado es repartir el incremento, hasta donde sea posible, en partes iguales, pero no necesariamente.

l) Una vez establecido el nuevo rango, se coloca como límite inferior del primer intervalo al valor
mínimo del rango, en este caso 33, y se le va sumando el valor de la amplitud.

Puede observarse que al límite inferior se le ha agregado 0,1, pero sólo se hace con el fin de clasificar los
datos. Es decir, si un valor de x es igual a 48, quedará dentro del tercer intervalo, ya que el cuarto
corresponde para valores superiores a 48.

58
Confeccionemos la tabla de frecuencias, calculando, a la vez, las marcas de clase.

Y ´i - 1 – Y ´ i fi fi/n Ni Hi Yi
33,1 – 38 3 0,06 3 0,06 35,5
38,1 – 43 5 0,10 8 0,16 40,5
43,1 – 48 7 0,14 15 0,30 45,5
48,1 – 53 9 0,18 24 0,48 50,5
53,1 – 58 15 0,30 39 0,78 55,5
58,1 – 63 9 0,18 48 0,96 60,5
63,1 – 68 2 0,04 50 1,00 65,5

Σ 50 1,00 – – –

Estos valores en símbolos, corresponden a los de la siguiente tabla:


Y ´i - 1 – Y ´ i fi fi/n Ni Hi Yi
y´0 – y´1 f1 f1/n N1 H1 y1
x´1 – x´2 f2 f2/n N2 H2 y2
– – – – – –
– – – – – –
– – – – – –

Las marcas de clase, que aparecen en la última columna de la tabla, se pueden calcular de varias maneras:

d) Promediando los valores en cada intervalo. Para ello se suma el límite inferior con el límite superior
del intervalo y se divide por dos. (33 + 38) + 2 = 35,5; (38 + 43) + 2 = 40,5, y así sucesivamente.

e) Si la amplitud es constante, basta con obtener la primera marca de clase por el método anterior y se le
va sumando el valor de la constante, que en este caso es igual a 5.

f) Se divide la constante por 2 y el resultado se le suma al límite inferior, o se le resta al límite superior
del intervalo.

CUESTIONARIO
1. Consultar todo lo referente a gráficos estadísticos y sus aplicaciones
2. Suponga que se realiza una investigación sobre los precios de un artículo distribuido en la ciudad,
con los siguientes resultados:
$ 250 265 250 290 238 260 248 270 232 275
262 262 240 270 272 236 263 258 248 254
280 263 246 236 288 254 270 263 265 240
270 280 260 250 246 260 284 290 272 268
230 300 284 240 254 258 296 278 280 278
Se pide:
a) Elaborar una tabla de frecuencias, trabajando con una amplitud constante. Obtenga el número de
intervalos aplicando

59
m = 1 + 3,3 log n
b) Dibuje el histograma, el polígono y la ojiva.
c) ¿Aproximadamente qué porcentaje de establecimientos vende el producto a un precio inferior a
$270?

3. La sección de cobro de una empresa comercial registra los días de mora en el cumplimiento de sus
obligaciones, en un mes, a 70 deudores. Los resultados son:
0 4 4 20 3 5 0 3 3 0 4 2
0 10 5 3 3 0 0 0 2 0 0 2
0 10 5 2 8 0 5 3 5 3 10 3
5 10 5 0 4 4 0 20 10 10 0 10
16 10 12 25 12 2 16 8 12 8 3 2
3 5 3 2 16 5 25 8 4 4
d) Considere los días como variable discreta y elabore una tabla de frecuencias.
e) Dibuje el diagrama de frecuencias absolutas.
f) La empresa da tres días de gracia en los cuales no se cobra intereses por mora. ¿Qué proporción
de deudores tendrán que pagar intereses de mora?

4. Explique la diferencia que puede haber entre un diagrama de barras y un histograma.

5. Una empresa realiza una encuesta a sus 800 empleados, respecto al traslado de sus cesantías a los
fondos de reciente creación. El objetivo era determinar cuántos empleados estaban dispuestos a
aceptar el traslado de sus cesantías. Los resultados son:
Sí 256
NO 474
INDECISOS 70

Convierta los datos en porcentajes y construya:


a) Un diagrama circular.
b) Un diagrama de barras.
c) Un diagrama do barras de componentes en porcentajes (% acumulado).

6. Una muestra realizada a 250 familias de un barrio, sobre el consumo de chocolate en el desayuno de
acuerdo con las marcas de su preferencia, arrojó los siguientes datos:

MARCAS NÚMERO DE
FAMILIAS
A 116
B 44
C 172
D 80
E 58

60
Construya la gráfica que mejor représenle a este conjunto de observaciones. Explique el por que de
su decisión.

7. ¿Cuándo es aconsejable usar la distribución de frecuencias para organizar los datos?

8. ¿En qué casos se debe graficar en papel semilogarítmico? ¿Cuándo en papel logarítmico?

9. Según la regla de Sturges de m = 1 + 3,3 1og n, ¿cuántas clases o marcas de clases se obtienen:
a) Si la muestra es 80 observaciones?; b) ¿si la muestra es 1.500?

10. Una programadora de T.V. realiza una encuesta telefónica sobre la aceptación de uno de sus
programas, de acuerdo con la edad del televidente. Los resultados obtenidos se presentan a
continuación:
GRUPOS DE EDADES
ACEPTACIÓN
Menos de 18 18 a 30 30 a 50 Más de 50
GUSTO 156 112 86 26
NO GUSTO 74 86 50 20
NO VIERON 10 24 18 18

Elabore el gráfico que mejor representa la información anterior.

11. Supongamos que 30 empleados, de acuerdo con el rendimiento en el trabajo durante una semana,
fueron clasificados así:
A = Excelente C = Aceptable F = Deficiente
B = Bueno D = Regular
Los resultados fueron: C B C A F A D B D C A B F D C A B D C C B A A C B F A D D F
Se pide:
a) Elaborar un cuadro de tabulación.
b) Presentar la información para una futura publicación.
c) Acompañar al cuadro anterior con una gráfica bien representativa.

12. Las personas que trabajan en una empresa han sido clasificadas en los últimos años por niveles de
estudio y sexo.

CARACTERÍSTICA 2 000 2 001 2 002 2 003


Con grado universitario 40 70 62 85
Mujeres 12 16 14 18
Hombres 28 54 48 67
Con bachillerato 120 130 118 165
Mujeres 36 38 35 42
Hombres 84 92 83 123
Total 160 200 180 250

61
Cómo elaboraría un cuadro? Suponga que la información que debe presentar a la Gerencia es sobre la

proporción de empleados vinculados a la empresa en los últimos años, por niveles de estudio y sexo.

13. Una encuesta de 30 trabajadores de una empresa sobre el número de accidentes de trabajo sufridos
durante su vida laboral, arrojó los siguientes resultados:
3 2 0 4 3 10 5 5 0 2 0 7 6 0 2
0 3 0 7 0 2 4 2 3 4 0 2 3 2 4
c) Construir una tabla de frecuencias.
d) Elaborar un diagrama de frecuencias absolutas.

UNIDAD IV MEDIDAS DE TENDENCIA CENTRAL

OBJETIVOS

- Identificar y aplicar en cada caso particular el promedio más indicado.


- Desarrollar habilidades para el cálculo y utilización de los diferentes promedios.
- Utilizar, interpretar y analizar los resultados obtenidos.

GENERALIDADES
Las medidas de posición, generalmente denominadas promedios, son consideradas como medidas
destinadas a reducir el conjunto de datos de una característica observada o investigada a un sólo número
representativo. Se puede decir también que el resultado de las medidas solo pretende explicar mediante
un valor típico, un conjunto de datos.

Algunos establecen diferencias entre estos promedios y los clasifican en medidas de Posición y de
Tendencia Central. A los primeros los definen como un valor típico, dentro de la variable, que representa
al conjunto de observaciones; a los segundos, como un valor central. De todas formas es un valor que
calculamos para describir una característica que suele agrupar muchas clases de datos, y que se
diferencian en la forma en que se definen típicamente, y en la cantidad y tipo de información que pierden
al resumir la información.

62
Por otra parte, el promedio es un concepto más familiar que puede considerarse como indeterminado. Por
lo general, un valor promedio intenta representar o resumir las características relevantes de un conjunto
de valores, siendo los más conocidos: media aritmética, mediana y moda; y otros de menor importancia,
tales como: la media geométrica, media armónica, media cúbica, media cuadrática, los cuartiles, deciles,
percentiles. Por lo general, son medidas de posición o promedio, por consiguiente, la expresión
promedios no sólo hace referencia a la media, sino; también a las medidas mencionadas.

Es necesario recordar que si estos promedios son calculados con valores de una población, se les
denomina parámetros; si se aplican a los valores que toma la característica de las unidades de una
muestra, serán llamados estimadores.

Vale la pena preguntarnos si es posible calcular un promedio que sea capaz de representar, lo mejor
posible, un conjunto de datos. La respuesta es afirmativa, conociendo las ventajas y desventajas que
presentan las diferentes medidas.

Algunos autores establecen diferencias en cuanto a la forma de medición. Una de ellas es el promedio
objetivo, que se utiliza para remediar la imperfección de los elementos de medida de que se dispone en un
momento dado. Por ejemplo, la distancia entre un punto y otro con posibilidades de obtener resultados
diferentes, ya sea por dificultad o por imperfección del instrumento de medición utilizado; pero si
promediamos esos resultados, se obtiene una cifra que puede estimarse como representativa, siendo
considerada como promedio objetivo. Otro es el promedio subjetivo, el cual es diferente del anterior y se
obtiene al medir varios elementos o unidades, calculando una sola cifra que indicaría el promedio del
conjunto; por ejemplo, el promedio de venta diaria en un establecimiento comercial.

Como puede observarse, la finalidad de estas unidades es presentar aquellas medidas más utilizadas e
indicar cómo son calculadas y en que casos debe aplicarse.

MEDIA ARITMÉTICA ( X )
Frecuentemente se omite la calificación aritmética, de modo que solo se menciona la palabra media. Es la
medida más utilizada, la más conocida, la más fácil de calcular. Sus fórmulas admiten tratamiento
algebraico. Por tal razón es considerada como la más importante dentro de los promedios, a pesar de ser
demasiado sensible a cambios en la variable o cuando el extremo es demasiado grande. Se simboliza

indistintamente, empleando una rayita sobre la letra que indica la variable x o y , con minúscula para
indicar el estimador y con mayúscula para el parámetro. Otra forma de simbolizar la media es
utilizando la letra M (mayúscula) colocando como subíndice y entre paréntesis la letra que identifica la
variable: M(x); M(y); M(z); también algunos utilizan la a (minúscula). En poblaciones, como parámetro, es
empleada con mucha frecuencia la letra griega miu o mu (μ).

63
MEDIA ARITMÉTICA SIMPLE
Algunos la denominan como media no ponderada, y se obtiene dividiendo la suma de todos los valores
que toma la variable, por el número de observaciones.

x
x i

suma de todos los valores observados
n número de observacio nes

n = número total de observaciones en el conjunto.

x = media, para el conjunto de observaciones.

 = indica suma de los elementos o valores de la variable.

x i = valores de la variable, donde i toma valores de 1 hasta n.

La anterior fórmula denominada por algunos como media simple o no ponderada, se emplea cuando los
datos están sin agrupar, es decir, se trabaja con los datos originales provenientes del instrumento de
recolección utilizado, sin que se haya iniciado el proceso de concentración, tabulación o elaboración de
cuadros o tablas.

MEDIA ARITMÉTICA PONDERADA


Se aplica cuando los datos están agrupados en una tabla de frecuencias. El término ponderación se da a la
importancia o peso que tiene cada valor de la variable dentro del conjunto, y corresponde a la frecuencia
absoluta o relativa, siendo su mayor importancia cuando más alta sea la frecuencia. La fórmula es casi
igual a la anterior, solo que en este caso se multiplica cada valor de la variable por su respectiva
frecuencia:

x
x f i i

suma de los productos
n número de observacio nes
Cuando sólo se dispone de la frecuencia relativa, también puede calcularse la Media Aritmética,
aplicando la siguiente fórmula:

f 
x   x i  i  = suma de los productos
n
Ahora aplicaremos las dos fórmulas anteriores, en variables discretas y continuas; para ello, se
considerará la información dada por las tablas de la unidad anterior

xi fi xifi fi/n xi(fi/n)


0
1
3
7
0
7
0,06
0,14
0
0,14 x
x f i i 141
  2,82
2 10 20 0,20 0,40 n 50
3 15 45 0,30 0,90 f 
4 8 32 0,16 0,64 x   x i  i   2,82
5 5 25 0,10 0,50 n
6 2 12 0,04 0,24 los dos resultaos anteriores son iguales
Σ 50 141 1,00 2,82

64
Tabla de variable discreta Cálculo de la media aritmética ponderada

x´i – 1 – x´i fi x´i xifi fi/n xi(fi/n)


33,1 – 38 3 35,5 106,5 0,06 2,13
38,1 – 43 5 40,5 202,5 0,10 4,05
43,1 – 48 7 45,5 318,5 0,14 6,37 2.590
48,1 – 53 9 50,5 454,5 0,18 9,09 x  51,8
53,1 – 58 15 55,5 832,5 0,30 16,95 50
58,1 – 63 9 60,5 544,5 0,18 10,89 x  51,8
63,1 – 68 2 65,5 131,0 0,04 2,62
Σ 50 – 2.590,0 1,00 51,80
Tabla de variable continúa. Cálculo de la media aritmético ponderada

Si comparamos los anteriores resultados con los obtenidos para datos no agrupados, observamos que en la
variable discreta son iguales; en cambio en la variable continua, por lo general, difieren. Ello se debe a la
pérdida de información, primero, al agrupar los datos en intervalos de clase; luego, al calcular la media
utilizando las marcas de clase.

DESVIACIONES
Son diferencias que se obtienen entre los valores de la variable y un punto fijo, que puede ser un
promedio, por lo general, la media, o un valor arbitrario, es decir, cualquier valor que caprichosamente se
quiera tomar, ya sea positivo o negativo, dentro o fuera del recorrido, denominado media supuesta u
origen de trabajo, y que lo simbolizaremos mediante A u Ot.

Se consideran tres clases de desviaciones: respecto a la media; a una media supuesta; y a la media
supuesta tomada en unidades de amplitud del intervalo.

DESVIACIONES RESPECTO A LA MEDIA ARITMÉTICA


Se obtienen calculando las diferencias entre cada uno de los valores que toma la variable y la media, la
cual se simboliza mediante di. En datos no agrupados se obtiene de la siguiente forma:

Supongamos los valores 6, 8, 6, 10, 5, para los cuales se sabe que la media es igual a x = 7, y las

desviaciones, aplicando la fórmula de di = xi - x serán: 6 - 7 = -1; 8 - 7 = 1; 6 - 7 = -1; 10 - 7 = 3; 5 - 7


= -2.

En datos agrupados, el procedimiento de cálculo es como sigue:

di = xi - x
xi fi xi - x (xi - x )fi
0 3 -2,82 -8,46
x
x f i i

141
 2,82
1 7 -1,82 -12,74
2 10 -0,82 -8,20
n 50

 x 
3 15 0,18 2,70
4 8 1,18 9,44 i  x fi  0
5 5 2,18 10,90
6 2 3,18 6,36

65
Σ 50 - 0
Tabla Variable discreta- Desviación respecto a la media

x´i – 1 – x´i fi xi (xi - x ) (xi - x )fi


33,1 – 38 3 35,5 -16,3 -48,9
38,1 – 43 5 40,5 -11,3 -56,5
43,1 – 48 7 45,5 -6,3 -44,1 x  51,8
48,1 – 53 9 50,5 -1,3 -11,7
53,1 – 58 15 55,5 3,7 55,5
58,1 – 63 9 60,5 8,7 78,3
63,1 – 68 2 65,5 13,7 27,4
Σ 50 – - 0
Tabla Variable continua- Desviación respecto a la media

Observe detenidamente que, en datos no agrupados, la suma de las desviaciones respecto a la media
aritmética, debe ser siempre igual a cero; en cambio en datos agrupados o tablas de frecuencia debe estar
multiplicada cada desviación por su respectiva frecuencia, para que la sumatoria sea igual a cero.

DESVIACIONES RESPECTO A LA MEDIA SUPUESTA U ORIGEN DE TRABAJO


El procedimiento es exactamente igual al cálculo anterior, con la diferencia que en vez de tomar el valor
de la media elegimos un valor cualquiera; sin embargo, es preferible tener en cuenta un valor de la tabla,
ojala un valor central. Vale la pena aclarar que estas desviaciones se calculan de preferencia en datos
agrupados. Con las mismas tablas anteriores, calcularemos sus desviaciones respecto al origen de trabajo,
tanto para la variable discreta como para la continua:

DESVIACIONES
xi xi – A
DESVIACIONES
0 -4
xi xi - A
1 -3
35,5 -10
2 -2
40,5 -5
A=4 3 -1
45,5 0
4 0 A = 45,5 50,5 5
5 1
55,5 10
6 2
60,5 15
Tabla Variable discreta- Desviaciones respecto
65,5 20
a un origen de trabajo
Tabla Variable continua - Desviaciones respecto
a un origen de trabajo
La media supuesta se simboliza por A o por Ot; considerando el valor 4 para la variable discreta y 45,5
para la continua.

Una de las tantas utilizaciones que se le da a estas desviaciones, corresponde al cálculo de la media
aritmética, mediante el denominado primer método abreviado. Veamos su fórmula y su aplicación con las
tablas anteriores.

66
xi fi xi - A (xi - A)fi
0 3 -4 -12
1 7 -3 -21
2 10 -2 -20
3 15 -1 -15
4 8 0 0
5 5 1 5
6 2 2 4
Σ 50 - -59
Tabla variable discreta – Cálculo de la
media aritmética o método abreviado
xi fi xi - A (xi - A)fi
35,5 3 -10 -30
40,5 5 -5 -25
45,5 7 0 0
50,5 9 5 45
55,5 15 10 150
60,5 9 15 135
65,5 2 20 40
Σ 50 - 315

Tabla variable continua – Cálculo de la


media aritmética o método abreviado

67
La fórmula que utilizaremos para calcular la media aritmética en ambos casos será:

xA
 x i  A f i
A
d f i i

n n
Reemplazando se tiene: x = 4 + (- 59  50) = 4 – 1,18 = 2,82 en la variable discreta x = 45,5 + (315
 50) = 45,5 + 6,3 = 51,8 en la variable continua

DESVIACIONES RESPECTO A UN ORIGEN DE TRABAJO TOMADAS EN UNIDADES DE

AMPLITUD

Generalmente se aplica en datos agrupados cuando la variable es continua y la amplitud del intervalo es
constante. Se calcula dividiendo cada una de las desviaciones respecto a la media supuesta por la
respectiva amplitud. Como siempre, se trabaja con amplitud constante; su calculo es mas abreviado; basta
colocar cero al frente del origen y a partir de ese punto, hacia arriba, se tendrá: -1 -2 -3 y así
sucesivamente. Se procede lo mismo hacia abajo, pero tomando números positivos: 1 2 3 4...

Se simboliza mediante di´ y su fórmula de cálculo es:

xi  A di
di´ = 
c c
También se aplica para calcular algunas medidas, entre ellas la media aritmética, conocida como segundo
método abreviado, cuya fórmula es:

x  Ac
d f \
i i

n
Su aplicación es la siguiente:
xi fi di di/c di´fi
35,5 3 -10 -2 -6
40,5 5 -5 -1 -5 A = 45,5
45,5 7 0 0 0 x  45,5  5 (63  50)
50,5 9 5 1 9
55,5 15 10 2 30 x  45,5  6,30  51,8
60,5 9 15 3 27
65,5 2 20 4 8
Σ 50 - - 63
Tabla variable continua – Cálculo de la media aritmética según método abreviado

PROPIEDADES DE LA MEDIA ARITMÉTICA


Es de gran importancia conocer y manejar las propiedades de este promedio, a fin de simplificar y agilizar
procedimientos de cálculo, o para entender algunos métodos estadísticos.

68
a) La suma de las desviaciones respecto a la media siempre debe ser igual a cero. En datos no

agrupados será  x i 
 x  0 y en datos agrupados será  x i 
 x f i  0 . Ya estas
propiedades las habíamos demostrado cuando se habló de las desviaciones respecto a la media.

b) La media aritmética de una constante es igual a la constante. Propiedad fácil de entender y de


explicar mediante un ejemplo como el siguiente: si en un curso todos los estudiantes obtienen la
misma nota, esa será el promedio.

M k    k  n  nk  n  k

c) La media aritmética de una constante por una variable será igual al producto de la constante por
la media aritmética de la variable.

M kx    kx  n  k  x  n  k x

d) La media de una variable más una constante es igual a la suma de la media más la constante

Mxk   Mx   Mk   x  k . Esta propiedad es válida para la diferencia: Mx k   x  k .

e) La media de la suma de dos o más muestras es igual a la media de estas medias


ponderadas, es decir, las medias deben estar multiplicadas por su respectivo número de elementos, y la
suma de estos productos dividida por el total de elementos.

x 1n 1  x 2 n 2  x 3 n 3
x
n
Veamos la aplicación de algunas de estas propiedades en la tabla correspondiente a la variable continua.

xi fi xi fi xi fi xi fi xi fi
35,5 3 46 3 168 71 3 213
40,5 5 51 5 255 81 5 405
45,5 7 56 7 392 91 7 637
50,5 9 61 9 549 101 9 909
55,5 15 66 15 990 111 15 1.665
60,5 9 71 9 639 121 9 1.089
65,5 2 76 2 152 131 2 262
Σ 50 Σ 50 3.115 Σ 50 3.115

(1) Información correspondiente a la tabla inicial, de la cual sabemos que el promedio es igual a:

x = 51,8.

69
(2) Se le ha sumado 10,5 a cada uno de los valores de la variable de la tabla anterior y con ella se calcula
la nueva media aritmética.

x  3.115  50  62,3
M x  k   51,8  10,5  62,3
(3) Se ha multiplicado por dos cada uno de los valores de la variable tabla anterior y se ha calculado
nuevamente la media aritmética.

x  5.180  50  103,6
M kx   51,8  2  103,6
(4) Dividamos la distribución de la tabla anterior en dos submuestras, la primera de ellas con 15
elementos y la segunda con 35. Luego, calculamos la media para cada una de las submuestras.

xi fi xifi xi fi xifi
35,5 3 106,5 50,5 9 454,5
40,5 5 202,5 55,5 15 832,5
45,5 7 318,5 60,5 9 544,5
65,5 2 131,0
Σ 15 627,5 Σ 15 1.962,5
x 1  627,5/15  41,83 x 2  1.962,5  35  56,071
Primera Submuestra Segunda Submuestra

41,83(15)  56,07(35) 2.590


La media para el total será x    51,8
50 50

MEDIANA (Me)

Es aquel valor de la variable que divide la frecuencia total en dos partes iguales, es decir, aquel valor de la
variable que supera y a la vez es superado por más de la mitad de las observaciones en un conjunto
ordenado. La mediana es el valor central.

Se le considera como una medida de tendencia central, ya que se localiza en el centro, superando la mitad
y siendo superada por la otra mitad de las observaciones. Este promedio es menos importante que la
media aritmética y su cálculo es un poco más complicado, ya que en cada situación en particular debe
aplicarse una determinada fórmula, tan rígida que no admite tratamiento algebraico alguno, pero presenta
la ventaja de no ser afectada por cambios que se le hagan a la variable, manteniendo su ordenamiento, aun
cuando existan valores demasiado grandes.

Para la determinación de la mediana no se requiere conocer el valor de todos los datos; solo es preciso
saber cuál es la observación central y que los valores restantes, mitad de ellos sean menores y la otra
mitad mayores que éste. También se puede aplicar en datos incompletos, por ejemplo, en aquellas

70
distribuciones cuya variable tiene valores extremos no definidos con intervalos titulados "menos de" o
"más de".

Veamos su aplicación en cada caso en particular:

DATOS NO AGRUPADOS
Para el cálculo de la mediana, cuando los datos no están agrupados en una tabla de frecuencias, debe
tenerse en cuenta si el número de observaciones es impar o par. En cada caso se siguen los siguientes
pasos:

a) Se ordenan los datos de menor a mayor o de mayor a menor.


b) Se determina el valor central, ya sea mediante la observación directa de los datos o a través de la
aplicación de la fórmula: (n + 1)/2. El resultado nos señala el número de la observación en que se
localiza la Mediana

Número impar de observaciones


Si sólo se dispone de un número impar de datos, la mediana estará localizada en el centro. Consideremos
nuevamente los datos 6, 8, 6,10 y 5. Se ha dicho que primero los ordenamos de menor a mayor o de
mayor a menor, de la siguiente manera: 5 6 6 8 10. Observemos que uno de los seis ocupa el centro; por

lo tanto, a ese valor le corresponde la mediana. Me = 6. Ahora disponemos de dos resultados: x = 7 y Me


= 6. ¿Qué sucede si el último valor en vez de 10 es 100? La mediana sigue siendo 6 y la media se altera,
pasa a ser 25 para el mismo conjunto de datos, debido a lo sensible que es la media, a cualquier cambio
que se haga en la variable.

En el mismo ejercicio podemos calcular la mediana aplicando la fórmula (n + 1)  2 = (5 + 1)  2 = 3,


lo cual indica que la mediana está localizada en el tercer dato de la variable ordenada.

Número par de observaciones


Si disponemos de un conjunto par de datos, se toma convencionalmente la mediana, a la media de las dos
observaciones centrales. Si estos dos valores son iguales, se tomará uno de ellos. Con los datos: 6; 8; 6;
10; 5; 10, los ordenamos de mayor a menor; 10 10 8 6 6 5. La mediana será el promedio entre la tercera y
la cuarta observación obtenida de la siguiente manera: (6 + 1)  2 = 3,5, es decir, que promediamos

8  6
  = 7. Este será el valor de la mediana: Me = 7.
 2 

DATOS AGRUPADOS
Cuando trabajarnos con tablas de frecuencias, debe establecerse si la variable es discreta o continua;
luego, miraremos si al dividir por dos el total de observaciones, el valor se encuentra en la columna de las

71
frecuencias absolutas acumuladas. Se nos presentan dos situaciones al calcular la mediana. En cada caso
debe aplicarse una fórmula diferente, con base en las siguientes recomendaciones:

a) Se obtienen las frecuencias absolutas acumuladas, sumando las sucesivas frecuencias, ya sea de
arriba hacia abajo, o en sentido contrario, sin que este procedimiento afecte el resultado.

b) Dividimos por dos el total de observaciones: n  2.

c) El resultado anterior lo buscamos en la columna de las frecuencias absolutas acumuladas. Al respecto


recordemos que se presentan dos situaciones: la primera, cuando el valor puede observarse; dicho
valor lo simbolizaremos por Nj-1 y al inmediatamente superior en valor por Nj, por lo cual se dice que
Nj-1 = n/2. La segunda situación se da cuando el valor no se observa en dicha columna; en este caso
Nj-1 corresponderá al valor inmediatamente inferior a n/2 y Nj al inmediatamente superior en valor y
se dirá que Nj-1 < n/2. Además, la fórmula que debe aplicarse es diferente al tipo de variable, discreta
o continua.

VARIABLE DISCRETA
Procedemos a calcular la mediana, de acuerdo con las dos situaciones descritas anteriormente:

xi fi Nj xi fi Nj
0 3 3 0 3 3
1 7 10 1 7 10
xj-1→ 2 15 25 ← Nj-1 2 10 20 ← Nj-1
xj→ 3 10 35 ← Nj xj→ 3 15 35 ← Nj
4 8 43 4 8 43
5 5 48 5 5 48
6 2 50 6 2 50
Σ 50 - Σ 50 -
(1) Variable discreta – Cálculo de la mediana (2) Variable discreta – Cálculo de la mediana

(1) Aparece en la columna de las frecuencias el valor obtenido al calcular n/2 = 25; por lo tanto, se dirá
que Nj-1 = n/2. En este caso la fórmula que debe emplearse es:
x j1  x j 23
Me  Me   2,5
2 2

(2) Como en la columna de las frecuencias absolutas acumuladas no aparece el valor 25, consideremos
como Nj-1 a 20, es decir, el valor inmediatamente inferior, y como N j al inmediatamente superior a
25, o sea, 35. Se dirá en este caso Nj-1 < n/2, y la fórmula a emplear será:
Me = xj Me = 3

VARIABLE CONTINUA

72
x´j – 1 – x´j fi Nj x´j – 1 – x´j fi Nj
33,1 – 38 3 3 33,1 – 38 3 3
38,1 – 43 5 8 38,1 – 43 5 8
43,1 – 48 7 15 43,1 – 48 7 15
x´j-1→ 48,1 – 53 10 25 ← Nj-1 x´j-1→ 48,1 – 53 9 24 ← Nj-1
53,1 – 58 15 40 ← Nj 53,1 – 58 15nj 39 ← Nj
58,1 – 63 9 49 58,1 – 63 9 48
63,1 – 68 1 50 63,1 – 68 2 50
Σ 50 - Σ 50 -

(1) Variable continua – Cálculo de la mediana (2) Variable continua – Cálculo de la mediana

(1) Localizamos el valor de n/2 = 25 en la columna de las frecuencias absolutas acumuladas, siendo Nj-1
= n/2. La fórmula que debe aplicarse será:
Me = xj-1 = 53
Observe que el valor de xj-1 lo hemos localizado al frente de Nj ya que 53 es el centro de la
distribución, en cuanto al número de observaciones.

(2) En este caso, el valor 25 no se encuentra en la columna, por lo tanto, se dirá que N j-1 < n/2. Para su
cálculo se aplicará la siguiente fórmula:

n
 N j1
25  24
Me  x j1 c 2 Me  53  5  53,33
nj 15

NOTA: Nj es el símbolo que utilizaremos para indicar la columna de las frecuencias absolutas
acumuladas por ser más fácil de manejar.

MODA (Md)
Es una medida de posición que sacrifica una mayor cantidad de información que la mediana. Su resultado
es más general y en algunos casos poco útil. Es definida como aquel valor de la variable que más se
repite, es decir que tiene la máxima frecuencia de la distribución. Se simboliza por Md, siendo igual a Xj.

DATOS SIN AGRUPAR

Apliquemos la moda en los datos siguientes: 6; 8; 6; 10; 5. Observamos que el 6 es el valor de la variable
que más se repite, por lo tanto: Xj = Md = 6.

Consideremos otro conjunto de 6 observaciones, cuyos valores son: 6; 8; 6; 10; 5; 10. Se presentan dos
valores de la variable con igual número de repeticiones, 6 y 10. En este caso hay dos modas, luego se dice
que la distribución es bimodal.

73
Cuando ningún valor se repite más de una vez, puede afirmarse que no hay moda. Si un solo valor de la
variable se repite más veces que los demás, será unimodal; si hay más de dos modas, será plurimodal.

DATOS AGRUPADOS
Así corno se calculó la moda, en datos no agrupados, en una forma simple e inmediata, casi por simple
observación y sin fórmula alguna, podemos proceder igual en datos agrupados, tanto para la variable
discreta como para la continua. En esta última debe ser calculada utilizando las marcas de clase y sólo
cuando la amplitud del intervalo sea constante; cuando no lo sea, es preferible aplicar otra medida
diferente.

En las tablas que se presentan a continuación, se han calculado las modas en cada una de las
distribuciones, siendo Md = 3 en la variable discreta y Md =55,5 en la variable continua, utilizando para
ello las marcas de clase.

74
xi fi xi fi
0 3 35,5 3
1 7 40,5 5
2 10 45,5 7
Md → 3 15 50,5 9
← nj
4 8 Md → 55,5 15 ← nj
5 5 60,5 9
Md = xj = 3
6 2 65,5 2 Md = xj = 55,5
Σ 50 Σ 50

Variable discreta – Cálculo de la moda Variable continua – Cálculo de la moda

RELACIÓN ENTRE MEDIA, MEDIANA y MODA


Hagamos algunas comparaciones en cuanto a la aplicación de estas medidas, que hemos considerado
como las más importantes y de mayor utilidad.

a) La media aritmética es la más conocida y aplicada. Es frecuente que numerosas personas


desconozcan la existencia de otras medidas, o si las conocen tienen dificultad no sólo en su cálculo,
sino en su verdadera aplicación.

b) En una distribución simétrica y además unimodal, la media, la mediana y la moda son iguales. En
este caso, se prefiere el uso de la media.

c) Los tres promedios dependen de la forma que tome la distribución. Si es simétrica, o ligeramente
asimétrica, debe utilizarse la media; en cambio cuando esto no ocurre, la mediana es la más indicada.

d) Si una distribución tiene más de un máximo en la frecuencia, la sola aplicación de la media, o la


mediana, puede ocultar propiedades interesantes.

e) La media no se puede calcular en distribuciones con intervalos abiertos, por tanto, la mediana y la
moda son las más indicadas.

f) Dos medianas o dos modas no se pueden promediar para obtener el valor promedio de dos muestras
combinadas, pero sí se puede realizar con la media aritmética.

g) En una distribución de frecuencias, cuando la amplitud del intervalo no es constante, no es


aconsejable la aplicación de la moda, siendo preferible el uso de la media o mediana.

h) La media es la más estable o la más confiable, ya que presenta menos fluctuación entre el resultado
en una muestra comparada con el de otras obtenidas de la misma población, por tanto proporciona
una mejor estimación del parámetro.

i) Las relaciones entre estas medidas se podrán describir:

75
Cuando es simétrica
x  Me  Md
Cuando es asimétrica
x  Me  Md Cuando es asimétrica
x  Me  Md

j) La media aritmética es sensible a cualquier cambio que se haga en los valores que toma la variable, y
en especial cuando uno de ellos es exageradamente grande. La mediana y la moda no se afectan
mientras el cambio no se realice en su propio valor.

k) Se considera que en gran parte de las distribuciones, la distancia entre la media y la moda es tres
veces la distancia entre la media y la mediana. Esta relación fue establecida por K Pearson y sirve
para calcular una de ellas en función de las otras dos.

x  M d  3(x  M e ) M d  3M e - 2x

Una distribución es Simétrica cuando las frecuencias absolutas y relativas, equidistantes a un valor
central, son ¡guales, en caso contrario la distribución es Asimétrica. Se ha dicho que en una distribución
simétrica la mediana, media y moda tendrán el mismo valor, el cual se localiza en el centro de la variable.
Veamos como ejemplo una distribución simétrica, cuya media, moda y mediana es igual a 6.

Xi fi fi/n
0 2 0,03
2 8 0,11
4 15 0,22 x6
6 20 0,28 Me  6
8 15 0,22 Md  6
10 8 0,11
12 2 0,03
Σ 70 1,00

MEDIA GEOMÉTRICA (Mg)

La media geométrica de n cantidades positivas es la raíz positiva enésima del producto de dichas
cantidades. Se simboliza por Mg, Mo, G, y es aplicada en todos aquellos casos en los que la variable
muestra un crecimiento geométrico, como en el de la población de un país o el de un capital colocado
a una tasa de interés compuesto, es decir, con tendencia exponencial. Siguiendo el procedimiento de
explicación para los anteriores promedios, veamos cuáles son las fórmulas que deben aplicarse en este
caso y cuál el procedimiento que debe seguirse para su cálculo:

76
DATOS NO AGRUPADOS

De acuerdo con la definición, la fórmula para aplicar, si se dan los dalos siguientes: 6; 8; 6; 10 y 5, es:

Mg  n πx i  n x1  x 2  x 3 ...x n
Mg  5
6  8  6  10  5  5
14.400  6,79
La letra griega π (pi) se lee como “multiplicación de”, es decir, corresponde al producto de los elementos
o valores que tome la variable. La anterior fórmula presenta varios inconvenientes en su cálculo. Algunos
de ellos son:

(a) si un valor de la variable es 0, el producto será igualmente cero.


(b) ninguna observación puede ser negativa, pues nos daría una raíz imaginaria. Como solución, es
preferible trabajar con logaritmos:
(c)

log Mg 
 log x i

log x 1  log x 2  log x 3 ...
n n

Aplicando esta fórmula a los datos originales, el resultado debo ser exactamente igual al obtenido con la
formula anterior.

log 6  log 8  log 6  log 10  log 5


log Mg 
5
0,77815  0,90309  0,77815  1,00000  0,69897 4,15836
log Mg  
5 5
log Mg  0,831672

Ahora obtenemos el antilogaritmo: Mg = antilog 0,831672 = 6,79; Mg = 6,79


Ya se mencionó la aplicación de este promedio en algunos datos que se agrupan en orden cronológico,
como la población de una región, que además presenta un crecimiento geométrico y en el que se desea
determinar la población promedio entre dos períodos. Expliquémoslo con un ejemplo: en 1983, la
población de una región fue 6 millones, y en 1993 alcanza a 8,6 millones. ¿Cuál fue la población media
para 1988?

Mo  6(8,6)  51,6  7,18 Millones de habitantes.

77
DATOS AGRUPADOS
Las fórmulas de cálculo anteriores se modifican un poco, pues deben estar ponderadas, es decir, la
variable debe estar multiplicada por las respectivas frecuencias absolutas.

Mg  πxfii /n log Mg 
f i log x i
n
Por comodidad utilizaremos esta última fórmula, tanto para la variable discreta como para la continua. El
procedimiento será:

xi fi log xi fi log xi
0
1
3
5
0
0
0
0 log Mo 
f i log x i
2 7 0,301030 3,01030 n
3 9 0,477121 7,15682 20,03475
4 15 0,602060 4,81648 log Mo 
5 9 0,698970 3,49485 50
6 2 0,778151 1,55630 Mo  antilog 0,400695
Σ 50 - 20,03475
Mo  2,52
Variable discreta – Cálculo de la media geométrica

x´i – 1 – x´i fi fi xi log xi fi log xi


33,1 – 38 3 35,5 1,55023 4,65069 85,77854
38,1 – 43 5 40,5 1,60746 8,03728 log Mo 
43,1 – 48 7 45,5 1,65801 11,60608 50
48,1 – 53 9 50,5 1,70329 15,32962 log Mo  1,715571
53,1 – 58 15 55,5 1,74429 26,16439
58,1 – 63 9 60,5 1,78175 16,03580
Mo  antilog 1,715571
63,1 – 68 2 65,5 1,81624 3,63248 Mo  51,95
Σ 50 - 20,03475 85,77854
Variable continua – Cálculo de la media geométrica

PROBLEMA DE APLICACIÓN

1. El ingreso por habitante de un país es 1.200 dólares al año. El sector obrero está constituido por el
38% de la población y percibe 1/7 del ingreso total. ¿Cuál será el ingreso per cápita de este sector?

Y  Y/P  Ingreso total/población


Y = ingreso total = 1.200  población = 1.200  P
171,43
Para el sector obrero será = (1/7) (1.200P) / 0,38P =  451,13
0,38

78
CUESTIONARIO

1. Encontrar la media, mediana y moda, en cada uno de los siguientes conjuntos de observaciones:
A) 20 18 16 10 18 13 12 12 18 20
B) 11 13 13 15 15 15 17 17 19
C) 10 11 12 15 14 14 14 130
a) ¿En cuál de los tres casos la media tiene poca representatividad?
b) En cada uno de los casos compruebe que la suma de las desviaciones respecto a la media
aritmética es igual a cero.
c) Con el ejercicio A) contestar ¿qué pasaría con los resultados obtenidos con la aplicación de las
tres medidas: (1) si cada uno de los valores de la variable lo multiplicáramos por 3?; (2) ¿si a
cada valor se le suma 5?

2. Con base en las siguientes medidas de posición, indicar en cuáles de los siguientes puntos existe una
relación:

a) x = 78 mediana = 84 moda = 90

b) x = 80 mediana = 84 moda = 78

c) x = 84 mediana = 84 moda = 84

d) x = 84 mediana = 84 moda = 52 moda = 116

3. Si los resultados obtenidos al aplicar tres promedios son: media = 50; mediana = 46 y moda = 40,
¿qué pasará con los promedios si cada uno de los valores de la variable se multiplica por 10?

4. Suponga que usted es el gerente de mercadeo de una empresa, donde se distribuye el mismo producto
con dos marcas diferentes, asegurando que ambas tienen la misma duración media de 9 años. Se
realiza una encuesta entre los compradores de estos productos, para determinar cuál ha sido su
duración. Los resultados obtenidos fueron: Producto A: 10; 7; 8; 9; 10; 8; 11; 7; 7; 11; 9; 8; 10; 10; 9;
11; 9; 8; 9. Producto B: 19; 4; 3; 4; 3; 9; 10; 3; 19; 5; 9: 4; 9; 5; 9: 4; 9; 5; 9; 4; 9; 10; 19; 4; 5; 9.
a) ¿Cuál medida "promedio" se utilizó para cada marca?
b) ¿Cuál marca aconsejaría usted?
c) Como vendedor, ¿en qué marca se sentirá más seguro, al afirmar que la vida media de duración
es 9 años?

5. Una muestra de 22 empresas, editoras de textos, revela los siguientes porcentajes del gasto en
promoción, respecto al total de ventas del producto.
21 18 25 20 16 18 16 10 18 20 16
14 20 26 12 14 12 14 12 12 12 18

79
Calcule: media, mediana y moda.

6. Los siguientes dalos representan el número de interrupciones diarias, en un mes. Los factores son de
diversa índole, tales como falta de fluido eléctrico, daño en las máquinas, enfermedad o malestar del
operario, etc. Los resultados se presentan en la siguiente tabla de frecuencias:
Xi fi
0 10
1 8
Calcule el promedio de interrupciones
2 4
4 2 diarias en la fábrica, durante el mes.
5 3
7 2
10 1
Σ 30

7. En un almacén de repuestos para automotores se seleccionó una muestra al azar de 80 cuentas de los
archivos de crédito y se construyó la siguiente tabla.

VALOR DEUDA NUMERO DE


(MILES $) DEUDORES
Hasta 20 14
20,1 – 40 26
Se pide:
40,1 – 60 20 a) Calcular la mediana y la moda.
60,1 – 80 10
80,1 – 100 6 b) ¿Cómo procedería usted si le pidieran
100,1 y más 4
Σ 80 calcular la media aritmética?

8. Supongamos que se realizó una encuesta sobre la tasa de desempleo en 40 de las principales ciudades
del país, con los siguientes resultados:

NUMERO DE TASA DE Se pide calcular:


CIUDADES DESEMPLEO
6 2 - 5% a) Media, mediana y moda.
10 5,1 - 8%
16 8,1 - 11% b) Media geométrica y armónica.
5 11,1 - 14%
3 14,1 - 18% c) Las desviaciones respecto a la media y
40
comprobar que su sumatoria es igual a
9. Una compañía aumenta sus ventas (millones $) en los.cero.
últimos años en la siguiente forma:
AÑOS VENTAS
1.988 2
1.989 4
1.990 11
Calcular la media geométrica.
1.991 16
1.992 28

80
10. Consideremos que una empresa cuenta con tres departamentos con diferente número de empleados.
Se realiza una encuesta para determinar el número de unidades producidas por hora, con los
siguientes resultados:

DEPARTAMENTO I
UNIDADES NUMERO DE
TRABAJADORES
3 2
5 3
7 6
8 12
10 4
11 2
12 1
Σ 30

DEPARTAMENTO II
UNIDADES NUMERO DE
TRABAJADORES
2 3
4 7
5 14
7 9
8 3
10 4
Σ 40

81
DEPARTAMENTO III
UNIDADES NUMERO DE
TRABAJADORES
4 6
5 2
7 12
8 10
9 14
10 2
12 3
13 1
Σ 50

a) Calcular el promedio (media) de rendimiento para cada uno de los departamentos.


b) Obtener el promedio para el total de los 120 empleados.

11. Con los siguientes datos de una distribución simétrica, correspondiente a 150 observaciones, se
elaboró una tabla de frecuencias agrupados en cinco intervalos de igual magnitud. Solo se conoce
parcialmente la información de la tabla, siendo: f3 = 50; f2 = fi + 10; x´5 = 80; x1 = 30. Se pide
reconstruir la tabla y calcular la media, mediana y moda.

12. ¿En qué situación la media, mediana y moda son iguales?

13. Un control de producción realizado en 50 lotes sobre el número de unidades defectuosas, dio el
siguiente resultado:
5 2 10 12 7 9 6 3 2 3 1 0 0
8 6 3 3 5 5 7 4 5 8 7 1 5
11 9 6 4 3 2 7 4 0 10 8 8 3
0 7 8 5 3 3 9 4 4 8 2
a) Calcular la media, mediana y moda con los datos originales.
b) Agrupar los datos en una tabla de frecuencia, calcular los promedios mencionados en la unidad y
comparar sus resultados.

82
UNIDAD V. MEDIDAS DE DISPERSIÓN

OBJETIVOS:

- Conocer e identificar las medidas de dispersión.


- Desarrollar habilidades en el cálculo y aplicación práctica de estas medidas.
- Comprender la utilidad e identificar los problemas que requieran su uso

GENERALIDADES

El comportamiento de un conjunto de datos se ha podido describir, en parte, mediante la elaboración de


cuadros, gráficas y el cálculo de algunos promedios, tal como se presentó en unidades anteriores. Sin
embargo, estos últimos quedan incompletos, ya que en algunos casos particulares nos están dando
resultados que distorsionan el comportamiento de ese conjunto de datos o, en el mejor de los casos, no
nos mide nada. Esta es la razón que nos lleva hacia el conocimiento de otras medidas que complementan
e indican cómo se distribuyen o se dispersan los valores observados a ambos lados del promedio, es decir,
cómo se concentran alrededor del valor central o valor típico.

El promedio calculado, por sí mismo, tiene escaso valor significativo, si no se determina el grado de
variabilidad de los datos. No es extraño, pues, que las distribuciones tengan el mismo promedio pero con
diferente grado de dispersión la finalidad en esta unidad es calcular el grado de concentración de las
observaciones alrededor de un promedio, mediante la aplicación de ciertas medidas de dispersión,
determinando, al igual que en el promedio, cuál de ellas es la más indicada en determinado caso. Veamos
algunas de esas medidas.

RECORRIDO (R)
Esta medida se conoce también con el nombre de rango. Puede definirse como la diferencia entre el
mayor y el menor valor que toma la variable. Esta medida, tan sencilla de calcular y más conocida como
oscilación, sólo brinda una ligera aproximación del grado de variabilidad, pues presenta el inconveniente
que sólo toma en cuenta los valores extremos, sin importar el conjunto de valores intermedios; por tanto,
en algunos casos puede arrojar un resultado totalmente distorsionado por su gran sensibilidad a valores
extremos, mostrándose engañador e inestable.

DATOS NO AGRUPADOS
Sí observamos los siguientes datos: 6; 8; 6; 10; 5, el RANGO será igual a 10 - 5 = 5.

R = Xmáx – Xmín

DATOS AGRUPADOS
Apliquemos esta medida en datos agrupados, tanto en la variable discreta corno en la continua, con la
misma información que se ha utilizado en los promedios.

83
xi
fi R = x7 – x1
0 3 R=6–0=6
1 7
2 15
3 10
4 8
R = 68 – 33 =35
5 5
6 2
Σ 50
Variable discreta

x´i – 1 – x´i fi
33,1 – 38 3
38,1 – 43 5
43,1 – 48 7
48,1 – 53 9
53,1 – 58 15
58,1 – 63 9
63,1 – 68 2
Σ 50
Variable continúa

84
Se puede ver en los ejemplos anteriores que los valores intermedios de la variable, algunos de ellos con
peso o frecuencia de alguna importancia, no fueron tomados en cuenta para el cálculo del rango.

VARIANZA (S2 ó σ2)


Es una de las medidas de dispersión más útil, con un significado fácil de captar. Es definida,
generalmente, como la media de los cuadrados de las diferencias entre los valores que toman la variable y
su media aritmética. Se define también como el cuadrado de la desviación típica o estándar. Se simboliza
mediante S2 ó σ2.

La definición anterior nos hace pensaren la existencia de una sola fórmula para calcular la dispersión. Sin
embargo, existe más de una expresión matemática para la misma idea, algunas de ellas prácticas para
casos simples; otras, para datos agrupados o para el uso de la calculadora. Veamos algunas de ellas.

DATOS NO AGRUPADOS

Para los siguientes datos originales: 6; 8; 6; 10; 5, obtengamos la varianza por las siguientes fórmulas, de
las cuales el alumno escogerá la que considere más fácil de manejar.
35
x 7
5

 (x
2
 x) 16
a) S
2
 i
  3,2
n 5

x
2
2
 nx 261  5(7) 2
   3,2
2 i
b) S
n 5

c) S2 
x 2
i
x 
2 261
 (7) 2  3,2
n 5

xi xi - x (xi - x )2 xi2
6 -1 1 36
8 1 1 64
6 -1 1 36
10 3 9 100
5 -2 4 25
35 0 16 261

DATOS AGRUPADOS
Aplicamos las fórmulas anteriores, pero ponderadas para las variables discreta y continua. Para esta
última, debe trabajarse con las marcas de clase.

xi fi xi - x (xi - x )2 (xi - x )2 fi xi2 fi

85
0 3 -2.82 7,9524 23,8572 0
1 7 -1,82 3,3124 23,1868 7
2 10 -0,82 0,6724 6,7240 40
3 15 0,18 0,0324 0,4860 135 x =2,82
4 8 1,18 1,3924 11,1392 128
5 5 2,18 4,7524 23,7620 125
6 2 3,18 10,1124 20,2248 72
Σ 50 - - 109,3800 507
Variable discreta - Cálculo de la varianza

 x 2
2
 x fi 109,38
   2,19
i
a) S2
n 50
x
2
2
f  nx 507  50(2,82) 2
   2,19
2 i i
b) S
n 50

c) S2 
 x i2 f i x
2

507
 2,82 2  2,19
n 5
En datos agrupados, tanto en la variable discreta como en la continua, se puede trabajar con desviaciones
respecto a una media supuesta u origen de trabajo, y se denomina primer método abreviado para el
cálculo de la varianza.

xi fi di= (xi – A) (xi -A)2 difi di2 fi A=4

d f   d i2 f i
0 3 -4 16 -12 48 2
2

1 7 -3 9 -21 63
  
2 i i
S
2 10 -2 4 -20 40 n  n 
3 15 -1 1 -15 15  
4 8 0 0 0 0 179   59 
5 5 1 1 5 5 S2   
6 2 2 4 4 8 50  50 
Σ 50 - - -59 179 S 2  3,58  (1,18) 2
S 2  2,19
Variable discreta – Cálculo de la varianza – Primer Método abreviado

Calculemos la varianza por los diferentes métodos ya vistos, pero aplicados a una variable continua.

2
xi fi xi - x (xi - x )2 (xi - x )2 fi xi xi2 fi
35,5 3 -16,3 265,69 797,07 1.260,25 3.780,75
40,5 5 -11,3 127,69 638,45 1.640,25 8.201,25
45,5 7 -6,3 39,69 277,83 2.070,25 14.491,75
50,5 9 -1,3 1,69 15,21 2.550,25 22.952,25
55,5 15 3,7 13,69 205,35 3.080,25 46.203,75
60,5 9 8,7 75,69 681,21 3.660,25 32.942,25
65,5 2 13,7 187,69 375,38 4.290,25 8.580,50
Σ 50 - - 2.990,50 137.152,50
Variable continua – Cálculo de la varianza

x  51,80

86
2.990,5 137.152,50 - 50(51,8)
a) S   59,81 b) S   59,81
2 2

50 50
137.152,5
c) S   (51,8) 2  59,81
2

50

Trabajemos ahora con el segundo Método abreviado para calcular la varianza, el que sólo se aplica
cuando la amplitud del intervalo es constante. También como en los casos anteriores, debe trabajarse con
las marcas de clase.

xi fi di di/c di´ fi di´ 2 fi


35,5 3 -10 -2 -6 12
40,5 5 -5 -1 -5 5
45,5 7 0 0 0 0 A = 45,5
50,5 9 5 1 9 9
55,5 15 10 2 30 60 C=5
60,5 9 15 3 27 81
65,5 2 20 4 8 32
Σ 50 - - 63 199
Variable continua - Cálculo de la varianza - Segundo Método abreviado

 d /´ 2 f 
2  i
  d i/´ f i
2
 
 
i
S 2
C  
 
 n  n  
S2 
 5 2 (199/50)  (63/50) 2 
S 2  253,98  1,5876  252,3924  59,81

Puede observarse que cualquiera que sea la fórmula de la varianza que se aplique en una distribución, el
resultado siempre va a ser el mismo.

PROPIEDADES DE LA VARIANZA
Es de gran importancia saber manejar las propiedades de la varianza, ya que en algunos casos simplifica
las operaciones; en otros, nos va a servir como base de algún proceso matemático. Estas propiedades son:

a) La varianza siempre debe ser positiva. S2 0

b) La varianza de una constante es igual a cero. Vk   0

c) La varianza de una variable más una constante es igual a la varianza de la variable.

Vx  k   Vx   Vk   S2x

Esta propiedad es válida para la diferencia. Vx k   S2x

87
d) La varianza de una constante por una variable es igual al producto de la constante elevada al

cuadrado por la varianza de la variable. Vxk   k 2S2x


Es una de las propiedades que más se dificulta, no sólo para su aplicación, si no para entenderla.
Consideremos que se tiene un conjunto de datos cuya variable está dada en horas, siendo su
promedio 7 y la varianza igual a 3,2. Se desea convertir esos resultados en minutos, sin tener que
volver aplicar las fórmulas, con los datos transformados en minutos sólo utilizando las propiedades.
La nueva media será:

M xk   k x  60(7)  420 minutos en promedio. Ahora la varianza se calculará:

Vxk   k 2 S 2  60 2 (3,2)  3.600(3,2)  11.520 minutos.

e) La varianza de dos o más submuestras se obtiene mediante la siguiente aplicación:

S12 n 1  S 22 n 2 ( x 1  x ) 2 n 1  ( x 2  x ) 2 n 2
S2  
n n
x1n1  x 2 n 2
Debe recordarse que x 
n

Supongamos que los datos para la variable discreta que tanto se ha utilizado corresponden a la primera

submuestra con media x 1  2,82 y varianza S12  2,19 , mientras que en la segunda submuestra son

x 2  51,8 y S22  59,81 . Con la información anterior, va a calcularse la media y la varianza, para el
conjunto de las 100 observaciones. Siendo:
2,82(50)  51,8(50)
x  27,31
100
2,19(50)  59,81(50) (2,82  27,31) 2 50  (51,8  27,31) 2 50
S 2
 
100 100
S 2
 31  599,7601  630,7601

DESVIACIÓN TÍPICA O ESTÁNDAR (σ ó S)


La varianza como medida de dispersión presenta el inconveniente de que el resultado corresponde a la
unidad en que está medida la variable, pero elevada al cuadrado, ya que así lo exige las diferentes
fórmulas aplicadas, siendo necesario contar con una medida de dispersión cuyo resultado sea dado en la
misma unidad en que está dada la variable. Esto se logra si se extrae la raíz cuadrada de la varianza. Este
método se conoce como Desviación típica o estándar y se simboliza con S ó σ siendo la medida de
dispersión más utilizada.

88
S S 2
S
 (x i  x)2
(datos no agrupados)
n

S
 (x i  x) 2f i
(datos agrupados)
n
Con las varianzas obtenidas para las diferentes variables, calculemos sus desviaciones típicas:

En la variable discreta de la tabla será: S  2,19  1,48 , y en la variable continua de la tabla

S  59,81  7,73
La desviación estándar tiene una interpretación bien precisa, por ejemplo, en la Distribución Normal,
puede visualizarse con el siguiente gráfico:

X
-3S -2S -1S μ 1S 2S 3S

68.3%

95.5%

99.7%
Distribución normal

El total del área bajo la curva es igual a uno, o sea, el 100%. El área corresponde a la proporción de
observaciones en la distribución, es decir:

x + 1S se tendrá el 68,26%
x + 2S se tendrá el 95,50%
x + 3S se tendrá el 99,70% de las observaciones
La media de una distribución normal (μ) divide en dos partes iguales la curva, correspondiéndole a cada
lado el 50%. Si nos alejamos del centro a la derecha, una desviación estándar se incluirá en esta área,
aproximadamente del 34,13% de las observaciones. Como es simétrica, si se toma una vez la desviación
típica a lado y lado del promedio, el total será 68,26%.

89
Dentro del dominio de la variable, la media aritmética, en general, se dice que debe comprender
tres veces la desviación estándar; por lo tanto, se concluye que en una distribución normal, la
desviación típica debe aproximarse a la tercera parte de la media aritmética.

La Distribución Normal, o de Gauss, es la distribución teórica de variable continua más utilizada.


Además, se trata de una distribución simétrica, unimodal y asintótica al eje horizontal o abscisa, que
permite analizar numerosas variables resultantes de investigaciones de carácter socio-económico que
presentan un comportamiento aproximado a la distribución normal.

Se podrán comparar las desviaciones típicas o las varianzas de dos o más distribuciones, si se quiere
determinar cuál de ellas tiene una menor o mayor variabilidad absoluta, siempre y cuando que las
variables estén dadas en las mismas unidades de medida.

COEFICIENTE DE VARIACIÓN (CV)


Se dijo que puede calcularse la variabilidad absoluta siempre y cuando las distribuciones estén dadas en
las mismas unidades de medición. Por lo tanto, se requiere de una medida de dispersión para cuando sean
diferentes, siendo el coeficiente de variación el más indicado, calculado como el cociente entre la
desviación típica y la media aritmética. Se simboliza por CV, d ó V.
Desviación típica S
Coeficiente de variación = CV 
Media aritmética x
El coeficiente de variación se expresa en términos porcentuales.

CV  (S  x )100
El coeficiente permite comparar la variabilidad de dos o más distribuciones dadas en unidades de medidas
diferentes, con el fin de determinar cuál de ellas tiene una mayor o menor variabilidad relativa.

Si partimos de la consideración hecha a partir de la Distribución Normal, se dirá que una distribución,
cualquiera que tenga un Coeficiente de Variación menor o igual al 33%, tiende a ser homogénea, es decir,
la media obtenida será lo bastante representativa del total de las observaciones y si, por el contrario, el
CV se hace mayor al 33%, nos indicará que cada vez será más heterogénea. Por lo tanto, la media irá
perdiendo su representatividad; de ahí que en el muestreo se procede, en estos casos, a dividir la
población en grupos más homogéneos, denominados estratos, permitiendo la aplicación del muestreo
aleatorio estratificado.

PUNTAJE TÍPICO "O" ESTANDARIZADO (Z ó t)


Algunos lo denominan como puntaje de la Z, y es expresado como desviaciones respecto a la media
muestral, en unidades de desviación típica. Es muy aplicado en la transformación de valores de una
variable, expresado en cierta escala, en unidades de otra escala Z, proceso denominado como tipificación
o estandarización. Igualmente se utiliza para comparar los resultados de ciertos experimentos expresados
en unidades de medida diferente; también sirve para indicar la posición relativa de un elemento de la
distribución con respecto a la media en unidades de desviación estándar, como puede observarse en los

90
resultados de las pruebas que se realiza para indicar la posición que ocupa el estudiante dentro del
conjunto. Esta medida se simboliza ya sea por Z o t, para la fórmula:

xx
Z
S
Si consideramos que un curso obtiene en promedio 6,8 en matemática y. 7,8 en estadística, y se quiere
saber en cuál de ellas un alumno alcanza mejor posición relativa,
es decir, en cuál obtuvo un mejor rendimiento con relación al grupo, si las calificaciones de ese alumno
fueron 7,0 y 7,6, respectivamente. Aparentemente se diría que en la segunda, pero dentro del curso
corresponde a la primera. Apliquemos la fórmula, si se sabe que las desviaciones típicas fueron 0,6 y 0,3,
respectivamente.
Zmatemática = (7,0 - 6,8)/0,6 = 0,33
Zestadística = (7,6 - 7,8)/0,3 = 0,66
Se dirá que hay una mejor posición relativa cuanto más cerca a 3 se encuentre, ya que es el máximo valor
que supuestamente toma Z.

OTRAS MEDIDAS DE DISPERSIÓN

Existen otras medidas de dispersión, cada una de ellas con aplicaciones específicas en determinados
casos, pero sólo nos referiremos a dos de ellas: la Desviación media y la Desviación mediana.

DESVIACIÓN MEDIA (Da)

Es una medida de dispersión que se obtiene al calcular la media de las desviaciones respecto a su media,
tomadas en valor absoluto. Esta medida se utiliza muy a menudo por su cuantificación fácil y rápida, pero
en realidad es de poco uso. Al igual que la desviación típica, se toma con el signo positivo y negativo para
indicar su oscilación alrededor de la media. Sin embargo, es menos exacta y, por lo general, menor. De tal
manera que en una distribución normal corresponde al 79,79% de la desviación típica. Se simboliza
mediante Da o DM siendo:

Da = 0,7979 S

Datos no agrupados
Continuamos útil izando los mismos datos: 6; 8; 6; 10; 5, de tal manera que nos permitan comparar los
resultados obtenidos con la aplicación de las diferentes medidas. La fórmula a aplicar es:

Da 
x i x
n

91
xi xi - x xi  x
6 -1 1 x   x i  n  35  5  7
8 1 1
6
10
-1
3
1
3 Da 
x i x

8
 1,6
5 -2 2 n 5
Da  S
Σ 0 8 1,6 < 1,79
Datos sin agrupar – Desviación media

DATOS AGRUPADOS
El procedimiento de cálculo es parecido al desarrollado para obtener la varianza, con la modificación de
trabajar con las diferencias entre la variable y la media, en valores absolutos.
xi fi xi - x xi  x x i  x fi
0 3 -2,82 2,82 8,46 x  2,82
1 7 -1,82 1,82 12,74
2 10 -0,82 0,82 8,20 D a  58,8  50  1,176
3 15 0,18 0,18 2,70 Da  S
4 8 1,18 1,18 9,44
5 5 2,18 2,18 10,90 1,18 < 1,48
6 2 3,18 3,18 6,36
Σ 50 - - 58,80
Variable discreta - Desviación media

Calculemos la desviación media en una variable continua.


xi fi xi - x xi  x x i  x fi
35,5 3 -16,3 16,3 48,9 x  51,8
40,5 5 -11,3 11,3 56,5
45,5 7 -6,3 6,3 44,1 D a  322,4  50  6,448
50,5 9 -1,3 1,3 11,7 Da  S
55,5 15 3,7 3,7 55,5
60,5 9 8,7 8,7 78,3 6,45 < 7,33
65,5 2 13,7 13,7 27,4
Σ 50 - - 322,4
Variable continua - Desviación media

DESVIACIÓN MEDIANA (De)


Si en un problema cualquiera es requerido el cálculo de la mediana, en vez de la media aritmética, debe
utilizarse como medida de dispersión la Desviación Mediana, simbolizada mediante De o DMe, y su
cálculo se desarrolla exactamente igual al de la media, sustituyendo esta por la mediana. Las fórmulas
para aplicar en este caso son:

De 
x i  Me
n

92
De 
x i  Me f i
n

GLOSARIO
Coeficiente de variación Dispersión Rango
Desviación media Distribución normal Recorrido
Desviación mediana Oscilación Variación absoluta
Desviación estándar Puntaje típico o estandarizado Variación relativa
Desviación típica Posición relativa

EJERCICIOS DE APLICACIÓN
1. El coeficiente de variación de 200 empleados de una empresa es 62%. Después de reajustar todos los
salarios en $1400, este coeficiente de variación es del 52%. Sin embargo, la gerencia fija un sueldo
mínimo de $6100. Antes del reajuste 40 personas tenían un sueldo medio de $6000 y todos ellos
ganaban menos de $7000; con la nueva política de la gerencia, sus sueldos serán elevados a $7100.
Determinar la cantidad de dinero mensual que necesitará la empresa para pagar después de efectuado
el reajuste.
Solución

CV = S/ x = 0,62

CV = S/( x +1400) = 0,52; 0,62 x = 0,52 ( x + 1400)

0,62 x = 0,52 x + 0,52 (1400)

0,10 x = 728; x = 728 /0,10 = $7280


$7280 es el salario promedio antes del reajuste.

Por otra parte, hay 40 empleados con un sueldo promedio de $6000 y el ingreso promedio de los 160
restantes será igual a:

40(6000)  160x 2
x  7280
200
200 (7280) = 240 000 + 160 x 2
14560000  240000
x2   7600
160
Si el nuevo promedio de salario es $7100 para los 40 empleados, el resto de empleados, o sea los 160,
devengarán $7600 más los $1400 de aumento, es decir $9000. El valor total de la nómina será:
40 (7100) + 160 (9000) = $1 724 000.

93
2. Tres empresas de la ciudad realizan concursos de admisión a fin de proveer las vacantes actuales y
entre los inscritos, en las tres empresas, aparece el Señor Pedreros. Gracias a sus influencias el Señor
Pedreros pudo conocer los resultados generales y los de él en particular.

x
EMPRESA S CALIFICACIÓN

Señor Pedreros
A 58 4,7 69
B 72 3,8 77
C 68 4,2 64

a) ¿En cuál de las entrevistas, el Señor Pedreros obtuvo una mejor posición? ¿En cuál estuvo mal?
b) Si se sabe que el número de aspirantes a la vacante en cada una de las empresas fue: 320; 472;
258, respectivamente, ¿cuál es el promedio de calificación y el coeficiente de variación para el
total?
Solución
a) ZA = (69 – 58)  4,7 = 2,34  obtuvo una mejor posición
ZB = (77 – 72)  3,8 = 1,32
ZC = (64 – 68)  4,2 = -0,95 fue la peor

b) x = 58 (320) + 72 (472) + 68 (258) = 66,75

4,7 2 (320)  3,8 2 (472)  4,2 2 (258) (58  66,75) 2 320  (72  66,75) 2 472  (68  66,75) 2 258
S2  
1.050 1.050
S  17,55  36,11  53,11
2

S  53,66  7,33
CV  7,33  66,75  0,1097  10,97%

CUESTIONARIO

1. Con la siguiente información correspondiente a una distribución simétrica; m = 5; c = constante; X 1 =


40; n1 = 3; H2 = 0,30; h5 = 0,05; y X5´ = 85; se pide completar la tabla y calcular:
a) Coeficiente cíe variación.
b) Desviación media y desviación mediana.
c) ¿Cual es el valor del rango u oscilación?

2. Para cinco artículos se tienen las variaciones en sus precios respecto al mes pasado. Estos valores
fueron: -$40; -$120; -$80; +$50; +$220.
Se pide calcular el

94
a) Coeficiente de variación.
b) Desviación media.
c) Desviación mediana.

3. En un curso de capacitación ofrecido por la empresa a sus trabajadores, uno de ellos teórico y el otro
práctico, se calificó utilizando una escala de O a 10. Uno de los trabajadores obtuvo las calificaciones
de 8,2 y 6,8 en los cursos respectivos. El trabajador pudo averiguar cuáles habían sido los promedios
y la dispersión en las notas obtenidas en cada curso, con el siguiente resultado;
Curso teórico: Media = 8,7; Desviación típica = 0,8
Curso practico: Media = 5,8; Varianza = 1,21
a) ¿En cuál de los cursos este trabajador obtuvo una mejor posición relativa?
b) ¿Cuál es el coeficiente de variación en cada curso?
c) ¿Cuál es el coeficiente de variación para el curso en general, si además se sabe que al primero
asistieron 30 trabajadores y al segundo, solo asistieron 20?

4. Los empleados de tres departamentos de una empresa fueron sometidos a una prueba sobre
conocimiento del área en la cual trabajan, con los siguientes resultados:

x
DEPARTAMENTO S N
A 74 6,2 25
B 82 7,8 40
C 68 4,4 35

Una vez publicadas las notas se encontró que había un error en los cálculos, ya que faltaban 10
puntos que se habían ofrecido como compensación a una pregunta calificada como mal pero que era
correcta. Se pide calcular el coeficiente de variación para el total de empleados teniendo en cuenta
los 10 puntos que se deben añadir a las calificaciones de cada uno de los empleados.

5. Un jefe de producción encuclilla anotado en el libro de control que el peso promedio del artículo
fabricado es 270 gramos, con una desviación típica de 8 centímetros. ¿Hay algo incorrecto?

6. Si se tiene una media muestral x = 25 y varianza de 36, hallar la media muestral, la varianza y
desviación típica de y, en los siguientes casos:
a) y = 8 + 20 x b) y = 5 x - 26

7. Si en un problema cualquiera se obtiene una varianza de 2,4 horas, pero se nos solicita el resultado en
minutos, ¿cuál será su valor?

8. Si en una empresa el salario promedio es $210.000, con una desviación típica de $8.216, mientras
que en otra empresa de la competencia el salario promedio es $224.500, con una varianza de 92.544.
¿En cuál de las empresas los salarios presentan
a) Una mayor variabilidad absoluta?

95
b) Una menor variabilidad relativa?

9. Cuando se aplica el muestreo en un plan de auditoría, uno de los aspectos más importantes que se
deberá considerar es la variabilidad de la población objeto de estudio. Esta se mide por:
a) La media; b) desviación estándar; c) la mediana; d) ninguna de las anteriores.

10. Una firma tiene 40 almacenes distribuidos en el territorio nacional y se cuenta con la siguiente
información sobre las ventas mensuales en millones de pesos.
VENTAS (millones NÚMERO
$) ALMACENES Calcular:
10,1 – 20 2
a) el coeficiente de variación
20,1 – 30 7
b) la desviación media
30,1 – 40 13
40,1 – 50 8
c) la desviación mediana
50,1 – 60 6 d) compruebe que DM  Da < S
60,1 – 70 4
Σ 40

11. En una prueba realizada a 30 autos, de una nueva marca, se obtiene un rendimiento promedio de 32,4
millas por galón de gasolina, con varianza de 32,04 mpg. a) Exprese estos resultados en términos de
kilómetros por galón (un km =0,622); b) Exprese los resultados anteriores en kilómetros por litro (un
litro = 1,056 cuartos de galón).

12. ¿Para qué se utiliza el coeficiente de variación?

13. A los trabajadores de una empresa el próximo año les será aumentado el salario mensual en un 20%
más $12.000. La empresa tiene 850 trabajadores y actualmente devengan un salario medio mensual
de $230.000, con un coeficiente de variación del 38%.
a) ¿Cuál será la desviación estándar el próximo año?
b) ¿En cuánto se aumentará el valor de la nómina el próximo año?

14. Una encuesta a 12 fábricas de helados revela los siguientes porcentajes de utilidad:
25% 20% 22% 20% 25% 30% 18% 16% 30% 16% 20% 16%
Se pide calcular:
a) Coeficiente de variación d) Varianza
b) Desviación media e) Desviación mediana
c) Rango

96
15. En el lanzamiento do un producto se realizó una investigación para determinar el grado de
aceptación, utilizando una escala de 10 puntos. Se tomó a 12 hombres y 12 mujeres con el siguiente
resultado:
HOMBRES: 7 5 6 9 10 8 7 4 5 7 3 10
MUJERES: 6 4 4 3 5 6 8 6 5 5 4 6
a) Calcule el coeficiente de variación independiente para hombres y mujeres.
b) Calcule el coeficiente de variación para el conjunto, es decir, para las 24 personas.
c) Con los 24 datos, construya una tabla de frecuencia y calcule el coeficiente de variación, la
desviación media y la desviación mediana.

97
UNIDAD VI MEDIDAS DE ASIMETRÍA Y APUNTAMIENTO

OBJETIVOS:
- Entender y manejar los conceptos de asimetría y apuntamiento.
- Desarrollar habilidades en la aplicación y cálculo de estas medidas.
- Integrar estos conceptos con las medidas anteriores y ver la importancia que tienen.

GENERALIDADES

En los capítulos anteriores nos hemos detenido a estudiar y a explicar la forma de calcular, aplicar y
analizar las diferentes medidas de posición y de dispersión, en distribuciones de frecuencias. Ahora, nos
dedicaremos a presentar dos nuevos conceptos, estrechamente relacionados con esas medidas, como son
el de asimetría y apuntamiento, con el fin de alcanzar un mayor conocimiento respecto al conjunto de
datos investigados.
Estos conceptos hacen referencia a la comparación de la curva obtenida con los datos provenientes de una
muestra y una curva teórica o normal, observada en la mayoría de los fenómenos naturales, en especial
cuando el número de observaciones es grande, a fin de determinar su asimetría y apuntamiento.

MEDIDAS DE ASIMETRÍA O DE DEFORMACIÓN

Una distribución es simétrica cuando la media, mediana y moda son iguales, es decir, cuando en una
curva normal las dos colas son iguales. Pero si la distribución unimodal tiene una cola más larga hacia
uno de los lados, se dice que es asimétrica o deforme. Si la deformación o alargamiento de la cola se
presenta hacia los valores mas grandes de la variable, es decir, hacia la derecha, se dirá que la distribución
es asimétrica positiva. En caso contrario, la asimetría será negativa cuando el alargamiento de la cola
se presenta hacia los valores menores de la variable, o sea hacia la izquierda.
Generalizando tenemos:
Simétrica cuando M1 = Me = Md;
Asimétrica positiva cuando Md < Me < M1
Asimétrica negativa Cuando Md > Me > M1

+ -

Simétrica Asimétrica Positiva Asimétrica Negativa


M1 Md Me M1 M1 Me Md

98
Simétrica M1 = Me = Md Asimétrica positiva Md < Me < M1 Asimétrica negativa Md > Me > M1
Distribuciones de asimetría o de deformación

Esta deformación se conoce como SESGO o VÍAS, y se calcula aplicando diferentes medidas,
especialmente las elaboradas por K. Pearson.

x  Md 3( x  Me)
a) As  b) As 
s s

Si As es igual a cero, la distribución será normal o simétrica; si el resultado es negativo o positivo,


significa que es asimétrica, señalando a qué lado de la curva se presenta la deformación. El valor obtenido
corresponde al grado de deformación, es decir, entre más alejado se encuentre de cero, más asimétrica
será. Veamos el manejo de estas fórmulas, si consideramos los resultados de algunas medidas aplicadas
anteriormente para una variable continua.

x = 51,8; s = 7,73; Md = 55,5; Me = 53,33


a) As = (51,8 – 55,5) / 7,73 = -0,48
b) As = 3(51,8 – 53,33) / 7,73 = -0,59
Los dos resultados, con pequeñas diferencias, nos indican que la distribución es ligeramente asimétrica
negativa.
También puede calcularse él grado de asimetría mediante la aplicación de los momentos:

 x  3
m3 m3  x fi
As   
i
m3
s3  m2 
3
n

m3: corresponde al momento de orden tres respecto a la media;


m2: es el momento de orden dos y corresponde a la varianza; por lo tanto, se debe obtener su raíz
cuadrada para hallar la desviación típica, la que, a su vez, se eleva al cubo, para la aplicación de la
fórmula.
Los momentos son medidas de potencias de variable.
Calculemos la deformación con la siguiente tabla de datos correspondiente a una variable continua.

xi fi xi - x (xi - x )2 (xi - x )2 fi (xi - x )3 fi


35,5 3 -16,3 265,69 797,07 -12.992,241
40,5 5 -11,3 127,69 638,05 7.214,485
45,5 7 -6,3 39,69 277,83 -1.750,329
50,5 9 -1,3 1,69 15,21 -19,773 x =51,8
55,5 15 3,7 13,69 205,35 759,795
60,5 9 8,7 75,69 681,21 5.296,527
65,5 2 13,7 187,69 375,38 5.142,706
Σ 50 - - 2.990,50 -10.147,800
Variable continua - Cálculo del momento de orden tres respecto a la media

m2 = S2 = 59,81 S= 59,81 =7,73 m3


As 
S3

99
 x  3
 x fi  10.147,800
   202,956
i
m3
n 50
 202,956  202,956
As    0,44
7,733 461,89
Nota: También nos muestra una ligera asimetría hacia la izquierda.

MEDIDAS DE APUNTAMIENTO
Es conocida también como curtosis y permite establecer el grado de apuntamiento o achatamiento de la
curva de la distribución respecto a la normal. Esta medida propuesta también por Pearson y basada en los
momentos unidimensionales, es dudosa si se considera que una simple razón mida adecuadamente el
apuntamiento de una distribución. La fórmula que se aplicará es:

 x 
4
m4 m4  x fi
Ap   
i
m4
S4 s 2 2 n
m4 momento de orden 4 respecto a la media.
Calculemos el apuntamiento en una variable continua utilizando la tabla anterior

xi fi xi - x (xi - x )2 (xi - x )2 fi (xi - x )4 fi


35,5 3 -16,3 265,69 797,07 211.773,5283
40,5 5 -11,3 127,69 638,05 81.523,6805
45,5 7 -6,3 39,69 277,83 11.027,0727
50,5 9 -1,3 1,69 15,21 25,7049 x =51,8
55,5 15 3,7 13,69 205,35 2.811,2415
60,5 9 8,7 75,69 681,21 51.560,7849
65,5 2 13,7 187,69 375,38 70.455,0722
Σ 50 - - 2.990,50 429.117,0722
Variable continua - Cálculo del momento do orden cuatro, respecto á la media

2.990,50
m 2  s 2  59,81 
50

 x 
4
 x fi 429.117,085
   8.582,34
i
m4 m4 m4
Ap  
n 50
S  S 
4 2 2

m4 8.582,34 8.582,34
Ap     2,40
s 2 2
59,81 2
3.577,24

Para la interpretación de esta medida debe tenerse en cuenta lo siguiente:


a) Si Ap = 3, la distribución es normal.
b) Si Ap > 3, la curva es apuntada, más alta que la normal y nos indica una concentración alrededor del
promedio.

100
c) Si Ap < 3, es achatada, por lo tanto hay más dispersión respecto al promedio.
En el ejercicio que nos ocupa encontramos que 2,4 < 3, siendo la curva algo achatada.
A las tres formas anteriores se les denomina leptocúrtica, platicúrtica y mesocúrtica.

MOMENTOS
Es necesario referirnos a ellos en forma rápida, ya que se ha mencionado en varias ocasiones. En términos
generales, un momento es el valor medio de una potencia de una variable. Hay varias clases de
momentos, a saber:

a) Momentos respecto a la variable.


b) Momentos respecto a la media aritmética.
c) Momentos respecto a un origen de trabajo o media supuesta.
d) Momentos respecto a la media supuesta, tomada en unidades de amplitud.
La media aritmética es un momento de orden uno, respecto a la variable.

ar 
x f r
i i
a1 
x f 1
i i
x
n n
La varianza es un momento de orden dos, respecto a la media.

 x   x 
r 2
x  x fi
   s2
i i
mr m2
n n
La fórmula para momentos respecto a un origen de trabajo o media supuesta, será:

 x  A f i d f
r r

 
/ i i i
m r
n n
En el caso de momentos respecto a un origen de trabajo, tomada en unidades de amplitud, estará dada por
la fórmula

m //

d // r
i i f
Siendo d 
d i/ x i  A
//

r i
n C C
En todos los casos r significa el orden del momento y la potencia a la cual se eleva la variable. Se tendrá
que r toma valores de 1, 2, 3, 4...

101
CUESTIONARIO
1. ¿Qué significa:
a) que una variable tenga un apuntamiento mayor a la normal?
b) que la distribución de una variable sea asimétrica a la derecha?

2. Con los siguientes datos:


X´i-1 – x´i fi
48,1 – 56 38
Se pide:
56,1 – 64 22 a) Construir un histograma y un polígono de frecuencias.
64,1 – 72 14
72,1 – 80 6 b) Calcular la media, mediana y moda. Utilizar la
80,1 – 88 3
88,1 – 96 2 información anterior para determinar el grado de
Σ 85
asimetría y hacia que lado se presenta la deformación.
c) Calcular el grado de apuntamiento y de asimetría,
3. Con los siguientes datos utilizando las fórmulas de los momentos.
X´i-1 – x´i fi
120,1 – 136 2
136,1 – 142 6 Con esta distribución responder todas y cada una de las
142,1 – 148 14
preguntas formuladas en el ejercicio anterior.
148,1 – 154 26
154,1 – 160 38
160,1 – 168 54
Σ 140

4. Con los siguientes datos, responda las preguntas formuladas en los ejercicios anteriores.

X´i-1 – x´i fi X´i-1 – x´i fi


-0,5 – 0,5 1 -0,5 – 0,5 35
0,5 – ,15 7 0,5 – ,15 21
1,5 – 2,5 21 1,5 – 2,5 7
2,5 – 3,5 35 2,5 – 3,5 1
3,5 – 4,5 35 3,5 – 4,5 1
4,5 – 5,5 21 4,5 – 5,5 7
5,5 – 6,5 7 5,5 – 6,5 21
6,5 – 7,5 1 6,5 – 7,5 35
Σ 128 Σ 128

102
UNIDAD VII SERIES DE TIEMPO

OBJETIVOS:
- Comprender la importancia que tiene el análisis de las series de tiempo.
- Adquirir habilidad en la selección de la tendencia que mejor se ajusta a la serie.
- Estar en capacidad de proyectar y analizar su comportamiento futuro.
- Poder elaborar gráficas que incluyan datos originales y tendencias.

GENERALIDADES
Las series de tiempo, denominadas también series cronológicas, corresponden a un conjunto de
observaciones ordenadas respecto a una característica cuantitativa de un fenómeno individual o colectivo,
que se toma en diferentes períodos, guardando un estricto orden cronológico, ya que los datos se van
registrando a medida que va ocurriendo el fenómeno.

Estas series, en parte, son analizadas a través del uso de los números índices, se hallan dentro de las
distribuciones bidimensionales, es decir, están constituidas por dos variables: una de ellas corresponde al
tiempo, identificada por X, que puede ser años, semestres, meses, quincenas, semanas, días, horas; la otra
variable, simbolizada por Y, se refiere al fenómeno que se investiga, que puede ser: producción, ventas,
costos, inversión, horas trabajadas, accidentes de trabajo, matrícula, precios, etc., información que nos
permite analizar aspectos de su comportamiento pasado, presente y futuro.

El análisis que se hace a una serie no sólo corresponde a aspectos económicos, sino que encierra múltiples
aspectos de la vida diaria, social, política, educativa, etc., o sea, todos aquellos fenómenos que varían a
través del tiempo y que requieren la aplicación de métodos que permitan conocer los efectos de los
cambios, como ayuda en el proceso de control y planeación de esos aspectos, además, predecir su
comportamiento futuro.

Si consideramos una variable, por ejemplo producción, esta será el resultado de varios aspectos, tales
como: la tendencia, las variaciones estacionales, las cíclicas y las aleatorias. Veamos en qué consiste cada
una de ellas.

Tendencia o tendencia secular. Esta última es una expresión alternativa para la tendencia de una serie,
la cual corresponde a un movimiento suave y constante que se extiende durante períodos extensos.
Generalmente, se representa por una línea recta, parabólica, exponencial o cualquier otro tipo de línea,
dependiendo del comportamiento de la variable.

Variación estacional. Se considera, generalmente, como parte del movimiento que se atribuye al efecto
de las estaciones del año, es decir, a circunstancias climáticas o a simples costumbres sociales: las ventas
en navidad, la demanda de hotelería en temporada alta, etc.; sin embargo, puede corresponder a
variaciones que se presentan en períodos más cortos; por ejemplo, el movimiento de pasajeros en

103
transporte urbano, en el cual se observan unos períodos denominados "picos", de alta demanda, que se
repiten todos los días laborables, en las mismas horas y en las mismas condiciones.

Variaciones cíclicas. Ligadas a los ciclos económicos, corresponden a movimientos periódicos, más o
menos regulares, que se extienden por varios años, sin que se pueda determinar cuándo se inicia y termina
su ciclo. Estas variaciones corresponden a períodos de prosperidad, recesión, depresión y recuperación.

Variaciones aleatorias. Denominadas también accidentales o irregulares, resultan de sucesos no


previsibles, generalmente ocasionados por situaciones excepcionales, pero que se pueden identificar.
Ejemplos: huelgas, inundaciones, terremotos, crisis política o situaciones generadas por factores externos.

Parte del análisis de estas series consiste en la descomposición de la serie en los factores antes
mencionados. Sin embargo, se dice que todas ellas contienen variaciones aleatorias, y que no
necesariamente abarcan la totalidad de los factores. En algunos casos, su cálculo aislado se hace difícil, ya
que resultan inseparables. Se puede afirmar que es posible, la mayoría de las veces, determinar la
cuantificación de la tendencia y las variaciones estacionales, en un determinado período. En cambio las
variaciones cíclicas y las aleatorias sólo se podrán determinar por residuo. De todas formas, siempre va a
ver cierta dificultad para descomponer esos factores, ya que son movimientos poco uniformes en el
tiempo, y que en muchos casos no permiten su identificación.

TENDENCIA
La tendencia es considerada como el principal componente de una serie de tiempo. En muchos casos, sólo
existe preocupación por su comportamiento, olvidando en forma desprevenida las incidencias que, en
algunas situaciones, pueden verse afectadas por los otros tres componentes. Para identificar la tendencia,
es recomendable, en primer lugar, hacer su representación gráfica. Para ello nos valemos de un plano
cartesiano. De esta manera, se podrá observar el comportamiento de la serie, al mismo tiempo que nos
permite visualizar mejor la tendencia, es decir, la línea más adecuada para su representación, la que puede
ser una recta, una parábola, una exponencial o cualquier otra línea. Dentro de los métodos utilizados
para describir la tendencia, se tienen:

MÉTODO LIBRE O DE MANO ALZADA


Es conocido también como método gráfico y, como su nombre lo indica, consiste en utilizar la serie,
partiendo de la elaboración del respectivo gráfico; luego, con base en la experiencia y un perfecto
conocimiento del desarrollo pasado y presente, prolongar la línea, para de esta manera expresar el
comportamiento futuro. Este método es muy subjetivo, ya que el resultado depende de quien trace o
prolongue la línea. A pesar de lo anterior, es justificada con el argumento de estar basada en el pleno
conocimiento de su comportamiento y no de un sistema rígido, como son los métodos matemáticos.

Ahora, consideremos una información arbitraria, que presente variaciones, y que nos permita graficar no
sólo los valores observados, sino la tendencia, mediante los diferentes métodos que serán expuestos en
esta unidad.

104
Ejercicio: Supongamos que una empresa comercial desea proyectar sus ventas (miles de unidades); para
ello, organiza la información por años de la siguiente forma:

AÑOS: 1987 1988 1989 1990 1991 1992 1993


VENTAS: 36 55 40 48 72 50 68
Tabla 1.Ventas (miles de unidades) 1987-1993

Se pide elaborar la gráfica correspondiente a los datos originales y efectuar la estimación para los dos
años siguientes, mediante los diferentes métodos que a continuación se presentan:

Solución:

VENTAS (miles de unidades)


REALES Y ESTIMADAS - 1987 - 1993
VENTAS (miles de unidades)

80
70
60
50 Real
40
30 Estimado
20
10
0
1985 1990 1995
AÑOS
Grafico 1. Representación gráfica de las ventas (miles de unidades)

En la gráfica 1. aparecen representados los datos originales de la tabla, y además d los valores estimados
(tendencia) según criterio del autor, quien consideró necesario ajustar una recta, en tal forma que divida
la línea poligonal en dos partes, es decir, que pase aproximadamente por el centro.

MÉTODO ANALÍTICO
Se realiza mediante la aplicación de una función matemática que exprese la tendencia.
Los métodos más conocidos y aplicados son los siguientes:
A) Recta o función lineal Y = a + bX
B) Parábola de segundo grado Y = a + bX + cX2
C) Función exponencial Y = abx

105
El problema es saber elegir la función matemática que mejor represente o describa la tendencia de esa
serie temporal y la selección de esa línea, la cual, además de la visualización gráfica, depende de la
experiencia, sentido común, habilidad y, sobre todo, del buen juicio del investigador. Por otra parte, en el
proceso de proyección debe suponerse que el comportamiento pasado y presente, continuará siéndolo,
más o menos, en la misma forma en el futuro. Por lo tanto, las proyecciones son válidas para uno o
dos períodos, aceptándose para un período no mayor de cinco años, pues en la mayoría de estas series su
comportamiento tiende a cambiar, haciendo fracasar las proyecciones, en especial cuando los cambios son
fuertes.

TENDENCIA RECTILÍNEA
Como su nombre lo indica, la serie se describe mediante una recta, si el crecimiento, o decrecimiento, de
las cantidades, en cada uno de los períodos, es más o menos constante. Veamos el procedimiento que
debe seguirse. Para ello, partimos de la información de tabla 1..

La ecuación de la recta está dada por Y = a + bX

a: corresponde al coeficiente de posición. También se le considera como un punto localizado en el eje


de la ordenada; por tal razón, se le denomina como origen en la ordenada. Puede simbolizarse por a,
A o β0.

b: es la pendiente o coeficiente angular. Nos determina la tasa de crecimiento o el ángulo de inclinación


de la recta. Puede ser positiva, si la recta es ascendente; o negativa, cuando es descendente. También
puede simbolizarse por b, B o β1.

X: corresponde a la variable tiempo, simbolizada también por t.

Y: es la variable que se va a predecir o estimar y se simboliza por Ŷ ó Y*.

El método de los mínimos cuadrados facilita el cálculo de los parámetros a y b, y mediante la utilización
de un sistema de ecuaciones normales, permite la aplicación de cualquiera de los métodos que el
estudiante conoce para dar solución, como son el de sustitución, igualación y eliminación.

Las ecuaciones son: 1) ΣY = na + bΣX


2) ΣXY = aΣX + bΣX2

Calculemos estos coeficientes; para ello se tomará como origen de la serie el primer período, siendo X =
0 y su sumatoria diferente de cero (ΣX ≠ 0), situación que implica la necesidad de aplicar las ecuaciones
anteriores. Hagamos su cálculo y proyección para 1997. Ver tabla 2.

106
AÑOS Y X X2 XY Ŷ
1987 36 0 0 0 40,08
1988 55 1 1 55 44,29
1989 40 2 4 80 48,50
1990 48 3 9 144 52,71
1991 72 4 16 288 56,93
1992 50 5 25 250 61,14
1993 68 6 36 408 65,35

Σ 369 21 91 1.225 369,00


X X2 XY
-3 9 -108
-2 4 -110
-1 1 -40
0 0 0
1 1 72
2 4 100
3 9 204

0 28 118

107
Taba 2. Ajuste rectilíneo - Origen en el Tabla 2. Ajuste rectilíneo – Cambio de

primer periodo de la serie origen

Reemplazando en las ecuaciones se tendrá que:

1) 369 = 7a + 21b
2) 1.225 = 21a + 91b

En estas ecuaciones se podrá eliminar a. Para ello, multiplicamos la primera ecuación por -3 y la restamos
de la segunda.

2) 1125 = 21a + 91b


1) -1107 = -21a – 63b
118 = + 28b; siendo b = 118 ÷ 28 = 4,21

Este resultado significa qué por cada unidad de tiempo, en este caso un año, la variable crece en 4,21, o
sea, 4210 unidades.

Ahora, reemplacemos ese valoren la primera ecuación:

1) 369 = 7a + 21 (4,21)
a = (369 – 88,41) ÷ 7 = 40,08

el cual corresponde a la cantidad en miles, estimada para el período base, en este caso
1987. Con esos dos valores, se tendrá que la recta estará dada por:

Ŷ = 40,08 + 4,21 X ; Ŷ = valor preeditor


El valor estimado para 1997, teniendo en cuenta que X = 1997 – 1987 = 10, será:

Ŷ = 40,08 + 4,21 (10) = 82,18 = 82180 unidades. Corresponde a las unidades que se estima se venderán
en 1997, de acuerdo al comportamiento de la serie. El origen se puede trasladar a cualquier punto o
período, y su resultado será exactamente igual. Cuando la serie es impar y continua lo recomendable es
trasladar el origen al período central, de tal manera que la ΣX = O, con lo cual se logra agilizar y
simplificar las operaciones de cálculo. Con la información de la tabla 3., calculemos el valor de los
parámetros, obtengamos la ecuación de la recta y estimemos el valor de Y para 1997, tomando como
origen a 1990.

b = ΣXY ÷ Σ X2 = 118 ÷ 28 = 4,21


a = ΣY ÷ n = 369 ÷ 7 = 52,71
Ŷ = a + bX = 52,71 + 4,21X

108
El valor de X será igual a:
X = 1997 – 1990 = 7

Reemplazando en la ecuación, nos queda que:


Ŷ = 52,71 + 4,21 (7) = 82,18.

Para el cálculo de la tendencia se hace indispensable determinar el valor correspondiente al grado de


correlación, mediante la aplicación del denominado Coeficiente de correlación. Es una medida de
interdependencia entre la variable que se va a predecir y el tiempo, correspondiendo a un número entre –1
y +1 con un valor intermedio cero, que indica la ausencia de correlación. Estos valores límites indican la
existencia de correlación perfecta negativa y positiva, respectivamente; el signo nos indica si la recta es
descendente o ascendente. Se le conoce también como coeficiente de correlación de Pearson, debido a la
parte que le correspondió en la introducción del mismo en la teoría general, y se simboliza por r o R.
Expliquemos cual debe ser el procedimiento a seguir para su cálculo.

AÑOS Y Ŷ Y– Ŷ (Y – Ŷ)2 Y2
1987 36 40,08 -4,08 16,6464 1.296
1988 55 44,29 10/71 114,7041 3.025
1989 40 48,50 -8,50 72,2500 1.600
1990 48 52,71 -4,71 22,1841 2.304
1991 72 56,93 15,07 227,1049 5.184
1992 50 61,14 -11,14 124,0996 2.500
1993 68 65,35 2,65 7,0225 4.624

Σ 369 369,00 0,00 584,0116 20.533


Tabla 3. Cálculo de la varianza residual y del coeficiente de correlación

Primero calculamos los cuadrados de las diferencias entre los valores reales y estimados, los sumamos y
luego los dividimos por el número de períodos. Medida conocida como varianza residual, mide la
dispersión de los datos que no queda explicada por la recta de estimación.

S 2y x 
 (Y  Y) 2  584,0116  7  83,43
n

También se puede calcular en forma más sencilla, a pesar de que sus resultados presentan una ligera
diferencia, mediante la aplicación de la fórmula:

S 2

Y 2
 a Y  b YX
; S 2y x 
20.533  40,08(369)  4,21(1.225)
 83,75
yx
n 7
S 2y x  83,75 , en el caso que utilicemos los datos de la tabla 2. cuando ΣX ≠ 0

Ahora con los datos de la tabla 3. cuando ΣX = 0, será:

109
20.533  52,71(369)  4,21(118)
S 2y x   83,75 ;
7
luego calculamos la varianza de la variable Y:

S 2y x   Y 2
 nY
2
 n
 
S2y  20.533  7(369  7) 2 / 7  154,49

El coeficiente de correlación al cuadrado o coeficiente de determinación será igual a:

r 2  1  (S 2y x  S 2y ) , r2 = 1 – (83,43 ÷ 154,49) = 0,46. El coeficiente de correlación lineal será:

r  r 2  0,46  0,68
Valor bastante alejado de la unidad; por lo tanto, se puede decir que existe poca correlación y que esa
recta es poco explicativa para los datos de esta.
Hay un procedimiento que nos permite determinar el coeficiente de correlación lineal en forma directa:

r
n XY   X Y
n X   X n Y  Y 
2 2 2 2

r
7(1.225)  21369 
826
 0,68
7(91)  212 720.533  (369) 2  1.218

TENDENCIA PARABÓLICA

Se emplea, en especial, cuando la serie presenta variaciones acentuadas y cuando asume la forma de una
parábola. La ecuación correspondiente está dada por Y = a + bX + cX 2. La tarea consiste en determinar
los valores para los parámetros a, b y c. Para ello, nos valemos de un sistema de ecuaciones normales,
siendo:

1) ΣY = na + bΣX + cΣX2
2) ΣXY = aΣX + bΣX2 + cΣX3
3) ΣX2Y = aΣX2 + bΣX3 + cΣX4

a se puede decir que corresponde al coeficiente de posición


b es el coeficiente angular en un punto de la curva
c nos determina la dirección de la curva

Utilicemos la información de la tabla 1. y trabajemos, en primer lugar, tomando como origen el primer
período de la serie, es decir, 1987, donde X = 0 y la ΣX ≠ 0.

AÑOS Y X X2 X3 X4 XY X 2Y Ŷ

110
1987 36 0 0 0 0 0 0 39,61
1988 55 1 1 1 1 55 55 44,30
1989 40 2 4 8 16 80 160 48,79
1990 48 3 9 27 81 144 432 53,09
1991 72 4 16 64 256 288 1152 57,21
1992 50 5 25 125 625 250 1250 61,13
1993 68 6 36 216 1296 408 2448 64,87

Σ 369 21 91 441 2275 1225 5497 369,00


Tabla 4. Cálculo de la tendencia parabólica

Con la información de la tabla 4. reemplazamos en las ecuaciones anteriormente dadas:


1) 369 = 7a + 2lb + 91c
2) 1225 = 21a + 91b + 441c
3) 5497 = 91a + 441b + 2275c

Consideremos las dos primeras ecuaciones a fin de eliminar el parámetro a.


Para ello, multiplicamos la primera ecuación por -3 y se la restamos a la segunda.

2) 1.225 = 21a + 91b + 441c


1) -1107 = -21a – 63b – 273c
4) 118 = 28b + 168c

La ecuación resultante la hemos señalado como ecuación 4); ahora trabajamos con las ecuaciones primera
y tercera. Para ello, multiplicamos a la primera ecuación por -13 y se la restamos a la tercera.

3) 5.497 = 91a + 441b + 2.275c


1) -4797 = -91a – 273b – 1183c
5) 700 = 168b + 1092c

Tenemos dos ecuaciones: 4) y 5), cada una con dos incógnitas; por lo tanto, se podrá eliminar el
parámetro b multiplicando la ecuación 4) por -6 y la restamos de la 5):

5) 700 = 168b + 1092c


4) -708 = -168b – 1.008c
-8 = 84c, siendo c = -8 ÷ 84 = -0,095

Se podrá reemplazar en la ecuación 4) de la siguiente manera, a fin de despejar el valor


del parámetro b.
4) 118 = 28b + 168 (-0,095)
b = (118+ 15,96) ÷ 28 = 4,78

Ahora, reemplazamos los valores correspondientes a los coeficientes b y c, en la ecuación 1):

111
1) 369 = 7a + 21 (4,78) + 91 (-0,095), y se tiene que
a = (369 – 100,38 + 8,645) ÷ 7 = 39,61

La ecuación general nos queda: Ŷ = 39,61 + 4.78X – 0,095X2.


Si se sabe que el valor de X para 1997 es X = 1997 - 1987 = 10, se tendrá que:
Ŷ = 39,61 + 4,78 (10) – 0,095 (100) = 77,91

Procedamos a. cambiar el origen. Recordemos que puede estar ubicado en cualquier período, sin
embargo, tomamos a 1990 para que la ΣX = 0.

AÑOS Y X X2 X3 X4 XY X 2Y Ŷ Y–Ŷ (Y – Ŷ)2


1987 36 -3 9 -27 81 -108 324 39,61 -3,61 13,0321
1988 55 -2 4 -8 16 -110 220 44,30 10,07 114,4900
1989 40 -1 1 -1 1 -40 40 48,79 -8,797 77,2641
1990 48 0 0 0 0 0 0 53,09 -5,09 25,9081
1991 72 1 1 1 1 72 72 57,21 14,79 218,7441
1992 50 2 4 8 16 100 200 61,13 -11,13 123,8769
1993 68 3 9 27 81 204 612 64,87 3,13 9,7969

Σ 369 0 28 0 196 118 1.468 369,00 0,00 583,1122


Tabla 5. Cálculo de la tendencia parabólica con cambio de origen

Vamos a utilizar el sistema de ecuaciones expuesto anteriormente, suprimiendo aquellos términos donde
ΣX = 0.

1) ΣY = na + cΣX2 1) 369 = 7a + 28c


2) ΣXY = bΣX 2
2) 118 = 28b
3) ΣX2Y = aΣX2 + cΣX4 3) 1.468 = 28a + 196c

Calculamos primero el coeficiente b.

b = 118 ÷ 28 = 4,21. Puede observarse que anteriormente dio 4,78, y cada vez que cambiemos el origen,
este valor también cambiará, ya que será la pendiente en el punto en que se tome el origen. Ahora,
emplearemos las otras dos ecuaciones, eliminando al coeficiente a; para ello, multiplicamos la ecuación
1) por -4 y se la restamos a la ecuación 3).

3) 1.468 = 28a + 196c


1) -1.476 = -28a – 112c
-8 = 84c;

Siendo c = -8 ÷ 84 = -0,095; este valor no varía, aun cuando cambiemos el origen. Una vez calculado el
parámetro c lo reemplazamos en la primera ecuación, siendo:

112
1) 369 = 7a + 28 (-0,095)
a = [369 + 2,66] ÷ 7 = 53,09

La ecuación general quedará así:

Ŷ = 53,09 + 4,21X – 0.095X2

El valor estimado de Ŷ para 1997, sabiendo que X = 1997 – 1990 = 7, será:


Ŷ = 53,09 + 4,21(7) – 0,095(49) =77,91

Existen otras fórmulas que simplifican las anteriores operaciones cuando la ΣX = 0:


b = ΣXY ÷ n b = 118 ÷ 7 = 4,21

c
 X XY 
n X 2 Y  2

c
7(l.468)  (28)(369)
 -0,095
n  X   X  4 2 2 7(l96)  (28) 2

a   Y  c X   n 369 2
a  369  (- 0,095)(28)  7  53,09

Procedamos a calcular el Coeficiente de correlación parabólico, aplicando algunas fórmulas.


Comencemos por determinar la varianza residual o no explicada, que tiene el mismo concepto dado en la
recta.

S 2y x   (Y - Y) 2  n S 2y x  583,1182  7  83,30

También podemos calcular la varianza residual directamente, de la siguiente forma:

S 2

Y 2
 a  XY  b YX  c X 2 Y
yx
n
20.533  23,09(369)  4,21(118)  0,095(1.468)
S 2y x   83,64
7

Sabemos que el valor de la varianza de Y, calculado para la recta, es igual a S 2y  154,49 . Conociendo
la varianza residual y la varianza de la variable se puede calcular el coeficiente de correlación al cuadrado
de la siguiente manera:

r 2  1  (S 2y x  S 2y ) , r2 = 1 – (83,30 ÷ 154,49) = 0,4608

El valor de será igual a r  0,4608  0,68

113
También se hubiera podido calcular directamente el coeficiente de correlación, si calculamos la varianza
explicada, es decir, la media de los cuadrados de las diferencias entre los valores estimados y la media
aritmética.

AÑOS Y Ŷ Ŷ– (Ŷ – Y )2 Y  369  7  52,71


Y 
1987
1988
36
55
39,61
44,30
13,10
-8,41
171,7223
70,8002
S a2 y   (Y  Y) 2  n
1989 40 48,79 -3,92 15,4000 S a2 y  496,8607  7  70,98
1990 48 53,09 0,38 0,1412
1991 72 57,21 4,50 20,2114 R 2  S a2 y  S 2y
1992 50 61,13 8,42 70,8242
1993 68 64,87 12,16 147,7614 R 2  70,98  154,49  0,459
r  0,459  0,68
Σ 369 369,00 0,00 496,8607
Tabla 6.Cálculo de la varianza residual

Comprobado que el coeficiente de correlación parabólico se puede calcular de diferentes maneras con el
mismo resultado, procedamos a la representación gráfica.

VENTAS (miles de unidades)


REALES Y ESTIMADAS - 1987 - 1993
VENTAS (miles de

80
70
60
unidades)

50 Real
40
30 Series2
20
10
0
1985 1990 1995
AÑOS
Gráfica 3.Ventas reales y estimadas - Ajuste parabólico 1987-1993 Ventas (miles unidades)

Se puede observar en la gráfica 3. que al trazar la línea de las cantidades estimadas no toma la forma de una
parábola como debe ser, ello se debe a que los datos originales no tienen un comportamiento parabólico.

TENDENCIA EXPONENCIAL

114
Describe la tendencia de una serie si los crecimientos y decrecimientos muestran un porcentaje casi constante
de un período a otro; por ejemplo, una serie que crece en un 5% mensual o del 28 % anual. La tasa de
crecimiento de la variable debe ser geométrica.

La ecuación general es Y = abx

Es más fácil su aplicación si empleamos los logaritmos:


log Y = log a + X log b

Para el cálculo de los parámetros, cuando la ΣX ≠ 0, se debe utilizar un sistema de ecuaciones normales.

AÑOS Y X X2 log Y X log Y log Ŷ Ŷ


1987 36 0 0 1,55631 0 1,60256 40,04
1988 55 1 1 1,74036 1,74036 1,63832 43,48
1989 40 2 4 1,60206 3,20412 1,67407 47,21
1990 48 3 9 1,68124 5,04372 1,70983 51,27
1991 72 4 16 1,85733 7,42930 1,74558 55,66
1992 50 5 25 1,69897 8,49485 1,78133 60,44
1993 68 6 36 1,83251 10,99505 1,81709 65,33

Σ 369 21 91 11,96878 36,90743 11,96878 363,73


Tabla 7.Ajuste exponencial cuando ΣX ≠0

1) Σ log Y = n log a + (ΣX2) log b


2) ΣX log Y = (ΣX) log a + (ΣX2)log b

Reemplazando, se tiene que:


1) 11,96878 = 7 log a + 21 log b
2) 36,90743 = 21 log a +91 log b; eliminamos al parámetro log a multiplicando la primera
ecuación por -3, y luego la restamos de la segunda ecuación.

2) 36,90743 = 21 log a + 91 log b


1) -35,90634 = -21 log a – 63 log b
1,00109 = 28 log b

Siendo: log b = 1,00109 ÷ 28 = 0,035753 y b = antilog 0,035753 = 1,0858.

Sabiendo que b = 1 + r, se tendrá que r = 0,0858 = 8,58% tasa correspondiente al crecimiento geométrico
anual.

Conocido el valor de log b, lo reemplazamos en la primera ecuación:

115
1) 11,96878 = 7 log a + 21 (0,035753)
log a = [11,96878 – 0,750813] ÷ 7 = 1,60257 y su antilogaritmo es = 65,63.

La ecuación general nos queda así: .


log Ŷ = 1,60257 + 0.035753X

El valor estimado para 1997, sabiendo que X = 10, será:


log Ŷ = 1,60257 + 0,035753 (10) = 1,960097 = 91,22
Ŷ = 91,22

Hagamos la misma estimación, mediante el ajuste exponencial cuando la ΣX = 0. Para


ello, trasladamos el origen al período 1990, y se tendrá la siguiente información:

ANOS Y X X2 X logY log Ŷ 


(log Yi  log Y) 2 (log Y log Y) 2
1987 36 -3 9 -4,66891 1,60256
1988 55 -2 4 -3,48072 1,63832
1989 40 -1 1 -1,60206 1,67407
1990 48 0 0 0 1,70983
1991 72 1 1 1,85773 1,74558
1992 50 2 4 1,69897 1,78139
1993 68 3 9 1,83251 1,81709
Σ 369 0 28 1,001106 11,96878 0,0738597 0,035793
Tabla 8. Ajuste exponencial cuando ΣX = 0

log b = ΣX log Y ÷ ΣX2 = 1,001106 ÷ 28 = 0,0357537; b =1,0858 ;


r = 8,58%

log a = Σ log Y ÷ n = 11,96878 ÷ 7 = 1,70983; a = 51,27

La ecuación general será: log Ŷ = 1,70983 + 0,0357537X ; el valor estimado para 1997, sabiendo que X =
7, será: log Ŷ = 1,70983 + 1,001106 (7) = 1,96010
Ahora se puede obtener el antilogaritmo de 1,96010, siendo igual a
Ŷ = 91,22

Se observa en los dos cuadros anteriores que Σ log Ŷ = Σ log Y, en cambio ΣY ≠ Σ. Ŷ Esto hace que el
cálculo del coeficiente de correlación se dificulte, ya que es necesario trabajar con logaritmos de los
valores reales y de los valores estimados. Lo mismo sucede con el cálculo de la media aritmética y la
varianza, que corresponde a los logaritmos de la variable.

Directamente puede calcularse el coeficiente de correlación al cuadrado, de la siguiente manera:

116
2
 


 log Y  log Y 
 0,035793
r2  r2   0,48
 log Y 
2
i  log Y 0,0738596

r  0,48  0,70

También se puede calcular así:


2
 

S 2
log yx    log Yi  log Y   n 2
Slog yx  0,109653  7  0,0156647
 
2
Slog 
y   log Yi  log Y n 
2 2
Slog y  0,07385967  7  0,0105513

Ahora se tendrá que el coeficiente de correlación al cuadrado es:

r 2  1  (Slog
2
yx  Slog y )
2
r 2  1  (0,0156647  0,105513)  0,48

r  0,48  0,70

La representación gráfica debe elaborarse en papel semilogarítmico, colocando en el eje horizontal o


abscisa la variable tiempo, y en el eje vertical los logaritmos de la variable Y. En el ejemplo realizado no
se requiere, ya que la variable no muestra un crecimiento geométrico y, por lo tanto, no es necesario el
cálculo de la tendencia geométrica; solo se desarrolló el ejercicio con el fin de mantener la serie e indicar
el procedimiento que debe seguirse y poder comparar estos resultados con los otros dos ajustes.

117
VENTAS (miles de unidades)
REALES Y ESTIMADAS - 1987 - 1993
VENTAS (miles de

80
70
60
unidades)

50
40 Real
30
20 Estimado
10
0
1985 1990 1995
AÑOS
Grafico 4.Ventas reales y estimadas 1987 - 1933 – Ajuste exponencial

EJERCICIOS DE APLICACIÓN
1. Con los siguientes datos correspondientes a una serie lineal, calcule:
AÑOS Y Ŷ
1981 ?
Se pide:
1984 ? a) Calcule los valores de Y1 y Y2.
1987 220 220
1990 240 254 b) Estime el valor de Ŷ
1993 30
c) Calcule el coeficiente de correlación lineal
2. Si la población de un país, en 1983, era 17 millones de habitantes, y en 1993, 26 millones, determine:
a) La tasa de crecimiento geométrico; b) La población estimada para 1997.

3. Con base en una serie de tiempo se pudieron calcular, mediante un ajuste rectilíneo, los salarios
iniciales de los egresados de una facultad, encontrándose que en 1986 eran, en promedio, $72.200 y
en 1993, de $ 380.500. Con base en estos estimativos:
a) Determine la lasa de crecimiento (aritmético).
b) Prediga los salarios que tendrá el egresado al iniciar su ejercicio profesional, en 1997.

118
UNIDAD VIII INFERENCIA ESTADÍSTICA

DESARROLLO BINOMIAL

El binomio de Newton puede describirse en la siguiente forma:


n(n  1) n  2 2 n(n  1)( n  2) n 3 3
(a  b) n  a n  na n 1b  a b  a b      bn
1 2 1 2  3
Cada término del desarrollo binomial estará dado por la fórmula

P  C xn p x q n  x Distribución binomial. Donde: P = probabilidad; C xn = combinaciones de n elementos


Ejemplo: En el lanzamiento de cuatro monedas, la probabilidad de que se tengan exactamente dos cara es
igual:

a) Utilizando la probabilidad elemental se tendrá:

número de exitos numero de exitos


P 
espacio muestral total de casos posibles

CCCC CCCS CCSS CSSS SSSS


CCSC CSSC SCSS
CSCC SCSC SSCS
SCCC SSCC SSSC
SCCS
CSCS

1/16 4/16 6/16 4/16 1/16

Número de éxitos 6
P   0,375
Total de casos posibles 16
P  37,5%

b) Mediante la distribución binomial, se tiene que:


Cara = p = 1/2; n = 4 monedas
Sello = q = 1/2; x = 2, exactamente dos caras

P  C xn p x q n  x  P  C 24 (1 / 2) 2 (1 / 2) 2
n! 4! 24
C xn   C 24   C 24   C 24  6
(n  x)! x! (4  2)!2! 4

119
2 2
1 1 1
P  6     P  6   P  0,375
2 2  16 
P  37,5%

DISTRIBUCIÓN NORMAL

Cuando el valor de n, es demasiado grande, se presenta dificultad en el cálculo de las probabilidades, y


por lo tanto se utiliza la distribución normal.

La distribución binomial es una distribución de probabilidad discreta, en cambio la distribución normal


corresponde a una variable continua, así que los problemas de distribución binomial (denominado
método exacto), se pueden resolver mediante la distribución normal (denominado método aproximado},
trasformando la variable discreta en continua. Por otra parte, se debe obtener la media y la desviación
estándar de una distribución binomial

  np (media) Donde: n = número de ensayos, p = probabilidad de éxito, q = Fracaso

  npq (desviación típica o estándar)

Observemos el ejemplo del lanzamiento de 4 monedas: n = 4; p = ½; q = 1/2

1
  4   2
2

 1  1 
  4    1
 2  2 

La distribución normal gráficamente se presenta mediante una curva en forma de campana denominada
indistintamente curva normal, curva de error, curva de probabilidad o campana de Gauss, siendo de gran
utilidad en la inferencia estadística.

120
El área bajo la curva normal es igual al 100°/o. La media (µ) se encuentra localizada en el centro,
dividiendo la curva en dos partes iguales, correspondiéndole a cada una de ellas el 50%.

Para hallar el área bajo la curva utilizamos la variante estadística Z, en otras palabras, la
variable X la tipificamos o estandarizamos, mediante la aplicación de la siguiente fórmula.

X 
Z

La adopción de unidades de Z tiene como fin referir cualquier distribución normal a un tipo único cuyos
parámetros serán μ = 0 y σ2 = 1. Si consideramos el lanzamiento de las 4 monedas del ejercicio anterior,
la probabilidad de obtener exactamente dos caras, mediante la aplicación de la distribución binomial se
vio que era igual a 0,375 o 37,5%; ahora, mediante la utilización de la distribución normal se tendrá:

En primer lugar, la forma de hacer la pregunta varía, ya que en la binomial era P (X = 2) y en la normal
será P (1,5<X<2,5), trasformando la variable discreta en continua.
Siendo μ = 2 y σ = 1 se tendrá:

121
X 
Z

2,5  2
Z  0,5
1
1,5  2
Z  0,5
1

Para Z = 0,5 el área (ver tabla II) será igual a 0,1915; por ser simétrico, para Z = – 0,5 se tendrá el mismo
valor de 0,1915, el área total de la región sombreada será igual a la suma: 0,1915 + 0,1915 = 0,3830 =
38,3%. Se observará que el resultado es bastante aproximado al obtenido mediante la binomial.

LIMITES DE CONFIANZA
El análisis de una población podría dificultarse dado su tamaño, lo cual ocasionaría altos costos,
requeriría un gran número de personas para encuestar y un tiempo demasiado largo, para poder abarcar la
totalidad de las unidades que conforman la población; en algunas investigaciones, el elemento o unidad se
destruye al ser analizado, tal como ocurre, por ejemplo en la vida o duración de una bombilla, de una
batería para carro, de una pila, en la dureza de un vidrio, de un tornillo, de un alambre, etc., lo cual impide
que tomemos la totalidad de las unidades producidas, ya sea de una máquina o de un conjunto de
máquinas; en otros casos, la población puede ser infinita, como ocurre al analizar las características de los
peces en un río. En todos estos casos se hace necesario la realización de una muestra, generalmente
aleatoria, que conlleva a tomar tan solo una parte de los elementos que constituyen la población que se va
investigar.

Supongamos que se desea estudiar alguna característica o características de los empleados de un sector
industrial, por ejemplo: los sueldos.

Podríamos recurrir a toda la población (total de empleados en el sector) pero sería muy dispendioso la
recolección de esa información, debido al número tan elevado de empleados. Así que se recurre a una
muestra aleatoria de 200 empleados, obteniéndose un promedio mensual de $7.200 y desviación estándar
de $800. El resultado del promedio se infiere, es decir se considera como si fuera el promedio que se

122
obtiene al tomar la totalidad de los empleados, sin embargo observemos que se podrá obtener un número
M de muestras posibles de tamaño 200 de una población de N elementos, así:

N!
M  C nN  posibles combinaciones
( N  n)! n!

Ejemplo. Supongamos una población pequeña de 13 elementos, de la que se van a seleccionar muestras
de 4 elementos. Calcular el número de muestras posibles
Resolución:
N = 13
n=4
N!
M=? M  C nN 
( N  n)! n!

13! 6.227.020.000
M  C413  
9!4! (362.880)( 24)
6.227.020.000
M
8.709.120
M = 715 muestras posibles

El anterior resultado nos está indicando que se obtendrían 715 medias aritméticas muéstrales, con sus
respectivas desviaciones típicas. Si comparamos las medias aritméticas obtenidas, observamos que son
diferentes unas de otras, por lo tanto no todas las muestras representarían igualmente bien a la población
de la cual se extrajo la muestra.

Se dirá de una media aritmética obtenida a través de una muestra, que su representatividad con respecto a
la población dependerá de dos aspectos o características de la distribución de la que ha sido extraída; a)
del tamaño de la muestra, el cual debe ser determinado en tal forma que sea el óptimo. Sin embargo, el

carácter representativo de la media depende de la raíz cuadrada del tamaño muestral ( n ); b) de la


desviación típica (σ ó s). Si la desviación típica es grande, nos estará indicando que los datos se
encuentran muy dispersos en relación a la media, caso contrario sucede, cuando la desviación es pequeña.

Con las dos características anteriores se obtiene el error estándar de la media, la que es igual a:

σ s
σx  ó sx 
n n

Cuanto menor sea el error, más representativa será la media.

123
En el ejemplo de los 200 empleados, el error estándar es

s 800
sx    565,7
n 200

Si consideramos que el salario promedio obtenido es de $7.200, siendo uno de los tantos promedios que
se pueden obtener en una muestra al azar sin poder afirmar que sea igual a la media poblacional, lo que
requerirá fijar unos límites de confianza para la media muestral con una probabilidad (por ejemplo del
95%, aceptando que nos equivoquemos 5 veces de 100, o sea con un margen de error del 5°/o) dentro de
la cual debe estar la media poblacional. En este caso, la tabla para calcular el área bajo la curva de
probabilidad nos dice que Z = 1,96 ¿Cómo se halla el valor de z = 1,96? Como el área total bajo la
curva asumimos que es el 95% = 0.95 este valor de 0.95/2 = 0,475 por ser dos regiones este valor de
0,475 buscamos en la tabla II y vemos a que valor de Z corresponde Z = 1,96 y se tendrá que los
límites para la media poblacional estimada serán:



s
X  xZ
n

X  7.200  1,96(56,57)

X superior = 7.200 + 110,88 = 7.310,88

X inferior = 7.200 – 110,88 = 7.089,12

El resultado anterior nos indica que la media, de todos los trabajadores del sector industrial estudiado,
debe quedar incluida dentro de los límites con una seguridad del 95%. No es una certeza, ya que hemos
aceptado un error o riesgo a equivocarnos del 5%.

Si conociéramos el tamaño de la población de la cual se extrajo la muestra, aplicaríamos un factor de


corrección para poblaciones finitas, siempre y cuando la fracción de muestreo f = n/N sea mayor o igual
al 5%.

Siendo 3.500 el número total de obreros en el sector, la fracción de muestreo será


n 200
f    0,0571  5,71% , por lo tanto los límites de confianza para la media muestral se
N 3.500
calcularán así:

124

s
X sI  x  Z 1 f
n

X sI  7.200  110,88 1  0,0571

X sI  7.200  107,67  7.307,67

X sI  7.200  107,67  7.092,33

En el caso de que el tamaño de la muestra sea menor o igual a 30 (n ≤ 30) se utiliza la tabla III "t" de
Student en vez de la tabla II Z, en la siguiente forma: se determinan los grados de libertad, simbolizado
por la letra griega nu (υ), siendo υ = n – 1 luego se buscará el valor del error o sea el complemento de la
confianza y se obtendrá el valor de t (ver tabla II de "t").

Consideremos que en vez de n = 200, se trabajó con n = 25, por lo tanto υ = 25 – 1 = 24. Si la confianza
es del 95%, en la tabla localizamos la columna del 5% o sea 0,05, siendo t = 2,0639. Por otra parte se
considera que ŝ < σ cuando n ≤ 30, siendo necesario corregirla de la siguiente manera.

a) Si la desviación típica se ha calculado para n ≤ 30 (caso en que el problema da el valor de la


desviación típica) se debe corregir así:
 n 25
ss ; s  800
n 1 25  1
s  800 1,04  800(1,02)  816
y el error estándar será:
s 816
sx    163,20
n 25
Siendo igual:

s 800 800
sx     163,20
n 1 25  1 24
b) La desviación típica se puede calcular directamente corregida

 x  x 
2
n n
ss  i

n 1 n n 1

 x  x 
2

s i

n 1

Los límites de confianza, siendo n = 25 y ŝ = 816 y la confianza de 0,95 serán:



s
X sI  x  t
n

125
(sin factor de corrección para población finita dado que f < 0,05)

PRUEBA DE HIPÓTESIS
Como en la mayoría de los casos no se conoce la media poblacional (verdadera), ya que nos tocaría
trabajar con todos los elementos que constituyen la población, pero sí se puede tener un valor aproximado
como resultado de una larga experiencia debido a continuas evaluaciones que nos permitan tomarlo como
el comportamiento normal de esa distribución.
Así, por ejemplo, se tendrá que un fabricante ofrece baterías (pilas) para transistor que tiene una duración
promedio de 4.000 horas. Un comprador cualquiera adquiere 36 pilas y encuentra que la duración
promedio es de 3.600 horas, resultado que lo obliga a pensar que está siendo engañado, comprando un
producto de menor calidad, pues la duración promedio de las 36 pilas fue inferior a la ofrecida por el
fabricante. La desviación típica de la duración de estas pilas fue de 985.

Al nivel del 5%, se quiere saber si el fabricante está ofreciendo un producto de menor calidad.

El proceso que se sigue para la prueba de la hipótesis es el siguiente:

a) Se plantea la hipótesis nula (Ho) y la hipótesis alternativa (Ha). La prueba puede ser bilateral o
unilateral (derecha o izquierda).

b) Se elige el riesgo o nivel de significación, que prácticamente es el complemento de lo que llamamos


confianza.

c) Se dan valores a la variante estadística.

d) Localizamos el valor obtenido en el punto (c) y tomamos la decisión de aceptar o rechazar la


hipótesis nula; en este último caso, se estará aceptando la hipótesis alternativa.

Aplicando a nuestro problema plateado tenemos:

a) Planteamiento de la hipótesis
Hipótesis nula Ho: μ = 4.000 horas
Hipótesis alternativa Ha: μ < 4.000 horas para prueba unilateral a la izquierda

b) Margen de error α = 0,05 (nivel de significación)

c) Desviación típica conocida ŝ = 985 horas (con distribución normal y la muestra es aleatoria)

d) Calculo del valor de Z con los siguientes datos

126

x  3600 horas; µ = 4000 horas; S = 985 horas; n = 36

x 3.600  4.000


Z 
  2,43
985
s
36
n
Como la prueba es unilateral y la campana se divide en 50 % al un lado y 50% al otro lado. Tomamos
sólo el 50% de la izquierda es decir el 0,5 y a este valor le restamos el margen de error con el que se
trabaja en este caso 0.05,
0,5000 – 0,05 = 0,45000 con este valor de área buscamos el valor de Z en la tabla II  Z = 1,64 y
representamos en la campana de Gauss

RC = Región crítica o de rechazo


ZA = Zona de aceptación
Siendo que Z calculado = – 2,43 cae en la región crítica, se rechaza la hipótesis nula y se acepta la
hipótesis alternativa. Podemos afirmar al nivel del 5%, que el productor está vendiendo pilas con una
duración inferior a la garantizada.

La prueba de hipótesis puede ser bilateral, cuando consideramos que el resultado de la muestra puede ser
menor o mayor que el promedio utilizado en la hipótesis nula. Por ejemplo, la pregunta nos planteamos de
la siguiente manera el nivel del 5%, lo asegurado por el fabricante es correcto.

Resolución

a) Planteamiento de la hipótesis
Hipótesis nula Ho: μ = 4.000 horas
Hipótesis alternativa Ha: μ ≠ 4.000 para prueba bilateral o doble cola

b) Margen de error o nivel de significancia α = 0,05

c) Desviación típica conocida o calculada Ŝ = 985 horas


d) Cálculo del valor de Z con los siguientes datos

127

X =3600 horas; µ = 4000 horas; S = 985 horas
x 3.600  4.000
Z 
  2,43
985
s
36
n
Como la prueba es bilateral al 50% de la campana le restamos α/2 es decir 0,05/2 = 0,025 y con este
valor de área hallamos el valor de Z en la tabla II
0,5 – 0,025 = 0,4750 con este valor de área hallamos  Z = 1,96; luego identificamos las regiones en la
campana.

Como el valor de Z calculado es -2,43 cae en la zona de rechazo o región crítica, por esta razón
rechazamos la afirmación del fabricante.

Si se plantea la hipótesis de que la duración de las pilas es superior a lo afirmado por el fabricante, la
prueba será unilateral a la derecha y se plantea de la siguiente manera:
a) Planteamiento de Hipótesis
Hipótesis nula Ho: μ = 4000 horas
Hipótesis alternativa Ha: μ > 4.000 horas
b) Margen de error α = 0,05

c) Desviación típica S = 985 horas
d) Cálculo del valor de Z con los siguientes datos:

X =3600 horas; µ = 4000 horas; S = 985 horas; n= 36
x 3.600  4.000
Z 
  2,43
985
s
36
n

128
De igual forma que en el primer caso Z tabulado = 1.64 razón por lo que se rechaza la hipótesis nula.

Cuando n es menor o igual a 30 y el resto de datos se mantienen se procede de la siguiente manera:


Sí en el ejemplo anterior n = 25 tenemos

X = 3600 horas; µ = 4000 horas; S = 985 horas; n= 25
Resolución:
(a) Planteamiento de Hipótesis
Hipótesis nula H0; µ = 4000 horas
Hipótesis alternativa Há; µ ≠ 4000 horas
(b) Margen de error α = 0,05
 n 25
(c) Cálculo de la desviación S = S s  985  1.005,31 horas
 24
Como la muestra es menor que 30 calculamos el valor de “t”

x   3.600  4.000
d) t   1,99
s 1.005,31
n 25
Con el valor de los grados de libertad (µ)

µ = 25 – 1 = 24
t = 2,0639
α = 0,05 (obtenido en la tabla III de “t”)

Este valor de t representamos en la campana bilateralmente

129
En este caso como -1,99 cae en la zona de aceptación, se podrá concluir, al nivel del 5% y con una
muestra menor que 30 el fabricante tiene razón.

Si se trata de una prueba unilateral, el punto crítico de "t" siendo α = 0,05, se procede de la siguiente
forma:
υ = n – 1; υ =25 – 1; υ = 24
α = 2(0,05); α = 0,10 (se toma el doble se unilateral a la izquierda o derecha),
Con υ = 24 y α = 0,10 localizamos el valor de ¨t¨ en la tabla III t = 1,7109 y localizamos las regiones en
la campana.

a) prueba unilateral a la derecha

b) prueba unilateral a la izquierda

DISTRIBUCIÓN JI CUADRADO
En la aplicación de la prueba anterior se presentan dos posibilidades, pero en el caso en que se tengan más
de dos posibilidades, ese procedimiento no es aplicable y se hace necesario la utilización de otro tipo de
distribución, denominado como ji o chi cuadrado,

130
cuyo nombre se deriva del uso como símbolo de la letra griega χ, la que se lee ji o chi. La fórmula que se
aplica, para el cálculo de esta distribución, es la siguiente:

χ2  
ni  ni *
n1 *

ni = frecuencias observadas o reales

ni* = frecuencias teóricas o esperadas

Supongamos que se lanza un dado 120 veces ó (120 dados una sola vez); la aparición de las diferentes
caras fueron: el uno, se presentó 26 veces; el dos, ocurrió 23 veces; el tres, 19 veces; el cuatro, 14 veces;
el cinco, 18 veces y el seis, 20 veces. La frecuencia esperada para cada cara es de 20, calculadas así:

E = np
n = 120 lanzamientos
p = 1/6 (probabilidad de presentación de cada cara)
1 120
ni *  (120)   20 y así para todas las caras
6 6

con la anterior información calcularemos el valor de χ2

Caras ni ni* ni – ni* (ni – ni*)2 (ni  ni *) 2


ni *
1 26 20 6 36 1,80
2 23 20 3 9 0,45
3 19 20 -1 1 0,05
4 14 20 -6 36 1,80
5 18 20 -2 4 0,20
6 20 20 0 0 0
120 120 0 – 4,30

χ2 = 4,30 (ji cuadrado)

Para la prueba de hipótesis se produce en la siguiente forma:

a) Ho: El dado es correcto (no está cargado)


Ha: El dado no es correcto (está cargado)

b) α = 0,05

c) Siendo χ2 = 4,30

131
d) Usando la tabla de χ2, el punto crítico χ2 calculado será igual a 11,07.

υ=n–1=6–1=5
α = 0,05

La distribución es asimétrica positiva, es decir, la curva presenta un alargamiento a la derecha; por otra
parte, sólo se tendría una región crítica, ubicada siempre al lado derecho. En nuestro ejercicio el valor de
ji calculado es 4,30 el cual cae dentro de la zona de aceptación, por lo tanto, consideramos que el dado es
correcto (no está cargado), en otras palabras, las diferencias que se presentan entre las frecuencias
observadas y las esperadas no son significativas.

Esta distribución se utiliza frecuentemente cuando los datos están ordenados en tablas denominadas de
contingencia, que son arreglos en los cuales un conjunto de observaciones se dispone conforme a dos
criterios de clasificación: columnas y líneas, por ejemplo: dos procedimientos de fabricación, A y B, han
sido ensayados con el fin de aumentar la duración de conservación de productos enlatados.
Los resultados obtenidos son:

FRACASOS EXITOS TOTAL


PROCEDIMIENTOS
A 74 63 140
B 54 66 120
Total 131 129 260

¿A qué conclusión se puede llegar? (nivel del 5%)

Solución

La anterior tabla es de "2 X 2" ya que se tienen dos columnas (Fracasos y Éxitos) y dos
Líneas (A y B}. El procedimiento que se sigue es similar al anterior.

140
p1   0,54 , o sea que el 54°/o corresponde al procedimiento A
200

120
p1   0,46 , o sea que el 46°/o corresponde de al procedimiento B
200

De 260 enlatados 131 fueron fracasos, ahora si lo multiplicamos por 0,54, se obtendrá el número de
enlatados esperados que fracasen en el procedimiento A; si se multiplica por 0,46, se obtendrá el número
de fracasos esperados para el procedimiento B, esto mismo sucede con los 129 éxitos, que al ser
multiplicados por 0,54 y 0,46, respectivamente, darán el número de éxitos esperados para A y B,
respectivamente.

132
ni ni* ni – ni* (ni – ni*)2 (ni  ni *) 2
ni *
77 70,74 6,26 39,19 0,55
54 60,26 -6,26 39,19 0,65
63 69,66 -6,66 44,36 0,64
66 59,34 6,66 44,36 0,75
260 260,00 0 – 2,59

χ2 = 2,59 (ji cuadrado calculado)

χ 0,05
2
 3,84 (ji cuadrado obtenido en la tabla para υ = 1)

υ = (2 – 1) (2 – 1) = 1

Siendo 2,59 < 3,84, se acepta la hipótesis, o sea que ninguno de los procedimientos es superior al otro.

Siempre que se tenga una tabla de “2 X 2” es decir que υ = 1 se debe calcular el valor de n2 utilizando la
corrección de Yates y la fórmula será:

n  n i *  0,5
2

χ 
2 i

n1 *
ni ni* ni – ni* ni  ni * ni  ni *  0,5 n i  ni *  0,5
2
n i  ni *  0,5
2

n1 *
77 70,74 6,26 6,26 5,76 33,18 0,47
54 60,26 -6,26 6,26 5,76 33,76 0,55
63 69,66 -6,66 6,66 6,16 37,95 0,54
66 59,34 6,66 6,66 6,16 37,95 0,64
260 260,00 0 – – – 2,20

2,20 < 3,84


Se acepta la hipótesis nula, como en el caso anterior

133
BIBLIOGRAFÍA

ESTADÍSTICA APLICADA A LOS NEGOCIOS Y A LA ECONOMÍA DE LIND, DOULAS A.


MARCHAL, WILLIANG edición # 12

ESTADÍSTICA PARA LA ADMINISTRACIÓN Y ECONOMÍA DE MASÓN, ROBERT D. edición # 3

ESTADÍSTICA APLICADA A LOS NEGOCIOS Y LA ECONOMÍA DE WEBSTER, ALLEN L.


edición # 3

ESTADÍSTICA APLICADA A LA ECONOMÍA DE R. LYMANOTT

BIBLIOTECA VIRTUAL

134

Das könnte Ihnen auch gefallen