Beruflich Dokumente
Kultur Dokumente
1. VARIABLES
Una variable es una cantidad a la cual puede asignársele, durante un proceso, un número ilimitado de
valores.
Cuando una cantidad tiene un valor fijo, durante un proceso, se llama constante. Se distinguen dos tipos
de constantes: las absolutas y las arbitrarias; las primeras tienen el mismo valor en todos los procesos por
ejemplo, π, e, g, en tanto que las segundas pueden tener un valor diferente en cada proceso particular. En
la estadística se acostumbra llamar parámetros a estas últimas.
2. FUNCIONES
Cuando dos variables x e y están relacionadas de tal forma que a cada valor de x corresponde uno de y, se
dice que y es una función de x. Se emplea la notación y=. f(x), para significar este hecho.
A la variable x, en la función y = f(x), se le llama independiente porque toma el valor que se le asigna
arbitrariamente: la otra variable se llama dependiente, ya que debe tomar los valores que satisfagan la
relación particular.
1
y
Segundo cuadrante Primer cuadrante
o x
Tercer cuadrante Cuarto cuadrante
La localización de puntos sobre los ejes es fácil al subdividir estos en segmentos iguales, numerándolos
progresivamente desde el origen, y alejándose de el (véase fig. 1.2). La dirección positiva del eje X es
hacia la derecha, y la dirección positiva del eje Y, hacia arriba.
y
3
o x
-4 -3 -2 -1 1 2 3 4
-1
-2
-3
Figura 1.2. Los segmentos en que se subdivide el eje X no necesariamente deben ser iguales a los del eje
Y.
Nótese que los segmentos del eje X no necesariamente son iguales a los del eje Y; por otro lado, el origen
tampoco es siempre el cero, ni las subdivisiones de magnitud unitaria (véase fig. 1.3).
2
y
0.90
0.88
0.86
0 x
37 41 45
Gracias a los sistemas de coordenadas, es posible localizar puntos en el plano, dando dos valores. En la
figura 1.4 se tiene un sistema coordenado rectangular, en el cual se identifican los puntos P (3,2), Q (-l, 4)
y R (2, - 2). En general, cualquier punto S se representa mediante la notación S(x, y), siendo x el valor de
la abscisa e y de la ordenada; la pareja (x, y) recibe el nombre de coordenadas del punto. Así pues las
coordenadas del punto Q son x = -1, y = 4; el primer número corresponde a la abscisa y el segundo a la
ordenada.
y
Q 4
2 P
o x
-2 -1 1 2 3
-1
-2 R
-3
Figura 1.4. Los sistemas coordenados rectangulares permiten la localización de puntos en el plano.
3
Problemas de aplicación grupo uno
1. Trácense, en un sistema coordenado rectangular, los puntos A (- 1, -1), B (-4,5), C (2, - 5) y D (4,3).
Indicar en qué cuadrante se encuentra cada uno.
2. Trácense, en un sistema coordenado rectangular, los puntos P (1,3), Q (2,6), R (3,9) y S (4, 12).
4. GRÁFICAS
La utilidad de los sistemas coordenados rectangulares no sólo reside en que permite la localización de
puntos en el plano, sino también en que ayuda al trazado de gráficas.
Una gráfica es una curva constituida por puntos [x, y) que satisfacen una ecuación de tipo y = f(x). Esto
significa que la línea es el lugar geométrico de los puntos que cumplen con la relación establecida entre
las variables.
Supóngase la función:
Y = 3x2 - 5
En ella la variable independiente es x, y como tal pueden dársele valores arbitrarios, pero y es la variable
dependiente cuyos valores resultan de sustituir los de x en la función. Entonces
Si x = 0, y = 3 (0) - 5 = -5; si x = 1, y = 3 (1) - 5 = -2,
Y así sucesivamente. Con las parejas de valores obtenidos, se forma una tabulación, en donde se
presentan los valores de cada variable (véase tabla 1.1).
TABLA 1.1
x Y
0 -5
1 -2
2 7
3 22
4 43
Por supuesto, ésta no es la única tabulación posible, ya que x puede tomar valores negativos,
fraccionarios, muy grandes, etc.; pero siempre dará lugar aun valor para y a través de la función. Como se
ve, la tabulación está constituida por parejas ordenadas de valores, que representan puntos en el plano y,
por tanto, pueden trazarse en un sistema coordenado rectangular (véase fig. 1.5).
50
40
30
20
10
0
-10 0 1 2 3 4 5
4
Figura 1.5. Representación gráfica de la función y = 3x2 — 5. Siendo iguales las escalas en ambos ejes.
Antes se dijo que la longitud de los segmentos en que se subdivide X no necesariamente es igual a la de
los segmentos en que se subdivide el eje Y. De acuerdo con esto, la misma gráfica de la figura 1.5 puede
hacerse según se muestra en la figura 1.6 en donde las unidades en el eje de las abscisas son mayores que
el eje de las ordenadas
50
40
30
20
10
0
-10 0 2 4 6 8 10
Figura 1.6. La misma función de la figura 1.5 en un sistema con la escala horizontal más grande que la
vertical.
También es posible trazar una gráfica sin conocer la función que representa. Esto sucede cuando en vez
de dicha función se tiene la tabulación, lo cual es típico de los resultados de experimentos; inclusive del
análisis de la gráfica se puede llegar, con la aplicación de ciertas técnicas que se verán posteriormente, al
establecimiento de la función satisfaciendo así el objetivo de muchas investigaciones empíricas.
Al hecho de prolongar en una pequeña cantidad una línea recta o curva—por cuales quiera de sus
extremos— se le llama extrapolación, y es una técnica que permite obtener coordenadas, en forma
aproximada, propias de la gráfica, que no se tenían inicialmente. En cuanto a la magnitud de dicha
prolongación, al decirse que sea pequeña significa que no irá más allá de una distancia que comprometa la
regularidad o simetría de la curva. Como esto es muy vago, sobre todo tratándose de curvas, se deja a
criterio del experimentador la decisión de llevar, hasta donde él juzgue prudente, una extrapolación. Sólo
puede decirse que el hacerlo no será un problema muy grave una vez que llegue a adquirir la habilidad
suficiente para apreciar el tipo de curva que está manejando y el intervalo en que refleja un
5
comportamiento familiar a través |curvas, representativas de funciones algebraicas elementales
(parábolas, hipérbolas, etc.)
Existe también la técnica de interpolación, consistente en obtener una de las coordenadas, por ejemplo x,
fijando la otra es decir, y a través de la correspondencia que establece entre ambas la gráfica
correspondiente (véase fig. 1.7).
La recta PQ se indica a través de los puntos A (3.6) y B (6.9); por extrapolación se tiene P (0,3) y por
interpolación, C (5,8), eligiendo inicialmente y = 8 y observando a partir de la gráfica que, dada esa
ordenada, la abscisa x es 5.
5. PENDIENTE DE LA RECTA
Pendiente de la recta, que pasa por los puntos P (x1,y1) y el punto Q (x2,y2) se define como: m =
y 2 y1 y
x 2 x1 x
10
y
. . Q
8 . C
B
5
. A
3
P
2
x
1 2 3 4 5 6 7
Figura 1.7. El punto P resulta de extrapolar la recta AB, y el punto C se obtiene por interpolación
1. Trácese la gráfica cuya tabulación aparece en la tabla siguiente y extrapólese para x = 0, ¿cuánto vale
y?
X Y
4.2 4.5
7.9 11.8
15.5 27.1
2. En la gráfica del problema anterior obténgase, por interpolación, la ordenada del punto cuya abscisa
es igual a 10
6
3. Obténgase la pendiente de la recta del problema 1, empleado las coordenadas del punto que resulta de
ese problema y las del punto del problema 2
6. PROPORCIONALIDAD
Muchas de los datos experimentales con las cuales se trabaja, se expresan mediante funciones del
siguiente tipo:
Y = axn
Siendo a y n constantes reales positivas o negativas. Esta expresión significa a que Y y x n son
proporcionales. En el caso particular en que n = 1, la proporcionalidad entre ambas variables es directa.
Siempre que la n sea negativa, la proporcionalidad será inversa. A la constante a se le conoce con el
nombre de constante de proporcionalidad. Ejemplo el precio de un artículo es directamente proporcional
al valor de la materia prima.
y
1
3 4
6
5
o x
7. SUMATORIA Y PROPIEDADES
Corresponde a una de las tantas operaciones que se realizan en la estadística, ya que siempre se tendrá que
sumar numerosos términos, los cuales muchas veces deben ser expresados por símbolos o formulas, con
el fin de simplificar su presentación.
El signo de la sumatoria es ∑ (sigma), letra griega que indica suma de, o sumatoria de. Por definición se
tendrá que:
7
n
i 1
x i x1 x 2 x3 ........ x n
i 1
i ; Se observa al sigma le acompaña i = 1, que representa el límite inferior, donde i no
valores desde uno hasta cinco y el resultado final será la suma de estos valores.
Aplicaciones
5
a).
i 1
i = 1+2+3+4+5 = 15
n
n( n 1)
Sí n es demasiado grande se puede aplicar la siguiente forma
i 1
i=
2
50
50(51)
Ejemplo. i
i 1 2
1275
n
n(n 1)( 2n 1)
b) i
i 1
2
6
5
Ejemplo. i
i 1
2
12 2 2 3 2 4 2 5 2 55 o aplicando la formula anterior tenemos
5
5(5 1)(10 1)
i
i 1
2
6
55
n(n 1)
n 2
c) i
3
i 1 2
5
Ejemplo i
i 1
3
13 2 3 3 3 4 3 5 3 225 o aplicando la formula anterior
5(5 1)
5 2
i 1
i 3
2
225
8
5
Ejemplo 10 10 10 10 10 10 50
i 1
Aquí es más fácil aplicar la propiedad que dice: “la sumatoria de una constante por una variable es igual
al producto de la constante por la sumatoria de la variable”.
n n 5 5
ki k i 5i 5 i 51 2 3 4 5 51 2 3 4 5 75
i 1 i 1 i 1 i 1
f) Si la sumatoria cobija varios términos, dado que están dentro del paréntesis, o que uno de ellos
multiplique al paréntesis, se tendrán tantas sumatorias como términos tenga el paréntesis,
resolviendo cada uno de ellos en forma independiente, para luego obtener un solo total.
5 5 5 5
i
i 1
2
3i 8 , la sumatoria solo cobija el primer término y el desarrollo de esta expresión nos quedaría
así: 55 + 3i + 8.
5
Ahora, si una sumatoria se expresa en la siguiente forma: (i
i 1
2
3i )4 , la sumatoria cobijaría a la
totalidad de los elementos que se encuentran dentro del paréntesis. Por consiguiente,
5 5 5 5
(i
i 1
2
3i )4 Será igual a (4i
i 1
2
12i ) 4 i 2 12 i
i 1 i 1
a uno. En este caso se debe tener cuidado con el uso de la propiedad de la sumatoria de una constante.
Veamos:
8
9
(8 3) 110 6(10) 60 , o sea: k(n i) 1
4
X
i 1
i X 1 X 2 X 3 X 4 . Hasta aquí sería la solución, salvo que se indique que cada término
X
i 1
i X 1 X 2 X 3 X 4 2 5 8 10 15
5X
i 1
i 5( X 1 X 2 X 3 X 4 ) 5(2 5 8 10) 5(15) 75
Cuando el símbolo de la sumatoria se expresa sin límites explícitos (inferior y superior), se entiende que
la sumatoria abarca desde el límite inferior i = 1 hasta n.
8. PRODUCTORIA
El producto se simboliza por la letra griega π (pi mayúscula), que se lee “producto de”, y tiene una
aplicación parecida a la de la sumatoria, con la diferencia que en vez de ser sumados, los términos se
multiplican entre sí; por lo tanto, la productoria tendrá un límite inferior y superior, además del elemento
genérico del producto.
n
i Se lee “productoria de i igual a uno hasta n de i”
i 1
b) El producto de una constante por una variable es igual a la constante elevada al valor que toma
el límite superior por la productoria de la variable i, desde el límite inferior hasta el límite superior.
5 5
2i 2 5 i 2 5 (1 2 3 4 5) 32(120) 3840
i 1 i 1
10
9. RAZÓN
La razón, la proporción, el porcentaje y la tasa tienen en común la relación de dos cantidades que las
simbolizamos por A y B, una como numerador y otra como denominador.
A
La relación resultante se expresa así: , con los siguientes efectos:
B
a) Si A no está contenida en B, corresponde a una razón.
b) Si A está contenida en B, corresponde a una proporción.
c) Si A está contenida en B y el cociente se multiplica por 100, corresponde a un porcentaje.
d) Si A representa un evento y B es el total a riesgo de sufrir el evento A, aparecido y medido en un
período dado, se le denomina tasa. En otras palabras, es la razón aquella que mide la probabilidad de
ocurrencia de un resultado en un universo siendo utilizado de preferencia en demografía y en
actividades financieras.
Recordemos que las características cualitativas se expresan mediante palabras, y para que sean
consideradas dentro del campo estadístico, requieren ser cuantificadas mediante el conteo, es decir, se
debe determinar cuántas veces se repite la característica. Su agrupación en una tabla o cuadro nos permite
describir o comparar el hecho, y lo podemos hacer, en parte, mediante el uso de estos conceptos,
denominados por algunos como medidas de intensidad, siendo siempre una medición relativa.
10. RAZÓN
Es aquella que mide la relación entre dos cantidades, permitiendo su comparación, calculada
generalmente por cociente. Se consideran varios tipos de razones, dependiendo de las características que
se quieran comparar.
11
La mayoría de los textos de estadística clasifican en dos los tipos de razones:
La razón se simboliza mediante R y se obtiene dividiendo una cantidad qué sé puede simbolizar con Yi,
por otra cantidad que simbolizamos mediante Xi.
R
Y i
Y
X i X
Supongamos que se tomó una muestra de 10 establecimientos comerciales (n = 10), los que fueron
investigados. Una parte de los resultados está en la siguiente tabla:
Se puede observar que el número de observaciones es n = 10 y que puede calcularse el promedio mensual
Cuando veamos las medidas de asimetría y de apuntamiento, encontraremos que su expresión matemática
corresponde a una razón de momentos, en la cual el numerador y denominador son momentos o funciones
simples de momentos.
12
11. PROPORCIÓN
Es una forma especial de la razón, en la cual la cantidad dada en el numerador es la frecuencia de una
cierta característica y la del denominador será el número total de unidades consideradas, sea cual fuere el
tamaño de la muestra. En una característica cuantitativa, la proporción corresponde a la frecuencia
relativa que se verá en la elaboración de una tabla de frecuencias.
12. PORCENTAJES
Cuando la proporción se multiplica por 100, el resultado obtenido se denomina porcentaje, generalmente
utilizado en la presentación de los datos, ya sean cualitativos o cuantitativos
Supongamos que una empresa industrial tiene clasificado su personal por años y sexo.
La relación hombre/mujer en esta empresa para el año de 2 005 fue 780 / 320 = 2,44, es decir, que por
cada dos mujeres contratadas se contrataron 5 hombres en ese período; en cambio, para 2 006, esa
relación bajó, ya que por cada dos mujeres hay aproximadamente tres hombres. La razón se calculó así: R
= 880/620 = 1,42.
13
13. TASAS
Se le considera como un tipo especial de razón, con la cual se desea hacer una descripción de los cambios
sucedidos en un hecho, generalmente en un período dado.
Se utiliza en muchos campos, como en economía, administración, especialmente en las áreas financiera y
contable, en evaluación de proyectos, en demografía, entre otros.
Vale la pena recordar algunas de las tasas que el estudiante ha escuchado o que posiblemente las utiliza.
14
UNIDAD II: GENERALIDADES
Objetivos:
Conocer el origen de la palabra estadística
Conocer y comprender el desarrollo histórico
Conocer y distinguir las escuelas que se han formado alrededor de esta ciencia
Entender y manejar lo conceptos de estadística descriptiva e inferencia
Conocer las instituciones que producen estadística
Precisar la importancia y la aplicación de la estadística.
Estar en capacidad para determinar qué hechos son propios de la estadística.
Identificar casos de mal uso de la estadística.
ETIMOLOGÍA
No se ha logrado un acuerdo sobre el origen etimológico de la palabra Estadística. Para algunos autores,
se deriva del latín status que significa estado, en el sentido político. Si se tiene en cuenta que en un
principio los gobiernos la utilizaban para la recolección de datos, también significa posición o situación
de personas o cosas. Para otros, se deriva del vocablo griego statera que significa balanza, dado en parte
a la función que cumple en la medición o peso de los hechos que son objeto de estudio; otros, sostienen
que proviene del alemán staat que también significa estado, considerado como una organización política.
Por lo anterior, se observa que no hay claridad sobre el origen de la palabra Estadística; sin embargo,
puede afirmarse que la etimología latina es la más aceptada, por ser la que más explica la finalidad de esta
disciplina.
DESARROLLO HISTÓRICO
Desde la antigüedad se encuentran estadísticas rudimentarias relacionadas con registros, censos, ya sea en
el campo económico, social o educacional. Es así como se tienen informes de su aplicación e importancia
en tiempos anteriores a la era Cristiana. Se dice
que 2.000 años antes de Cristo, en China, ya se habían hecho registros y recuentos de la población,
cultivos, fortunas, etc. En otros pueblos, como Siria, Persia, Egipto, se conocían censos de poblaciones y
catastro de territorios. La Biblia también nos habla de recuentos estadísticos; lo mismo, Moisés habla de
un registro de los israelitas, de las personas dedicadas a las faenas agrícolas. El nacimiento de Cristo
coincide con la realización del empadronamiento o censo de los israelitas.
En épocas del Imperio Romano se tiene conocimiento de estadísticas en todos aquellos hechos en que los
gobernantes requerían información sobre las diferentes provincias en las que estaba dividido su Estado.
Dentro del mundo de habla hispana, se tienen informes del año 727, en el cual los árabes levantaron
diversas estadísticas en la Península Ibérica, así como también durante el reinado de los Reyes Católicos y
de Felipe II, se realizaron censos.
15
En épocas posteriores al Imperio Romano se hizo más frecuente y menos rudimentaria la realización de
investigaciones, con el fin de producir informaciones más completas que sirvieran, a la vez, para efectuar
previsiones futuras.
En la Edad Media se encuentran estadísticas más sistematizadas, a tal punto que en algunos lugares se dio
comienzo a organizaciones estatales.
Para algunos, el análisis estadístico se inicia con el tendero inglés John Graunt (1620- 1674), quien
intenta analizar las causas de las defunciones en Londres, en la primera mitad del siglo XVII. Otros
mencionan a Herman Conring (1600-1681), quien se dedicó a describir y a examinar aquellos hechos
sobresalientes del Estado.
En 1 749, aparece lo que se considera la primera obra en que la estadística es tratada en forma sistemática,
como ciencia, y es Godofredo de Achenwall o Anchersen (1719-1772) quien la introduce como
asignatura universitaria, con el nombre de Estadística.
Sin necesidad de citar a "todos aquellos que de una u otra forma contribuyeron al desarrollo de la
estadística, se debe resaltar a quienes más aportaron ¡deas básicas para su fundamentación, entre ellos
Laplace (1749-1827), quien aplicó el cálculo de probabilidades al análisis estadístico; Karl Friedrich
Gauss (1777-1855), quien estableció la distribución gaussiana de errores resultantes, con su forma de
campana y su simetría, denominada como Curva Normal de Errores. E! belga Adolph Quetelet (1796-
1874) aplicó métodos modernos a conjuntos, y es reconocido como el padre moderno de la estadística;,
W.S. Gosset (1876-1937), un estadístico de !a Cervecería Guiness, de Dublin, quien escribió con el
seudónimo de "Student" y contribuyó con la teoría de las muestras pequeñas; Sir Ronald A. Fisher (1890-
1962) contribuyó a ampliar !a anterior teoría y, además de los diferentes e importantes aportes, se le
menciona con frecuencia por el hallazgo de la Distribución F.; así mismo Karl Pearson (1857-1936), con
su periódico Biométrica, influyó enormemente en el desarrollo de la estadística y contribuyó con
numerosos métodos, medidas o procedimientos, siendo el más sobresaliente el de la Distribución Chi-
cuadrado; Florence Nightingale (1820-1910), defensora de los métodos estadísticos, sostenía que el
fracaso de muchos directores, empresarios y gobernantes se debía a la insuficiencia de conocimientos
estadísticos.
Además de los anteriores vale la pena mencionar, como los que más han influido en los modernos
procedimientos estadísticos, a: Jacobo y James Bernoulli, Poisson, Pierre de Fermat, Pierre Laplace,
Charles Darwin, Francisco Galton, Gregor Mendel, Karl Pearson, David Duncan, Blaise Pascal, Charles
Spearman, Karl Gauss y Frank Yates.
ESCUELAS
Podemos considerar tres grandes escuelas, importantes, que han influido en el desarrollo de la estadística:
16
a) La Escuela Administrativa, localizada en Alemania, creó la primera cátedra y cursos de estadística,
dándole importancia a la información requerida por el Estado. Se consideran como los principales
representantes de esta escuela a: Vito de Seckendorff (1626-1689); Hermann Conring, quien inició un
curso de estadística en la Universidad de Helmstadt, preocupado por los casos más notables del Estado; su
discípulo Godofredo de Achenwall quien le dio el nombre de estadística y la separó de la sociología.
b) La Escuela Probabilística algunos la consideran originaria de Italia, otros de Francia, dada la atención
prestada a los juegos de azar, que se efectuaban para la recreación de la nobleza, con el consiguiente
desarrollo de la Teoría de las Probabilidades.
Sus principales representantes son: Pascal (1623-1662), Fermat (1601-1665), Laplace (1749-1827),
Poisson (1781 -1840), los Bernoulli y Gauss.
c) La Escuela Demográfica, creada en Inglaterra, se preocupa por problemas actuariales. Dentro de ésta
sobresalen: Sir William Petty, Edmund Halley, Jhon Graunt, King y Devenaut, entre otros. A principios
de este siglo hay una gran preocupación por su aplicación en los campos de la agronomía y biometría, lo
cual leda a la estadística mayor relevancia, colocando así los cimientos y siendo sus principales
exponentes: Galton, Karl Pearson, Gosset y Fisher.
Algunos consideran las siguientes escuelas como las menos importantes: la escandinava, la
norteamericana y la hindú, que también han colaborado en la fundamentación estadística.
Se podría decir que la palabra estadística está asociada a términos o frases tales como: análisis de datos;
realización de experimentos; procesos aleatorios; métodos cuantitativos; prueba de hipótesis; diseños de
experimentos; decisiones prácticas. Por otra parte, en numerosas ocasiones nos encontramos con muchos
datos, y el problema que se nos presenta es: ¿cómo se pueden organizar, resumir, presentar e
interpretarlos? La estadística es una buena herramienta para resolver el interrogante. A pesar de la buena
impresión que a primera vista ofrece la estadística, también presenta motivos de impopularidad,
especialmente cuando se hacen encuestas sobre simpatizantes por un candidato o por el gobernante del
momento; los indicadores económicos entre ellos el índice de precios al consumidor, utilizado para
indicar las variaciones en los precios de los artículos de primera necesidad y para calcular el porcentaje de
inflación o pérdida del poder de compra del dinero respecto a un período determinado.
17
Para la mayoría de tratadistas, la estadística es un método de investigación, no sólo para la observación de
un hecho, sino también para la formulación de hipótesis, el diseño de experimentos, la comprobación de
ciertas teorías, cuando no se puede hacer experimentalmente.
Otros la definen, a menudo, como un conjunto de métodos para la toma de decisiones en condiciones de
incertidumbre.
Algunos la sintetizan, como e! profesor ROS, quien nos da una definición que abarca a muchas otras, al
decir que la Estadística "es la ciencia que estudia los hechos colectivos, mediante la observación
numérica, el análisis matemático y la interpretación lógica, investigando especialmente sus causas y leyes
empíricas".
Podríamos dar nuestra propia definición, que sintetice gran parte de las definiciones existentes, diciendo
que la Estadística es un conjunto de métodos aplicados en la recolección, clasificación, presentación
e interpretación de datos numéricos, obtenidos de la observación de hechos, que permiten, a la vez,
inferir hacia conclusiones lógicas. Vale la pena recalcar que la estadística moderna es la teoría de la
información que tiene como objetivo la inferencia.
Por lo anterior, observamos que este conjunto de métodos cumple dos funciones, igualmente
importantes: la de describir e inferir, permitiendo su clasificación en:
Algunos consideran que si sólo se investigara la totalidad de las observaciones de una población objetivo,
bastaría con la aplicación de la estadística descriptiva, cuyo proceso sería, como ya se ha dicho
repetidamente, la recolección, presentación y análisis de la información obtenida. Sabemos, además, que
en la mayoría de los casos eso no es posible por varios motivos, entre otros: costo y tiempo, que obligan a
realizar investigaciones más pequeñas denominadas muestras, a través de las cuales se estiman los valores
de esa población, para los cuales el investigador requiere determinar la extensión, validez y confianza del
proceso, valiéndose para ello de la inferencia estadística.
18
Estadística inductiva o inferencia. Son aquellas técnicas aplicadas en investigaciones parciales,
denominadas muestras, que permiten la obtención de ciertos resultados mediante la aplicación de
medidas, considerados como estimadores de los valores estadísticos de la población, es decir, los
parámetros.
La estadística inductiva parte de los datos depurados y condensados, que facilitan el análisis, el
establecimiento de relaciones y correlaciones, la aplicación de mediciones especiales que permiten inferir
y contrastar hipótesis en aquellos campos donde no existen verificaciones físicas.
Estadístico es aquella persona que aplica métodos estadísticos y maneja cifras, que representan
información de hechos, recogidos a través de la observación o experimentación.
Estadísticas son todas aquellas informaciones que aparecen en publicaciones en forma de cifras, cuadros
o gráficas, las cuales han sido ordenadas en forma sistemática, para mostrar el comportamiento de un
hecho que ha sido objeto de estudio.
IMPORTANCIA
La importancia que hoy tiene la estadística radica en sus grandes aplicaciones en las diferentes
actividades. En la vida cotidiana leemos, interpretamos o usamos datos, muchas veces sin tener
conocimiento de lo que es la estadística, pero la persona con algunos principios estadísticos, sacará mejor
provecho de la información. Si se trata de un profesional, la importancia de estos instrumentos será mejor,
ya que será utilizada en su campo de acción.
La estadística es considerada como una herramienta de vital importancia en la toma de decisiones, pues
nos suministra información para la valoración de planes y programas; además, su adecuada utilización
dependerá en especial del conocimiento, habilidad y experiencia de quien la emplea.
Vale la pena repetir lo dicho por Salomón Fabricanl, sobre su importancia: "todo el mundo parece
coincidir en que la estadística puede ser útil para comprender, evaluar y controlar el funcionamiento de la
sociedad". Por otra parte, H. G. Wells decía: "el pensamiento estadístico un día será tan necesario
para una ciudadanía el eficiente como el saber leer y escribir". Todo lo anterior queda corroborado si
observamos que la mayor parle de los acontecimientos que diariamente ocurren en la sociedad, en
cualquier campo, se encuentran estrechamente ligados a la concepción de número y medida. Es tan
cierto esto que podríamos afirmar, sin temor a equivocarnos, que la mayor parte de las actividades del
hombre o de las instituciones, por no decir que todas, no importa la rama que desarrollen, están afectadas
en mayor o menor grado por decisiones basadas en antecedentes de tipo cuantitativo.
19
a) los métodos estadísticos se utilizan a diario, tanto en el sector público como en el privado;
b) las noticias que frecuentemente se dan en los diferentes medios de comunicación requieren la
interpretación estadística;
c) algunas de las materias del plan de estudios necesitan de la aplicación de estos conocimientos;
CAMPOS DE APLICACIÓN
Es tan vasto el campo de aplicación dado a la estadística que sería larga su enumeración, y que podríamos
resumirlo diciendo que todas las ciencias, en una o en otra forma, la aplican. Sin embargo, podríamos
decir que en las Actividades económicas el empresario, el industrial o el hombre de negocios, en general,
la utiliza, ya sea para el análisis financiero, en las ventas o en los procesos de la producción; también en la
investigación de mercados, para el lanzamiento de un producto, para averiguar su grado de aceptación o
para la proyección de su producción y de sus ventas; también cuando desea aceptar o rechazar un lote de
su producción o de la materia prima comprada; en la elaboración del presupuesto, o como parte integrante
en el desarrollo de políticas y decisiones de carácter administrativo.
En la Salud y medicina, el Estado, los fabricantes de drogas, las instituciones o profesionales del campo
de la salud, realizan investigaciones encaminadas al tratamiento de ciertas enfermedades, como por
ejemplo el Sida, o al mejoramiento de los productos existentes, buscando que sean más efectivos, o para
determinar los posibles efectos secundarios que puedan tener; también en el desarrollo de programas
sanitarios, en la prevención de enfermedades.
20
En Física y química se emplea con frecuencia, siendo una de sus aplicaciones la contrastación de
hipótesis con base en resultados obtenidos a través de experimentos, aplicando la técnica estadística
conocida como Diseño Experimental.
La estadística tiene un vasto campo de aplicación, tanto en las empresas comerciales como en las
industriales. Si consideramos que la empresa es una organización dentro de la cual se realiza una serie de
operaciones, casi siempre con la meta de obtener beneficios del capital invertido, concluimos que requiere
una información organizada que sirva de control y que permita hacer planes futuristas.
Podríamos decir que la estadística, dentro de la empresa, cumple, entre otras, las siguientes funciones:
a) permite obtener una visión general de la empresa y de algunos de sus aspectos en particular;
c) ayuda a analizar y a separar lo que es normal de lo que no lo es, es decir, permite ejercer control en
muchas de las actividades u operaciones de la empresa.
Así, podríamos seguir mencionando una gama de actividades, profesiones o campos donde la aplicación
de la estadística es necesaria para: el economista, el contador, el auditor, el ingeniero en todas sus ramas,
el actuario, el sociólogo, el geólogo, el mercadotecnista, el periodista, etc., tendrán que aplicar estas
técnicas en su ejercicio profesional.
Hoy el uso del microcomputador y algunas calculadoras manuales, facilitan la utilización de paquetes
estadísticos, tales como: SAS, MICROSTAT, TSP, SPSS y otros más, necesarios para el manejo de
abundantes datos numéricos, permitiendo su agilización y la aplicación de una variedad de medidas que
estos paquetes ofrecen, que facilitan el proceso de análisis y la toma de decisiones.
Se podrá decir que en todos los campos, la utilización de los métodos estadísticos se encamina hacia:
a) aquellos procesos que permitan recolectar, agrupar, concentrar o describir con mayor facilidad ese
cúmulo de información, a través de lo que algunos llaman "reducción de datos";
b) el análisis de los datos, mediante la observación directa o el desarrollo de experimentos, con el fin de
realizar estimaciones o comprobación de hipótesis;
21
c) determinar o indicar los cambios que sufren los datos a través del tiempo, o estimar su
comportamiento futuro.
b) Además de ser registrados, requieren para su estudio que correspondan a hechos colectivos,
descartando los individuales; es decir, lo sucedido a una persona no será analizado en forma
particular, debiendo formar parte de un grupo, masa o colectivo de datos para su estudio. El registro
de la producción por parte de una empresa, sólo tendrá un interés particular, pero si el gobierno es
quien piensa intervenir el mercado, la información formará parte del sector que se analiza.
c) Se podrá agregar otra condición como es la de su frecuente repetición. Un hecho que se presente en
forma aislada, es decir, que ocurre una vez y difícilmente vuelve a ocurrir, no es observado por la
estadística y queda sólo como un registro histórico. Cuando decimos que el hecho debe repetirse, no
nos referimos a que ocurra a cada momento; es posible, en algunos casos, que transcurra cierto
tiempo parque se repita, tal como sucede con aquellos productos estacionales, o en él caso de la
matrícula que ocurre cada año o cada semestre. Debido a su presentación en forma periódica, se les
considera como hechos distantes en el tiempo.
22
son de interés para la estadística, pues la intensidad es diferente de un período a otro. Si por el
contrario el valor o la cantidad fuera igual a cada momento, bastaría con registrarlo una vez. No se
requiere que el hecho se presente en el mismo lugar, puede estar ocurriendo en diferentes sitios; por
lo tanto, la estadística abarca también aquellos hechos distantes en el espacio.
e) Finalmente, se podrá decir que aquellos hechos cuyas características cualitativas pueden
cuantificarse, son tenidos en cuenta por la estadística. El amor a la patria o al trabajo no se pueden
medir, pero sí el número de personas por cargos, ocupación, sexo, profesión, el número de artículos
vendidos por departamento, marcas, modelos, sucursales, etc., son ejemplos de características
cualitativas que sí abarca la estadística.
23
CUESTIONARIO
1. ¿Qué se entiende por reducción de datos?
24
ALGUNOS CONCEPTOS BÁSICOS
Para el buen desarrollo y entendimiento de los diferentes temas que trataremos más adelante, es necesario
hacer claridad sobre los conceptos que se utilizan en estadística y tenerlos presentes a cada momento.
POBLACIÓN
En la forma más simple, puede decirse que este término estadístico se refiere a un conjunto finito o
infinito de elementos. Es sinónimo de agregado y, cuando lo empleamos, no nos estamos refiriendo
únicamente a un conjunto de seres vivientes, a la población de una región o a una ciudad, como se podría
entender en principio.
El termino población, también conocido como universo, se refiere a la totalidad o conjunto de medidas, o
al recuento de todos los elementos que presentan una característica común.
De acuerdo con el número de elementos que constituyen la población, la clasificamos en finita o infinita.
En el primer caso, se tendrá un número limitado de elementos o unidades; en el segundo, será ilimitado.
Definir la cobertura, es decir, identificar y determinar el tamaño de la población que va a ser objeto de
estudio, es de gran importancia en una de las primeras etapas de la investigación estadística.
El conjunto de estudiantes de un plantel, podríamos considerarlo como una población finita; pero si nos
referimos a todos los estudiantes de un país, no sólo en el presente, sino en el pasado, tendríamos una
población infinita. En una empresa comercial serían numerosas las poblaciones de estudio que
podríamos mencionar. Algunas de ellas podrían ser: lotes de unidades producidas durante un
período; cuentas por cobrar o de difícil cobro; número de empleados que laboran, etc.
UNIDAD O ELEMENTO
Es el objeto, institución, región, persona, familia, animal, etc., que va a ser sometido a estudio, en cuanto
a aquellas características que más nos interesan. Esta unidad debe estar claramente definida, entendida
por todos, sin equívocos; además, debe permitir ser medida o contada, adecuada al tipo de estudio y,
finalmente, que nos permita hacer comparaciones.
CARACTERÍSTICA
Los elementos que conforman la población objetivo deben poseer ciertos rasgos o cualidades
denominadas características y son las estudiadas en cada una de ellas; por lo tanto, todas las deben poseer,
es decir, debe ser común su presentación, para que guarden relación con el objetivo de la investigación.
En los ejemplos dados en la definición de población, mencionábamos los estudiantes de un plantel; éstos
como conjunto, constituyen la población objeto; el estudiante es el elemento y las características que se
van a estudiar podrían ser: calificaciones, asistencia, edad, sexo, curso, nivel o grado, procedencia,
aficiones, etc. En el caso de la empresa comercial, las poblaciones serían el total de unidades o lotes
producidos en un período; las cuentas por cobrar, el número de trabajadores, etc. Los elementos
25
son: unidades, cuentas y empleados de la empresa, respectivamente, y las características que se van a
estudiar, entre otras, serían: calidad, peso, resistencia, dureza del artículo; valor de las cuentas, tiempo de
vencimiento, concepto de la deuda; horas trabajadas; accidentes de trabajo; asistencia, antigüedad,
salarios devengados, cargos, estudios realizados, tiempo de experiencia, visitas al médico, tiempo de
incapacidades, etc.
Observando las anteriores características notamos que se conforman dos grupos: el primero se expresa
mediante palabras, tales como: sexo (masculino, femenino); grado (primero, segundo,..., undécimo);
aficiones (canto, lectura, deportes, teatro,...); calidad (defectuosos, no defectuosos); estudios (economía,
administración, „.), entre otros. Consideradas como características cualitativas, su cuantificación se
obtiene mediante el recuento: cuántos hombres y mujeres hay; cuantos alumnos hay en cada grado, etc.
Estas son conocidas también como atributos, y pueden admitir varias formas de presentación,
denominándolas modalidad o categorías.
El segundo grupo está conformado por aquellas características que se expresan en forma numérica, tales
como: peso, valor, tiempo, número de accidentes o visitas al médico. A las anteriores se les considera
como características cuantitativas, conocidas también como variables, las que, a su vez, teóricamente
se clasifican en variables discretas y continuas. Las primeras son aquellas que admiten únicamente
valores enteros: el número de accidentes o visitas al médico, son ejemplos. Las continuas admiten
fracciones, como por ejemplo, peso: 30 libras y 10 onzas; tiempo de experiencia dada en años, meses y
días, etc. Las variables discretas se cuantifican mediante el recuento; en cambio en las variables
continuas se procede mediante la medición.
INVESTIGACIÓN TOTAL
Denominada también censo o investigación exhaustiva, se presenta cuando investigamos la totalidad de
los elementos que constituyen la población objetivo.
Cuando nos referimos a un censo de población, de viviendas, agropecuario o industrial, por ejemplo,
estamos indicando una enumeración completa de unidades, ya sean personas, familias, viviendas,
establecimientos industriales o explotaciones agrícolas en un tiempo dado, con unas características
específicas.
La investigación total, en muchos casos, es impracticable, como por ejemplo:
a) cuando el número de observaciones es demasiado grande o infinito, siendo imposible investigar a la
totalidad de los elementos;
c) cuando los costos son elevados, superando los recursos disponibles para su realización;
26
d) en casos tales como en el control de calidad, el elemento sometido a prueba puede destruirse,
impidiendo la investigación de la totalidad; se podrán añadir algunas situaciones más: cuando la
empresa no cuenta con personal suficiente para su realización; también, cuando existe dificultad en la
recolección de la información.
MUESTRA
Es la parte seleccionada de la población, que contiene una característica igual a la que no quedó
seleccionada.
Podríamos ampliarla, diciendo que corresponde a una parte de la población o subconjunto de un conjunto
de elementos, que resulta de la aplicación de algún proceso estadístico, generalmente selección
deliberada, con el objeto de investigar las características de los elementos de la población o del conjunto
del cual proviene.
Nos referimos a la observación parcial o muestra cuando investigamos parte de los elementos de una
población. Algunos la denominan como subpoblación, sin ninguna diferenciación; otros, por el contrario,
y con la cual no nos identificamos, la consideran como aquella parle seleccionada, cuyos elementos
presentan una característica tan especial, que el resto de la población no la tiene. Lo anterior no
corresponde a la definición de muestra y más bien concuerda con el concepto de estrato.
En el caso de que algunos de los elementos de la población tengan más probabilidad de presentación que
otros, la denominaremos como muestra no aleatoria. Este es el caso de la mayoría de las encuestas de
opinión, donde los elementos se seleccionan en forma caprichosa o por conveniencia; por esta razón, sus
resultados no merecen confianza.
Por muestreo se entiende la utilización de cualquiera de los procedimientos establecidos para obtener una
muestra. No debe perderse el objetivo del muestreo, que es considerar el mayor número de elementos con
el menor costo posible.
MUESTREO ALEATORIO
Se tienen diferentes métodos de muestreo al azar, cuya aplicación dependerá de las condiciones en que se
presente la población y de las características que se van a investigar en sus unidades. Haremos mención
de algunos de ellos, en forma bastante sintetizada:
27
Muestreo aleatorio simple. Como su nombre lo indica, los elementos de la población deben tener igual
probabilidad de ser seleccionados para formar parte de la muestra. En este método debe elaborarse un
listado, completo, actualizado y correctamente identificado, de los elementos que forman parte de la
población, y que van a ser seleccionados por algún método al azar, como el sorteo, extrayendo de un
recipiente fichas o papeletas, cada una de ellas identificando a la unidad, procedimiento similar al del
bingo; además, se podrá utilizar la calculadora, oprimiendo primero la tecla INV y, luego, punto,
despreciando el 0, que aparece en pantalla; también se puede hacer mediante las Tablas de Números
Aleatorios, construidas específicamente para esto.
Muestreo estratificado. Aplicado cuando la población requiere ser dividida en subpoblaciones o estratos,
buscando que cada uno de ellos sea lo más homogéneo posible, y donde un elemento dado no pueda
pertenecer a más de un estrato. Una vez establecidos los estratos, se elige en cada uno de ellos una
muestra al azar.
Muestreo sistemático. Es muy aplicado en aquellos casos en los que la característica investigada está
ordenada, ya sea alfabéticamente, por valor o cantidad, o en forma cronológica. El procedimiento de
aplicación es bastante simple: se calcula un intervalo de selección, obtenido al dividir el tamaño de la
población por el número de elementos en la muestra. Al seleccionar al azar un número dentro de ese
intervalo, éste es el que se constituye en punto de iniciación o primer elemento seleccionado, y luego se le
va sumando el valor del intervalo.
N
l = intervalo de selección
n
Muestreo por conglomerados. Se emplea a menudo para reducir el costo de muestrear una población
dispersa en un área geográfica extensa. También se utiliza cuando es imposible elaborar un marco con
elementos finales o de análisis; por tanto, se toma la unidad, es decir aquella que contiene más unidades o
elementos y que constituye el denominado conglomerado. En este caso seleccionamos al azar
conglomerado y tomamos de ellos los elementos de la muestra.
Muestreo por etapas. Cuando de un marco se extrae una muestra de conglomerados, para luego de esa
muestra extraer otra muestra y así sucesivamente hasta llegar a la unidad o al elemento de análisis, se le
denomina muestreo por etapas. Algunos lo denominan muestreo por áreas o geográfico.
28
- Pruebas de cumplimiento, cuyo propósito es comprobar la efectividad de un sistema de control; para
ello debe reunir evidencia suficiente sobre la eficacia de un control interno, mas no sobre la transacción
en particular.
- Pruebas sustantivas, cuyo objetivo es obtener evidencia acerca de la validez y tratamiento contable
apropiado de las transacciones, para detectar los errores o irregularidades que pudo haberse cometido.
MUESTREO NO PROBABILÍSTICA
En este método las unidades no se seleccionan al azar, sino en forma caprichosa, por conveniencia o con
alguna intención; de ahí se deduce que sus resultados no son confiables. Dentro de este método se tiene,
entre otros, el muestreo voluntario, el muestreo de juicios y el muestreo por cuotas.
Muestreo voluntario. Es aquel en el cual las unidades o elementos seleccionados llenan un cupón que
aparece en alguna publicación o realizan una llamada, para dar la información solicitada en forma
voluntaria.
Muestreo de juicios. Llamado también intencional, ya que las unidades se seleccionan a juicio del
investigador, ya sea por conveniencia o con alguna intención. Algunos las denominan muestras dirigidas.
Muestreo por cuotas. A cada persona encargada de recolectar la información se le asigna cierto número
de unidades o elementos muéstrales, en donde la selección de ellos depende de la decisión que tome el
entrevistador, aunque para ello se le dan ciertas indicaciones.
PARÁMETROS Y ESTIMADORES
En cuanto a las características de las unidades de la población, frecuentemente nos interesa la aplicación
de algunas de estas medidas:
La media o promedio, por ejemplo, de horas trabajadas, el ingreso medio de los empleados, el
rendimiento medio de algodón por hectárea.
El total de establecimientos comerciales en una ciudad, es de granos recolectados en una cosecha, el total
de faltas de asistencia de alumnos a clase durante un período.
La razón del gasto en alimentos y vivienda, la relación o razón de hombres y mujeres, cuando decimos
que por cada hombre hay dos mujeres en el establecimiento escolar.
A estas y otras medidas aplicadas a las características de la población se les denomina parámetros o
valores estadísticos de la población y aplicadas a las características de las unidades en la muestra se
les llama estimadores; algunos las identifican como estadígrafos.
29
Pitman establece diferencia entre estimador y estimación. Al primero lo considera como la norma de
procedimiento utilizada para estimar una constante perteneciente a una población; y la segunda, para los
resultados o valores obtenidos.
El estimador se clasifica en puntual cuando hace referencia a un solo valor o punto calculado; y por
intervalos cuando corresponde a dos puntos dentro de los cuales se considera estará contenido el
parámetro, con cierto grado de confiabilidad establecido por el investigador.
Un intervalo de confianza nos indica los límites de precisión en una inferencia. Recordemos que uno
de los objetivos de la estadística es sacar conclusiones o generalizar acerca del parámetro, mediante el
cálculo de estimadores, en una muestra extraída de una población.
SERIES DE TIEMPO
Conocidas también con el nombre de Series Cronológicas. En las actividades diarias hay cantidades de
investigaciones que se realizan una vez y no vuelven a repetirse; son investigaciones aisladas no
periódicas. En cambio, existen otras; que requieren que su observación sea periódica, guardando un
orden cronológico, es decir, que son registradas a través del tiempo, a medida que se van produciendo.
Estas, series son de gran utilidad tanto parar el gobierno como para las empresas, permitiendo observar e
indicar los cambios o variaciones que se producen en el dato, durante un determinado período; por otra
parte, facilita predecir su comportamiento futuro, suponiendo que las condiciones observadas durante su
registro van a ser las mismas en el lapso estimado.
Son ejemplos: las ventas, producción, matrícula, deserción, exportaciones, etc. El análisis de cada una de
ellas permite tomar decisiones.
PROBABILIDAD
Es uno de esos términos imposibles de ser definidos adecuadamente. Sin embargo, diremos que es la
creencia que tenemos de la ocurrencia de un suceso, para lo cual nos basamos en la experiencia. Puede
decirse que es un valor comprendido entre uno y cero, el cual resulta de dividir el número de éxitos por el
total de casos posibles. Se define como probabilidad clásica o empírica.
La probabilidad apriori es aquella que podemos determinar sin necesidad de realizar el experimento. Tal
es el caso del lanzamiento de una moneda, evento en el cual consideramos la aparición de cara como
éxito, igual a 0,5.
NÚMEROS ÍNDICES
Son cifras relativas expresadas en términos porcentuales, que indican las variaciones en las cantidades,
valores o precios durante el período que se está investigando, respecto a otro que se considera base.
Los rasgos más importantes de la construcción de un número índice son: su cobertura, el período base, el
sistema de ponderación y el método de promediación de las observaciones.
30
GLOSARIO
Atributo Muestreo sistemático
Cobertura Muestreo de atributos
Características Muestreo de aceptación
Características cualitativas Números índices
Características cuantitativas Observación parcial
Censo Período base
Elementos Población
Estimación Población objetivo
Estimador Población finita
Estimación puntual Población infinita
Estimación por intervalo Promedio
Error Proporción
Intervalo de confianza Probabilidad
Investigación total Probabilidad apriori
Investigación exhaustiva Razón
Medición Recuento
Media Series de tiempo
Muestra Series cronológicas
Muestreo Sesgo
Muestreo aleatorio Subpoblación
Muestreo por cuotas Unidad
Muestreo voluntario Universo
Muestreo no aleatorio Variables
Muestreo aleatorio simple Variables discretas
Muestreo aleatorio estratificado Variables continuas
31
CUESTIONARIO
1. En cada uno de los casos señalados, en la siguiente lista, indicar si es variable o atributo; al mismo
tiempo, establecer la medida más indicada (media, total, proporción).
a) Biología: peso de un ser vivo.
b) Agricultura: cultivo de legumbres.
c) Economía: ventas efectuadas por una empresa.
d) Demografía: número de hijos de una familia.
e) Demografía: estado civil.
2. El directorio de una ciudad data de 4 años atrás y tiene las direcciones a lo largo de cada calle, con
los nombres de las personas que viven en cada dirección. ¿Cuáles son las deficiencias de este marco,
si se utiliza para tomar una encuesta por muestreo? ¿Pueden ser corregidas tales deficiencias durante
los trabajos de terreno? Al usar el directorio, ¿extraería usted una lista de direcciones o una lista de
personas?
5. Utilizando como población los estudiantes de su plantel, identifique 10 características. Diga cuáles
son atributos y cuáles variables. En las variables distinga las discretas y las continuas.
6. Señale con una (A) las series constituidas por datos cualitativos y con una (V) las que son
cuantitativas:
a) Nacionalidad d) Profesión h) Gasto en alimentación
b) Temperatura f) Número de tornillos producidos i) Llamadas diarias
c) Estado civil g) Filiación política
7. Los directivos de una fábrica estudian un programa de vivienda para sus empleados y solicitan
información a un grupo de 30 de ellos de un total de 350 empleados, sobre el número de habitaciones
que requerirá su vivienda, en el caso de salir favorecido en el programa. Es de aclarar que la
investigación se hace únicamente a aquellos que tiene más de cuatro años de antigüedad y en la
actualidad no tienen vivienda. ¿Cuál es la:
a) Población? b) Muestra? d) Característica? e) Cómo clasifica la característica
32
a) Si de las jaulas de un criadero de gallinas se toma una muestra de 25 animales, seleccionando
aquellos que alcanza la mano.
b) Si se toman las hojas de registro de matrícula de los alumnos de un instituto y se selecciona una
muestra de 20 hojas a intervalos regulares.
c) Si de una muestra de frutas que se encuentran en un recipiente bastante grande, se toma como
muestra la porción correspondiente a los 10 centímetros de la parte superior de la vasija.
d) Si para conocer el sentimiento popular sobre una medida de orden público, se, entrevistan a 30
personas que pasan por; un sitio importante de la ciudad.
FUENTES DE INFORMACIÓN
Las fuentes de información se clasifican en internas y externas.
Las fuentes internas: allí los datos se producen y se registran internamente dentro de la empresa, donde se
puede obtener información sobre ventas, producción, cuentas por cobrar, consumo de materia prima,
horas trabajadas, etc.
Quizá por desconocimiento, o ignorancia, muchos no le dan importancia a las fuentes de información
interna, y sólo las consideran como operaciones corrientes que forman parte de la rutina de los
departamentos de contabilidad, ventas, producción, recursos humanos, etc., desconociendo que la
verdadera investigación comienza precisamente allí para iniciar, de esta manera, la búsqueda de
información externa, por no encontrarse ésta dentro de los archivos y documentos de la empresa.
Las fuentes externas: son aquellas que nos suministran informaciones o datos de lo que sucede fuera de la
empresa. Estas informaciones se obtienen de boletines, revistas, periódicos, publicaciones especializadas
o informes realizados por otras entidades o empresas.
También las fuentes de información se clasifican en primarias y secundarias. Cuando una persona,
entidad o empresa realiza una investigación, con las consiguientes etapas de recolección, procesamiento y
análisis, esta información se constituye en fuente primaria; en cambio, para otra persona, entidad o
empresa diferente a quien la produce, se convierte en fuente secundaria.
Algunos denominan a las fuentes primarias métodos de observación directa, ya que la información la
recoge el interesado, mediante la aplicación de un formulario o cuestionario. Gracias a ellas se observan o
se registran los datos directamente de la fuente de información, o sea, de la unidad que es objeto de
estudio.
CLASES DE INVESTIGACIÓN
La investigación se podrá clasificar en dos clases: descriptiva y experimental.
Investigación descriptiva. Se realiza sobre hechos reales con e] fin de explicar, de modo sistemático,
sus características. Esta clase de investigación comprende etapas como la recolección, descripción,
33
análisis e interpretación de los datos; también puede referirse al análisis de datos provenientes de fuentes
secundarias. Se puede decir que, generalmente, se utilizan el método de casos y el estadístico.
Algunos las denominan modelos metodológicos, y las clasifican en; a) Histórico; b) Experimental; c)
Descriptivo; d) Correlacional; e) Expost-facto sobre hechos cumplidos; f) Cuasi experimental; g) Teórico;
h) Participativo; i) Evaluativo; j) Estudios de casos; y k) De investigación bibliográfica.
34
en los diferentes departamentos, sobre: ventas, participación del mercado, costos, liquidez, imagen,
etc., que en algunos casos pueden mostrar anormalidad, síntomas sobre los cuales se deben diseñar
los correctivos por aplicar, con base en la formulación de una serie de hipótesis.
La decisión de realizar una investigación nace cuando se siente la necesidad de diseñar correctivos o
fijar políticas a corto o largo plazo, que mejoren la situación de la empresa, y cuando no se dispone
de una información adecuada, lo cual requiere de la elaboración de un plan de investigaciones, que
permita la recolección y análisis de esos resultados.
Se debe tener muy en cuenta que las conclusiones estadísticas dependerán en gran parte de la
información recogida y ésta, a su vez, dependerá de la formulación del problema.
2. Formulación de objetivos. Tendrán que estar claramente definidos, indicándose lo que se desea
hacer. ¿Qué se va a investigar? ¿Cómo se va a realizar? ¿Cómo se pueden obtener los datos? Si
mediante una investigación parcial o total. ¿Cuál sería el diseño de muestreo? ¿Qué cobertura
tendría? ¿Dónde se va a investigar? ¿En qué lugar? ¿Qué áreas deberán ser incluidas? ¿Cuándo es el
momento más indicado para llevarlo a cabo? ¿Cuándo se necesitan? ¿Para qué se requiere la
información? ¿A quién va dirigida? ¿Cuál es la unidad de investigación?
4. Formulación de hipótesis. Las hipótesis son supuestos que se hacen en una investigación para luego
ser comprobados. Las hipótesis estadísticas son aquellos supuestos hechos respecto a valores de la
población o parámetros, y cuya comprobación requiere la aplicación de métodos estadísticos.
Aquellas que no hacen referencia a un valor: media, proporción, razón, etc., son simplemente
hipótesis. Son ejemplos de hipótesis descriptivas: que el rendimiento del curso en el presente período
lectivo es bueno; que en un Gobierno de coalición, la inmoralidad de los funcionarios disminuirá; que
si hay inversión social, la situación de orden público mejorará, etc.
En cambio si dijéramos que los salarios en el año venidero aumentarán por encima del índice de
precios al consumidor, o que los precios en diciembre subirán en una proporción inferior a la del año
pasado, todos ellos serán ejemplos de hipótesis estadísticas.
35
5. Método de investigación. Se vio anteriormente, que la investigación puede ser total (censo) o parcial
(muestra), dependiendo de ciertos factores que también se mencionaron: como costo, tamaño de la
población, tiempo. Sabiendo, además, que cada elemento tendrá cierta cantidad de información, se
deberá seleccionar la estrictamente necesaria, dependiendo también del número de unidades que se
va a investigar, su dispersión geográfica y el grado de variabilidad que la característica presenta.
El diseño de la encuesta por muestreo nos ayudará a controlar la cantidad de información y su
variación, y en la decisión sobre cuál es el método más indicado en esa investigación. Se procederá
luego a establecer el método de medición o recolección de datos, siendo los más usuales entre otros:
las entrevistas personales, por teléfono, la observación directa, cuestionarios enviados por correo,
Internet, etc. Cada uno de ellos presentará ventajas y desventajas. Cualquiera de estos métodos que se
vaya a aplicar, se tendrá muy en cuenta al elaborar preguntas que minimicen la falla de respuestas, o
contestaciones incorrectas. Al diseñar un cuestionario vale la pena considerar ciertos aspectos: a)
Incluir únicamente las preguntas que sean necesarias, puesto que un elevado número incrementará su
costo y tiempo; b) hacer preguntas claras, concisas, utilizando términos a nivel del informante, para
que sean entendidas por todas aquellas personas involucradas en el estudio; c) no hacer preguntas que
de antemano estamos seguros no van a ser contestadas; d) iniciar con las preguntas generales, para
luego seguir con las específicas.
Las preguntas, hasta donde sea posible, deben ser cerradas, teniendo el informante dos posibilidades
de respuestas: sí o no. También podrían corresponder a una respuesta numérica simple, por ejemplo,
la edad, para que una persona coloque en un espacio indicado, el número de años o para que elija uno
de los intervalos preestablecidos. Se acostumbra, con mucha frecuencia, utilizar preguntas de
selección múltiple, donde la persona podrá señalar más de una, como en la pregunta referente al
deporte o deportes que practica, las preguntas poco recomendables por la dificultad que presentan en
su tabulación son las abiertas, que permiten la libre expresión, de acuerdo con la opinión que se tenga
en el momento de la entrevista.
Antes de aplicar el cuestionario, es necesario someterlo a prueba realizando una pequeña pre-
encuesta, lo cual permitirá hacer las correcciones que sean necesarias, mejorar su diseño tanto en las
preguntas como en las instrucciones. Se podría agregar que la encuesta preliminar o piloto permite,
entre otros aspectos, familiarizar al entrevistador con el formulario y con la unidad a la que se va
aplicar el instrumento; conocer la reacción de los informantes; determinar el tiempo que dura la
entrevista. De esta manera se estimará el tiempo necesario en la recolección. Algo que es
indispensable en cualquier investigación hoy día, es tener conocimiento sobre la población objeto de
estudio, para poder estimar la varianza o la proporción, indispensables para determinar el tamaño
óptimo de la muestra.
6. Viene luego la recolección de datos, distribuyendo o aplicando los instrumentos de medición, de los
cuales ya hicimos referencia. Se recomienda la supervisión permanente del trabajo de los
encuestadores, quienes con anterioridad recibieron un riguroso entrenamiento sobre la forma de
entrevistar, el manejo del instrumento y el propósito de la encuesta. Por otra parte, es el momento de
volver a la fuente de información cuando se detecten inconsistencias, para así corregir fallas de algún
36
entrevistador, o para hacer planes para las no respuestas o unidades que no fueron detectadas o
localizadas.
9. Finalmente, llegamos a la etapa de elaboración del informe y su publicación, ya sea para uso interno
de la empresa o para los particulares.
La redacción y entrega del informe final, corresponde a la última etapa de la investigación y a la
culminación de todos los trabajos que la misma causó.
A pesar de que el informe constituye un todo indivisible, podemos considerar tres partes
perfectamente identificables: introducción, conclusiones y apéndices.
Introducción. En esta parte del informe se utilizará un lenguaje sencillo y ameno, dejando aparte los
tecnicismos, de manera que sea entendible; además, debe mantenerse una secuencia que guarde
armonía con el proceso utilizado en la investigación. Se hará claridad sobre el planteamiento del
problema que nos condujo a la realización del estudio, la fijación de objetivos, elección del método
de investigación aplicado, incluido el método de selección utilizado; el tamaño de la muestra
calculada, así como el diseño del cuestionario, las preguntas que dieron lugar, la indicación de la
fecha en que se inició y terminó la recolección de la información. En las páginas siguientes, en forma
breve y descriptiva, se hará la exposición de los puntos más importantes, apoyados en cuadros,
gráficas y otros resultados que sean consecuencia de la aplicación de métodos estadísticos.
Conclusiones. Constituye la parte fundamental del informe, ya que en ella aparecen relacionados los
resultados obtenidos, la confrontación con lo esperado, la exposición de cómo deben ser
interpretados y qué es lo que de ellos se deduce. El informe, además, debe remitir al lector, cuando
sea necesario, a consultar los cuadros y gráficas que hagan más comprensible la explicación y, sobre
todo, presentar recomendaciones.
Apéndices. Integra toda la documentación que se ha citado en la introducción y en las conclusiones,
para que el lector del informe pueda consultar rápidamente y con facilidad cualquier información
contenida en el mismo.
37
PROCESO EN LA SELECCIÓN DE ELEMENTOS
Cuando nos referimos al Muestreo Aleatorio Simple (MAS), se mencionaron y explicaron, en forma
simple, algunos de los métodos para la selección de unidades; sin embargo, parece recomendable
detenernos en ello y dar una explicación un poco más amplia, que permita su aplicación inmediata a
través de ejercicios desarrollados en clase.
Para la utilización de cualquiera de los métodos de selección es necesario tener en cuenta los siguientes
aspectos:
- Elaborar un listado completo y actualizado de los elementos o unidades que conforman la población
objetivo. Por ejemplo, si se considera como población los alumnos matriculados en un plantel; si se
va a investigar el total de droguerías existentes en una ciudad; a los trabajadores de una empresa; o el
total de manzanas de una zona o barrio, en todas estas poblaciones se deberá elaborar un listado o
croquis que se constituye en el marco de referencia, y del cual se extraerán los elementos que
constituirán la muestra.
En la elaboración de un marco, se podrá utilizar el libro o actas de matrícula que tenga el plantel; el
listado de droguerías inscritas en la Secretaría de Salud o en la Cámara de Comercio; la nómina que
utilizó la empresa para el pago de los salarios. La oficina de Catastro nos puede suministrar el
croquis donde se localizan las zonas, barrios o vivienda que son objeto de estudio.
- Las unidades o elementos estarán identificados en el marco, ya sea mediante el nombre, su dirección
o el código que utiliza el elemento. Generalmente, se procede a la enumeración de la población. Si
ésta está constituida por 82 elementos, serán numerados desde 01 hasta 82; si es 480 elementos, se
numerarán desde 001 hasta 480, utilizando tres dígitos para cada cifra; si la población es 1350
elementos, se utilizarán cuatro dígitos, y así sucesivamente.
- Confeccionado el marco e identificada cada unidad, se hará la selección aplicando cualquiera de los
siguientes métodos; sorteo, tablas de números aleatorios, selección sistemática o la utilización de
calculadoras.
Sorteo. Se procede en forma similar a la realización de un sorteo o al juego de lotería. Para ello,
preparamos fichas, papeletas, cartoncitos o balotas. Cada balota, por ejemplo, identificará un
elemento. Introducidas en un recipiente, se extrae de una en una, con reposición o sin el la, teniendo
en cuenta revolverlas en cada extracción.
Selección sistemática. Denominada también selección a intervalos regulares, se emplea de
preferencia cuando las unidades están ordenadas en cuanto al valor o al tiempo de ocurrencia. En las
oficinas se cuenta con gavetas que contienen archivos diseñados en tarjetas, que permiten extraer
varias de ellas a intervalos regulares.
El procedimiento que se sigue es calculando un intervalo de selección, siendo: I = N/n; N es el tamaño
de la población, y n el tamaño de la muestra. Supongamos que N=50 y n=10. El valor de I será 50/10
igual a 5. Luego, seleccionamos un número al azar dentro de este intervalo, es decir, entre 1 y 5.
38
Supongamos que se obtuvo 3. Este será el primer elemento seleccionado; el segundo será 8; e! tercero
13, y así sucesivamente se le irá sumando a cada número resultante el valor del intervalo, hasta
completar el valor de n.
Uso de las tablas de números aleatorios. Este método es el más utilizado, ya que garantiza que
todos los elementos tengan igual probabilidad de ser seleccionados, pues se eliminan aquellos
factores negativos, como son el factor humano y las condiciones físicas del material utilizado en la
elaboración de las fichas. En los diferentes textos de estadística se podrán observar estas tablas,
presentadas en formas diferentes, con cifras de 2, 4, 6, 8 o 10 dígitos, en busca de hacer más fácil su
observación. Para ello, ver tabla. Para la lectura de esta tabla se harán algunas recomendaciones:
— Seleccionamos una tabla al azar (para nosotros, va a ser la tabla indicada mas abajo).
— Luego, sin mirar la tabla seleccionada, colocamos el dedo en un lugar determinado, el que será
considerado como punto de partida.
— Determinamos cuántos dígitos se tendrán que utilizar, de acuerdo con el tamaño de la población.
— Se establece la dirección que se seguirá en su lectura.
— Sólo serán seleccionados aquellos números que formen parte del marco muestral.
— La selección se hará con reposición o sin ella. En el primer caso el elemento podrá ser
seleccionado más de una vez; en el segundo, una vez tenido en cuenta, no podrá ser nuevamente
seleccionado.
03 70 22 67 59 98 10 64 6 8 08 79 06 89 48 41 15 72 10 87 24 96 04 20 68 00
08 45 79 46 89 74 73 67 6 0 15 70 37 61 44 07 27 89 81 54 26 57 17 63 27 74
37 80 05 75 64 08 51 68 6 8 27 71 75 45 32 27 36 35 26 58 88 67 74 48 90 94
90 63 56 69 37 19 74 48 6 3 31 52 36 84 40 66 02 66 03 41 87 65 29 12 36 64
22 69 38 02 88 89 71 43 0 1 87 41 79 42 99 29 11 08 47 32 19 45 29 59 69 90
05 79 69 67 64 36 14 82 65 26 40 51 63 42 48 25 48 34 12 04 33 26 52 26 52
48 91 53 03 82 64 24 06 31 03 97 44 82 24 89 88 48 66 54 10 41 27 09 11 61
94 64 97 27 25 62 23 94 40 54 56 32 97 78 90 38 86 41 75 19 42 90 85 36 68
15 85 82 52 08 52 96 26 92 88 93 11 03 23 52 08 23 57 85 43 53 90 42 22 22
09 81 37 66 56 99 08 59 19 48 29 69 21 64 95 52 08 15 24 45 59 25 22 76 96
39
43 83 99 02 76 12 16 45 52 66 35 70 93 09 52 15 40 34 35 62 65 42 27 20 59
31 98 09 80 62 75 26 64 57 26 46 41 47 90 97 29 46 10 51 42 73 28 98 89 91
81 35 42 62 84 37 02 59 78 16 17 96 05 71 39 08 05 34 05 92. 22 43 89 66 89
97 95 56 39 75 65 47 61 86 33 14 88 55 33 69 10 87 79 94 46 17 61 72 27 01
37 63 35 93 23 17 30 14 51 51 17 28 21 74 67 3211 57 19 27 38 70 73 82 92
39 22 96 00 48 52 4 9 62 09 4 0 08 30 27 54 70 46 06 52 12 80 36 12 38 68 05
61 29 84 34 51 60 1 9 77 82 16 64 45 02 27 04 65 55 90 95 04 20 39 29 96 28
38 84 18 10 29 10 0 9 66 06 78 37 09 60 50 21 22 72 01 52 70 29 65 05 37 16
64 29 48 04 08 55 7 2 25 25 77 54 26 27 24 39 36 67 06 40 00 99 35 70 69 58
64 02 32 99 63 62 4 2 89 32 20 81 14 08 40 45 82 15 37 49 38 96 51 19 08 27
13 83 39 51 30 31 4 9 94 83 66 02 50 95 18 98 98 84 90 58 81 00 40 91 12 46
83 30 90 09 35 41 1 2 87 93 66 85 96 20 65 34 13 13 05 41 01 91 48 95 59 45
46 63 53 97 63 18 8 6 37 56 20 35 62 66 11 37 20 91 89 97 51 64 78'06 95 65
54 43 40 02 41 55 7 0 52 96 87 02 82 61 21 88 50 65 98 42 09 03 61 20 83 01
27 18 65 62 01 97 4 5 79 51 37 74 47 20 11 48 77 93 73 86 50 46 61 95 01 24
45 42 16 13 20 34 5 1 08 71 52 39 17 71 39 84 17 27 72 49 42 81 62 32 87 22
35 92 97 02 34 93 3 2 95 81 13 92 05 40 70 95 11 66 61 24 08 77 32 73 66 79
60 55 35 57 24 52 9 5 84 90 64 38 39 72 70 17 28 42 85 96 67 41 11 83 17 78
43 17 21 09 60 58 8 6 12 31 11 66 61 43 96 00 53 97 00 15 20 37 96 73 56 63
07 85 74 58 28 38 7 4 68 32 61 87 14 71 83 47 60 11 96 70 08 67 04 34 46 08
33 00 29 08 87 42 5 9 40 24 97 44 99 13 56 87 65 02 47 97 89 23 51 45 37 83
97 14 00 42 23 72 0 3 19 02 41 11 23 36 98 32 29 91 42 03 58 62 23 74 45 06
68 58 32 80 82 40 4 9 71 83 37 93 49 99 69 72 38 14 26 88 95 48 69 35 40 63
39 87 38 16 06 82 9 2 62 32 75 67 64 50 49 39 49 55 53 92 97 04 48 60 53 90
37 73 01 84 87 42 8 8 30 93 75 01 18 34 73 30 58 44 28 18 01 00 38 26 38 57
15 62 38 72 92 03 7 6 09 3 0 75 77 80 04 24 54 67 60 i 3 79 26 21 60 03 48 14
77 81 15 14 67 55 2 4 22 2 0 55 36 93 67 69 37 72 22 46 46 32 56 15 75 25 12
18 87 05 09 96 45 1 4 72 4 1 46 12 67 46 72 02 59 06 10 49 12 73 28 23 52 48
08 58 53 63 66 13 0 7 04 4 8 71 39 07 46 96 40 20 86 72 11 81 74 11 15 23 17
16 07 79 57 61 42 1 9 68 1 5 12 60 21 59 12 07 04 99 84 22 39 75 16 69 13 84
GLOSARIO
Encuesta Modelo teórico
Encuesta preliminar Modelo participativo
Formulación del problema Modelo evaluativo
Fuentes internas Objetivos generales
Fuentes externas Objetivos específicos
Fuentes primarias Observación directa
Fuentes secundarias Preguntas abiertas
Hipótesis Preguntas cerradas
Investigación bibliográfica Preguntas de selección múltiple
Investigación descriptiva Preguntas de control
Investigación experimental Proporción
Marco Recolección
Marco muestral Tabulación
Métodos estadísticos
Métodos de medición
Modelo experimental
Modelo histórico
Modelo correlacional
Modelo expost-facto
40
CUESTIONARIO
1. Analice el uso de las preguntas cerradas. Compárelas con las preguntas abiertas. Dé tres ejemplos de
cada una. Formúlese dos preguntas en forma cerrada y abierta.
2. Los entrevistados comúnmente reciben llamadas por teléfono, de personas que realizan encuestas
durante la hora de la comida.
Quienes planean la encuesta, probablemente piensan que muchos de los entrevistados se encuentran
en casa en esos momentos. Analice los pros y contras de dicho procedimiento
3. Mencione como mínimo tres características de interés en el caso que tenga como unidad:
a) familia;
b) predio agrícola;
c) establecimiento industrial;
d) paciente de una clínica de previsión social;
e) producto terminado.
4. Se requiere información para el lanzamiento de un nuevo producto y se cuenta, apenas, con los siguientes
datos:
a) Demanda de productos similares por las amas de casa, en la ciudad.
b) Producción nacional de este artículo, información tomada de las publicaciones del ministerio
c) Costo de la producción, en la empresa.
d) Análisis de los precios de la materia prima, obtenido de la Asociación de Productores.
Determinar si los datos son internos o externos; además, si las fuentes son primarias o secundarias.
7. Una población consta de 1.200 unidades numeradas desde 0001 hasta 1.200. Es necesario seleccionar una
muestra aleatoria simple sin reemplazamiento de tamaño 25. ¿Cómo lo haría usted si le pidieran que lo
hiciera aplicando la selección sistemática?
8. En un periódico o una revista reciente, donde usted pueda tomar ejemplos de la aplicación de la
estadística, seleccione un artículo que dé respuesta a los siguientes interrogantes:
a) ¿Cuál es la población investigada?
b) ¿La investigación fue total o parcial?
c) ¿Qué tipo de datos se utilizó?
d) ¿Qué fuente de datos considera para usted este informe?
e) ¿Qué estadística se aplicó, descriptiva o de inferencias?
9. Se debe responder "verdadero" si el enunciado lo es. Si, por el contrario, no es válido, hay que sustituir la
palabra destacada por otra, con la cual el enunciado adquiere validez.
a) Un parámetro es la medida de alguna característica estudiada en las unidades de una muestra.
b) El número de peces de una laguna corresponde a una población finita.
c) El número de pacientes atendidos en una clínica de la ciudad, según enfermedad diagnosticada, es un
ejemplo de variable.
41
f) La idea básica de la estratificación es la posibilidad de dividir una población heterogénea en
subpoblaciones, cada una de las cuales es homogénea.
11. En un estudio de actitudes en un conjunto de empleados de, una empresa, se dispone de un listado de
empleados por departamentos, cargos y tiempo de servicio, para un total de 567 empleados. Sin embargo,
por uno u otro motivo el estudio se retarda 14 meses. Si continuara en las mismas condiciones anteriores
al retardo y con el mismo marco, ¿qué problema se puede presentar?
42
UNIDAD III ELABORACIÓN DE CUADROS Y GRAFICAS
OBJETIVOS
- Estar en capacidad de seleccionar, elaborar e interpretar gráficas en las investigaciones que realice.
GENERALIDADES
Una vez que se ha recogido toda la información, por cualquiera de los métodos indicados: censo, muestra
o mediante el registro continuo, tal como sucede en las diferentes empresas, se debe proceder a la
organización de esos datos, mediante la clasificación y tabulación.
El primer procedimiento que debe seguirse consiste en fijar cuál va a ser el criterio de clasificación u
ordenación que se va a utilizar, ya que su determinación depende de la clase de datos recolectados.
Algunos de los criterios que pueden tenerse en cuenta son:
a) Si hacemos una investigación en una empresa sobre su personal, referente a cargos, profesión, sexo,
departamento en el que labora, se observa que todas esas características son cualitativas, que se
pueden clasificar cada una de ellas en un orden alfabético.
c) Los accidentes de tránsito según las causas que los originan, se pueden ordenar alfabética y
geográficamente. Pero si esta característica es representada por días, meses o años, se le denomina
clasificación histórica o cronológica.
Supongamos la realización de una investigación a fumadores sobre las marcas más preferidas, cuyos
resultados fueron: Líder, Belmo, Kool, Luky Strike, Marlboro y Lark. Observamos que la característica
"marca de cigarrillos" queda totalmente clasificada por las seis categorías encontradas. Si con la anterior
información clasificamos a los fumadores por nivel socio-económico dentro de tres categorías: alto,
medio y bajo, se estará utilizando una escala ordinal, puesto que clasificamos en orden jerárquico.
43
Escalas numéricas son las que utilizamos para clasificar las características cuantitativas o variables.
Algunos las dividen en escalas a intervalos regulares, las que son establecidas cuando no existen patrones
de medición de uso común, por ejemplo, cuando se requiere medir la inteligencia, hábitos, actitudes,
formas de comportamiento. Las escalas proporcionales, al contrario de las anteriores, están dadas por
unidades de uso corriente, como cuando clasificamos 50 establecimientos por volumen de ventas, número
de empleados, etc.
La tabulación puede realizarse en forma manual o mecánica. La decisión sobre cuál de ellas se debe
elegir, depende de muchos factores, entre otros: el número de formularios, la cantidad de preguntas que
tenga el instrumento de recolección y la disponibilidad de equipo. De todas formas, se requiere la
elaboración de un plan de tabulación, que debe referirse al diseño de una serie de cuadros o tablas, que
deben atender al objetivo de la encuesta, permitiendo la presentación de los datos en forma clara y su
análisis, mediante la aplicación de algunas medidas, o su representación gráfica.
Los cuadros que constituyen el plan de tabulación, sea esta manual o mecánica, no deben ser
necesariamente iguales a los finales o de publicación de resultados; sin embargo, es preferible que sean
iguales por economía de tiempo y dinero. Los cuadros, de acuerdo con el número de características que se
van a presentar, se clasifican en simples, de doble entrada y múltiple entrada. Los cuadros simples
siempre representan una sola variable o un atributo; los cuadros de doble entrada se elaboran para
presentar dos variables, dos atributos o una variable y un atribulo; finalmente, una tabla múltiple permite
la presentación de más de dos características. Cuando en un cuadro se combinan variables con atributos,
algunos lo denominan tabla mixta.
44
ELABORACIÓN DE LAS TABLAS DE FRECUENCIAS
Las tablas de frecuencias corresponden a una agrupación o clasificación de los datos, con el fin primordial
de determinar la frecuencia con que se repite el atributo o el valor que toma la variable. En este último
caso nos referiremos como distribución de frecuencias a aquellas tablas que son elaboradas atendiendo al
número de observaciones o datos relativamente grande, siendo, a la vez, la aplicación primaria de la
estadística.
ATRIBUTOS
Se ha dicho que estas características se expresan mediante palabras. El término se emplea habitualmente
para distinguirlo de la palabra "variable" o característica cuantitativa. Así, por ejemplo, el sexo, estado
civil, profesión, cargo, ocupación, aficiones, estudios realizados y otros más, se clasifican como atributos,
pero la edad, salario, tiempo de servicio, personas a cargo, retardos en el mes, horas laboradas, etc., son
ejemplos de variable. Con frecuencia los atributos son dicotómicos, de modo que cada miembro de una
población se incluye en uno de los dos grupos conforme posea una característica específica o no la posea.
Los atributos también permiten clasificaciones múltiples, ya que una persona puede tener preferencia por
más de una opción, por ejemplo, sobre una marca de un determinado producto. La tabulación en atributos
es muy sencilla, pues su cuantificación se hace mediante el conteo del número de veces que se presenta o
se repite la característica investigada. Supongamos una encuesta realizada a 20 trabajadores sobre el
hábito de fumar, con tos resultados siguientes:
Hay casos en que el total no puede corresponder al tamaño de la encuesta, ni al ciento por ciento de su
distribución porcentual.
Consideremos una encuesta a 80 fumadores sobre las marcas que prefieren, con el siguiente resultado:
PORCENTAJE
MARCA DE CIGARRILLO NÚMERO DE FUMADORES
%
Lider 12 15.0
Kool 8 10.0
Luky Strike 6 7.5
Marlboro 10 12.5
Piel roja 30 37.5
Royal 16 20.0
28 35.0
Puede observarse que en vez de darnos un total de 80 fumadores encuestados, el resultado es 110; ello se
debe a que existen fumadores que tienen preferencias por más de una marca; algo similar ocurre con el
45
porcentaje que sumado da 137,5, diferente al 100%; en este caso el porcentaje de cada marca tiene como
base el 100%, es decir, se considera como total los 80 fumadores que corresponden al tamaño de la
encuesta.
Un cuadro de doble entrada podría ser la clasificación de 150 empleados, según estado civil y sexo.
SEXO TOTAL
ESTADO CIVIL Masculino Femenino
Soltero 28 22 50
Casado 52 10 62
Separado 17 5 22
Viudo 3 1 4
Unión libre 10 2 12
Total 110 40 150
VARIABLES
Se ha dicho que éstas se clasifican en discretas y continuas. Las primeras son todas aquellas que admiten
únicamente valores enteros; las segundas las que admiten valores fraccionarios. Así que el procedimiento
que se debe seguir en la elaboración de una tabla de frecuencias se hará atendiendo a la anterior
clasificación.
Variable discreta
Para la elaboración de una tabla de frecuencias, tanto para la variable discreta como para la continua,
utilizamos una serie de símbolos, con los cuales tenemos que familiarizarnos, ya que continuamente los
emplearemos, pues son una forma de entendernos, es decir, de hablar un mismo lenguaje. Estos términos
son:
xi es una manera de simbolizar el valor de cada observación, esto es, el valor que toma la variable.
Donde i puede tomar valores desde uno, dos, tres... hasta n, cuando corresponde a datos
originales o no agrupados. En datos agrupados, cuando se ha elaborado una tabla de
frecuencias, i toma valores desde uno hasta m. Puede simbolizar también marcas de clase, siendo
el promedio entre el límite inferior y el superior en un intervalo.
m es el número de valores que toma la variable en una tabla de frecuencias. En la variable continua
recibe el nombre de número de marcas de clase o número de intervalos.
fi = ni se denomina frecuencia absoluta y corresponde al número de veces que se repite cada valor de la
variable, dentro de los límites determinados. Siempre son números enteros y su suma debe ser
igual al total de las observaciones investigadas, es decir n.
46
fi/n=h es la frecuencia relativa, entendida como los cuocientes obtenidos entre el valor de una
determinada frecuencia absoluta y el total de observaciones. Las frecuencias relativas serán
valores fraccionarios, es decir, comprendidos entre 0 y 1. Además, la suma de todas estas
frecuencias debe ser igual a uno, o sea, el 100%.
Supongamos un ejemplo de variable discreta para construir una tabla de frecuencias: una empresa tiene
220 empleados, de los cuales selecciona una muestra al azar de 50 de ellos, con el fin de investigar qué
porcentaje y con qué frecuencia hay retardos en la llegada del personal en las horas de la mañana; para
ello, se recogen las tarjetas de control de la última quincena, cuyos resultados fueron:
x1 = 2 x2 = 1 x3 = 3 x4 = 4 x5 = 0 x6 = 2 x7 = 3 x8 = 1
x9 = 3 x10 = 5 x11 = 6 x12 = 3 x13 = 3 x14 = 4 x15 = 1 x16 = 2
x17 = 2 x18 = 3 x19 = 5 x20 = 3 x21 = 4 x22 = 0 x23 = 2 x24 = 1
x25 = 3 x26 = 4 x27 = 2 x28 = 3 x29 = 1 x30 = 0 x31 = 2 x32 = 5
x33 = 3 x34 = 1 x35 = 2 x36 = 4 x37 = 5 x38 = 1 x39 = 4 x40 = 3
x41 = 0 x42 = 2 x43 = 3 x44 = 6 x45 = 3 x46 = 5 x47 = 4 x48 = 3
x49 = 2 x50 = 4
Cada elemento queda representado por un símbolo; así, si se nos pide cuáles son los valores para x 11, x26 y
x42, diremos que son 6, 4 y 2, respectivamente.
Ahora determinamos los valores que toma la variable y observamos que son: 0 1 2 3 4 5 6; en total 7, el
cual lo simbolizamos con m = 7.
A continuación tabulamos, es decir, determinamos cuántas veces se presenta cada valor que toma la
variable.
Vamos a presentar dos tablas, una con los valores de las frecuencias y la otra con los símbolos
respectivos.
47
xi fi fi/n Ni Hi xi fi fi/n Ni Hi
0 3 0,06 3 0,060 x1 f1 f1/n N1 H1
1 7 0,14 10 0,20 x2 f2 f2/n N2 H2
2 10 0,20 20 0,40 x3 f3 f3/n N3 H3
3 15 0,30 35 0,70 x4 f4 f4/n N4 H4
4 8 0,16 43 0,86 x5 f5 f5/n N5 H5
5 5 0,10 48 0,96 x6 f6 f6/n N6 H6
6 2 0,04 50 1,00 x7 f7 f7/n N7 H7
∑ 50 1,00 - - ∑ n 1,00 - -
c) Las frecuencias relativas son números fraccionarios así: 0 < fi/n <1
Variable continua
Corresponde a aquella variable que admite fracciones siendo el resultado de la aplicación de algún
método de medición. A los símbolos anteriores dados para una variable discreta, es necesario agregarles
algunos más, que son propios de esta variable.
xmáx es el valor máximo que toma la variable, cuando los datos se encuentran sin agrupar.
Rango = Recorrido es la diferencia entre el valor máximo y mínimo que toma la variable. R = xmáx –
xmín.
m número de intervalos o marcas de clase. Es un valor que en algunos casos se toma por
conveniencia o porque la información se ha venido presentando en esa misma forma. Se aconseja
que el valor de m no debe ser menor que cinco ni mayor que 16. Es preferible utilizar la fórmula
m = l + 3,3 log n.
48
C es la amplitud del intervalo y no necesariamente debe ser constante. Por facilidad, se utilizará
una amplitud constante: c = rango m, y siempre que su resultado sea fraccionario, por
pequeña que ella sea, se aproximará al número inmediatamente superior.
x1 = 42 x37 = 61
x9 = 51 x45 = 53
x17 = 42
x25 = 50 x6 = 62
x33 = 55 x14 = 61
x41 = 65 x22 = 46
x49 = 50 x30 = 58
x2 = 56 x38 = 50
x10 = 56 x46 = 40
x18 = 60
x26 = 36 x7 = 45
x34 = 60 x15 = 56
x42 = 53 x23 = 54
x50 = 46 x31 = 62
x3 = 39 x39 = 58
x11 = 37 x47 = 65
x19 = 61
x27 = 56 x8 = 45
x35 = 54 x16 = 50
x43 = 56 x24 = 62
x32 = 48
x4 = 48 x40 = 57
x12 = 42 x48 = 55
x20 = 46
x28 = 52
x36 = 38
x44 = 57
x5 = 54
x13 = 56
x21 = 51
x29 = 63
49
Pasos que deben seguirse para la confección de una tabla de frecuencias, cuando se tiene una variable
continua.
d) Se determina el valor de m o número de intervalos necesarios para agrupar los datos. Se puede tomar
un valor arbitrario. Recordemos que no se deben elegir muchos ni pocos intervalos o marcas de clase,
generalmente debe utilizarse un número no mayor que 16 ni menor que 5. También se puede
observar si la empresa o entidad que realiza el estudio lo utilizó en publicaciones o estudios
anteriores, tablas similares, con el fin de continuarlas presentando en la misma forma, con fines
comparativos.
Puede utilizarse la fórmula m = 1 +3,3 log n para calcular el número de intervalos o marcas de clase.
m = 1 + 3,3 log 50 = 1 + 3,3 (1,698970)
m = 1 + 5,60660 = 6,6066 7 se aproximó al número inmediatamente superior.
e) Determinar el valor de la amplitud, es decir, la diferencia que hay en cada uno de los intervalos de
clase y que simbolizamos por C. Por comodidad y presentación, se le considera como un número
entero; en la mayoría de los casos, como constante para cada uno de los intervalos de clase.
C = rango /m = 29/7 = 4,14 5. De todas formas, por pequeña que sea la fracción, siempre se
aproxima al número inmediatamente superior.
Si mantenemos constantes los valores de m = 7 y C = 5, notamos que el valor del rango cambia.
5 = rango + 7; el nuevo rango será 35, es decir, se incrementó en 6 unidades, y siempre que esto
suceda debe repartirse, sumándole una parte al límite superior y restando la otra al límite inferior. En
este caso, como el incremento es 6, le sumamos 3 a 65 y obtenemos 68 como nuevo xmáx y le
restamos también 3 a 36 que nos da 33 como x mín. El nuevo rango será igual a 68 - 33 = 35. Lo más
indicado es repartir el incremento, hasta donde sea posible, en partes iguales, pero no necesariamente.
f) Una vez establecido el nuevo rango, se coloca como límite inferior del primer intervalo al valor
mínimo del rango, en este caso 33, y se le va sumando el valor de la amplitud.
50
Puede observarse que al límite inferior se le ha agregado 0,1, pero sólo se hace con el fin de clasificar los
datos. Es decir, si un valor de x es igual a 48, quedará dentro del tercer intervalo, ya que el cuarto
corresponde para valores superiores a 48.
Y ´i - 1 – Y ´ i fi fi/n Ni Hi Yi
33,1 – 38 3 0,06 3 0,06 35,5
38,1 – 43 5 0,10 8 0,16 40,5
43,1 – 48 7 0,14 15 0,30 45,5
48,1 – 53 9 0,18 24 0,48 50,5
53,1 – 58 15 0,30 39 0,78 55,5
58,1 – 63 9 0,18 48 0,96 60,5
63,1 – 68 2 0,04 50 1,00 65,5
Σ 50 1,00 – – –
Y ´i - 1 – Y ´ i fi fi/n Ni Hi Yi
y´0 – y´1 f1 f1/n N1 H1 y1
x´1 – x´2 f2 f2/n N2 H2 y2
– – – – – –
– – – – – –
– – – – – –
Las marcas de clase, que aparecen en la última columna de la tabla, se pueden calcular de varias maneras:
a) Promediando los valores en cada intervalo. Para ello se suma el límite inferior con el límite superior
del intervalo y se divide por dos. (33 + 38) + 2 = 35,5; (38 + 43) + 2 = 40,5, y así sucesivamente.
b) Si la amplitud es constante, basta con obtener la primera marca de clase por el método anterior y se le
va sumando el valor de la constante, que en este caso es igual a 5.
c) Se divide la constante por 2 y el resultado se le suma al límite inferior, o se le resta al límite superior
del intervalo.
CUESTIONARIO
51
280 263 246 236 288 254 270 263 265 240
270 280 260 250 246 260 284 290 272 268
230 300 284 240 254 258 296 278 280 278
Se pide:
a) Elaborar una tabla de frecuencias, trabajando con una amplitud constante. Obtenga el número de
intervalos aplicando
m = 1 + 3,3 log n
b) Dibuje el histograma, el polígono y la ojiva.
c) ¿Aproximadamente qué porcentaje de establecimientos vende el producto a un precio inferior a
$270?
3. La sección de cobro de una empresa comercial registra los días de mora en el cumplimiento de sus
obligaciones, en un mes, a 70 deudores. Los resultados son:
0 4 4 20 3 5 0 3 3 0 4 2
0 10 5 3 3 0 0 0 2 0 0 2
0 10 5 2 8 0 5 3 5 3 10 3
5 10 5 0 4 4 0 20 10 10 0 10
16 10 12 25 12 2 16 8 12 8 3 2
3 5 3 2 16 5 25 8 4 4
a) Considere los días como variable discreta y elabore una tabla de frecuencias.
b) Dibuje el diagrama de frecuencias absolutas.
c) La empresa da tres días de gracia en los cuales no se cobra intereses por mora. ¿Qué proporción
de deudores tendrán que pagar intereses de mora?
5. Una empresa realiza una encuesta a sus 800 empleados, respecto al traslado de sus cesantías a los
fondos de reciente creación. El objetivo era determinar cuántos empleados estaban dispuestos a
aceptar el traslado de sus cesantías. Los resultados son:
Sí 256
NO 474
INDECISOS 70
6. Una muestra realizada a 250 familias de un barrio, sobre el consumo de chocolate en el desayuno de
acuerdo con las marcas de su preferencia, arrojó los siguientes datos:
52
MARCAS NÚMERO DE
FAMILIAS
A 116
B 44
C 172
D 80
E 58
Construya la gráfica que mejor représenle a este conjunto de observaciones. Explique el por que de
su decisión.
8. ¿En qué casos se debe graficar en papel semilogarítmico? ¿Cuándo en papel logarítmico?
9. Según la regla de Sturges de m = 1 + 3,3 1og n, ¿cuántas clases o marcas de clases se obtienen:
a) Si la muestra es 80 observaciones?; b) ¿si la muestra es 1.500?
10. Una programadora de T.V. realiza una encuesta telefónica sobre la aceptación de uno de sus
programas, de acuerdo con la edad del televidente. Los resultados obtenidos se presentan a
continuación:
GRUPOS DE EDADES
ACEPTACIÓN 18 a 30 30 a 50 Más de 50
Menos de 18
GUSTO 156 112 86 26
NO GUSTO 74 86 50 20
NO VIERON 10 24 18 18
11. Supongamos que 30 empleados, de acuerdo con el rendimiento en el trabajo durante una semana,
fueron clasificados así:
A = Excelente C = Aceptable F = Deficiente
B = Bueno D = Regular
Los resultados fueron: C B C A F A D B D C A B F D C A B D C C B A A C B F A D D F
Se pide:
a) Elaborar un cuadro de tabulación.
b) Presentar la información para una futura publicación.
c) Acompañar al cuadro anterior con una gráfica bien representativa.
12. Las personas que trabajan en una empresa han sido clasificadas en los últimos años por niveles de
estudio y sexo.
53
2 000 2 001 2 002 2 003
CARACTERÍSTICA
Con grado universitario 40 70 62 85
Mujeres 12 16 14 18
Hombres 28 54 48 67
Con bachillerato 120 130 118 165
Mujeres 36 38 35 42
Hombres 84 92 83 123
Total 160 200 180 250
Cómo elaboraría un cuadro? Suponga que la información que debe presentar a la Gerencia es sobre la
proporción de empleados vinculados a la empresa en los últimos años, por niveles de estudio y sexo.
13. Una encuesta de 30 trabajadores de una empresa sobre el número de accidentes de trabajo sufridos
durante su vida laboral, arrojó los siguientes resultados:
3 2 0 4 3 10 5 5 0 2 0 7 6 0 2
0 3 0 7 0 2 4 2 3 4 0 2 3 2 4
a) Construir una tabla de frecuencias.
b) Elaborar un diagrama de frecuencias absolutas.
Se ha dicho que éstas se clasifican en discretas y continuas. Las primeras son todas aquellas que admiten
únicamente valores enteros; las segundas las que admiten valores fraccionarios. Así que el procedimiento
que se debe seguir en la elaboración de una tabla de frecuencias se hará atendiendo a la anterior
clasificación.
Variable discreta
Para la elaboración de una tabla de frecuencias, tanto para la variable discreta como para la continua,
utilizamos una serie de símbolos, con los cuales tenemos que familiarizarnos, ya que continuamente los
emplearemos, pues son una forma de entendernos, es decir, de hablar un mismo lenguaje. Estos términos
son:
xi es una manera de simbolizar el valor de cada observación, esto es, el valor que toma la variable.
Donde i puede tomar valores desde uno, dos, tres... hasta n, cuando corresponde a datos
originales o no agrupados. En datos agrupados, cuando se ha elaborado una tabla de
54
frecuencias, i toma valores desde uno hasta m. Puede simbolizar también marcas de clase, siendo
el promedio entre el límite inferior y el superior en un intervalo.
m es el número de valores que toma la variable en una tabla de frecuencias. En la variable continua
recibe el nombre de número de marcas de clase o número de intervalos.
fi = ni se denomina frecuencia absoluta y corresponde al número de veces que se repite cada valor de la
variable, dentro de los límites determinados. Siempre son números enteros y su suma debe ser
igual al total de las observaciones investigadas, es decir n.
fi/n=h es la frecuencia relativa, entendida como los cuocientes obtenidos entre el valor de una
determinada frecuencia absoluta y el total de observaciones. Las frecuencias relativas serán
valores fraccionarios, es decir, comprendidos entre 0 y 1. Además, la suma de todas estas
frecuencias debe ser igual a uno, o sea, el 100%.
Supongamos un ejemplo de variable discreta para construir una tabla de frecuencias: una empresa tiene
220 empleados, de los cuales selecciona una muestra al azar de 50 de ellos, con el fin de investigar qué
porcentaje y con qué frecuencia hay retardos en la llegada del personal en las horas de la mañana; para
ello, se recogen las tarjetas de control de la última quincena, cuyos resultados fueron:
55
Cada elemento queda representado por un símbolo; así, si se nos pide cuáles son los valores para x 11, x26 y
x42, diremos que son 6, 4 y 2, respectivamente.
Ahora determinamos los valores que toma la variable y observamos que son: 0 1 2 3 4 5 6; en total 7, el
cual lo simbolizamos con m = 7.
A continuación tabulamos, es decir, determinamos cuántas veces se presenta cada valor que toma la
variable.
Vamos a presentar dos tablas, una con los valores de las frecuencias y la otra con los símbolos
respectivos.
xi fi fi/n Ni Hi xi fi fi/n Ni Hi
0 3 0,06 3 0,060 x1 f1 f1/n N1 H1
1 7 0,14 10 0,20 x2 f2 f2/n N2 H2
2 10 0,20 20 0,40 x3 f3 f3/n N3 H3
3 15 0,30 35 0,70 x4 f4 f4/n N4 H4
4 8 0,16 43 0,86 x5 f5 f5/n N5 H5
5 5 0,10 48 0,96 x6 f6 f6/n N6 H6
6 2 0,04 50 1,00 x7 f7 f7/n N7 H7
∑ 50 1,00 - - ∑ n 1,00 - -
i) Las frecuencias relativas son números fraccionarios así: 0 < fi/n <1
Variable continua
Corresponde a aquella variable que admite fracciones siendo el resultado de la aplicación de algún
método de medición. A los símbolos anteriores dados para una variable discreta, es necesario agregarles
algunos más, que son propios de esta variable.
56
xmáx es el valor máximo que toma la variable, cuando los datos se encuentran sin agrupar.
Rango = Recorrido es la diferencia entre el valor máximo y mínimo que toma la variable. R = xmáx –
xmín.
m número de intervalos o marcas de clase. Es un valor que en algunos casos se toma por
conveniencia o porque la información se ha venido presentando en esa misma forma. Se aconseja
que el valor de m no debe ser menor que cinco ni mayor que 16. Es preferible utilizar la fórmula
m = l + 3,3 log n.
C es la amplitud del intervalo y no necesariamente debe ser constante. Por facilidad, se utilizará
una amplitud constante: c = rango m, y siempre que su resultado sea fraccionario, por
pequeña que ella sea, se aproximará al número inmediatamente superior.
57
Pasos que deben seguirse para la confección de una tabla de frecuencias, cuando se tiene una variable
continua.
j) Se determina el valor de m o número de intervalos necesarios para agrupar los datos. Se puede tomar
un valor arbitrario. Recordemos que no se deben elegir muchos ni pocos intervalos o marcas de clase,
generalmente debe utilizarse un número no mayor que 16 ni menor que 5. También se puede
observar si la empresa o entidad que realiza el estudio lo utilizó en publicaciones o estudios
anteriores, tablas similares, con el fin de continuarlas presentando en la misma forma, con fines
comparativos.
Puede utilizarse la fórmula m = 1 +3,3 log n para calcular el número de intervalos o marcas de clase.
m = 1 + 3,3 log 50 = 1 + 3,3 (1,698970)
m = 1 + 5,60660 = 6,6066 7 se aproximó al número inmediatamente superior.
k) Determinar el valor de la amplitud, es decir, la diferencia que hay en cada uno de los intervalos de
clase y que simbolizamos por C. Por comodidad y presentación, se le considera como un número
entero; en la mayoría de los casos, como constante para cada uno de los intervalos de clase.
C = rango /m = 29/7 = 4,14 5. De todas formas, por pequeña que sea la fracción, siempre se
aproxima al número inmediatamente superior.
Si mantenemos constantes los valores de m = 7 y C = 5, notamos que el valor del rango cambia.
5 = rango + 7; el nuevo rango será 35, es decir, se incrementó en 6 unidades, y siempre que esto
suceda debe repartirse, sumándole una parte al límite superior y restando la otra al límite inferior. En
este caso, como el incremento es 6, le sumamos 3 a 65 y obtenemos 68 como nuevo x máx y le
restamos también 3 a 36 que nos da 33 como x mín. El nuevo rango será igual a 68 - 33 = 35. Lo más
indicado es repartir el incremento, hasta donde sea posible, en partes iguales, pero no necesariamente.
l) Una vez establecido el nuevo rango, se coloca como límite inferior del primer intervalo al valor
mínimo del rango, en este caso 33, y se le va sumando el valor de la amplitud.
Puede observarse que al límite inferior se le ha agregado 0,1, pero sólo se hace con el fin de clasificar los
datos. Es decir, si un valor de x es igual a 48, quedará dentro del tercer intervalo, ya que el cuarto
corresponde para valores superiores a 48.
58
Confeccionemos la tabla de frecuencias, calculando, a la vez, las marcas de clase.
Y ´i - 1 – Y ´ i fi fi/n Ni Hi Yi
33,1 – 38 3 0,06 3 0,06 35,5
38,1 – 43 5 0,10 8 0,16 40,5
43,1 – 48 7 0,14 15 0,30 45,5
48,1 – 53 9 0,18 24 0,48 50,5
53,1 – 58 15 0,30 39 0,78 55,5
58,1 – 63 9 0,18 48 0,96 60,5
63,1 – 68 2 0,04 50 1,00 65,5
Σ 50 1,00 – – –
Las marcas de clase, que aparecen en la última columna de la tabla, se pueden calcular de varias maneras:
d) Promediando los valores en cada intervalo. Para ello se suma el límite inferior con el límite superior
del intervalo y se divide por dos. (33 + 38) + 2 = 35,5; (38 + 43) + 2 = 40,5, y así sucesivamente.
e) Si la amplitud es constante, basta con obtener la primera marca de clase por el método anterior y se le
va sumando el valor de la constante, que en este caso es igual a 5.
f) Se divide la constante por 2 y el resultado se le suma al límite inferior, o se le resta al límite superior
del intervalo.
CUESTIONARIO
1. Consultar todo lo referente a gráficos estadísticos y sus aplicaciones
2. Suponga que se realiza una investigación sobre los precios de un artículo distribuido en la ciudad,
con los siguientes resultados:
$ 250 265 250 290 238 260 248 270 232 275
262 262 240 270 272 236 263 258 248 254
280 263 246 236 288 254 270 263 265 240
270 280 260 250 246 260 284 290 272 268
230 300 284 240 254 258 296 278 280 278
Se pide:
a) Elaborar una tabla de frecuencias, trabajando con una amplitud constante. Obtenga el número de
intervalos aplicando
59
m = 1 + 3,3 log n
b) Dibuje el histograma, el polígono y la ojiva.
c) ¿Aproximadamente qué porcentaje de establecimientos vende el producto a un precio inferior a
$270?
3. La sección de cobro de una empresa comercial registra los días de mora en el cumplimiento de sus
obligaciones, en un mes, a 70 deudores. Los resultados son:
0 4 4 20 3 5 0 3 3 0 4 2
0 10 5 3 3 0 0 0 2 0 0 2
0 10 5 2 8 0 5 3 5 3 10 3
5 10 5 0 4 4 0 20 10 10 0 10
16 10 12 25 12 2 16 8 12 8 3 2
3 5 3 2 16 5 25 8 4 4
d) Considere los días como variable discreta y elabore una tabla de frecuencias.
e) Dibuje el diagrama de frecuencias absolutas.
f) La empresa da tres días de gracia en los cuales no se cobra intereses por mora. ¿Qué proporción
de deudores tendrán que pagar intereses de mora?
5. Una empresa realiza una encuesta a sus 800 empleados, respecto al traslado de sus cesantías a los
fondos de reciente creación. El objetivo era determinar cuántos empleados estaban dispuestos a
aceptar el traslado de sus cesantías. Los resultados son:
Sí 256
NO 474
INDECISOS 70
6. Una muestra realizada a 250 familias de un barrio, sobre el consumo de chocolate en el desayuno de
acuerdo con las marcas de su preferencia, arrojó los siguientes datos:
MARCAS NÚMERO DE
FAMILIAS
A 116
B 44
C 172
D 80
E 58
60
Construya la gráfica que mejor représenle a este conjunto de observaciones. Explique el por que de
su decisión.
8. ¿En qué casos se debe graficar en papel semilogarítmico? ¿Cuándo en papel logarítmico?
9. Según la regla de Sturges de m = 1 + 3,3 1og n, ¿cuántas clases o marcas de clases se obtienen:
a) Si la muestra es 80 observaciones?; b) ¿si la muestra es 1.500?
10. Una programadora de T.V. realiza una encuesta telefónica sobre la aceptación de uno de sus
programas, de acuerdo con la edad del televidente. Los resultados obtenidos se presentan a
continuación:
GRUPOS DE EDADES
ACEPTACIÓN
Menos de 18 18 a 30 30 a 50 Más de 50
GUSTO 156 112 86 26
NO GUSTO 74 86 50 20
NO VIERON 10 24 18 18
11. Supongamos que 30 empleados, de acuerdo con el rendimiento en el trabajo durante una semana,
fueron clasificados así:
A = Excelente C = Aceptable F = Deficiente
B = Bueno D = Regular
Los resultados fueron: C B C A F A D B D C A B F D C A B D C C B A A C B F A D D F
Se pide:
a) Elaborar un cuadro de tabulación.
b) Presentar la información para una futura publicación.
c) Acompañar al cuadro anterior con una gráfica bien representativa.
12. Las personas que trabajan en una empresa han sido clasificadas en los últimos años por niveles de
estudio y sexo.
61
Cómo elaboraría un cuadro? Suponga que la información que debe presentar a la Gerencia es sobre la
proporción de empleados vinculados a la empresa en los últimos años, por niveles de estudio y sexo.
13. Una encuesta de 30 trabajadores de una empresa sobre el número de accidentes de trabajo sufridos
durante su vida laboral, arrojó los siguientes resultados:
3 2 0 4 3 10 5 5 0 2 0 7 6 0 2
0 3 0 7 0 2 4 2 3 4 0 2 3 2 4
c) Construir una tabla de frecuencias.
d) Elaborar un diagrama de frecuencias absolutas.
OBJETIVOS
GENERALIDADES
Las medidas de posición, generalmente denominadas promedios, son consideradas como medidas
destinadas a reducir el conjunto de datos de una característica observada o investigada a un sólo número
representativo. Se puede decir también que el resultado de las medidas solo pretende explicar mediante
un valor típico, un conjunto de datos.
Algunos establecen diferencias entre estos promedios y los clasifican en medidas de Posición y de
Tendencia Central. A los primeros los definen como un valor típico, dentro de la variable, que representa
al conjunto de observaciones; a los segundos, como un valor central. De todas formas es un valor que
calculamos para describir una característica que suele agrupar muchas clases de datos, y que se
diferencian en la forma en que se definen típicamente, y en la cantidad y tipo de información que pierden
al resumir la información.
62
Por otra parte, el promedio es un concepto más familiar que puede considerarse como indeterminado. Por
lo general, un valor promedio intenta representar o resumir las características relevantes de un conjunto
de valores, siendo los más conocidos: media aritmética, mediana y moda; y otros de menor importancia,
tales como: la media geométrica, media armónica, media cúbica, media cuadrática, los cuartiles, deciles,
percentiles. Por lo general, son medidas de posición o promedio, por consiguiente, la expresión
promedios no sólo hace referencia a la media, sino; también a las medidas mencionadas.
Es necesario recordar que si estos promedios son calculados con valores de una población, se les
denomina parámetros; si se aplican a los valores que toma la característica de las unidades de una
muestra, serán llamados estimadores.
Vale la pena preguntarnos si es posible calcular un promedio que sea capaz de representar, lo mejor
posible, un conjunto de datos. La respuesta es afirmativa, conociendo las ventajas y desventajas que
presentan las diferentes medidas.
Algunos autores establecen diferencias en cuanto a la forma de medición. Una de ellas es el promedio
objetivo, que se utiliza para remediar la imperfección de los elementos de medida de que se dispone en un
momento dado. Por ejemplo, la distancia entre un punto y otro con posibilidades de obtener resultados
diferentes, ya sea por dificultad o por imperfección del instrumento de medición utilizado; pero si
promediamos esos resultados, se obtiene una cifra que puede estimarse como representativa, siendo
considerada como promedio objetivo. Otro es el promedio subjetivo, el cual es diferente del anterior y se
obtiene al medir varios elementos o unidades, calculando una sola cifra que indicaría el promedio del
conjunto; por ejemplo, el promedio de venta diaria en un establecimiento comercial.
Como puede observarse, la finalidad de estas unidades es presentar aquellas medidas más utilizadas e
indicar cómo son calculadas y en que casos debe aplicarse.
MEDIA ARITMÉTICA ( X )
Frecuentemente se omite la calificación aritmética, de modo que solo se menciona la palabra media. Es la
medida más utilizada, la más conocida, la más fácil de calcular. Sus fórmulas admiten tratamiento
algebraico. Por tal razón es considerada como la más importante dentro de los promedios, a pesar de ser
demasiado sensible a cambios en la variable o cuando el extremo es demasiado grande. Se simboliza
indistintamente, empleando una rayita sobre la letra que indica la variable x o y , con minúscula para
indicar el estimador y con mayúscula para el parámetro. Otra forma de simbolizar la media es
utilizando la letra M (mayúscula) colocando como subíndice y entre paréntesis la letra que identifica la
variable: M(x); M(y); M(z); también algunos utilizan la a (minúscula). En poblaciones, como parámetro, es
empleada con mucha frecuencia la letra griega miu o mu (μ).
63
MEDIA ARITMÉTICA SIMPLE
Algunos la denominan como media no ponderada, y se obtiene dividiendo la suma de todos los valores
que toma la variable, por el número de observaciones.
x
x i
suma de todos los valores observados
n número de observacio nes
La anterior fórmula denominada por algunos como media simple o no ponderada, se emplea cuando los
datos están sin agrupar, es decir, se trabaja con los datos originales provenientes del instrumento de
recolección utilizado, sin que se haya iniciado el proceso de concentración, tabulación o elaboración de
cuadros o tablas.
x
x f i i
suma de los productos
n número de observacio nes
Cuando sólo se dispone de la frecuencia relativa, también puede calcularse la Media Aritmética,
aplicando la siguiente fórmula:
f
x x i i = suma de los productos
n
Ahora aplicaremos las dos fórmulas anteriores, en variables discretas y continuas; para ello, se
considerará la información dada por las tablas de la unidad anterior
64
Tabla de variable discreta Cálculo de la media aritmética ponderada
Si comparamos los anteriores resultados con los obtenidos para datos no agrupados, observamos que en la
variable discreta son iguales; en cambio en la variable continua, por lo general, difieren. Ello se debe a la
pérdida de información, primero, al agrupar los datos en intervalos de clase; luego, al calcular la media
utilizando las marcas de clase.
DESVIACIONES
Son diferencias que se obtienen entre los valores de la variable y un punto fijo, que puede ser un
promedio, por lo general, la media, o un valor arbitrario, es decir, cualquier valor que caprichosamente se
quiera tomar, ya sea positivo o negativo, dentro o fuera del recorrido, denominado media supuesta u
origen de trabajo, y que lo simbolizaremos mediante A u Ot.
Se consideran tres clases de desviaciones: respecto a la media; a una media supuesta; y a la media
supuesta tomada en unidades de amplitud del intervalo.
Supongamos los valores 6, 8, 6, 10, 5, para los cuales se sabe que la media es igual a x = 7, y las
di = xi - x
xi fi xi - x (xi - x )fi
0 3 -2,82 -8,46
x
x f i i
141
2,82
1 7 -1,82 -12,74
2 10 -0,82 -8,20
n 50
x
3 15 0,18 2,70
4 8 1,18 9,44 i x fi 0
5 5 2,18 10,90
6 2 3,18 6,36
65
Σ 50 - 0
Tabla Variable discreta- Desviación respecto a la media
Observe detenidamente que, en datos no agrupados, la suma de las desviaciones respecto a la media
aritmética, debe ser siempre igual a cero; en cambio en datos agrupados o tablas de frecuencia debe estar
multiplicada cada desviación por su respectiva frecuencia, para que la sumatoria sea igual a cero.
DESVIACIONES
xi xi – A
DESVIACIONES
0 -4
xi xi - A
1 -3
35,5 -10
2 -2
40,5 -5
A=4 3 -1
45,5 0
4 0 A = 45,5 50,5 5
5 1
55,5 10
6 2
60,5 15
Tabla Variable discreta- Desviaciones respecto
65,5 20
a un origen de trabajo
Tabla Variable continua - Desviaciones respecto
a un origen de trabajo
La media supuesta se simboliza por A o por Ot; considerando el valor 4 para la variable discreta y 45,5
para la continua.
Una de las tantas utilizaciones que se le da a estas desviaciones, corresponde al cálculo de la media
aritmética, mediante el denominado primer método abreviado. Veamos su fórmula y su aplicación con las
tablas anteriores.
66
xi fi xi - A (xi - A)fi
0 3 -4 -12
1 7 -3 -21
2 10 -2 -20
3 15 -1 -15
4 8 0 0
5 5 1 5
6 2 2 4
Σ 50 - -59
Tabla variable discreta – Cálculo de la
media aritmética o método abreviado
xi fi xi - A (xi - A)fi
35,5 3 -10 -30
40,5 5 -5 -25
45,5 7 0 0
50,5 9 5 45
55,5 15 10 150
60,5 9 15 135
65,5 2 20 40
Σ 50 - 315
67
La fórmula que utilizaremos para calcular la media aritmética en ambos casos será:
xA
x i A f i
A
d f i i
n n
Reemplazando se tiene: x = 4 + (- 59 50) = 4 – 1,18 = 2,82 en la variable discreta x = 45,5 + (315
50) = 45,5 + 6,3 = 51,8 en la variable continua
AMPLITUD
Generalmente se aplica en datos agrupados cuando la variable es continua y la amplitud del intervalo es
constante. Se calcula dividiendo cada una de las desviaciones respecto a la media supuesta por la
respectiva amplitud. Como siempre, se trabaja con amplitud constante; su calculo es mas abreviado; basta
colocar cero al frente del origen y a partir de ese punto, hacia arriba, se tendrá: -1 -2 -3 y así
sucesivamente. Se procede lo mismo hacia abajo, pero tomando números positivos: 1 2 3 4...
xi A di
di´ =
c c
También se aplica para calcular algunas medidas, entre ellas la media aritmética, conocida como segundo
método abreviado, cuya fórmula es:
x Ac
d f \
i i
n
Su aplicación es la siguiente:
xi fi di di/c di´fi
35,5 3 -10 -2 -6
40,5 5 -5 -1 -5 A = 45,5
45,5 7 0 0 0 x 45,5 5 (63 50)
50,5 9 5 1 9
55,5 15 10 2 30 x 45,5 6,30 51,8
60,5 9 15 3 27
65,5 2 20 4 8
Σ 50 - - 63
Tabla variable continua – Cálculo de la media aritmética según método abreviado
68
a) La suma de las desviaciones respecto a la media siempre debe ser igual a cero. En datos no
agrupados será x i
x 0 y en datos agrupados será x i
x f i 0 . Ya estas
propiedades las habíamos demostrado cuando se habló de las desviaciones respecto a la media.
M k k n nk n k
c) La media aritmética de una constante por una variable será igual al producto de la constante por
la media aritmética de la variable.
M kx kx n k x n k x
d) La media de una variable más una constante es igual a la suma de la media más la constante
x 1n 1 x 2 n 2 x 3 n 3
x
n
Veamos la aplicación de algunas de estas propiedades en la tabla correspondiente a la variable continua.
xi fi xi fi xi fi xi fi xi fi
35,5 3 46 3 168 71 3 213
40,5 5 51 5 255 81 5 405
45,5 7 56 7 392 91 7 637
50,5 9 61 9 549 101 9 909
55,5 15 66 15 990 111 15 1.665
60,5 9 71 9 639 121 9 1.089
65,5 2 76 2 152 131 2 262
Σ 50 Σ 50 3.115 Σ 50 3.115
(1) Información correspondiente a la tabla inicial, de la cual sabemos que el promedio es igual a:
x = 51,8.
69
(2) Se le ha sumado 10,5 a cada uno de los valores de la variable de la tabla anterior y con ella se calcula
la nueva media aritmética.
x 3.115 50 62,3
M x k 51,8 10,5 62,3
(3) Se ha multiplicado por dos cada uno de los valores de la variable tabla anterior y se ha calculado
nuevamente la media aritmética.
x 5.180 50 103,6
M kx 51,8 2 103,6
(4) Dividamos la distribución de la tabla anterior en dos submuestras, la primera de ellas con 15
elementos y la segunda con 35. Luego, calculamos la media para cada una de las submuestras.
xi fi xifi xi fi xifi
35,5 3 106,5 50,5 9 454,5
40,5 5 202,5 55,5 15 832,5
45,5 7 318,5 60,5 9 544,5
65,5 2 131,0
Σ 15 627,5 Σ 15 1.962,5
x 1 627,5/15 41,83 x 2 1.962,5 35 56,071
Primera Submuestra Segunda Submuestra
MEDIANA (Me)
Es aquel valor de la variable que divide la frecuencia total en dos partes iguales, es decir, aquel valor de la
variable que supera y a la vez es superado por más de la mitad de las observaciones en un conjunto
ordenado. La mediana es el valor central.
Se le considera como una medida de tendencia central, ya que se localiza en el centro, superando la mitad
y siendo superada por la otra mitad de las observaciones. Este promedio es menos importante que la
media aritmética y su cálculo es un poco más complicado, ya que en cada situación en particular debe
aplicarse una determinada fórmula, tan rígida que no admite tratamiento algebraico alguno, pero presenta
la ventaja de no ser afectada por cambios que se le hagan a la variable, manteniendo su ordenamiento, aun
cuando existan valores demasiado grandes.
Para la determinación de la mediana no se requiere conocer el valor de todos los datos; solo es preciso
saber cuál es la observación central y que los valores restantes, mitad de ellos sean menores y la otra
mitad mayores que éste. También se puede aplicar en datos incompletos, por ejemplo, en aquellas
70
distribuciones cuya variable tiene valores extremos no definidos con intervalos titulados "menos de" o
"más de".
DATOS NO AGRUPADOS
Para el cálculo de la mediana, cuando los datos no están agrupados en una tabla de frecuencias, debe
tenerse en cuenta si el número de observaciones es impar o par. En cada caso se siguen los siguientes
pasos:
8 6
= 7. Este será el valor de la mediana: Me = 7.
2
DATOS AGRUPADOS
Cuando trabajarnos con tablas de frecuencias, debe establecerse si la variable es discreta o continua;
luego, miraremos si al dividir por dos el total de observaciones, el valor se encuentra en la columna de las
71
frecuencias absolutas acumuladas. Se nos presentan dos situaciones al calcular la mediana. En cada caso
debe aplicarse una fórmula diferente, con base en las siguientes recomendaciones:
a) Se obtienen las frecuencias absolutas acumuladas, sumando las sucesivas frecuencias, ya sea de
arriba hacia abajo, o en sentido contrario, sin que este procedimiento afecte el resultado.
VARIABLE DISCRETA
Procedemos a calcular la mediana, de acuerdo con las dos situaciones descritas anteriormente:
xi fi Nj xi fi Nj
0 3 3 0 3 3
1 7 10 1 7 10
xj-1→ 2 15 25 ← Nj-1 2 10 20 ← Nj-1
xj→ 3 10 35 ← Nj xj→ 3 15 35 ← Nj
4 8 43 4 8 43
5 5 48 5 5 48
6 2 50 6 2 50
Σ 50 - Σ 50 -
(1) Variable discreta – Cálculo de la mediana (2) Variable discreta – Cálculo de la mediana
(1) Aparece en la columna de las frecuencias el valor obtenido al calcular n/2 = 25; por lo tanto, se dirá
que Nj-1 = n/2. En este caso la fórmula que debe emplearse es:
x j1 x j 23
Me Me 2,5
2 2
(2) Como en la columna de las frecuencias absolutas acumuladas no aparece el valor 25, consideremos
como Nj-1 a 20, es decir, el valor inmediatamente inferior, y como N j al inmediatamente superior a
25, o sea, 35. Se dirá en este caso Nj-1 < n/2, y la fórmula a emplear será:
Me = xj Me = 3
VARIABLE CONTINUA
72
x´j – 1 – x´j fi Nj x´j – 1 – x´j fi Nj
33,1 – 38 3 3 33,1 – 38 3 3
38,1 – 43 5 8 38,1 – 43 5 8
43,1 – 48 7 15 43,1 – 48 7 15
x´j-1→ 48,1 – 53 10 25 ← Nj-1 x´j-1→ 48,1 – 53 9 24 ← Nj-1
53,1 – 58 15 40 ← Nj 53,1 – 58 15nj 39 ← Nj
58,1 – 63 9 49 58,1 – 63 9 48
63,1 – 68 1 50 63,1 – 68 2 50
Σ 50 - Σ 50 -
(1) Variable continua – Cálculo de la mediana (2) Variable continua – Cálculo de la mediana
(1) Localizamos el valor de n/2 = 25 en la columna de las frecuencias absolutas acumuladas, siendo Nj-1
= n/2. La fórmula que debe aplicarse será:
Me = xj-1 = 53
Observe que el valor de xj-1 lo hemos localizado al frente de Nj ya que 53 es el centro de la
distribución, en cuanto al número de observaciones.
(2) En este caso, el valor 25 no se encuentra en la columna, por lo tanto, se dirá que N j-1 < n/2. Para su
cálculo se aplicará la siguiente fórmula:
n
N j1
25 24
Me x j1 c 2 Me 53 5 53,33
nj 15
NOTA: Nj es el símbolo que utilizaremos para indicar la columna de las frecuencias absolutas
acumuladas por ser más fácil de manejar.
MODA (Md)
Es una medida de posición que sacrifica una mayor cantidad de información que la mediana. Su resultado
es más general y en algunos casos poco útil. Es definida como aquel valor de la variable que más se
repite, es decir que tiene la máxima frecuencia de la distribución. Se simboliza por Md, siendo igual a Xj.
Apliquemos la moda en los datos siguientes: 6; 8; 6; 10; 5. Observamos que el 6 es el valor de la variable
que más se repite, por lo tanto: Xj = Md = 6.
Consideremos otro conjunto de 6 observaciones, cuyos valores son: 6; 8; 6; 10; 5; 10. Se presentan dos
valores de la variable con igual número de repeticiones, 6 y 10. En este caso hay dos modas, luego se dice
que la distribución es bimodal.
73
Cuando ningún valor se repite más de una vez, puede afirmarse que no hay moda. Si un solo valor de la
variable se repite más veces que los demás, será unimodal; si hay más de dos modas, será plurimodal.
DATOS AGRUPADOS
Así corno se calculó la moda, en datos no agrupados, en una forma simple e inmediata, casi por simple
observación y sin fórmula alguna, podemos proceder igual en datos agrupados, tanto para la variable
discreta como para la continua. En esta última debe ser calculada utilizando las marcas de clase y sólo
cuando la amplitud del intervalo sea constante; cuando no lo sea, es preferible aplicar otra medida
diferente.
En las tablas que se presentan a continuación, se han calculado las modas en cada una de las
distribuciones, siendo Md = 3 en la variable discreta y Md =55,5 en la variable continua, utilizando para
ello las marcas de clase.
74
xi fi xi fi
0 3 35,5 3
1 7 40,5 5
2 10 45,5 7
Md → 3 15 50,5 9
← nj
4 8 Md → 55,5 15 ← nj
5 5 60,5 9
Md = xj = 3
6 2 65,5 2 Md = xj = 55,5
Σ 50 Σ 50
b) En una distribución simétrica y además unimodal, la media, la mediana y la moda son iguales. En
este caso, se prefiere el uso de la media.
c) Los tres promedios dependen de la forma que tome la distribución. Si es simétrica, o ligeramente
asimétrica, debe utilizarse la media; en cambio cuando esto no ocurre, la mediana es la más indicada.
e) La media no se puede calcular en distribuciones con intervalos abiertos, por tanto, la mediana y la
moda son las más indicadas.
f) Dos medianas o dos modas no se pueden promediar para obtener el valor promedio de dos muestras
combinadas, pero sí se puede realizar con la media aritmética.
h) La media es la más estable o la más confiable, ya que presenta menos fluctuación entre el resultado
en una muestra comparada con el de otras obtenidas de la misma población, por tanto proporciona
una mejor estimación del parámetro.
75
Cuando es simétrica
x Me Md
Cuando es asimétrica
x Me Md Cuando es asimétrica
x Me Md
j) La media aritmética es sensible a cualquier cambio que se haga en los valores que toma la variable, y
en especial cuando uno de ellos es exageradamente grande. La mediana y la moda no se afectan
mientras el cambio no se realice en su propio valor.
k) Se considera que en gran parte de las distribuciones, la distancia entre la media y la moda es tres
veces la distancia entre la media y la mediana. Esta relación fue establecida por K Pearson y sirve
para calcular una de ellas en función de las otras dos.
x M d 3(x M e ) M d 3M e - 2x
Una distribución es Simétrica cuando las frecuencias absolutas y relativas, equidistantes a un valor
central, son ¡guales, en caso contrario la distribución es Asimétrica. Se ha dicho que en una distribución
simétrica la mediana, media y moda tendrán el mismo valor, el cual se localiza en el centro de la variable.
Veamos como ejemplo una distribución simétrica, cuya media, moda y mediana es igual a 6.
Xi fi fi/n
0 2 0,03
2 8 0,11
4 15 0,22 x6
6 20 0,28 Me 6
8 15 0,22 Md 6
10 8 0,11
12 2 0,03
Σ 70 1,00
La media geométrica de n cantidades positivas es la raíz positiva enésima del producto de dichas
cantidades. Se simboliza por Mg, Mo, G, y es aplicada en todos aquellos casos en los que la variable
muestra un crecimiento geométrico, como en el de la población de un país o el de un capital colocado
a una tasa de interés compuesto, es decir, con tendencia exponencial. Siguiendo el procedimiento de
explicación para los anteriores promedios, veamos cuáles son las fórmulas que deben aplicarse en este
caso y cuál el procedimiento que debe seguirse para su cálculo:
76
DATOS NO AGRUPADOS
De acuerdo con la definición, la fórmula para aplicar, si se dan los dalos siguientes: 6; 8; 6; 10 y 5, es:
Mg n πx i n x1 x 2 x 3 ...x n
Mg 5
6 8 6 10 5 5
14.400 6,79
La letra griega π (pi) se lee como “multiplicación de”, es decir, corresponde al producto de los elementos
o valores que tome la variable. La anterior fórmula presenta varios inconvenientes en su cálculo. Algunos
de ellos son:
log Mg
log x i
log x 1 log x 2 log x 3 ...
n n
Aplicando esta fórmula a los datos originales, el resultado debo ser exactamente igual al obtenido con la
formula anterior.
77
DATOS AGRUPADOS
Las fórmulas de cálculo anteriores se modifican un poco, pues deben estar ponderadas, es decir, la
variable debe estar multiplicada por las respectivas frecuencias absolutas.
Mg πxfii /n log Mg
f i log x i
n
Por comodidad utilizaremos esta última fórmula, tanto para la variable discreta como para la continua. El
procedimiento será:
xi fi log xi fi log xi
0
1
3
5
0
0
0
0 log Mo
f i log x i
2 7 0,301030 3,01030 n
3 9 0,477121 7,15682 20,03475
4 15 0,602060 4,81648 log Mo
5 9 0,698970 3,49485 50
6 2 0,778151 1,55630 Mo antilog 0,400695
Σ 50 - 20,03475
Mo 2,52
Variable discreta – Cálculo de la media geométrica
PROBLEMA DE APLICACIÓN
1. El ingreso por habitante de un país es 1.200 dólares al año. El sector obrero está constituido por el
38% de la población y percibe 1/7 del ingreso total. ¿Cuál será el ingreso per cápita de este sector?
78
CUESTIONARIO
1. Encontrar la media, mediana y moda, en cada uno de los siguientes conjuntos de observaciones:
A) 20 18 16 10 18 13 12 12 18 20
B) 11 13 13 15 15 15 17 17 19
C) 10 11 12 15 14 14 14 130
a) ¿En cuál de los tres casos la media tiene poca representatividad?
b) En cada uno de los casos compruebe que la suma de las desviaciones respecto a la media
aritmética es igual a cero.
c) Con el ejercicio A) contestar ¿qué pasaría con los resultados obtenidos con la aplicación de las
tres medidas: (1) si cada uno de los valores de la variable lo multiplicáramos por 3?; (2) ¿si a
cada valor se le suma 5?
2. Con base en las siguientes medidas de posición, indicar en cuáles de los siguientes puntos existe una
relación:
a) x = 78 mediana = 84 moda = 90
b) x = 80 mediana = 84 moda = 78
c) x = 84 mediana = 84 moda = 84
3. Si los resultados obtenidos al aplicar tres promedios son: media = 50; mediana = 46 y moda = 40,
¿qué pasará con los promedios si cada uno de los valores de la variable se multiplica por 10?
4. Suponga que usted es el gerente de mercadeo de una empresa, donde se distribuye el mismo producto
con dos marcas diferentes, asegurando que ambas tienen la misma duración media de 9 años. Se
realiza una encuesta entre los compradores de estos productos, para determinar cuál ha sido su
duración. Los resultados obtenidos fueron: Producto A: 10; 7; 8; 9; 10; 8; 11; 7; 7; 11; 9; 8; 10; 10; 9;
11; 9; 8; 9. Producto B: 19; 4; 3; 4; 3; 9; 10; 3; 19; 5; 9: 4; 9; 5; 9: 4; 9; 5; 9; 4; 9; 10; 19; 4; 5; 9.
a) ¿Cuál medida "promedio" se utilizó para cada marca?
b) ¿Cuál marca aconsejaría usted?
c) Como vendedor, ¿en qué marca se sentirá más seguro, al afirmar que la vida media de duración
es 9 años?
5. Una muestra de 22 empresas, editoras de textos, revela los siguientes porcentajes del gasto en
promoción, respecto al total de ventas del producto.
21 18 25 20 16 18 16 10 18 20 16
14 20 26 12 14 12 14 12 12 12 18
79
Calcule: media, mediana y moda.
6. Los siguientes dalos representan el número de interrupciones diarias, en un mes. Los factores son de
diversa índole, tales como falta de fluido eléctrico, daño en las máquinas, enfermedad o malestar del
operario, etc. Los resultados se presentan en la siguiente tabla de frecuencias:
Xi fi
0 10
1 8
Calcule el promedio de interrupciones
2 4
4 2 diarias en la fábrica, durante el mes.
5 3
7 2
10 1
Σ 30
7. En un almacén de repuestos para automotores se seleccionó una muestra al azar de 80 cuentas de los
archivos de crédito y se construyó la siguiente tabla.
8. Supongamos que se realizó una encuesta sobre la tasa de desempleo en 40 de las principales ciudades
del país, con los siguientes resultados:
80
10. Consideremos que una empresa cuenta con tres departamentos con diferente número de empleados.
Se realiza una encuesta para determinar el número de unidades producidas por hora, con los
siguientes resultados:
DEPARTAMENTO I
UNIDADES NUMERO DE
TRABAJADORES
3 2
5 3
7 6
8 12
10 4
11 2
12 1
Σ 30
DEPARTAMENTO II
UNIDADES NUMERO DE
TRABAJADORES
2 3
4 7
5 14
7 9
8 3
10 4
Σ 40
81
DEPARTAMENTO III
UNIDADES NUMERO DE
TRABAJADORES
4 6
5 2
7 12
8 10
9 14
10 2
12 3
13 1
Σ 50
11. Con los siguientes datos de una distribución simétrica, correspondiente a 150 observaciones, se
elaboró una tabla de frecuencias agrupados en cinco intervalos de igual magnitud. Solo se conoce
parcialmente la información de la tabla, siendo: f3 = 50; f2 = fi + 10; x´5 = 80; x1 = 30. Se pide
reconstruir la tabla y calcular la media, mediana y moda.
13. Un control de producción realizado en 50 lotes sobre el número de unidades defectuosas, dio el
siguiente resultado:
5 2 10 12 7 9 6 3 2 3 1 0 0
8 6 3 3 5 5 7 4 5 8 7 1 5
11 9 6 4 3 2 7 4 0 10 8 8 3
0 7 8 5 3 3 9 4 4 8 2
a) Calcular la media, mediana y moda con los datos originales.
b) Agrupar los datos en una tabla de frecuencia, calcular los promedios mencionados en la unidad y
comparar sus resultados.
82
UNIDAD V. MEDIDAS DE DISPERSIÓN
OBJETIVOS:
GENERALIDADES
El promedio calculado, por sí mismo, tiene escaso valor significativo, si no se determina el grado de
variabilidad de los datos. No es extraño, pues, que las distribuciones tengan el mismo promedio pero con
diferente grado de dispersión la finalidad en esta unidad es calcular el grado de concentración de las
observaciones alrededor de un promedio, mediante la aplicación de ciertas medidas de dispersión,
determinando, al igual que en el promedio, cuál de ellas es la más indicada en determinado caso. Veamos
algunas de esas medidas.
RECORRIDO (R)
Esta medida se conoce también con el nombre de rango. Puede definirse como la diferencia entre el
mayor y el menor valor que toma la variable. Esta medida, tan sencilla de calcular y más conocida como
oscilación, sólo brinda una ligera aproximación del grado de variabilidad, pues presenta el inconveniente
que sólo toma en cuenta los valores extremos, sin importar el conjunto de valores intermedios; por tanto,
en algunos casos puede arrojar un resultado totalmente distorsionado por su gran sensibilidad a valores
extremos, mostrándose engañador e inestable.
DATOS NO AGRUPADOS
Sí observamos los siguientes datos: 6; 8; 6; 10; 5, el RANGO será igual a 10 - 5 = 5.
R = Xmáx – Xmín
DATOS AGRUPADOS
Apliquemos esta medida en datos agrupados, tanto en la variable discreta corno en la continua, con la
misma información que se ha utilizado en los promedios.
83
xi
fi R = x7 – x1
0 3 R=6–0=6
1 7
2 15
3 10
4 8
R = 68 – 33 =35
5 5
6 2
Σ 50
Variable discreta
x´i – 1 – x´i fi
33,1 – 38 3
38,1 – 43 5
43,1 – 48 7
48,1 – 53 9
53,1 – 58 15
58,1 – 63 9
63,1 – 68 2
Σ 50
Variable continúa
84
Se puede ver en los ejemplos anteriores que los valores intermedios de la variable, algunos de ellos con
peso o frecuencia de alguna importancia, no fueron tomados en cuenta para el cálculo del rango.
La definición anterior nos hace pensaren la existencia de una sola fórmula para calcular la dispersión. Sin
embargo, existe más de una expresión matemática para la misma idea, algunas de ellas prácticas para
casos simples; otras, para datos agrupados o para el uso de la calculadora. Veamos algunas de ellas.
DATOS NO AGRUPADOS
Para los siguientes datos originales: 6; 8; 6; 10; 5, obtengamos la varianza por las siguientes fórmulas, de
las cuales el alumno escogerá la que considere más fácil de manejar.
35
x 7
5
(x
2
x) 16
a) S
2
i
3,2
n 5
x
2
2
nx 261 5(7) 2
3,2
2 i
b) S
n 5
c) S2
x 2
i
x
2 261
(7) 2 3,2
n 5
xi xi - x (xi - x )2 xi2
6 -1 1 36
8 1 1 64
6 -1 1 36
10 3 9 100
5 -2 4 25
35 0 16 261
DATOS AGRUPADOS
Aplicamos las fórmulas anteriores, pero ponderadas para las variables discreta y continua. Para esta
última, debe trabajarse con las marcas de clase.
85
0 3 -2.82 7,9524 23,8572 0
1 7 -1,82 3,3124 23,1868 7
2 10 -0,82 0,6724 6,7240 40
3 15 0,18 0,0324 0,4860 135 x =2,82
4 8 1,18 1,3924 11,1392 128
5 5 2,18 4,7524 23,7620 125
6 2 3,18 10,1124 20,2248 72
Σ 50 - - 109,3800 507
Variable discreta - Cálculo de la varianza
x 2
2
x fi 109,38
2,19
i
a) S2
n 50
x
2
2
f nx 507 50(2,82) 2
2,19
2 i i
b) S
n 50
c) S2
x i2 f i x
2
507
2,82 2 2,19
n 5
En datos agrupados, tanto en la variable discreta como en la continua, se puede trabajar con desviaciones
respecto a una media supuesta u origen de trabajo, y se denomina primer método abreviado para el
cálculo de la varianza.
d f d i2 f i
0 3 -4 16 -12 48 2
2
1 7 -3 9 -21 63
2 i i
S
2 10 -2 4 -20 40 n n
3 15 -1 1 -15 15
4 8 0 0 0 0 179 59
5 5 1 1 5 5 S2
6 2 2 4 4 8 50 50
Σ 50 - - -59 179 S 2 3,58 (1,18) 2
S 2 2,19
Variable discreta – Cálculo de la varianza – Primer Método abreviado
Calculemos la varianza por los diferentes métodos ya vistos, pero aplicados a una variable continua.
2
xi fi xi - x (xi - x )2 (xi - x )2 fi xi xi2 fi
35,5 3 -16,3 265,69 797,07 1.260,25 3.780,75
40,5 5 -11,3 127,69 638,45 1.640,25 8.201,25
45,5 7 -6,3 39,69 277,83 2.070,25 14.491,75
50,5 9 -1,3 1,69 15,21 2.550,25 22.952,25
55,5 15 3,7 13,69 205,35 3.080,25 46.203,75
60,5 9 8,7 75,69 681,21 3.660,25 32.942,25
65,5 2 13,7 187,69 375,38 4.290,25 8.580,50
Σ 50 - - 2.990,50 137.152,50
Variable continua – Cálculo de la varianza
x 51,80
86
2.990,5 137.152,50 - 50(51,8)
a) S 59,81 b) S 59,81
2 2
50 50
137.152,5
c) S (51,8) 2 59,81
2
50
Trabajemos ahora con el segundo Método abreviado para calcular la varianza, el que sólo se aplica
cuando la amplitud del intervalo es constante. También como en los casos anteriores, debe trabajarse con
las marcas de clase.
d /´ 2 f
2 i
d i/´ f i
2
i
S 2
C
n n
S2
5 2 (199/50) (63/50) 2
S 2 253,98 1,5876 252,3924 59,81
Puede observarse que cualquiera que sea la fórmula de la varianza que se aplique en una distribución, el
resultado siempre va a ser el mismo.
PROPIEDADES DE LA VARIANZA
Es de gran importancia saber manejar las propiedades de la varianza, ya que en algunos casos simplifica
las operaciones; en otros, nos va a servir como base de algún proceso matemático. Estas propiedades son:
87
d) La varianza de una constante por una variable es igual al producto de la constante elevada al
S12 n 1 S 22 n 2 ( x 1 x ) 2 n 1 ( x 2 x ) 2 n 2
S2
n n
x1n1 x 2 n 2
Debe recordarse que x
n
Supongamos que los datos para la variable discreta que tanto se ha utilizado corresponden a la primera
submuestra con media x 1 2,82 y varianza S12 2,19 , mientras que en la segunda submuestra son
x 2 51,8 y S22 59,81 . Con la información anterior, va a calcularse la media y la varianza, para el
conjunto de las 100 observaciones. Siendo:
2,82(50) 51,8(50)
x 27,31
100
2,19(50) 59,81(50) (2,82 27,31) 2 50 (51,8 27,31) 2 50
S 2
100 100
S 2
31 599,7601 630,7601
88
S S 2
S
(x i x)2
(datos no agrupados)
n
S
(x i x) 2f i
(datos agrupados)
n
Con las varianzas obtenidas para las diferentes variables, calculemos sus desviaciones típicas:
S 59,81 7,73
La desviación estándar tiene una interpretación bien precisa, por ejemplo, en la Distribución Normal,
puede visualizarse con el siguiente gráfico:
X
-3S -2S -1S μ 1S 2S 3S
68.3%
95.5%
99.7%
Distribución normal
El total del área bajo la curva es igual a uno, o sea, el 100%. El área corresponde a la proporción de
observaciones en la distribución, es decir:
x + 1S se tendrá el 68,26%
x + 2S se tendrá el 95,50%
x + 3S se tendrá el 99,70% de las observaciones
La media de una distribución normal (μ) divide en dos partes iguales la curva, correspondiéndole a cada
lado el 50%. Si nos alejamos del centro a la derecha, una desviación estándar se incluirá en esta área,
aproximadamente del 34,13% de las observaciones. Como es simétrica, si se toma una vez la desviación
típica a lado y lado del promedio, el total será 68,26%.
89
Dentro del dominio de la variable, la media aritmética, en general, se dice que debe comprender
tres veces la desviación estándar; por lo tanto, se concluye que en una distribución normal, la
desviación típica debe aproximarse a la tercera parte de la media aritmética.
Se podrán comparar las desviaciones típicas o las varianzas de dos o más distribuciones, si se quiere
determinar cuál de ellas tiene una menor o mayor variabilidad absoluta, siempre y cuando que las
variables estén dadas en las mismas unidades de medida.
CV (S x )100
El coeficiente permite comparar la variabilidad de dos o más distribuciones dadas en unidades de medidas
diferentes, con el fin de determinar cuál de ellas tiene una mayor o menor variabilidad relativa.
Si partimos de la consideración hecha a partir de la Distribución Normal, se dirá que una distribución,
cualquiera que tenga un Coeficiente de Variación menor o igual al 33%, tiende a ser homogénea, es decir,
la media obtenida será lo bastante representativa del total de las observaciones y si, por el contrario, el
CV se hace mayor al 33%, nos indicará que cada vez será más heterogénea. Por lo tanto, la media irá
perdiendo su representatividad; de ahí que en el muestreo se procede, en estos casos, a dividir la
población en grupos más homogéneos, denominados estratos, permitiendo la aplicación del muestreo
aleatorio estratificado.
90
resultados de las pruebas que se realiza para indicar la posición que ocupa el estudiante dentro del
conjunto. Esta medida se simboliza ya sea por Z o t, para la fórmula:
xx
Z
S
Si consideramos que un curso obtiene en promedio 6,8 en matemática y. 7,8 en estadística, y se quiere
saber en cuál de ellas un alumno alcanza mejor posición relativa,
es decir, en cuál obtuvo un mejor rendimiento con relación al grupo, si las calificaciones de ese alumno
fueron 7,0 y 7,6, respectivamente. Aparentemente se diría que en la segunda, pero dentro del curso
corresponde a la primera. Apliquemos la fórmula, si se sabe que las desviaciones típicas fueron 0,6 y 0,3,
respectivamente.
Zmatemática = (7,0 - 6,8)/0,6 = 0,33
Zestadística = (7,6 - 7,8)/0,3 = 0,66
Se dirá que hay una mejor posición relativa cuanto más cerca a 3 se encuentre, ya que es el máximo valor
que supuestamente toma Z.
Existen otras medidas de dispersión, cada una de ellas con aplicaciones específicas en determinados
casos, pero sólo nos referiremos a dos de ellas: la Desviación media y la Desviación mediana.
Es una medida de dispersión que se obtiene al calcular la media de las desviaciones respecto a su media,
tomadas en valor absoluto. Esta medida se utiliza muy a menudo por su cuantificación fácil y rápida, pero
en realidad es de poco uso. Al igual que la desviación típica, se toma con el signo positivo y negativo para
indicar su oscilación alrededor de la media. Sin embargo, es menos exacta y, por lo general, menor. De tal
manera que en una distribución normal corresponde al 79,79% de la desviación típica. Se simboliza
mediante Da o DM siendo:
Da = 0,7979 S
Datos no agrupados
Continuamos útil izando los mismos datos: 6; 8; 6; 10; 5, de tal manera que nos permitan comparar los
resultados obtenidos con la aplicación de las diferentes medidas. La fórmula a aplicar es:
Da
x i x
n
91
xi xi - x xi x
6 -1 1 x x i n 35 5 7
8 1 1
6
10
-1
3
1
3 Da
x i x
8
1,6
5 -2 2 n 5
Da S
Σ 0 8 1,6 < 1,79
Datos sin agrupar – Desviación media
DATOS AGRUPADOS
El procedimiento de cálculo es parecido al desarrollado para obtener la varianza, con la modificación de
trabajar con las diferencias entre la variable y la media, en valores absolutos.
xi fi xi - x xi x x i x fi
0 3 -2,82 2,82 8,46 x 2,82
1 7 -1,82 1,82 12,74
2 10 -0,82 0,82 8,20 D a 58,8 50 1,176
3 15 0,18 0,18 2,70 Da S
4 8 1,18 1,18 9,44
5 5 2,18 2,18 10,90 1,18 < 1,48
6 2 3,18 3,18 6,36
Σ 50 - - 58,80
Variable discreta - Desviación media
De
x i Me
n
92
De
x i Me f i
n
GLOSARIO
Coeficiente de variación Dispersión Rango
Desviación media Distribución normal Recorrido
Desviación mediana Oscilación Variación absoluta
Desviación estándar Puntaje típico o estandarizado Variación relativa
Desviación típica Posición relativa
EJERCICIOS DE APLICACIÓN
1. El coeficiente de variación de 200 empleados de una empresa es 62%. Después de reajustar todos los
salarios en $1400, este coeficiente de variación es del 52%. Sin embargo, la gerencia fija un sueldo
mínimo de $6100. Antes del reajuste 40 personas tenían un sueldo medio de $6000 y todos ellos
ganaban menos de $7000; con la nueva política de la gerencia, sus sueldos serán elevados a $7100.
Determinar la cantidad de dinero mensual que necesitará la empresa para pagar después de efectuado
el reajuste.
Solución
CV = S/ x = 0,62
Por otra parte, hay 40 empleados con un sueldo promedio de $6000 y el ingreso promedio de los 160
restantes será igual a:
40(6000) 160x 2
x 7280
200
200 (7280) = 240 000 + 160 x 2
14560000 240000
x2 7600
160
Si el nuevo promedio de salario es $7100 para los 40 empleados, el resto de empleados, o sea los 160,
devengarán $7600 más los $1400 de aumento, es decir $9000. El valor total de la nómina será:
40 (7100) + 160 (9000) = $1 724 000.
93
2. Tres empresas de la ciudad realizan concursos de admisión a fin de proveer las vacantes actuales y
entre los inscritos, en las tres empresas, aparece el Señor Pedreros. Gracias a sus influencias el Señor
Pedreros pudo conocer los resultados generales y los de él en particular.
x
EMPRESA S CALIFICACIÓN
Señor Pedreros
A 58 4,7 69
B 72 3,8 77
C 68 4,2 64
a) ¿En cuál de las entrevistas, el Señor Pedreros obtuvo una mejor posición? ¿En cuál estuvo mal?
b) Si se sabe que el número de aspirantes a la vacante en cada una de las empresas fue: 320; 472;
258, respectivamente, ¿cuál es el promedio de calificación y el coeficiente de variación para el
total?
Solución
a) ZA = (69 – 58) 4,7 = 2,34 obtuvo una mejor posición
ZB = (77 – 72) 3,8 = 1,32
ZC = (64 – 68) 4,2 = -0,95 fue la peor
4,7 2 (320) 3,8 2 (472) 4,2 2 (258) (58 66,75) 2 320 (72 66,75) 2 472 (68 66,75) 2 258
S2
1.050 1.050
S 17,55 36,11 53,11
2
S 53,66 7,33
CV 7,33 66,75 0,1097 10,97%
CUESTIONARIO
2. Para cinco artículos se tienen las variaciones en sus precios respecto al mes pasado. Estos valores
fueron: -$40; -$120; -$80; +$50; +$220.
Se pide calcular el
94
a) Coeficiente de variación.
b) Desviación media.
c) Desviación mediana.
3. En un curso de capacitación ofrecido por la empresa a sus trabajadores, uno de ellos teórico y el otro
práctico, se calificó utilizando una escala de O a 10. Uno de los trabajadores obtuvo las calificaciones
de 8,2 y 6,8 en los cursos respectivos. El trabajador pudo averiguar cuáles habían sido los promedios
y la dispersión en las notas obtenidas en cada curso, con el siguiente resultado;
Curso teórico: Media = 8,7; Desviación típica = 0,8
Curso practico: Media = 5,8; Varianza = 1,21
a) ¿En cuál de los cursos este trabajador obtuvo una mejor posición relativa?
b) ¿Cuál es el coeficiente de variación en cada curso?
c) ¿Cuál es el coeficiente de variación para el curso en general, si además se sabe que al primero
asistieron 30 trabajadores y al segundo, solo asistieron 20?
4. Los empleados de tres departamentos de una empresa fueron sometidos a una prueba sobre
conocimiento del área en la cual trabajan, con los siguientes resultados:
x
DEPARTAMENTO S N
A 74 6,2 25
B 82 7,8 40
C 68 4,4 35
Una vez publicadas las notas se encontró que había un error en los cálculos, ya que faltaban 10
puntos que se habían ofrecido como compensación a una pregunta calificada como mal pero que era
correcta. Se pide calcular el coeficiente de variación para el total de empleados teniendo en cuenta
los 10 puntos que se deben añadir a las calificaciones de cada uno de los empleados.
5. Un jefe de producción encuclilla anotado en el libro de control que el peso promedio del artículo
fabricado es 270 gramos, con una desviación típica de 8 centímetros. ¿Hay algo incorrecto?
6. Si se tiene una media muestral x = 25 y varianza de 36, hallar la media muestral, la varianza y
desviación típica de y, en los siguientes casos:
a) y = 8 + 20 x b) y = 5 x - 26
7. Si en un problema cualquiera se obtiene una varianza de 2,4 horas, pero se nos solicita el resultado en
minutos, ¿cuál será su valor?
8. Si en una empresa el salario promedio es $210.000, con una desviación típica de $8.216, mientras
que en otra empresa de la competencia el salario promedio es $224.500, con una varianza de 92.544.
¿En cuál de las empresas los salarios presentan
a) Una mayor variabilidad absoluta?
95
b) Una menor variabilidad relativa?
9. Cuando se aplica el muestreo en un plan de auditoría, uno de los aspectos más importantes que se
deberá considerar es la variabilidad de la población objeto de estudio. Esta se mide por:
a) La media; b) desviación estándar; c) la mediana; d) ninguna de las anteriores.
10. Una firma tiene 40 almacenes distribuidos en el territorio nacional y se cuenta con la siguiente
información sobre las ventas mensuales en millones de pesos.
VENTAS (millones NÚMERO
$) ALMACENES Calcular:
10,1 – 20 2
a) el coeficiente de variación
20,1 – 30 7
b) la desviación media
30,1 – 40 13
40,1 – 50 8
c) la desviación mediana
50,1 – 60 6 d) compruebe que DM Da < S
60,1 – 70 4
Σ 40
11. En una prueba realizada a 30 autos, de una nueva marca, se obtiene un rendimiento promedio de 32,4
millas por galón de gasolina, con varianza de 32,04 mpg. a) Exprese estos resultados en términos de
kilómetros por galón (un km =0,622); b) Exprese los resultados anteriores en kilómetros por litro (un
litro = 1,056 cuartos de galón).
13. A los trabajadores de una empresa el próximo año les será aumentado el salario mensual en un 20%
más $12.000. La empresa tiene 850 trabajadores y actualmente devengan un salario medio mensual
de $230.000, con un coeficiente de variación del 38%.
a) ¿Cuál será la desviación estándar el próximo año?
b) ¿En cuánto se aumentará el valor de la nómina el próximo año?
14. Una encuesta a 12 fábricas de helados revela los siguientes porcentajes de utilidad:
25% 20% 22% 20% 25% 30% 18% 16% 30% 16% 20% 16%
Se pide calcular:
a) Coeficiente de variación d) Varianza
b) Desviación media e) Desviación mediana
c) Rango
96
15. En el lanzamiento do un producto se realizó una investigación para determinar el grado de
aceptación, utilizando una escala de 10 puntos. Se tomó a 12 hombres y 12 mujeres con el siguiente
resultado:
HOMBRES: 7 5 6 9 10 8 7 4 5 7 3 10
MUJERES: 6 4 4 3 5 6 8 6 5 5 4 6
a) Calcule el coeficiente de variación independiente para hombres y mujeres.
b) Calcule el coeficiente de variación para el conjunto, es decir, para las 24 personas.
c) Con los 24 datos, construya una tabla de frecuencia y calcule el coeficiente de variación, la
desviación media y la desviación mediana.
97
UNIDAD VI MEDIDAS DE ASIMETRÍA Y APUNTAMIENTO
OBJETIVOS:
- Entender y manejar los conceptos de asimetría y apuntamiento.
- Desarrollar habilidades en la aplicación y cálculo de estas medidas.
- Integrar estos conceptos con las medidas anteriores y ver la importancia que tienen.
GENERALIDADES
En los capítulos anteriores nos hemos detenido a estudiar y a explicar la forma de calcular, aplicar y
analizar las diferentes medidas de posición y de dispersión, en distribuciones de frecuencias. Ahora, nos
dedicaremos a presentar dos nuevos conceptos, estrechamente relacionados con esas medidas, como son
el de asimetría y apuntamiento, con el fin de alcanzar un mayor conocimiento respecto al conjunto de
datos investigados.
Estos conceptos hacen referencia a la comparación de la curva obtenida con los datos provenientes de una
muestra y una curva teórica o normal, observada en la mayoría de los fenómenos naturales, en especial
cuando el número de observaciones es grande, a fin de determinar su asimetría y apuntamiento.
Una distribución es simétrica cuando la media, mediana y moda son iguales, es decir, cuando en una
curva normal las dos colas son iguales. Pero si la distribución unimodal tiene una cola más larga hacia
uno de los lados, se dice que es asimétrica o deforme. Si la deformación o alargamiento de la cola se
presenta hacia los valores mas grandes de la variable, es decir, hacia la derecha, se dirá que la distribución
es asimétrica positiva. En caso contrario, la asimetría será negativa cuando el alargamiento de la cola
se presenta hacia los valores menores de la variable, o sea hacia la izquierda.
Generalizando tenemos:
Simétrica cuando M1 = Me = Md;
Asimétrica positiva cuando Md < Me < M1
Asimétrica negativa Cuando Md > Me > M1
+ -
98
Simétrica M1 = Me = Md Asimétrica positiva Md < Me < M1 Asimétrica negativa Md > Me > M1
Distribuciones de asimetría o de deformación
Esta deformación se conoce como SESGO o VÍAS, y se calcula aplicando diferentes medidas,
especialmente las elaboradas por K. Pearson.
x Md 3( x Me)
a) As b) As
s s
x 3
m3 m3 x fi
As
i
m3
s3 m2
3
n
99
x 3
x fi 10.147,800
202,956
i
m3
n 50
202,956 202,956
As 0,44
7,733 461,89
Nota: También nos muestra una ligera asimetría hacia la izquierda.
MEDIDAS DE APUNTAMIENTO
Es conocida también como curtosis y permite establecer el grado de apuntamiento o achatamiento de la
curva de la distribución respecto a la normal. Esta medida propuesta también por Pearson y basada en los
momentos unidimensionales, es dudosa si se considera que una simple razón mida adecuadamente el
apuntamiento de una distribución. La fórmula que se aplicará es:
x
4
m4 m4 x fi
Ap
i
m4
S4 s 2 2 n
m4 momento de orden 4 respecto a la media.
Calculemos el apuntamiento en una variable continua utilizando la tabla anterior
2.990,50
m 2 s 2 59,81
50
x
4
x fi 429.117,085
8.582,34
i
m4 m4 m4
Ap
n 50
S S
4 2 2
m4 8.582,34 8.582,34
Ap 2,40
s 2 2
59,81 2
3.577,24
100
c) Si Ap < 3, es achatada, por lo tanto hay más dispersión respecto al promedio.
En el ejercicio que nos ocupa encontramos que 2,4 < 3, siendo la curva algo achatada.
A las tres formas anteriores se les denomina leptocúrtica, platicúrtica y mesocúrtica.
MOMENTOS
Es necesario referirnos a ellos en forma rápida, ya que se ha mencionado en varias ocasiones. En términos
generales, un momento es el valor medio de una potencia de una variable. Hay varias clases de
momentos, a saber:
ar
x f r
i i
a1
x f 1
i i
x
n n
La varianza es un momento de orden dos, respecto a la media.
x x
r 2
x x fi
s2
i i
mr m2
n n
La fórmula para momentos respecto a un origen de trabajo o media supuesta, será:
x A f i d f
r r
/ i i i
m r
n n
En el caso de momentos respecto a un origen de trabajo, tomada en unidades de amplitud, estará dada por
la fórmula
m //
d // r
i i f
Siendo d
d i/ x i A
//
r i
n C C
En todos los casos r significa el orden del momento y la potencia a la cual se eleva la variable. Se tendrá
que r toma valores de 1, 2, 3, 4...
101
CUESTIONARIO
1. ¿Qué significa:
a) que una variable tenga un apuntamiento mayor a la normal?
b) que la distribución de una variable sea asimétrica a la derecha?
4. Con los siguientes datos, responda las preguntas formuladas en los ejercicios anteriores.
102
UNIDAD VII SERIES DE TIEMPO
OBJETIVOS:
- Comprender la importancia que tiene el análisis de las series de tiempo.
- Adquirir habilidad en la selección de la tendencia que mejor se ajusta a la serie.
- Estar en capacidad de proyectar y analizar su comportamiento futuro.
- Poder elaborar gráficas que incluyan datos originales y tendencias.
GENERALIDADES
Las series de tiempo, denominadas también series cronológicas, corresponden a un conjunto de
observaciones ordenadas respecto a una característica cuantitativa de un fenómeno individual o colectivo,
que se toma en diferentes períodos, guardando un estricto orden cronológico, ya que los datos se van
registrando a medida que va ocurriendo el fenómeno.
Estas series, en parte, son analizadas a través del uso de los números índices, se hallan dentro de las
distribuciones bidimensionales, es decir, están constituidas por dos variables: una de ellas corresponde al
tiempo, identificada por X, que puede ser años, semestres, meses, quincenas, semanas, días, horas; la otra
variable, simbolizada por Y, se refiere al fenómeno que se investiga, que puede ser: producción, ventas,
costos, inversión, horas trabajadas, accidentes de trabajo, matrícula, precios, etc., información que nos
permite analizar aspectos de su comportamiento pasado, presente y futuro.
El análisis que se hace a una serie no sólo corresponde a aspectos económicos, sino que encierra múltiples
aspectos de la vida diaria, social, política, educativa, etc., o sea, todos aquellos fenómenos que varían a
través del tiempo y que requieren la aplicación de métodos que permitan conocer los efectos de los
cambios, como ayuda en el proceso de control y planeación de esos aspectos, además, predecir su
comportamiento futuro.
Si consideramos una variable, por ejemplo producción, esta será el resultado de varios aspectos, tales
como: la tendencia, las variaciones estacionales, las cíclicas y las aleatorias. Veamos en qué consiste cada
una de ellas.
Tendencia o tendencia secular. Esta última es una expresión alternativa para la tendencia de una serie,
la cual corresponde a un movimiento suave y constante que se extiende durante períodos extensos.
Generalmente, se representa por una línea recta, parabólica, exponencial o cualquier otro tipo de línea,
dependiendo del comportamiento de la variable.
Variación estacional. Se considera, generalmente, como parte del movimiento que se atribuye al efecto
de las estaciones del año, es decir, a circunstancias climáticas o a simples costumbres sociales: las ventas
en navidad, la demanda de hotelería en temporada alta, etc.; sin embargo, puede corresponder a
variaciones que se presentan en períodos más cortos; por ejemplo, el movimiento de pasajeros en
103
transporte urbano, en el cual se observan unos períodos denominados "picos", de alta demanda, que se
repiten todos los días laborables, en las mismas horas y en las mismas condiciones.
Variaciones cíclicas. Ligadas a los ciclos económicos, corresponden a movimientos periódicos, más o
menos regulares, que se extienden por varios años, sin que se pueda determinar cuándo se inicia y termina
su ciclo. Estas variaciones corresponden a períodos de prosperidad, recesión, depresión y recuperación.
Parte del análisis de estas series consiste en la descomposición de la serie en los factores antes
mencionados. Sin embargo, se dice que todas ellas contienen variaciones aleatorias, y que no
necesariamente abarcan la totalidad de los factores. En algunos casos, su cálculo aislado se hace difícil, ya
que resultan inseparables. Se puede afirmar que es posible, la mayoría de las veces, determinar la
cuantificación de la tendencia y las variaciones estacionales, en un determinado período. En cambio las
variaciones cíclicas y las aleatorias sólo se podrán determinar por residuo. De todas formas, siempre va a
ver cierta dificultad para descomponer esos factores, ya que son movimientos poco uniformes en el
tiempo, y que en muchos casos no permiten su identificación.
TENDENCIA
La tendencia es considerada como el principal componente de una serie de tiempo. En muchos casos, sólo
existe preocupación por su comportamiento, olvidando en forma desprevenida las incidencias que, en
algunas situaciones, pueden verse afectadas por los otros tres componentes. Para identificar la tendencia,
es recomendable, en primer lugar, hacer su representación gráfica. Para ello nos valemos de un plano
cartesiano. De esta manera, se podrá observar el comportamiento de la serie, al mismo tiempo que nos
permite visualizar mejor la tendencia, es decir, la línea más adecuada para su representación, la que puede
ser una recta, una parábola, una exponencial o cualquier otra línea. Dentro de los métodos utilizados
para describir la tendencia, se tienen:
Ahora, consideremos una información arbitraria, que presente variaciones, y que nos permita graficar no
sólo los valores observados, sino la tendencia, mediante los diferentes métodos que serán expuestos en
esta unidad.
104
Ejercicio: Supongamos que una empresa comercial desea proyectar sus ventas (miles de unidades); para
ello, organiza la información por años de la siguiente forma:
Se pide elaborar la gráfica correspondiente a los datos originales y efectuar la estimación para los dos
años siguientes, mediante los diferentes métodos que a continuación se presentan:
Solución:
80
70
60
50 Real
40
30 Estimado
20
10
0
1985 1990 1995
AÑOS
Grafico 1. Representación gráfica de las ventas (miles de unidades)
En la gráfica 1. aparecen representados los datos originales de la tabla, y además d los valores estimados
(tendencia) según criterio del autor, quien consideró necesario ajustar una recta, en tal forma que divida
la línea poligonal en dos partes, es decir, que pase aproximadamente por el centro.
MÉTODO ANALÍTICO
Se realiza mediante la aplicación de una función matemática que exprese la tendencia.
Los métodos más conocidos y aplicados son los siguientes:
A) Recta o función lineal Y = a + bX
B) Parábola de segundo grado Y = a + bX + cX2
C) Función exponencial Y = abx
105
El problema es saber elegir la función matemática que mejor represente o describa la tendencia de esa
serie temporal y la selección de esa línea, la cual, además de la visualización gráfica, depende de la
experiencia, sentido común, habilidad y, sobre todo, del buen juicio del investigador. Por otra parte, en el
proceso de proyección debe suponerse que el comportamiento pasado y presente, continuará siéndolo,
más o menos, en la misma forma en el futuro. Por lo tanto, las proyecciones son válidas para uno o
dos períodos, aceptándose para un período no mayor de cinco años, pues en la mayoría de estas series su
comportamiento tiende a cambiar, haciendo fracasar las proyecciones, en especial cuando los cambios son
fuertes.
TENDENCIA RECTILÍNEA
Como su nombre lo indica, la serie se describe mediante una recta, si el crecimiento, o decrecimiento, de
las cantidades, en cada uno de los períodos, es más o menos constante. Veamos el procedimiento que
debe seguirse. Para ello, partimos de la información de tabla 1..
El método de los mínimos cuadrados facilita el cálculo de los parámetros a y b, y mediante la utilización
de un sistema de ecuaciones normales, permite la aplicación de cualquiera de los métodos que el
estudiante conoce para dar solución, como son el de sustitución, igualación y eliminación.
Calculemos estos coeficientes; para ello se tomará como origen de la serie el primer período, siendo X =
0 y su sumatoria diferente de cero (ΣX ≠ 0), situación que implica la necesidad de aplicar las ecuaciones
anteriores. Hagamos su cálculo y proyección para 1997. Ver tabla 2.
106
AÑOS Y X X2 XY Ŷ
1987 36 0 0 0 40,08
1988 55 1 1 55 44,29
1989 40 2 4 80 48,50
1990 48 3 9 144 52,71
1991 72 4 16 288 56,93
1992 50 5 25 250 61,14
1993 68 6 36 408 65,35
0 28 118
107
Taba 2. Ajuste rectilíneo - Origen en el Tabla 2. Ajuste rectilíneo – Cambio de
1) 369 = 7a + 21b
2) 1.225 = 21a + 91b
En estas ecuaciones se podrá eliminar a. Para ello, multiplicamos la primera ecuación por -3 y la restamos
de la segunda.
Este resultado significa qué por cada unidad de tiempo, en este caso un año, la variable crece en 4,21, o
sea, 4210 unidades.
1) 369 = 7a + 21 (4,21)
a = (369 – 88,41) ÷ 7 = 40,08
el cual corresponde a la cantidad en miles, estimada para el período base, en este caso
1987. Con esos dos valores, se tendrá que la recta estará dada por:
Ŷ = 40,08 + 4,21 (10) = 82,18 = 82180 unidades. Corresponde a las unidades que se estima se venderán
en 1997, de acuerdo al comportamiento de la serie. El origen se puede trasladar a cualquier punto o
período, y su resultado será exactamente igual. Cuando la serie es impar y continua lo recomendable es
trasladar el origen al período central, de tal manera que la ΣX = O, con lo cual se logra agilizar y
simplificar las operaciones de cálculo. Con la información de la tabla 3., calculemos el valor de los
parámetros, obtengamos la ecuación de la recta y estimemos el valor de Y para 1997, tomando como
origen a 1990.
108
El valor de X será igual a:
X = 1997 – 1990 = 7
AÑOS Y Ŷ Y– Ŷ (Y – Ŷ)2 Y2
1987 36 40,08 -4,08 16,6464 1.296
1988 55 44,29 10/71 114,7041 3.025
1989 40 48,50 -8,50 72,2500 1.600
1990 48 52,71 -4,71 22,1841 2.304
1991 72 56,93 15,07 227,1049 5.184
1992 50 61,14 -11,14 124,0996 2.500
1993 68 65,35 2,65 7,0225 4.624
Primero calculamos los cuadrados de las diferencias entre los valores reales y estimados, los sumamos y
luego los dividimos por el número de períodos. Medida conocida como varianza residual, mide la
dispersión de los datos que no queda explicada por la recta de estimación.
S 2y x
(Y Y) 2 584,0116 7 83,43
n
También se puede calcular en forma más sencilla, a pesar de que sus resultados presentan una ligera
diferencia, mediante la aplicación de la fórmula:
S 2
Y 2
a Y b YX
; S 2y x
20.533 40,08(369) 4,21(1.225)
83,75
yx
n 7
S 2y x 83,75 , en el caso que utilicemos los datos de la tabla 2. cuando ΣX ≠ 0
109
20.533 52,71(369) 4,21(118)
S 2y x 83,75 ;
7
luego calculamos la varianza de la variable Y:
S 2y x Y 2
nY
2
n
S2y 20.533 7(369 7) 2 / 7 154,49
r r 2 0,46 0,68
Valor bastante alejado de la unidad; por lo tanto, se puede decir que existe poca correlación y que esa
recta es poco explicativa para los datos de esta.
Hay un procedimiento que nos permite determinar el coeficiente de correlación lineal en forma directa:
r
n XY X Y
n X X n Y Y
2 2 2 2
r
7(1.225) 21369
826
0,68
7(91) 212 720.533 (369) 2 1.218
TENDENCIA PARABÓLICA
Se emplea, en especial, cuando la serie presenta variaciones acentuadas y cuando asume la forma de una
parábola. La ecuación correspondiente está dada por Y = a + bX + cX 2. La tarea consiste en determinar
los valores para los parámetros a, b y c. Para ello, nos valemos de un sistema de ecuaciones normales,
siendo:
1) ΣY = na + bΣX + cΣX2
2) ΣXY = aΣX + bΣX2 + cΣX3
3) ΣX2Y = aΣX2 + bΣX3 + cΣX4
Utilicemos la información de la tabla 1. y trabajemos, en primer lugar, tomando como origen el primer
período de la serie, es decir, 1987, donde X = 0 y la ΣX ≠ 0.
AÑOS Y X X2 X3 X4 XY X 2Y Ŷ
110
1987 36 0 0 0 0 0 0 39,61
1988 55 1 1 1 1 55 55 44,30
1989 40 2 4 8 16 80 160 48,79
1990 48 3 9 27 81 144 432 53,09
1991 72 4 16 64 256 288 1152 57,21
1992 50 5 25 125 625 250 1250 61,13
1993 68 6 36 216 1296 408 2448 64,87
La ecuación resultante la hemos señalado como ecuación 4); ahora trabajamos con las ecuaciones primera
y tercera. Para ello, multiplicamos a la primera ecuación por -13 y se la restamos a la tercera.
Tenemos dos ecuaciones: 4) y 5), cada una con dos incógnitas; por lo tanto, se podrá eliminar el
parámetro b multiplicando la ecuación 4) por -6 y la restamos de la 5):
111
1) 369 = 7a + 21 (4,78) + 91 (-0,095), y se tiene que
a = (369 – 100,38 + 8,645) ÷ 7 = 39,61
Procedamos a. cambiar el origen. Recordemos que puede estar ubicado en cualquier período, sin
embargo, tomamos a 1990 para que la ΣX = 0.
Vamos a utilizar el sistema de ecuaciones expuesto anteriormente, suprimiendo aquellos términos donde
ΣX = 0.
b = 118 ÷ 28 = 4,21. Puede observarse que anteriormente dio 4,78, y cada vez que cambiemos el origen,
este valor también cambiará, ya que será la pendiente en el punto en que se tome el origen. Ahora,
emplearemos las otras dos ecuaciones, eliminando al coeficiente a; para ello, multiplicamos la ecuación
1) por -4 y se la restamos a la ecuación 3).
Siendo c = -8 ÷ 84 = -0,095; este valor no varía, aun cuando cambiemos el origen. Una vez calculado el
parámetro c lo reemplazamos en la primera ecuación, siendo:
112
1) 369 = 7a + 28 (-0,095)
a = [369 + 2,66] ÷ 7 = 53,09
c
X XY
n X 2 Y 2
c
7(l.468) (28)(369)
-0,095
n X X 4 2 2 7(l96) (28) 2
a Y c X n 369 2
a 369 (- 0,095)(28) 7 53,09
S 2
Y 2
a XY b YX c X 2 Y
yx
n
20.533 23,09(369) 4,21(118) 0,095(1.468)
S 2y x 83,64
7
Sabemos que el valor de la varianza de Y, calculado para la recta, es igual a S 2y 154,49 . Conociendo
la varianza residual y la varianza de la variable se puede calcular el coeficiente de correlación al cuadrado
de la siguiente manera:
113
También se hubiera podido calcular directamente el coeficiente de correlación, si calculamos la varianza
explicada, es decir, la media de los cuadrados de las diferencias entre los valores estimados y la media
aritmética.
Comprobado que el coeficiente de correlación parabólico se puede calcular de diferentes maneras con el
mismo resultado, procedamos a la representación gráfica.
80
70
60
unidades)
50 Real
40
30 Series2
20
10
0
1985 1990 1995
AÑOS
Gráfica 3.Ventas reales y estimadas - Ajuste parabólico 1987-1993 Ventas (miles unidades)
Se puede observar en la gráfica 3. que al trazar la línea de las cantidades estimadas no toma la forma de una
parábola como debe ser, ello se debe a que los datos originales no tienen un comportamiento parabólico.
TENDENCIA EXPONENCIAL
114
Describe la tendencia de una serie si los crecimientos y decrecimientos muestran un porcentaje casi constante
de un período a otro; por ejemplo, una serie que crece en un 5% mensual o del 28 % anual. La tasa de
crecimiento de la variable debe ser geométrica.
Para el cálculo de los parámetros, cuando la ΣX ≠ 0, se debe utilizar un sistema de ecuaciones normales.
Sabiendo que b = 1 + r, se tendrá que r = 0,0858 = 8,58% tasa correspondiente al crecimiento geométrico
anual.
115
1) 11,96878 = 7 log a + 21 (0,035753)
log a = [11,96878 – 0,750813] ÷ 7 = 1,60257 y su antilogaritmo es = 65,63.
La ecuación general será: log Ŷ = 1,70983 + 0,0357537X ; el valor estimado para 1997, sabiendo que X =
7, será: log Ŷ = 1,70983 + 1,001106 (7) = 1,96010
Ahora se puede obtener el antilogaritmo de 1,96010, siendo igual a
Ŷ = 91,22
Se observa en los dos cuadros anteriores que Σ log Ŷ = Σ log Y, en cambio ΣY ≠ Σ. Ŷ Esto hace que el
cálculo del coeficiente de correlación se dificulte, ya que es necesario trabajar con logaritmos de los
valores reales y de los valores estimados. Lo mismo sucede con el cálculo de la media aritmética y la
varianza, que corresponde a los logaritmos de la variable.
116
2
log Y log Y
0,035793
r2 r2 0,48
log Y
2
i log Y 0,0738596
r 0,48 0,70
r 2 1 (Slog
2
yx Slog y )
2
r 2 1 (0,0156647 0,105513) 0,48
r 0,48 0,70
117
VENTAS (miles de unidades)
REALES Y ESTIMADAS - 1987 - 1993
VENTAS (miles de
80
70
60
unidades)
50
40 Real
30
20 Estimado
10
0
1985 1990 1995
AÑOS
Grafico 4.Ventas reales y estimadas 1987 - 1933 – Ajuste exponencial
EJERCICIOS DE APLICACIÓN
1. Con los siguientes datos correspondientes a una serie lineal, calcule:
AÑOS Y Ŷ
1981 ?
Se pide:
1984 ? a) Calcule los valores de Y1 y Y2.
1987 220 220
1990 240 254 b) Estime el valor de Ŷ
1993 30
c) Calcule el coeficiente de correlación lineal
2. Si la población de un país, en 1983, era 17 millones de habitantes, y en 1993, 26 millones, determine:
a) La tasa de crecimiento geométrico; b) La población estimada para 1997.
3. Con base en una serie de tiempo se pudieron calcular, mediante un ajuste rectilíneo, los salarios
iniciales de los egresados de una facultad, encontrándose que en 1986 eran, en promedio, $72.200 y
en 1993, de $ 380.500. Con base en estos estimativos:
a) Determine la lasa de crecimiento (aritmético).
b) Prediga los salarios que tendrá el egresado al iniciar su ejercicio profesional, en 1997.
118
UNIDAD VIII INFERENCIA ESTADÍSTICA
DESARROLLO BINOMIAL
Número de éxitos 6
P 0,375
Total de casos posibles 16
P 37,5%
P C xn p x q n x P C 24 (1 / 2) 2 (1 / 2) 2
n! 4! 24
C xn C 24 C 24 C 24 6
(n x)! x! (4 2)!2! 4
119
2 2
1 1 1
P 6 P 6 P 0,375
2 2 16
P 37,5%
DISTRIBUCIÓN NORMAL
1
4 2
2
1 1
4 1
2 2
La distribución normal gráficamente se presenta mediante una curva en forma de campana denominada
indistintamente curva normal, curva de error, curva de probabilidad o campana de Gauss, siendo de gran
utilidad en la inferencia estadística.
120
El área bajo la curva normal es igual al 100°/o. La media (µ) se encuentra localizada en el centro,
dividiendo la curva en dos partes iguales, correspondiéndole a cada una de ellas el 50%.
Para hallar el área bajo la curva utilizamos la variante estadística Z, en otras palabras, la
variable X la tipificamos o estandarizamos, mediante la aplicación de la siguiente fórmula.
X
Z
La adopción de unidades de Z tiene como fin referir cualquier distribución normal a un tipo único cuyos
parámetros serán μ = 0 y σ2 = 1. Si consideramos el lanzamiento de las 4 monedas del ejercicio anterior,
la probabilidad de obtener exactamente dos caras, mediante la aplicación de la distribución binomial se
vio que era igual a 0,375 o 37,5%; ahora, mediante la utilización de la distribución normal se tendrá:
En primer lugar, la forma de hacer la pregunta varía, ya que en la binomial era P (X = 2) y en la normal
será P (1,5<X<2,5), trasformando la variable discreta en continua.
Siendo μ = 2 y σ = 1 se tendrá:
121
X
Z
2,5 2
Z 0,5
1
1,5 2
Z 0,5
1
Para Z = 0,5 el área (ver tabla II) será igual a 0,1915; por ser simétrico, para Z = – 0,5 se tendrá el mismo
valor de 0,1915, el área total de la región sombreada será igual a la suma: 0,1915 + 0,1915 = 0,3830 =
38,3%. Se observará que el resultado es bastante aproximado al obtenido mediante la binomial.
LIMITES DE CONFIANZA
El análisis de una población podría dificultarse dado su tamaño, lo cual ocasionaría altos costos,
requeriría un gran número de personas para encuestar y un tiempo demasiado largo, para poder abarcar la
totalidad de las unidades que conforman la población; en algunas investigaciones, el elemento o unidad se
destruye al ser analizado, tal como ocurre, por ejemplo en la vida o duración de una bombilla, de una
batería para carro, de una pila, en la dureza de un vidrio, de un tornillo, de un alambre, etc., lo cual impide
que tomemos la totalidad de las unidades producidas, ya sea de una máquina o de un conjunto de
máquinas; en otros casos, la población puede ser infinita, como ocurre al analizar las características de los
peces en un río. En todos estos casos se hace necesario la realización de una muestra, generalmente
aleatoria, que conlleva a tomar tan solo una parte de los elementos que constituyen la población que se va
investigar.
Supongamos que se desea estudiar alguna característica o características de los empleados de un sector
industrial, por ejemplo: los sueldos.
Podríamos recurrir a toda la población (total de empleados en el sector) pero sería muy dispendioso la
recolección de esa información, debido al número tan elevado de empleados. Así que se recurre a una
muestra aleatoria de 200 empleados, obteniéndose un promedio mensual de $7.200 y desviación estándar
de $800. El resultado del promedio se infiere, es decir se considera como si fuera el promedio que se
122
obtiene al tomar la totalidad de los empleados, sin embargo observemos que se podrá obtener un número
M de muestras posibles de tamaño 200 de una población de N elementos, así:
N!
M C nN posibles combinaciones
( N n)! n!
Ejemplo. Supongamos una población pequeña de 13 elementos, de la que se van a seleccionar muestras
de 4 elementos. Calcular el número de muestras posibles
Resolución:
N = 13
n=4
N!
M=? M C nN
( N n)! n!
13! 6.227.020.000
M C413
9!4! (362.880)( 24)
6.227.020.000
M
8.709.120
M = 715 muestras posibles
El anterior resultado nos está indicando que se obtendrían 715 medias aritméticas muéstrales, con sus
respectivas desviaciones típicas. Si comparamos las medias aritméticas obtenidas, observamos que son
diferentes unas de otras, por lo tanto no todas las muestras representarían igualmente bien a la población
de la cual se extrajo la muestra.
Se dirá de una media aritmética obtenida a través de una muestra, que su representatividad con respecto a
la población dependerá de dos aspectos o características de la distribución de la que ha sido extraída; a)
del tamaño de la muestra, el cual debe ser determinado en tal forma que sea el óptimo. Sin embargo, el
Con las dos características anteriores se obtiene el error estándar de la media, la que es igual a:
σ s
σx ó sx
n n
123
En el ejemplo de los 200 empleados, el error estándar es
s 800
sx 565,7
n 200
Si consideramos que el salario promedio obtenido es de $7.200, siendo uno de los tantos promedios que
se pueden obtener en una muestra al azar sin poder afirmar que sea igual a la media poblacional, lo que
requerirá fijar unos límites de confianza para la media muestral con una probabilidad (por ejemplo del
95%, aceptando que nos equivoquemos 5 veces de 100, o sea con un margen de error del 5°/o) dentro de
la cual debe estar la media poblacional. En este caso, la tabla para calcular el área bajo la curva de
probabilidad nos dice que Z = 1,96 ¿Cómo se halla el valor de z = 1,96? Como el área total bajo la
curva asumimos que es el 95% = 0.95 este valor de 0.95/2 = 0,475 por ser dos regiones este valor de
0,475 buscamos en la tabla II y vemos a que valor de Z corresponde Z = 1,96 y se tendrá que los
límites para la media poblacional estimada serán:
s
X xZ
n
X 7.200 1,96(56,57)
X superior = 7.200 + 110,88 = 7.310,88
X inferior = 7.200 – 110,88 = 7.089,12
El resultado anterior nos indica que la media, de todos los trabajadores del sector industrial estudiado,
debe quedar incluida dentro de los límites con una seguridad del 95%. No es una certeza, ya que hemos
aceptado un error o riesgo a equivocarnos del 5%.
124
s
X sI x Z 1 f
n
X sI 7.200 110,88 1 0,0571
X sI 7.200 107,67 7.307,67
X sI 7.200 107,67 7.092,33
En el caso de que el tamaño de la muestra sea menor o igual a 30 (n ≤ 30) se utiliza la tabla III "t" de
Student en vez de la tabla II Z, en la siguiente forma: se determinan los grados de libertad, simbolizado
por la letra griega nu (υ), siendo υ = n – 1 luego se buscará el valor del error o sea el complemento de la
confianza y se obtendrá el valor de t (ver tabla II de "t").
Consideremos que en vez de n = 200, se trabajó con n = 25, por lo tanto υ = 25 – 1 = 24. Si la confianza
es del 95%, en la tabla localizamos la columna del 5% o sea 0,05, siendo t = 2,0639. Por otra parte se
considera que ŝ < σ cuando n ≤ 30, siendo necesario corregirla de la siguiente manera.
x x
2
n n
ss i
n 1 n n 1
x x
2
s i
n 1
125
(sin factor de corrección para población finita dado que f < 0,05)
PRUEBA DE HIPÓTESIS
Como en la mayoría de los casos no se conoce la media poblacional (verdadera), ya que nos tocaría
trabajar con todos los elementos que constituyen la población, pero sí se puede tener un valor aproximado
como resultado de una larga experiencia debido a continuas evaluaciones que nos permitan tomarlo como
el comportamiento normal de esa distribución.
Así, por ejemplo, se tendrá que un fabricante ofrece baterías (pilas) para transistor que tiene una duración
promedio de 4.000 horas. Un comprador cualquiera adquiere 36 pilas y encuentra que la duración
promedio es de 3.600 horas, resultado que lo obliga a pensar que está siendo engañado, comprando un
producto de menor calidad, pues la duración promedio de las 36 pilas fue inferior a la ofrecida por el
fabricante. La desviación típica de la duración de estas pilas fue de 985.
Al nivel del 5%, se quiere saber si el fabricante está ofreciendo un producto de menor calidad.
a) Se plantea la hipótesis nula (Ho) y la hipótesis alternativa (Ha). La prueba puede ser bilateral o
unilateral (derecha o izquierda).
a) Planteamiento de la hipótesis
Hipótesis nula Ho: μ = 4.000 horas
Hipótesis alternativa Ha: μ < 4.000 horas para prueba unilateral a la izquierda
c) Desviación típica conocida ŝ = 985 horas (con distribución normal y la muestra es aleatoria)
126
x 3600 horas; µ = 4000 horas; S = 985 horas; n = 36
La prueba de hipótesis puede ser bilateral, cuando consideramos que el resultado de la muestra puede ser
menor o mayor que el promedio utilizado en la hipótesis nula. Por ejemplo, la pregunta nos planteamos de
la siguiente manera el nivel del 5%, lo asegurado por el fabricante es correcto.
Resolución
a) Planteamiento de la hipótesis
Hipótesis nula Ho: μ = 4.000 horas
Hipótesis alternativa Ha: μ ≠ 4.000 para prueba bilateral o doble cola
127
X =3600 horas; µ = 4000 horas; S = 985 horas
x 3.600 4.000
Z
2,43
985
s
36
n
Como la prueba es bilateral al 50% de la campana le restamos α/2 es decir 0,05/2 = 0,025 y con este
valor de área hallamos el valor de Z en la tabla II
0,5 – 0,025 = 0,4750 con este valor de área hallamos Z = 1,96; luego identificamos las regiones en la
campana.
Como el valor de Z calculado es -2,43 cae en la zona de rechazo o región crítica, por esta razón
rechazamos la afirmación del fabricante.
Si se plantea la hipótesis de que la duración de las pilas es superior a lo afirmado por el fabricante, la
prueba será unilateral a la derecha y se plantea de la siguiente manera:
a) Planteamiento de Hipótesis
Hipótesis nula Ho: μ = 4000 horas
Hipótesis alternativa Ha: μ > 4.000 horas
b) Margen de error α = 0,05
c) Desviación típica S = 985 horas
d) Cálculo del valor de Z con los siguientes datos:
X =3600 horas; µ = 4000 horas; S = 985 horas; n= 36
x 3.600 4.000
Z
2,43
985
s
36
n
128
De igual forma que en el primer caso Z tabulado = 1.64 razón por lo que se rechaza la hipótesis nula.
x 3.600 4.000
d) t 1,99
s 1.005,31
n 25
Con el valor de los grados de libertad (µ)
µ = 25 – 1 = 24
t = 2,0639
α = 0,05 (obtenido en la tabla III de “t”)
129
En este caso como -1,99 cae en la zona de aceptación, se podrá concluir, al nivel del 5% y con una
muestra menor que 30 el fabricante tiene razón.
Si se trata de una prueba unilateral, el punto crítico de "t" siendo α = 0,05, se procede de la siguiente
forma:
υ = n – 1; υ =25 – 1; υ = 24
α = 2(0,05); α = 0,10 (se toma el doble se unilateral a la izquierda o derecha),
Con υ = 24 y α = 0,10 localizamos el valor de ¨t¨ en la tabla III t = 1,7109 y localizamos las regiones en
la campana.
DISTRIBUCIÓN JI CUADRADO
En la aplicación de la prueba anterior se presentan dos posibilidades, pero en el caso en que se tengan más
de dos posibilidades, ese procedimiento no es aplicable y se hace necesario la utilización de otro tipo de
distribución, denominado como ji o chi cuadrado,
130
cuyo nombre se deriva del uso como símbolo de la letra griega χ, la que se lee ji o chi. La fórmula que se
aplica, para el cálculo de esta distribución, es la siguiente:
χ2
ni ni *
n1 *
Supongamos que se lanza un dado 120 veces ó (120 dados una sola vez); la aparición de las diferentes
caras fueron: el uno, se presentó 26 veces; el dos, ocurrió 23 veces; el tres, 19 veces; el cuatro, 14 veces;
el cinco, 18 veces y el seis, 20 veces. La frecuencia esperada para cada cara es de 20, calculadas así:
E = np
n = 120 lanzamientos
p = 1/6 (probabilidad de presentación de cada cara)
1 120
ni * (120) 20 y así para todas las caras
6 6
b) α = 0,05
c) Siendo χ2 = 4,30
131
d) Usando la tabla de χ2, el punto crítico χ2 calculado será igual a 11,07.
υ=n–1=6–1=5
α = 0,05
La distribución es asimétrica positiva, es decir, la curva presenta un alargamiento a la derecha; por otra
parte, sólo se tendría una región crítica, ubicada siempre al lado derecho. En nuestro ejercicio el valor de
ji calculado es 4,30 el cual cae dentro de la zona de aceptación, por lo tanto, consideramos que el dado es
correcto (no está cargado), en otras palabras, las diferencias que se presentan entre las frecuencias
observadas y las esperadas no son significativas.
Esta distribución se utiliza frecuentemente cuando los datos están ordenados en tablas denominadas de
contingencia, que son arreglos en los cuales un conjunto de observaciones se dispone conforme a dos
criterios de clasificación: columnas y líneas, por ejemplo: dos procedimientos de fabricación, A y B, han
sido ensayados con el fin de aumentar la duración de conservación de productos enlatados.
Los resultados obtenidos son:
Solución
La anterior tabla es de "2 X 2" ya que se tienen dos columnas (Fracasos y Éxitos) y dos
Líneas (A y B}. El procedimiento que se sigue es similar al anterior.
140
p1 0,54 , o sea que el 54°/o corresponde al procedimiento A
200
120
p1 0,46 , o sea que el 46°/o corresponde de al procedimiento B
200
De 260 enlatados 131 fueron fracasos, ahora si lo multiplicamos por 0,54, se obtendrá el número de
enlatados esperados que fracasen en el procedimiento A; si se multiplica por 0,46, se obtendrá el número
de fracasos esperados para el procedimiento B, esto mismo sucede con los 129 éxitos, que al ser
multiplicados por 0,54 y 0,46, respectivamente, darán el número de éxitos esperados para A y B,
respectivamente.
132
ni ni* ni – ni* (ni – ni*)2 (ni ni *) 2
ni *
77 70,74 6,26 39,19 0,55
54 60,26 -6,26 39,19 0,65
63 69,66 -6,66 44,36 0,64
66 59,34 6,66 44,36 0,75
260 260,00 0 – 2,59
χ 0,05
2
3,84 (ji cuadrado obtenido en la tabla para υ = 1)
υ = (2 – 1) (2 – 1) = 1
Siendo 2,59 < 3,84, se acepta la hipótesis, o sea que ninguno de los procedimientos es superior al otro.
Siempre que se tenga una tabla de “2 X 2” es decir que υ = 1 se debe calcular el valor de n2 utilizando la
corrección de Yates y la fórmula será:
n n i * 0,5
2
χ
2 i
n1 *
ni ni* ni – ni* ni ni * ni ni * 0,5 n i ni * 0,5
2
n i ni * 0,5
2
n1 *
77 70,74 6,26 6,26 5,76 33,18 0,47
54 60,26 -6,26 6,26 5,76 33,76 0,55
63 69,66 -6,66 6,66 6,16 37,95 0,54
66 59,34 6,66 6,66 6,16 37,95 0,64
260 260,00 0 – – – 2,20
133
BIBLIOGRAFÍA
BIBLIOTECA VIRTUAL
134