Sie sind auf Seite 1von 66

EJRCITO MEXICANO

HEROICO COLEGIO MILITAR.

SECCIN ACADMICA.

COMPENDIO DE ESTADSTICA
DESCRIPTIVA.
SEGUNDO AO.

(1/er. SEMESTRE).

MATERIA

ESTADSTICA DESCRIPTIVA
NDICE.
I.

INTRODUCCIN A LA ESTADSTICA.
PGS
1.1.
1.2
1.3.
1.4
1.5

II.

DEFINICIN DE ESTADSTICA....
CONCEPTO DE ESTADSTICA DESCRIPTIVA....
CONCEPTO DE ESTADSTICA INFERENCIAL.....
APLICACIONES DE LA ESTADSTICA EN OTRAS REAS..
ELEMENTOS DE APLICACIN DE LA ESTADSTICA...

4
4
5
6
6

CONCEPTOS Y TRMINOS BSICOS.


2.1.
2.2
2.3

III.

9
DEFINICIN DE POBLACIN Y MUESTRA
CONCEPTO GENERAL DE VARIABLE, VARIABLE CONTINUA Y 10
DISCRETA..
DEFINICIN DE EXPERIMENTO,
EXPERIMENTO ALEATORIO Y 11
DETERMINSTICO..

DISTRIBUCIN DE FRECUENCIAS.

VALOR MXIMO Y VALOR MNIMO..


FRMULA Y CLCULO DEL RANGO
FRMULA Y VALOR DE LA AMPLITUD.
LMITES DE UN INTERVALO...
CLCULO DE LOS LMITES....
REGISTRO DE LOS INTERVALOS.
FRMULA Y REGISTRO DE LAS MARCAS DE CLASE.............
REGISTRO DE LAS FRECUENCIAS ABSOLUTAS..
CLCULO
Y
REGISTRO
DE
LA
FRECUENCIA
ABSOLUTA
ACUMULADA...
3.10 FRECUENCIA RELATIVA..
3.11 FRECUENCIA RELATIVA ACUMULADA...
3.1
3.2.
3.3
3.4
3.5
3.6
3.7
3.8.
3.9.

13
14
15
15
15
16
16
17
18
18
19

IV. REPRESENTACIN GRFICA DE DATOS.


4.1
4.2
4.3
4.4
4.5
4.6

CONCEPTO DE HISTOGRAMA. ..
DEFINICIN DE POLGONO DE FRECUENCIAS.
DEFINICIN DE OJIVA
TRAZADO DEL HISTOGRAMA Y POLGONO DE FRECUENCIAS.......
ESCALAS DE LA OJIVA..
TRAZADO DE LA OJIVA ..

20
21
21
22
23
23

V. MEDIDAS DE POSICIN RELATIVA.


5.1
5.2
5.3
5.4
5.5
5.6

DEFINICIN. .
DEFINICIN DE PERCENTIL...
FRMULA DE LA POSICIN DEL PERCENTIL. ..
CALCULO DE LA POSICIN DE UN PERCENTIL.
FRMULA DEL VALOR DE UN PERCENTIL.
CLCULO DEL VALOR DE UN PERCENTIL..

24
24
24
25
25
26

VI. MEDIDAS DE TENDENCIA CENTRAL.


6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8

DEFINICIN.
CONCEPTO DE MEDIA ARITMTICA..
FRMULA DE LA MEDIA ARITMTICA...
CLCULO DE LA MEDIA ARITMTICA.
CONCEPTO DE MODA. ...
FRMULA Y CLCULO DE LA MODA...
CONCEPTO DE MEDIANA...
FRMULA Y CLCULO DE LA MEDIANA.

27
27
27
29
30
30
34
34

VII. MEDIDAS DE DISPERSIN.


7.1
7.2
7.3
7.4
7.5
7.6
7.7
7.8
7.9
7.10

DEFINICIN. ..
CONCEPTO Y FRMULA DEL DESVO....
REGISTRO DEL DESVO.....
DESVIACIN MEDIA....
ECUACIN Y CLCULO DE LA DESVIACIN MEDIA..
VARIANZA.
CLCULO DE REGISTRO DEL DESVO AL CUADRADO.
FRMULA Y CLCULO DE LA VARIANZA. ...
CONCEPTO Y FRMULA DE LA DESVIACIN ESTNDAR.
..
CLCULO DE LA DESVIACIN ESTNDAR..

37
38
38
39
39
41
41
42
43
44

VIII. MEDIDAS DE CORRELACIN.


8.1
8.2
8.3
8.4
8.5
8.6
8.7
8.8
8.9
8.10
8.11
8.12
8.13
8.14
8.15
8.16
8.17
8.18
8.19
8.20
8.21
8.22
8.23
8.24
8.25

DEFINICIN. .
FRMULA DE LA MEDIA...
CLCULO DE LA MEDIA DE LA VARIABLE X
CLCULO DE LA MEDIA DE LA VARIABLE Y. ...
FRMULA DEL DESVO. ....
CLCULO DEL DESVO DE LA VARIABLE X. ....
CLCULO DEL DESVO DE LA VARIABLE Y. ....
FRMULA DE LA DESVIACIN ESTNDAR DE LA VARIABLE X.
CLCULO DE LA DESVIACIN ESTNDAR DE LA VARIABLE X..
FRMULA DE LA DESVIACIN ESTNDAR DE LA VARIABLE Y..
CLCULO DE LA DESVIACIN ESTNDAR DE LA VARIABLE Y
FRMULA DE LA COVARIANZA. ..
CLCULO DE LA COVARIANZA. ...
FRMULA
DEL
COEFICIENTE
DE
PEARSON
O
DE
CORRELACIN.
CLCULO DEL COEFICIENTE DE PEARSON.
DEFINICIN DE LA RECTA DE REGRESIN...
ECUACIN DE LA RECTA DE REGRESIN.
FRMULA DE LA ORDENADA..
CLCULO DE LA ORDENADA AL ORIGEN (b). ...
FRMULA DE LA PENDIENTE. ..
CLCULO DE LA PENDIENTE..
DEFINICIN DE ERROR ESTNDAR DE ESTIMACIN (E.E.E.).
FRMULA DEL ERROR ESTNDAR DE ESTIMACIN..
CLCULO DEL ERROR ESTNDAR DE ESTIMACIN..
REPRESENTACIN GRFICA DEL ERROR ESTNDAR DE
ESTIMACIN..

45
47
48
49
50
50
51
52
52
53
53
54
54
55
57
58
58
58
59
60
60
61
62
63
64

ESTADSTICA DESCRIPTIVA.
I.

INTRODUCCIN A LA ESTADSTICA.
Pedro un vendedor ambulante de peridicos, se dio cuenta de que no todos los
das venda lo mismo.
Haba ocasiones en que venda menos de los que traa, en otras la demanda era
mayor y pocas veces lograba vender la totalidad de los ejemplares. Preocupado por
esta situacin que le impeda ganar ms dinero, decidi consultar a Ramiro, un
amigo suyo que tena conocimientos de Estadstica, y le planteo el problema. Ramiro
le propuso que da a da anotara cuantos ejemplares haba vendido y le llevara la
informacin, necesaria para solucionar el problema. Un mes despus, Pedro llevo la
informacin solicitada; Ramiro de inmediato organizo los datos, elaboro una tabla,
calculo los valores medios y las desviaciones. Al finalizar le recomend que adquiriera
150 ejemplares diarios para asegurar su venta. Pedro sigui las indicaciones y
observo que sus ventas semanales mejoraban. Esto fue posible gracias al tratamiento
estadstico que dio Ramiro a la informacin de Pedro.

1.1 DEFINICIN DE ESTADSTICA


Estadstica, rama de las matemticas que se ocupa de reunir, organizar y analizar
datos numricos y que ayuda a resolver problemas como el diseo de experimentos y
la toma de decisiones. Se puede decir que la estadstica recopila, organiza, analiza,
e interpreta los datos obtenidos para tener conocimiento de los hechos pasados,
para prever situaciones futuras y tomar decisiones en base a la experiencia.
Las ramas de la estadstica son: TEORA DEL MUESTREO,
DESCRIPTIVA E INFERENCIA ESTADSTICA.

ESTADSTICA

1.2 CONCEPTO DE ESTADSTICA DESCRIPTIVA.


Esta rama de la estadstica se encarga de organizar y analizar la informacin
muestreada. Analiza, estudia y describe a la totalidad de individuos de una poblacin.
Su finalidad es obtener informacin, analizarla, elaborarla y simplificarla lo necesario
para que pueda ser interpretada cmoda y rpidamente y, por tanto, pueda utilizarse
eficazmente para el fin que se desee. El proceso que sigue la estadstica descriptiva
para el estudio de una cierta poblacin consta de los siguientes pasos para llegar a
resultados:

Seleccin de caracteres dignos de ser estudiados.


Recopila los datos que necesita; esto lo puede hacer por encuestas
(investigacin de mercado), o recabndolos directamente de archivos (as lo
hacen los economistas que requieren datos histricos).
Una vez recopilada la informacin, debe organizarse y ordenarse y para ello es
recomendable elaborar cuadros estadsticos. Elaboracin de tablas de
frecuencias, mediante la adecuada clasificacin de los individuos dentro de
cada carcter.
Se procesan o calculan ciertos valores para obtener resultados, mismos que
deben ser interpretados posteriormente. La interpretacin es muy importante,
ya que de ella depende la toma de decisiones posterior.
Representacin grfica de los resultados (elaboracin de grficas estadsticas).
Obtencin de parmetros estadsticos, nmeros que sintetizan los aspectos
ms relevantes de una distribucin estadstica.

1.3 CONCEPTO DE ESTADSTICA INFERENCIAL.


La estadstica descriptiva trabaja con todos los individuos de la poblacin. La
estadstica inferencial, sin embargo, trabaja con muestras, subconjuntos formados por
algunos individuos de la poblacin. A partir del estudio de la muestra se pretende inferir
aspectos relevantes de toda la poblacin. Cmo se selecciona la muestra, cmo se
realiza la inferencia, y qu grado de confianza se puede tener en ella son aspectos
fundamentales de la estadstica inferencial, para cuyo estudio se requiere un alto nivel
de conocimientos de estadstica, probabilidad y matemticas.
Una vez que se tienen los resultados, estos deben interpretarse y proyectarse al futuro;
este es el objeto de estudio de la estadstica inferencial, para estudiar esta rama se
requieren conocimientos de probabilidad.

1.4

APLICACIONES DE LA ESTADSTICA EN OTRAS REAS.

La Estadstica es una ciencia joven en su aplicacin, aunque lleva cerca de 200 aos
de estudiarse tericamente. Es una herramienta que se utiliza en la mayora de las
reas profesionales para tomar decisiones.
En nuestros das, la estadstica se ha convertido en un mtodo efectivo para describir
con exactitud los valores de datos econmicos, polticos, sociales, psicolgicos,
biolgicos o fsicos, y sirve como herramienta para relacionar y analizar dichos datos.
El trabajo del experto estadstico no consiste ya slo en reunir y tabular los datos, sino
sobre todo en el proceso de interpretacin de esa informacin. El desarrollo de la
teora de la probabilidad ha aumentado el alcance de las aplicaciones de la estadstica.
Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando
determinadas distribuciones probabilsticas; los resultados de stas se pueden utilizar
para analizar datos estadsticos. La probabilidad es til para comprobar la fiabilidad de
las inferencias estadsticas y para predecir el tipo y la cantidad de datos necesarios en
un determinado estudio estadstico.

1.5

ELEMENTOS DE APLICACIN DE LA ESTADSTICA.

Imaginemos por un momento que nos encontramos en la escuela de Ingeniera donde


se imparte la materia de estadstica. En dicho plantel es frecuente ver informaciones en
tablas o cuadros como el que aparece en el siguiente ejemplo:

CUADROS ESTADSTICOS.

LAS GRAFICAS.

LAS GRAFICAS:
HISTOGRAMA.
Los histogramas se utilizan para representar tablas de frecuencias con datos
agrupados en intervalos. Si los intervalos son todos iguales, cada uno de ellos es la
base de un rectngulo cuya altura es proporcional a la frecuencia correspondiente.

POLGONO DE FRECUENCIAS.
Si se unen los puntos medios de la base superior de los rectngulos se obtiene el polgono
de frecuencias.

OJIVA
La ojiva es una grfica asociada a la distribucin de frecuencias, es decir, que en ella
se permite ver cuntas observaciones se encuentran por encima o debajo de ciertos
valores, en lugar de solo exhibir los nmeros asignados a cada intervalo.

II.

CONCEPTOS Y TRMINOS BSICOS.


2.1

DEFINICIN DE POBLACIN Y MUESTRA.

Para poder recopilar los datos adecuadamente se debe conocer la poblacin objeto de
estudio, por medio de una muestra representativa.
Poblacin:
Se llama poblacin (matemticas), al total de sujetos observables o sea; el conjunto de
todos los individuos cuyo conocimiento es objeto de inters desde un punto de vista
estadstico.

Ejemplo: si se estudia un parque zoolgico, la poblacin estar formada


por todos los animales del parque y la muestra podra ser 5 ardillas.
Muestra:
En estadstica, conjunto de individuos extrados de una poblacin.
Se dice que una muestra es representativa cuando, por la forma en que ha sido
seleccionada, aporta garantas suficientes para realizar inferencias fiables a partir de
ella.

10

El estudio estadstico de una poblacin se puede realizar mediante un anlisis


exhaustivo de todos sus individuos (estadstica descriptiva) o bien mediante una
inferencia realizada a partir de una muestra extrada de la poblacin (estadstica
inferencial).

Otro ejemplo es:


Un grupo de alumnos ha realizado una encuesta en su colegio. Han preguntado a sus
compaeros de 2 ao, cunto tiempo dedican durante la semana a ver la televisin.
Todos los alumnos del Colegio forman la poblacin; el estudio est basado en ellos.
Si realizamos un estudio estadstico sobre el color de los coches que se han vendido
este ao en nuestro pas, la poblacin sera todos los coches.
Pero al realizar un anlisis estadstico puede resultar muy complicado tener acceso a
toda la poblacin. Por lo tanto, lo que hacemos es escoger solo una parte de la
poblacin para realizar el estudio, es decir, escogemos una muestra que sea lo
suficientemente representativa. En el estudio sobre la televisin, los alumnos de 2 de
E.S.O. sera la muestra que hemos elegido como representativa de toda la poblacin
del centro.

2.2
CONCEPTO
DISCRETA.

GENERAL

DE

VARIABLE,

VARIABLE

CONTINUA

El peso, color de la piel, el grosor del pelo etctera, son las caractersticas o variables
de la muestra de una poblacin.
Variable:
En un estudio estadstico, la variable es aquello que hemos elegido como objeto de
estudio y que va a ser observado y analizado sobre la muestra de poblacin
seleccionada.
Es una caracterstica de los sujetos de la poblacin que puede tomar cualquiera de los
valores de un conjunto y que se evala por medio de una muestra.las variables pueden
ser:

11

Variables continas y variables discretas.


Una variable continua puede ser como el peso de las ardillas, es decir que pueden
tomar cualquier valor de un conjunto (1.5 kg, 1.7 kg, 1.75 kg.). El valor puede ser entero
o fraccionario, como el nmero de kilmetros que puede recorrer un automvil con el
tanque de gasolina lleno. C,).
Una variable discreta es como el color de la piel, es decir solo pueden tomar algn
valor (gris, caf, blanco).Solo puede tomar como valores unidades enteras. Por
ejemplo; una familia puede tener 0,1,2,3,4, etctera, hijos pero jams podr tener 2.5 o
de hijos.
Todo lo visto anteriormente pertenece a una de las ramas de la estadstica llamada
teora del muestreo, que es muy importante, pues si se hace un muestreo correcto se
obtendrn resultados representativos de la poblacin; en caso contrario, podemos
incurrir en errores y omisiones debido a estimaciones que estn fuera de la realidad.
VARIABLE CONTINUA Y DISCRETA.
Para la encuesta sobre la televisin, la variable continua es el nmero de horas
dedicadas a ver la televisin. Si la variable se puede expresar mediante un valor
numrico, entonces decimos que el carcter es de tipo cuantitativo.
En el caso del estudio del color de los coches, la variable es un color. Esta variable no
puede ser expresado mediante un valor numrico, por eso decimos que se trata de una
variable cualitativo.

2.3
DEFINICIN
DETERMINSTICO.

DE

EXPERIMENTO,

EXPERIMENTO

ALEATORIO

Experimento es una actividad realizada segn un plan definido cuyos resultados


producen un conjunto de datos. Consiste en analizar un fenmeno, en determinadas
circunstancias.
Los experimentos pueden ser aleatorios o deterministicos:
Se llaman experimentos aleatorios los que dan lugar a experiencias de azar. El
nacimiento de un nio, porque no puede predecirse el sexo, es decir, que son aquellos
en donde el resultado no siempre ocurre de la misma manera.

Una experiencia es de azar si no se puede predecir el resultado.

12

Se llaman experimentos determinstico, aquellos en los cuales el resultado en


igualdad de circunstancias, ocurre de la misma manera. Por ejemplo al combinar dos
molculas de hidrgeno con una de oxgeno, siempre obtendremos como resultado
agua.
EJEMPLOS:

Si tomamos una piedra y la dejamos caer estamos seguros de que caer. Se trata de
una experiencia determinista, sabemos de antemano lo que
suceder.
Si lanzamos una moneda al aire, sabemos con certeza que
saldr cara? No tenemos la seguridad, puede salir cruz. Se trata
de una experiencia de azar.

Si echamos un dado sobre una mesa, ignoramos qu cara quedar


arriba. El resultado depende del azar. Es una experiencia aleatoria.

III. DISTRIBUCIN DE FRECUENCIAS.


Para manejar los resultados de una encuesta, de una votacin o de cualquier estudio
estadstico, lo primero que hemos de hacer es organizar los resultados obtenidos,
ordenndolos y clasificndolos, es decir, haciendo lo que se llama un recuento de los
datos.
Efectuamos el recuento de los datos, anotando el nmero de veces que ha aparecido
cada uno de los resultados.
Ejemplo:
Vamos a hacer un recuento de datos: Hemos preguntado a los 22 alumnos y alumnas de
clase sobre cul ser el resultado del prximo torneo de ftbol entre dos clubes de
rivales, obteniendo estos resultados:
1 2 X X 1 -1 - 2 - X - 1 - 1 - X - 2 - 1 - 1 - 1 - X - X - 2 - 1 - 2 - 2 X

13

Donde el 1 significa que gana el equipo de casa, la X que empatan y el 2 que gana el
equipo visitante.

3.1

VALOR MXIMO Y VALOR MNIMO.

Es la ordenacin tabular de los datos en intervalos, reunidos en categoras y con la frecuencia


correspondiente.
Valor mximo: el nmero mayor
Valor mnimo: el nmero menor.
Ejemplo:

14

3.2

FRMULA Y CLCULO DEL RANGO.

Rango estadstico (R) es la diferencia entre el valor mnimo y el valor mximo en un


grupo de nmeros aleatorios. Se le suele simbolizar con R.

Requisitos del rango

Ordenamos los nmeros segn su tamao.


Restamos el valor mnimo del valor mximo.
Ejemplo
Para una muestra ( 45, 50, 55, 100), el dato menor es 45 y el dato mayor es 100 . Sus
valores se encuentran en un rango de:
Rango = (100-45) =55

15

3.3 FORMULA Y VALOR DE LA AMPLITUD.

3.4

LIMITES DE UN INTERVALO.

Los lmites de los intervalos de clase son los extremos de cada uno de los tramos en
que se han dividido los valores que puede tomar la variable; el lmite inferior se
corresponde con el valor mnimo y el lmite superior se corresponde con el valor
mximo que puede tomar la variable en cada intervalo. El lmite verdadero de intervalo
o clase se obtiene sumando al lmite ms alto de una clase, el ms bajo de la clase
siguiente y dividiendo el resultado entre dos. El nmero de intervalos es arbitrario, el
nmero de intervalos ideal es aproximadamente 9. Es conveniente un nmero impar de
intervalos, para fijarnos en la simetra de la distribucin
3.5

CALCULO DE LOS LMITES.

A continuacin sumamos al valor menor la amplitud del intervalo y encontramos un


valor que llamaremos lmite.
28 + 11 = 39
El valor 39 ser el lmite superior del primer intervalo y el lmite inferior de segundo
intervalo.
Para calcular el lmite superior del segundo intervalo sumamos nuevamente la amplitud
del intervalo as:
39+11=50

16

De forma similar, podemos encontrar los dems lmites para obtener para obtener la
tabla siguiente:
De este procedimiento observamos que el lmite inferior del primer intervalo
corresponde al valor menor y el lmite superior del ltimo intervalo corresponde al valor
mayor.
Los dos lmites antes sealados definen las llamadas clases, categoras o intervalos.
En nuestro ejemplo el primer intervalo o clase es 28 - 39.

3.6

REGISTRO DE LOS INTERVALOS.

CALIFICACIONES DE LA PRUEBA DE LECTURA


Nmero
del INTERVALOS
intervalo o clase
Lmite inferior.
Lmite superior
1
28
39
2
39
50
3
50
61
4
61
72
5
72
83
6
83
94
3.7

FORMULA Y REGISTRO DE LAS MARCAS DE CLASE.

Una vez que tenemos definidas los lmites de cada intervalo, calculamos el valor medio entre los
dos lmites, llamado maraca de clase o marca del intervalo (mc). La marca de clase se calcula as
para el primer intervalo:

17
De igual manera se calculan las dems y se anotan en la tabla o cuadro estadstico.

CALIFICACIONES DE LA PRUEBA DE LECTURA


Nmero del intervalo
INTERVALOS
MARCA DE CLASE
o clase
m. c.
1
28 - 39
33.5
2
39 - 50
44.5
3
50 - 61
55.5
4
61 - 72
66.5
5
72 - 83
77.5
6
83 - 94
88.5
3.8

REGISTRO DE LAS FRECUENCIA ABSOLUTAS.

Para cada intervalo se tendr una frecuencia determinada. Esta frecuencia ser el nmero de
veces que se repite cada variable Para ello elaboramos una tabla como esta:
Variable
(X)
28
39
41
46
48
54
57
59
60
61
62
63
64

Frecuencia
(f)
1
1
1
1
2
1
3
2
1
3
1
1
3

Variable
(X)
65
66
67
68
69
71
72
75
76
78
80
86
94

Frecuencia (f)
2
1
3
4
1
1
2
1
2
1
1
1
1

Una vez que se obtiene la frecuencia, se registra la frecuencia absoluta que es el nmero de
observaciones que comprenden a cada intervalo representado por su marca de clase, en la columna
correspondiente del cuadro estadstico, como se muestra en el siguiente:

CALIFICACIONES DE LA PRUEBA DE LECTURA


No.
INTERVALOS
MARCA
DE Frecuencia
intervalo
CLASE
absoluta
o clase
m. c.
(f. a.)
1
28 - 39
33.5
2
2
39 - 50
44.5
4
3
50 - 61
55.5
10
4
61 - 72
66.5
19
5
72 - 83
77.5
5
6
83 - 94
88.5
2
= 42

18

3.9

CLCULO Y REGISTRO DE LA FRECUENCIA ABSOLUTA ACUMULADA.

No.
intervalo
o clase
1
2
3
4
5
6

3.10

CALIFICACIONES DE LA PRUEBA DE LECTURA


INTERVALOS
MARCA
DE Frecuencia
Frecuencia
CLASE
absoluta
Absoluta
m. c.
(f. a.)
acumulada
f. a. a.
28 - 39
33.5
2
2
39 - 50
44.5
4
56
50 - 61
55.5
10
16
61 - 72
66.5
19
35
72 - 83
77.5
5
40
83 - 94
88.5
2
42
= 42

FRECUENCIA RELATIVA.

Es el porcentaje de observaciones que corresponde a cada intervalo, es decir, es el porcentaje que


representa la frecuencia absoluta de determinado intervalo, con respecto al total de datos
proporcionados.
Para obtener la frecuencia relativa de cada intervalo se utiliza la siguiente frmula:

fa
f .r.
x100
n
Donde:

f.a. = frecuencia absoluta de cada intervalo


n= nmero total de datos.

19
Las frecuencias relativas en nuestro problema son:

Una vez calculada la frecuencia relativa de cada intervalo es necesario registrar dichos valores en el
cuadro estadstico, agregando la columna necesaria, como se muestra en el siguiente cuadro:

No.
intervalo
o clase

1
2
3
4
5
6

Intervalos

CALIFICACIONES DE LA PRUEBA DE LECTURA


Marca
de Frecuencia
Frecuencia
clase
absoluta
Absoluta
(m. c.)
(f. a.)
acumulada
(f. a. a.)

28 - 39
39 - 50
50 - 61
61 - 72
72 - 83
83 - 94

33.5
44.5
55.5
66.5
77.5
88.5

2
4
10
19
5
2
= 42

2
56
16
35
40
42

Frecuencia
relativa
(f. r.)

4.76%
9.52%
23.81%
45.24%
11.91%
4.76%

3.11 FRECUENCIA RELATIVA ACUMULADA.


La frecuencia relativa acumulada para cada intervalo se obtiene sumando o acumulando
todas las frecuencias relativas de los intervalos anteriores a la frecuencia relativa del
intervalo presente, por ejemplo, la frecuencia relativa acumulada del cuarto intervalo se
calcula as:

4.76 + 9.52 + 23.81 + 45.24 = 83.33%

20

No.
intervalo
o clase

1
2
3
4
5
6

Intervalos

28 - 39
39 - 50
50 - 61
61 - 72
72 - 83
83 - 94

CALIFICACIONES DE LA PRUEBA DE LECTURA


Marca de Frecuencia
Frecuencia
Frecuencia
clase
absoluta
Absoluta
relativa
(m. c.)
(f. a.)
acumulada
(f. r.)
(f. a. a.)

33.5
44.5
55.5
66.5
77.5
88.5

2
4
10
19
5
2

2
56
16
35
40
42

Frecuencia
relativa
acumulada
(f. r. a.)

4.76%
4.76%
9.52% 14.28%
23.81% 38.09%
45.24% 83.33%
11.91% 95.24%
4.76% 100.00%

= 42
(CUADRO 1)

IV.

REPRESENTACIN GRAFICA DE DATOS

4.1 CONCEPTO DE HISTOGRAMA.


Es la representacin grfica de la distribucin de frecuencias de una variable en forma de diagrama
de barras. Funcin cuyas abscisas son los valores de la variable y las ordenadas las frecuencias
correspondientes.
Consiste en un diagrama de barras verticales donde la altura de cada barra indica el nmero de
observaciones de cada valor de la variable, representado por el punto medio de la base de la barra.

21

4.2 DEFINICIN DE POLGONO DE FRECUENCIAS.


Es un grfico de trazos de la frecuencia de clase con relacin a la marca de clase, se obtiene
uniendo los puntos medios de las partes superiores de los rectngulos del histograma.

4.3

DEFINICIN DE OJIVA

Es una grfica que muestra las frecuencias relativas acumuladas menores que cualquier lmite
superior de clase trazado sobre los lmites superiores de clase.

22

4.4 TRAZADO DEL HISTOGRAMA Y POLGONO DE FRECUENCIAS


Para dibujar un histograma, los lmites de los intervalos con su respectiva marca de clase se
registran o grafican en el eje horizontal o de las abscisas (en el siguiente caso, la puntuacin en la
prueba de lectura). En el eje vertical o de las ordenadas, se representa el nmero de observaciones
comprendidas en cada intervalo (la frecuencia absoluta, corresponde al nmero de nios).

HISTOGRAMA DE LAS CALIFICACIONES DE LA PRUEBA DE LECTURA DE 7 NIOS (CUADRO 1)

Para trazar un polgono, se hace una marca para cada frecuencia en el eje vertical sobre el
punto medio del intervalo del eje de las X (suponiendo que los intervalos de clase son de
igual amplitud). Despus se unen estos puntos por medio de lneas rectas y se extienden
hacia ambos extremos. Un convencionalismo grfico permite cerrar el polgono, inicindolo y
terminndolo sobre el eje de las abscisas en dos puntos medios hipotticos, considerando
una propiedad geomtrica que dice que el rea del polgono es igual a la suma del rea de
los rectngulos del histograma.

23
20
18

16
14

12
10
8
6
4
2
0
33.5

44.5

55.5

66.5

7.5

88.5

POLGONO DE FRECUENCIAS DE LAS CALIFICACIONES DE LA PRUEBA DE LECTURA DE 7 NIOS


(CUADRO 1)

4.5 ESCALAS DE LA OJIVA.


Para el trazado de la ojiva o curva s, se registran en el eje de las abscisas (X), los limites
superiores de cada intervalo, en el eje de las ordenadas (Y) se registra la frecuencia
relativa acumulada, relacionando y ubicando mediante un punto el lmite superior de cada
intervalo con su respectiva frecuencia relativa acumulada, uniendo con una lnea cada
punto y obtener la ojiva o curva s.
Puntuacin de 7 nios en una prueba de lectura.
4.6 TRAZADO DE LA OJIVA

39

50

61

72

83

94 lim sup

24

V. MEDIDAS DE POSICIN RELATIVA.


5.1

DEFINICIN.

Son aquellas medidas que sirven para descubrir la localizacin de un dato especfico en
relacin al resto de la muestra.
Cuando una muestra de datos est ordenado en forma ascendente, el valor central( o a
la media de los valores centrales), es la mediana y divide a la muestra en dos partes
iguales. Con esta misma idea, se puede pensar en los valores que dividen en la muestra
en cuatro partes, en diez o en cien partes.
5.2

DEFINICIN DE PERCENTIL.

Los valores que dividen a la muestra en cuatro partes iguales se les da el nombre de
cuartiles, los valores que dividen a la muestra en diez partes iguales se les denomina
deciles y a los que dividen en cien partes se les llama percentiles, desde el 1 hasta
el 99 que dejan desde 1% hasta el 99% de observaciones con categoras menores. El
primero, segundo, tercero,.nonagsimo noveno percentil, son los valores que
corresponden a los nmeros de orden

5.3 FRMULA DE LA POSICIN DEL PERCENTIL.


En una distribucin de frecuencias de datos originales agrupados se localizan los
percentiles de la forma siguiente:
1. Se determina la posicin que cada percentil debe ocupar en la distribucin, ese
nmero de orden se obtiene de la siguiente manera:

PN

Nn
100

Donde: P= smbolo del percentil


N= nmero del percentil a calcular
n= total de datos

25

5.4

CALCULO DE LA POSICIN DE UN PERCENTIL.

Ejemplo: Los siguientes datos corresponden a las estaturas de los alumnos del grupo
201 de Heroico Colegio Militar.
Intervalos

162 - 167.6
167.6 173.2
173.2 178.8
178.8 184.8
184.8 - 190

ESTATURA DE LOS ALUMNOS DEL GRUPO 201


Marca
de
Frecuencia
Frecuencia
clase (m. c.)
absoluta (f.
Absoluta acumulada (f. a.
a.)
a.)
164.8
12
12
170.4
14
26
176

15

41

181.6

18

59

187.2

13

72

= 72
Considerando la distribucin anterior, calcular la posicin o nmero de orden del
percentil 30.

PN

P30

Nn
100

30(72)
21.6
100

El nmero de posicin o de orden 21.6 indica el lugar que ocupa el valor del percentil
30 en la distribucin de frecuencias anterior.
5.5 FRMULA DEL VALOR DE UN PERCENTIL.
Una vez que se ha encontrado la posicin o nmero de orden del percentil, se procede
a buscar la frecuencia acumulada que los contenga; ya localizada esa frecuencia, se
aplica la siguiente frmula para calcular el valor exacto:

P f1
PK Lim inf N
a
f2
Donde: K= Valor del percentil a calcular.
Lim inf = Limite inferior del intervalo que contiene el percentil.
n=No. de datos.
PN= Posicin o nmero de rden del percentil calculado..
F1= Frecuencia absoluta acumulada anterior del intervalo que contienen el percentil.
F2= Frecuencia absoluta del intervalo que contienen el percentil.

26

5.6

CALCULO DEL VALOR DE UN PERCENTIL.

Tomando en cuenta el cuadro de distribucin de las estaturas de los alumnos del 201
del Heroico Colegio Militar y considerando que la posicin o nmero de orden del
percentil 30 es el 21.6, se considera que est contenido en la segunda frecuencia
absoluta acumulada, correspondiente al segundo intervalo.
ESTATURA DE LOS ALUMNOS DEL GRUPO 201

Intervalos

162 - 167.6
167.6 - 173.2
173.2 - 178.8
178.8 - 184.8
184.8 - 190

Marca
clase
(m. c.)

de Frecuencia
absoluta
(f. a.)

164.8
170.4
176
181.6
187.2

12
14
15
18
13

Frecuencia
Absoluta
acumulada
(f. a. a.)
12
26
41
59
72

= 72
Una vez localizada la posicin se procede a continuacin a calcular el valor del
percentil aplicando la siguiente frmula:

P f1
PK Lim inf N
a
f2

Sustitucin:

21.6 12
P30 167.6
5.6
14

P30 171.43
Por lo tanto el valor del percentil que representa el 30% del total de los datos es igual a
171.43, lo que quiere decir, que el 30% por ciento de alumnos miden 171.43 cms.

27

IV. MEDIDAS DE TENDENCIA CENTRAL.


6.1

DEFINICIN.

Como se vio en temas anteriores, en un histograma hay una zona donde las barra son
ms altas, es decir, hay valores de las variables que son ms frecuentes, en cambio
existen zonas extremas donde los valores de la variable son menos frecuentes.
Las medidas de tendencia central son valores de la variable que nos indican alrededor
de que valor se agrupan el mayor nmero de casos estudiados.
Las medidas de tendencia central son representativas de toda la poblacin y las
principales son:

6.2 CONCEPTO DE MEDIA ARITMTICA.


Es la medida de posicin que se obtiene sumando todos los valores de la variable y
dividiendo la suma entre el numero de sumandos.
Es el valor tpico o representativo de un conjunto de datos y se denota con el siguiente
smbolo:

6.3 FRMULA DE LA MEDIA ARITMTICA.

Cuando tenemos pocas observaciones, se pueden hacer los clculos con datos
aislados, por ejemplo: Si en la ciudad de Guanajuato se registraron al medio da las
siguientes temperaturas: lunes 21C, martes 25C, mircoles 24C, jueves 22C,
viernes 23C, sbado 21C y domingo 20C.

28

La media se calcula as:


Frmula de la media para datos aislados:
X

X 2 X 3 .... X n
n

Sustitucin:
21 25 24 22 23 21 20
7
156
X
7
X 22.286C
X

En el ejemplo anterior, donde las observaciones son pocas y tienen frecuencia unitaria, el
clculo se hace mediante la aplicacin de la frmula para datos aislados, pero en este
curso se trabajar con datos agrupados donde cada observacin o variable tiene
frecuencia distinta.
Un criador de cerdos registr, en 334 partos, el nmero de lechones por camada y obtuvo
el resultado siguiente:

Nmero de
lechones
por camada 2
Frecuencia
con que se
presentaron 1

10

11

12

13

14

15

16

17

20

30

35

51

52

39

45

21

Si se quiere saber cul es la media, haremos la suma total de observaciones, como sigue:

Nota: al trabajar con datos agrupados multiplicamos cada valor de la variable por la
frecuencia correspondiente.

29

Si se tiene en cuenta que cada valor distinto Xi de la variable se repite tantas veces como
indica su frecuencia fi , la suma de todas las observaciones iguales ser igual al producto
Xifi, por tanto, la media aritmtica es:

=
Como al definir la media hemos hablado de una suma de los valores observados,
introduciremos el smbolo (sigma mayscula) para denotar la suma o sumatoria de una
variable. Al aplicar el operador suma la frmula anterior queda:

fi X i
f
i

Donde: = Media de la variable.


.

6.4 CALCULO DE LA MEDIA ARITMTICA.


Ejemplo:
Calcular el valor de la media aritmtica de los siguientes datos.

No. De abdominales realizadas por 120 cadetes del HCM en 10 minutos.


Intervalos
Marca
Frecuencia
Frecuencia
Frecuencia Frecuencia
de
absoluta
Absoluta
Relativa
Relativa
clase
(f. a.)
acumulada
acumulada
(m. c.)
Xi
Fi
(f. a. a.)
f. r.
Fi Xi

30 - 40
40 - 50
50 - 60
60 - 70
70 - 80

35
45
55
65
75

15
30
60
10
5
= 120

15
45
105
115
120

12.5%
25%
50%
8.33%
4.17%

12.5%
37.5%
87.5%
95.83%
100%

525
1350
3300
650
375
= 6200

30

Frmula:

Sustitucin:

fX
X i i
f
i

6200
X
120

Resultado:

X 51.66

El valor de la media es representativo del total de la poblacin y ste nos indica que los
120 cadetes realizan en promedio 51.66 abdominales en 10 minutos.
Si dibujamos el histograma correspondiente y ubicamos la media obtendremos el
siguiente diagrama.

30

40

50

60

70

80

Como se puede observar, la media es un valor centrado entre los lmites del rango y se
interpreta de sta manera: en promedio, el nmero de abdominales realizadas por los
cadetes en diez minutos es de 51.66.
6.5 CONCEPTO DE MODA
Es el valor de la variable que se presenta con mayor frecuencia. Se considera como el
valor ms frecuente, es decir, el punto donde se concentra el mayor nmero de
observaciones.
La moda sirve en los negocios, por ejemplo, para determinar que tamao o talla del
producto es el de mayor demanda. El fabricante de zapatos estar interesado en saber
cul es la medida que ms se vende. Similarmente, para programar la produccin de
un medicamento, el fabricante estar interesado en saber cul es la dosis que con
frecuencia recetan los medicamentos.

31

En una serie de datos originales no agrupados la moda se determina localizando aquel


valor que ms veces se repite, ejemplo: si se tienen los siguientes valores: 5, 6, 6, 7, 7,
7,8, 8, y 9, la moda ser 7, pues es el valor que ms se repite.

La moda para datos agrupados se puede apreciar directamente en el histograma


siguiente:

Mayor
frecuencia

En el histograma anterior el valor modal se encuentra en el tercer intervalo entre el 50 60.


Existen fenmenos variacionales que al representarse en un histograma no slo muestran
una moda (unimodales) sino dos (bimodal), o varias modas (multimodales). Lo anterior se
ilustra en los siguientes histogramas:
100

100

50

50

UNIMODAL

BIMODAL

32
70
60
50
40
30
20
10
0

MULTIMODAL
6.6 FORMULA Y CALCULO DE LA MODA.
En una serie simple y en una serie de frecuencias la determinacin del valor de la moda
no ofrece problemas, pues como ya se dijo, es el valor de mxima frecuencia o sea
aquel que ms se repite en el conjunto de observaciones.
En una serie de intervalos y frecuencias se complica su clculo por su misma estructura
(el nmero de casos de cada intervalo) pero se pude determinar su valor utilizando la
siguiente frmula:

Donde:

33

Tomando el ejemplo de la distribucin del nmero de abdominales que realizan 120


cadetes del HCM en 10 minutos, utilizaremos la frmula anterior para determinar el
valor de la moda.

Intervalos

No. De abdominales realizadas por 120 cadetes del HCM en 10 minutos.


Marca
Frecuencia
Frecuencia
Frecuencia Frecuencia
de
absoluta
Absoluta
Relativa
Relativa
clase
(f. a.)
acumulada
acumulada
(m. c.)
Xi
Fi
(f. a. a.)
f. r.
Fi Xi

30 - 40
40 - 50
50 - 60
60 - 70
70 - 80

FORMULA

35
45
55
65
75

15
30
60
10
5
= 120

15
45
105
115
120

SUSTITUCIN

12.5%
25%
50%
8.33%
4.17%

12.5%
37.5%
87.5%
95.83%
100%

525
1350
3300
650
375
= 6200

RESULTADO
53.75

El valor de la moda de la distribucin anterior puede apreciarse y localizarse de manera


exacta en el siguiente histograma.

53.75

34

6.7 CONCEPTO DE MEDIANA.


Otra medida de tendencia central es la mediana

, .la mediana de un conjunto de

observaciones generalmente, se define de la siguiente forma:


es el valor que queda en la parte central de un grupo de observaciones arreglados en
orden de magnitud
Es aquel valor de la variable que muestra tanto a la izquierda como a la derecha la
mitad de las frecuencias

6.8 FORMULA Y CALCULO DE LA MEDIANA.


Serie de datos no agrupados.
Si el nmero de observaciones es impar, la mediana coincidir con el valor central. Si el
nmero de observaciones es par, la mediana estar representada por la media
aritmtica de los dos valores centrales.
Ejemplo:
Hallar la mediana de los valores 62, 58, 64, 56 y 60. Como el nmero de observaciones
es impar, despus de ordenar los distintos valores 56, 58, 60, 62 y 64, la mediana
vendr dada por el valor 60, que es el que ocupa el centro de la serie.
Si solo hubiera cuatro observaciones (nmero par), por ejemplo 56, 58, 60 y 62, la
mediana sera:

Serie de datos agrupados.


En una distribucin de frecuencias o datos agrupados, la mediana puede obtenerse por
dos mtodos: por interpolacin o por medio de una grfica (ojiva).
Para determinar el valor de la mediana por interpolacin se aplica la siguiente frmula:

35

X~ Liminf

f1
a
2
f med

Donde:
Lim inf lim ite inf erior del int ervalo que contiene la mitad de los datos.
N nmerototal de datos.
f1 frecuenciaacumulada anterior a la clase mediana.
f med frecuenciaabsoluta de la clase mediana.
a amplitud de los int ervalos.

Tomando el ejemplo de la distribucin del nmero de abdominales que realizan 120 cadetes
del HCM en 10 minutos, utilizaremos la frmula anterior para determinar el valor de la
mediana.

No. De abdominales realizadas por 120 cadetes del HCM en 10 minutos.


Intervalos
Marca
Frecuencia
Frecuencia
Frecuencia Frecuencia
de
absoluta
Absoluta
Relativa
Relativa
clase
(f. a.)
acumulada
acumulada
(m. c.)
Xi
Fi
(f. a. a.)
f. r.
Fi Xi

30 - 40
40 - 50
50 - 60
60 - 70
70 - 80

35
45
55
65
75

FORMULA

X~ Liminf

f1
a
2
f med

15
30
60
10
5
= 120

15
45
105
115
120

SUSTITUCIN
120

45

~
2

10
X 50

60

12.5%
25%
50%
8.33%
4.17%

12.5%
37.5%
87.5%
95.83%
100%

525
1350
3300
650
375
= 6200

RESULTADO

X~ 52.5

El resultado de la mediana nos dice que el 50% de los cadetes realizan menos de 52.5
abdominales en diez minutos y el otro 50% realiza ms de 52.5 abdominales en el tiempo
citado.

36

Solucin grfica.
Este mtodo se basa en la construccin de la ojiva sobre la base menor que y o ms.
Cuando la distribucin ha sido adecuadamente representada en la ojiva el valor de la
mediana puede obtenerse de la manera siguiente: primero localizamos el 50% en la escala
de las Y; luego, se traza una lnea horizontal desde ese punto hasta cortar la ojiva, y se traza
una lnea vertical desde el punto en que la lnea horizontal corta a la ojiva hasta el eje de las
X. El punto en que la lnea vertical corta al eje de las X es el valor de la mediana.
f. r.a
%

100
90
80
70
60
50
40
30
20
10

40

50

60

70

80

lim sup

(Nmero
abdominales
cadetes)

En el histograma de los datos anteriores, al igual que el valor de la media


tambin se puede identificar y sealar el valor de la mediana
en la grafica siguiente:

de

y la moda

de
120

, como se puede observar

37

VI MEDIDAS DE DISPERSIN.
7.1 DEFINICIN.
Las medidas de tendencia central, pueden no ser suficientes para caracterizar la
informacin obtenida en forma adecuada. La utilidad de un promedio depende de su
poder representativo del conjunto de observaciones. Si los valores observados de la
variable estn muy concentrados alrededor del promedio, ste es muy representativo;
pero si aquellos valores estn muy dispersos con relacin al promedio, ste es poco
representativo.
El significado de las medidas de tendencia central gana mucho si lo respalda una
medida de la dispersin de las observaciones en torno a l.
El concepto de dispersin resulta importante para los estudios econmicos, ya que
puede darse el caso de poblaciones con igual valor central, pero una puede estar ms
dispersa que la otra.
Las medidas de dispersin o tambin llamadas de variacin, indican que tan alejados
o dispersos se encuentran los datos, con respecto a la media del conjunto de datos.
Cuando se requiere conocer la dispersin de una variable, lo que se intenta es obtener
una medida, que indique el mayor o menor grado en que estn dispersos los datos.
Las medidas ms utilizadas se denominan:

Rango (R)
Desvo (d)
Desviacin media (dm)
Varianza (S2)
Desviacin estndar (S)

En los siguientes temas definiremos y calcularemos cada una de estas medidas.


Rango.
Es la diferencia entre el mayor y el menor valor de los datos observados. En la serie 2,
10, 12, 16, el rango es 16-2= 14. Sin embargo, el rango no nos da ninguna informacin
sobre lo que ocurre entre estos valores.

38

7.2

CONCEPTO Y FRMULA DEL DESVO.

Es la diferencia entre cada valor de la variable u observacin y la media.


Frmula:

7.3

REGISTRO DEL DESVO.

Para ilustrar el valor del desvo veamos el siguiente problema.


Con los datos que se proporcionan en la tabla del capital social de las empresa en una
regin calcular el desvo.

Variable
Millones
de
pesos
5 - 20
20 - 35
35 - 50
50 - 65
65 - 80

frecuencia
(fi)
8
9
10
7
4

Elaboremos el siguiente cuadro de clculo:

INTERVALOS
5 - 20

M. C.
Xi
12.5

F.A.
Fi
8

20 - 35

27.5

247.5

35 - 50

42.5

10

425.0

50 - 65

57.5

402.5

65 - 80

72.5

290.0

=38

FiXi
100.0

=1465

DESVO

X i X

12.538.55=26.05
27.538.55=11.05
42.538.55=3.95
57.538.55=18.95
72.538.55=33.95

39

Media X

f i X i 1465

38.55
38
fi

Como se puede observar en el cuadro anterior, se calcula la marca de clase (columna


2). Una vez hecho esto, se multiplica la marca de clase por la frecuencia absoluta para
encontrar el valor de media (columna 4). Posteriormente se calculan los desvos de
cada marca de clase (columna 5), en la prctica no es necesario anotar la operacin,
solo los resultados, se realiz para fines explicativos.

7.4

DESVIACIN MEDIA.

Como la suma de todos los desvos en cualquier grupo de datos es nula, tendremos
que pensar en calcular el valor absoluto del desvo, al promedio de los valores
absolutos del desvo se le denomina desviacin media, indica en promedio el nmero
de unidades en que cada dato se encuentra alejado de la media.

7.5

ECUACIN Y CLCULO DE LA DESVIACIN MEDIA.

La desviacin media se denota as:

fi X i X
dm
n
Donde:

40

Al colocar

entre barras indicamos que las desviaciones son en valor absoluto.

Continuando con el ejemplo anterior calcularemos la desviacin media de la siguiente


manera:

CAPITAL SOCIAL DE LAS EMPRESAS EN UNA REGIN.

FiXi

DESVO
X i X

Valor
absoluto

100.0

-26.05

26.05

208.4

27.5

247.5

-11.05

11.05

99.45

35 - 50

42.5

10

425.0

3.95

3.95

39.5

50 - 65

57.5

402.5

18.95

18.95

132.65

65 - 80

72.5

290.0

33.95

33.95

135.8

=38

=1465

INTERVALOS M. C.
Xi

F.A.
Fi

5 - 20

12.5

20 - 35

Media X

=615.8

f i X i 1465

38.55
38
fi

fi X i X
Desviacin media dm
n
dm

615.8
16.20
38

Como podemos observar en el cuadro anterior se agreg una columna con el valor absoluto
del desvi (columna 6), una vez hecho esto, se multiplica el valor absoluto del desvo por la
frecuencia absoluta para encontrar el valor de la desviacin media (columna 7).

41

7.6

DEFINICIN DE VARIANZA.

Se define como el promedio de los cuadrados de las desviaciones de los datos con
respecto a la media. Su valor indica la forma en que estn distribuidos los datos con
respecto a la media.
No obstante que la desviacin media es una
inconveniente de que no sigue en su proceso
generalmente se prefiere emplear la varianza o la
de los cuadrados de las desviaciones

medida fcil de obtener, tiene el


un rigor algebraico, por lo tanto,
desviacin estndar, que hacer uso
, para evitar que la suma de las

desviaciones sea igual a cero. La suma de los cuadrados de las desviaciones se divide
entre el nmero de trminos y se obtiene la varianza.

7.7

CLCULO DE REGISTRO DEL DESVO AL CUADRADO.

Para calcular el valor de la varianza precisa elevar al cuadrado el valor de los desvos,
por lo tanto al cuadro estadstico se le agrega una columna (columna 8) para registrar
dicho valor, quedando de la siguiente manera:

INTERVALOS

CAPITAL SOCIAL DE LAS EMPRESAS EN UNA REGIN.


Valor
DESVO
M. C.
F.A.
absoluto
FiXi
X X
Xi

Fi

5 - 20

12.5

100.0

-26.05

26.05

208.4

678.60

20 - 35

27.5

247.5

-11.05

11.05

99.45

122.10

35 - 50

42.5

10

425.0

3.95

3.95

39.5

15.60

50 - 65

57.5

402.5

18.95

18.95

132.65 359.10

65 - 80

72.5

290.0

33.95

33.95

135.8

=38

=1465

Media

f X

X
f
i

1465
38.55
38

=615.8

1152.60

42

fi X i X
Desviacin media dm
n

615.8
dm
16.20
38
7.8

FRMULA Y CLCULO DE LA VARIANZA.

Para calcular el valor de la varianza se utiliza la siguiente frmula:

f X X

Procedimiento que indica que cada desviacin respecto a la media, elevada al


cuadrado, debe multiplicarse por su respectiva frecuencia, despus hay que sumar los
datos obtenidos y dividir esa suma entre la suma de las frecuencias absolutas.
Aplicando esta frmula al ejemplo relativo al capital social de las empresas de una
regin queda:
CAPITAL SOCIAL DE LAS EMPRESAS EN UNA REGIN.
Valor
DESVO
INTERVALOS M. C. F.A.
FiXi
X i X absoluto
Xi
Fi
5 - 20

12.5

100.0

-26.05

26.05

208.4

678.60

5428.8

20 - 35

27.5

247.5

-11.05

11.05

99.45

122.10

1098.9

35 - 50

42.5

10

425.0

3.95

3.95

39.5

15.60

156.0

50 - 65

57.5

402.5

18.95

18.95

132.65

359.10

2513.7

65 - 80

72.5

290.0

33.95

33.95

135.8

1152.60 4610.4

=38

=1465

Media X

=615.8

f i X i 1465

38.55
38
fi

=13807.8

43

Desviacin media dm
dm

Varianza

fi X i X
n
615.8
16.20
38

f i X i X 2
2
S
fi

S2

13807.8
363.36
38

Si al valor de la varianza le extraemos raz cuadrada, obtenemos la desviacin


estndar (S).
7.9

CONCEPTO Y FRMULA DE LA DESVIACIN ESTNDAR.

La desviacin estndar es un valor que representa todas las diferencias individuales de


todos los valores observados respecto a un punto de referencia comn, que es la
media aritmtica. Es la raz cuadrada de la varianza.
Si los valores de la variable estn muy concentrados en torno de la media, entonces las
desviaciones
seran pequeas, y si estn muy dispersas, las desviaciones
seran grandes, por tanto, la desviacin estndar que es un promedio de las
desviaciones indica el grado de concentracin o de dispersin de los valores
observados. Si hay concentracin alrededor de la media, el valor de S ser un nmero
pequeo y si hay dispersin, S ser un nmero grande.
Cuando los datos vienen dados por una distribucin de frecuencias, cuya amplitud sea
igual en todos los intervalos, se calcula el valor de la desviacin estndar utilizando la
siguiente frmula:

f X X
f

La frmula nos indica que al valor de la varianza hay que extraerle la raz cuadrada.

44

7.10

CLCULO DE LA DESVIACIN ESTNDAR.

Aplicando la frmula de la desviacin estndar al ejemplo en cuestin queda:

CAPITAL SOCIAL DE LAS EMPRESAS EN UNA REGIN.


INTERVALOS

M. C.
Xi

F.A.
Fi

DESVO
FiXi

X i X

Valor
absoluto

5 - 20

12.5

100.0

-26.05

26.05

208.4

678.60

5428.8

20 - 35

27.5

247.5

-11.05

11.05

99.45

122.10

1098.9

35 - 50

42.5

10

425.0

3.95

3.95

39.5

15.60

156.0

50 - 65

57.5

402.5

18.95

18.95

132.65

359.10

2513.7

65 - 80

72.5

290.0

33.95

33.95

135.8

1152.60

4610.4

=38

=1465

Media X

=615.8

f i X i 1465

38.55
38
fi

fi X i X
Desviacin media dm
n

615.8
dm
16.20
38
Varianza

f i X i X 2
2
S
fi

S2

13807.8
363.36
38

=13807.8

45

Desviacin estndar S

f i X i X 2
fi

V.

13807.8
363.36 19.06
38

MEDIDAS DE CORRELACIN.
8.1 DEFINICIN.
En la vida diaria, es comn encontrar dos variables que guardan dependencia entre s,
es decir, el valor de una de ellas est sujeta al valor de la otra o viceversa. Esta
interdependencia se conoce como correlacin de dos variables.
Por ejemplo:
Los tcnicos de la Secretara de Agricultura al analizar la produccin de maz en una de
las zonas agrcolas del pas, encontrar que la mayor produccin se concentraba en
aquellas regiones donde se haban utilizado mayor cantidad de un producto qumico
para abonar la tierra.
Despus de discutir si la concentracin de la produccin se deba al producto qumico
utilizado o a algn otro factor, decidieron hacer un anlisis de correlacin entre la
produccin de maz y el nivel de precipitacin pluvial, y otro entre la produccin de maz
y la cantidad de abono. Por lo anterior, se concluy que el abono fue el factor que
permiti obtener una buena cosecha.
Este tipo de anlisis es necesario cuando dos variables en estudio estn
correlacionadas.
La correlacin entre dos variables se debe estudiar muy bien, pues a veces es posible
encontrar una buena relacin entre variables independientes, aunque no haya
causalidad. Para ilustrar lo anterior, citaremos lo que dice Rivett* al respecto.
El autor cita el caso de Noruega, donde existe una buena relacin entre el ndice de
natalidad de la poblacin y el nmero de cigeas inmigrantes. Lo anterior nos hace
pensar en el mito de que los nios vienen de Pars; sin embargo, se hace una anlisis

46

minucioso del problema, concluiremos que como en las comarcas noruegas existe una
buena produccin agrcola, hay bienestar econmico y esto estimula el aumento en la
tasa de natalidad. Por otro lado, la abundancia de grano favorece el desarrollo de la vida
animal y por consiguiente la inmigracin de cigeas.
El caso anterior ejemplifica de manera clara, porque no es correcto relacionar las
variables para calcular un coeficiente de correlacin, pues sucede que aunque son
variables dependientes, solo en ciertas ocasiones existe la causalidad.
Tomemos un ejemplo que nos permita ver mejor el fenmeno de la correlacin de dos
variables.
*Patrick Rivett. La investigacin operativa. Nueva coleccin Labor 1971.

En la tabla siguiente se muestra el rendimiento de un cierto cultivo y en funcin de la


cantidad de agua x. Es decir, suponemos que el rendimiento depende de la cantidad de
agua.

Cantidad de
12
18
24
30
agua (x).
Rendimiento
5.27 5.68 6.25 7.2
del cultivo (y)

36

42

44

8.02 8.71 8.42

Nuestra pregunta es: ser o no cierta esa dependencia?.


Al graficar en el plano cartesiano los datos anteriores, se tiene lo siguiente:

Se puede aventurar que las variables estn correlacionadas y se agrupan de manera


que guarden una correlacin lineal, esto es, su grfica se puede representar por una
recta y expresar algebraicamente en una funcin lineal del tipo : y=ax+b.

47

Es importante hacer notar que puede haber correlaciones no lineales, es decir, que sus
grficas, y por tanto sus funciones, no sean lineales, como se observa a continuacin:

8.2 FRMULA DE LA MEDIA.


La objetiva correlacin lineal tiene por objeto encontrar la funcin que relaciona
linealmente a las dos variables, pero antes es conveniente analizar, por medio del
coeficiente de correlacin, si la dependencia mencionada es aceptable. Con ste fin, es
necesario, como primer paso calcular el valor de las media de cada variable mediante
las siguientes frmulas:

Donde:

48

8.3 CALCULO DE LA MEDIA DE LA VARIABLE X.

Para hacer el clculo de la media de cada variable hasta obtener el grado de correlacin
de dos variables, utilizaremos los datos de la siguiente tabla en donde se muestra el
rendimiento de un cierto cultivo (Y), en funcin de la cantidad d agua (X).

Nmero Cantidad Rendimiento


de
de agua del cultivo
sucesos
(( ))
( )
(N)
1
12
5.27
2
18
5.68
3
24
6.25
4
30
7.2
5
36
8.02
6
42
8.71
7
44
8.42
=206
=49.55

El valor de la media de la variable X se obtiene dividiendo la suma de la cantidad de


agua aplicada en el terreno de cultivo entre el nmero de sucesos, en este caso entre 7.

49

CALCULO DE LA MEDIA DE LA VARIABLE Y

Tomando en cuenta los datos del cuadro anterior calcularemos el valor de la media de
Y.

Nmero Cantidad Rendimiento


de
de agua del cultivo
sucesos
( )
( )
(N)
1
12
5.27
2
18
5.68
3
24
6.25
4
30
7.2
5
36
8.02
6
42
8.71
7
44
8.42
=206
=49.55

Del mismo modo que se obtuvo el valor de la media de X, se obtiene el valor de la


media de la variable Y, estos valores nos servirn para calcular y analizar la dispersin
de los datos con respecto a la media, es decir para calcular el valor del desvo.

50

8.5
FRMULA DEL DESVO.
Como sabemos el desvo es una medida de dispersin, que nos indica que tan alejados
o dispersos se encuentran los datos con respecto a la media.

8.6 CALCULO DEL DESVO DE LA VARIABLE X.

Nmero Cantidad Rendimiento


de
de agua del cultivo
sucesos ( )
( )
(N)
1
12
5.27
12-29.42=
-17.42
2
18
5.68
18-29.42=
--11.42
3
24
6.25
24-29.42=
-5.42
4
30
7.2
30-29.42=
0.58
5
36
8.02
36-29.42=
6.58
6
42
8.71
42-29.42=
12.58
7
44
8.42
44-29.42=
14.58
=206
=49.55

51

CALCULO DEL DESVO DE LA VARIABLE Y.

8.7

Nmero Cantidad Rendimiento


de
de agua
del cultivo
sucesos
( )
( )
(N)
1
12
5.27
-17.42
2

18

5.68

--11.42

24

6.25

-5.42

4
5

30
36

7.2
8.02

0.58
6.58

42

8.71

12.58

44

8.42

14.58

=206

=49.55

5.27-7.07=1.81
5.68-7.07=1.39
6.25-7.07=0.82
7.2-7.07=0.13
8.027.07=0.95
8.717.07=1.64
8.427.07=1.35

52

8.8

FRMULA DE LA DESVIACIN ESTNDAR DE LA VARIABLE X.

Para poder llegar a determinar el grado de relacin entre dos variables, adems de la
media de las variables y los desvos de cada una, es necesario definir la desviacin
estndar de la variable X. Mediante la siguiente frmula:

CALCULO DE LA DESVIACIN ESTNDAR DE LA VARIABLE X.

Retomando el ejercicio del terreno de cultivo, para obtener el valor de la desviacin


estndar de la variable X (cantidad de agua), es necesario agregar una columna al
cuadro estadstico, donde se obtenga el valor del desvo de la variable X elevado al
cuadrado, como se observa en el siguiente cuadro, para despus sustituir los valores
que nos pide la frmula de la desviacin estndar:

Nmero Cantidad Rendimiento


de
de agua del cultivo
sucesos
( )
( )
(N)
1
12
5.27
-17.42
2
18
5.68
-11.42
3
24
6.25
-5.42
4
30
7.2
0.58
5
36
8.02
6.58
6
42
8.71
12.58
7
44
8.42
14.58
=206
=49.55

-1.81
-1.39

303.45
130.41

-0.82
0.13
0.95
1.64
1.35

29.37
0.33
43.29
158.25
212.57
=877.67

53

8.10 FORMULA DE LA DESVIACIN ESTNDAR DE LA VARIABLE Y.


En cambio, para la variable Y se utiliza la siguiente frmula:

8.11 CALCULO DE LA DESVIACIN ESTNDAR DE LA VARIABLE Y.


Para calcular el valor de la desviacin estndar de la variable Y (rendimiento de
cultivo), es necesario agregar otra columna a nuestro cuadro estadstico, en donde se
registren los desvos de la variable Y (rendimiento de cultivo) elevados al cuadrado y
obtener la sumatoria, as:

Nmero Cantidad Rendimiento


de
de agua
del cultivo
sucesos
( )
( )
(N)
1
2
3
4
5
6
7

12
18
24
30
36
42
44
=206

5.27
5.68
6.25
7.2
8.02
8.71
8.42
=49.55

-17.42
--11.42
-5.42
0.58
6.58
12.58
14.58

-1.81
-1.39
-0.82
0.13
0.95
1.64
1.35

303.45
130.41
29.37
0.33
43.29
158.25
212.57
=877.67

3.27
1.93
0.67
0.01
0.90
2.68
1.82
= 11.28

54

8.12

FRMULA DE LA COVARIANZA

Adems de la desviacin estndar, para cada variable es necesario tener una medida de
dispersin de la correlacin que existe entre X y Y. Esta medida la denominaremos
covarianza y la calcularemos mediante la siguiente frmula:

8.13

CALCULO DE LA COVARIANZA.

El valor de la covarianza del ejercicio trabajado se calcula agregando una columna ms


al cuadro estadstico, donde se registren los productos de los desvos y obtener la
sumatoria de los datos, de la siguiente manera:

55

Nmero
Cantidad Rendimiento
de
de agua del cultivo
sucesos
( )
( )
(N)
1
12
5.27
-17.42
2
18
5.68
--11.42
3
24
6.25
-5.42
4
30
7.2
0.58
5
36
8.02
6.58
6
42
8.71
12.58
7
44
8.42
14.58
=206
=49.55

8.14

-1.81
-1.39
-0.82
0.13
0.95
1.64
1.35

303.45
130.41
29.37
0.33
43.29
158.25
212.57
=877.67

3.27
1.93
0.67
0.01
0.90
2.68
1.82
=
11.28

31.53
15.87
4.44
0.07
6.25
20.63
19.68
=98.47

FRMULA DEL COEFICIENTE DE PEARSON O CORRELACIN.

La medida que nos permite saber si hay relacin entre dos variables es el coeficiente de
Pearson.
COEFICIENTE DE PEARSON.
Esta medida refleja el grado de relacin o efecto que tiene el cambio de una variable sobre
la otra y lo podemos definir mediante la siguiente frmula:

Es decir, que el coeficiente de correlacin es el cociente de la divisin entre la covarianza


de las variables y el producto de las desviaciones estndares de cada variable.
Sustituyendo los valores, queda:

56

El coeficiente de correlacin puede ser positivo o negativo dependiendo de la covarianza;


as tendremos correlacin positiva (Y aumenta cuando X aumenta) o correlacin negativa (Y
disminuye cuando X aumenta), como se muestra:

Por otro lado, r tiene como mximo valor absoluto a la unidad, por lo que se puede escribir:
-1 r 1
Cuando r=0 la correlacin es nula, es decir, no hay ninguna dependencia entre las variables.
Cuando

la correlacin es perfecta, es decir, todos los puntos de las observaciones

estn perfectamente alineados.


Cuando 0

se tienen correlaciones normales, y se ha observado en general que una

correlacin es buena si se cumple que:

En nuestro problema la correlacin es positiva y muy cercana al valor uno, por lo cual hay
una dependencia aceptable entre la cantidad de agua y el rendimiento del cultivo.
TIPOS DE RELACIN SEGN LOS VALORES DE R.
r=0 relacin nula.

57

8.15

CALCULO DEL COEFICIENTE DE PEARSON.

Dados los datos relacionados al rendimiento del cultivo de un terreno y la cantidad de


agua, analizaremos si la correlacin lineal entre esas dos variables es aceptable o no.
Nmero
Cantidad Rendimiento
de
de agua
del cultivo
sucesos
( )
( )
(N)
1
12
5.27
-17.42
2
18
5.68
--11.42
3
24
6.25
-5.42
4
30
7.2
0.58
5
36
8.02
6.58
6
42
8.71
12.58
7
44
8.42
14.58
=206
=49.55

-1.81
-1.39
-0.82
0.13
0.95
1.64
1.35

303.45
130.41
29.37
0.33
43.29
158.25
212.57
=877.67

3.27
1.93
0.67
0.01
0.90
2.68
1.82
=
11.28

31.53
15.87
4.44
0.07
6.25
20.63
19.68
=98.47

58

El coeficiente de correlacin es igual a 0.99, por lo que la dependencia es aceptable, es


decir, inluy en gran medida la cantidad de agua, en el rendimiento de cultivo del
terreno.

8.16 DEFINICIN DE RECTA DE REGRESIN


Una vez que, a travs del coeficiente de correlacin, sabemos que hay una buena
dependencia de las variables, nos interesa conocer la funcin de relacin, es decir, la
recta de regresin o la recta de ajuste. Esta funcin debe cumplir la condicin de que la
suma de los cuadrados de las distancias verticales de los distintos puntos a la recta de
regresin sea mnima. La forma para lograrlo es a travs del mtodo de mnimos
cuadrados.
Es la recta que ms se ajusta a las observaciones apareadas.
8.17 ECUACIN DE LA RECTA DE REGRESIN.
La recta de regresin se refiere al procedimiento de obtener una ecuacin con fines de
estimacin o prediccin. Y se representa algebraicamente por la expresin:

La cual tiene dos parmetros, m y b, que nos interesa conocer.

8.18 FRMULA DE LA ORDENADA


La ordenada al origen (b), es la distancia que existe del origen, es decir del cero, hasta
donde cruce la recta con el eje Y.
Se calcula por medio de la siguiente frmula:

59

Es decir:

8.19 CALCULO DE LA ORDENADA AL ORIGEN


Para calcular la ordenada al origen, es necesario calcular el producto de las variables y
elevar al cuadrado los valores de la variable X, para eso es necesario agregar al cuadro
estadstico, dos columnas donde se registre cada uno de estos clculos.
Para calcular la funcin lineal de los datos con los que hemos estado trabajando,
(cantidad de agua en relacin al rendimiento de cultivo), necesitamos anexar al cuadro
estadstico las columnas que se muestran en la siguiente tabla estadstica:
SUCESOS
1
2
3
4
5
6
7

12
18
24
30
36
42
44
=206

5.27
5.68
6.25
7.2
8.02
8.71
8.42
=49.55

63.24
102.24
150.0
216
288.72
365.82
370.48
=1556.5

144
324
576
900
1296
1764
1936
=6940

60

8.20 FORMULA DE LA PENDIENTE.


La pendiente (m), es la inclinacin o pendiente de la recta (grado de inclinacin).
Se calcula mediante la siguiente frmula:

Es decir:

m
b

CLCULO DE LA PENDIENTE.

Continuando con los datos del ejercicio anterior, el clculo de la pendiente sera de la
siguiente manera:

SUCESOS
1
2
3
4
5
6
7

12
18
24
30
36
42
44
=206

5.27
5.68
6.25
7.2
8.02
8.71
8.42
=49.55

63.24
102.24
150.0
216
288.72
365.82
370.48
=1556.5

144
324
576
900
1296
1764
1936
=6940

61

Por lo tanto, la recta de regresin se representa por la funcin lineal siguiente:

m= 0.11

b= 3.78

Cantidad de agua

8.22 DEFINICIN DE ERROR ESTNDAR DE ESTIMACIN (E.E.E.).


Si en la funcin de la recta de regresin:

Sustituimos los valores originales de x, los valores de y calculados o estimados no


sern iguales a los valores de y originales. Lo anterior se puede verificar.

62

Resulta fcil comprender que cuanto mayor sea el coeficiente de correlacin, menores
sern las diferencias entre los valores originales y los calculados en la variable y
El error estndar de estimacin es la medida que se toma verticalmente, arriba y
debajo de la recta de regresin, y que permite definir dos rectas paralelas, dentro de las
cuales se encuentran el 68% de los puntos de las observaciones. Es como la
desviacin que tienen los valores estimados tomando la recta de regresin como valor
medio.
Se puede decir que en una grfica el punto

es el centro de gravedad.

8.23 FRMULA DEL ERROR ESTNDAR DE ESTIMACIN.


Si queremos conocer el grado de dispersin que tienen dichas diferencias, podemos
hacerlo a travs de la medida denominada error estndar de estimacin que se calcula
de la manera siguiente:

63

8.24 CALCULO DEL ERROR ESTNDAR DE ESTIMACIN.

Para calcular el error estndar de estimacin en el problema que nos ocupa,


requerimos la tabla siguiente:

12
18
24
30
36
42
44

5.27
5.68
6.25
7.2
8.02
8.71
8.42

y=.11(12)+3.78=5.10
y=.11(18)+3.78=5.76
y=.11(24)+3.78=6.42
y=.11(30)+3.78=7.08
y=.11(36)+3.78=7.74
y=.11(42)+3.78=8.40
y=.11(44)+3.78=8.62

0.17
-0.08
-0.17
0.12
0.28
0.31
-0.20

0.02
0.00
0.02
0.01
0.07
0.09
0.04
=0.25

64

8.25 REPRESENTACIN GRFICA DEL ERROR ESTNDAR DE ESTIMACIN.


La interpretacin del error estndar de estimacin se ve claramente en la grfica
siguiente.
El error estndar de estimacin es la medida que se toma verticalmente, arriba y
debajo de la recta de regresin, y que permite definir dos rectas paralelas, dentro de las
cuales se encuentran el 68% de los puntos de las observaciones.

e. e. e
e

En resumen, diremos que al estar relacionadas dos variables podemos calcular el


grado de dependencia entre ellas a travs del coeficiente de correlacin. Si el
coeficiente nos da un resultado aceptable, se pueden calcular los parmetros de la
recta de regresin. Al utilizar la recta de regresin, los valores estimados no son
iguales a los valores originales, por lo cual calculamos el error estndar de
estimacin. Este valor es como la desviacin que tienen los valores estimados
tomando la recta de regresin como valor medio.

65

BIBLIOGRAFA:
MURRIA R. SPIEGEL. ESTADSTICA., ED. Mc GRAW-HILL., MXICO 2000.
NAPOLEN LABASTIDA LPEZ. ESTADSTICA I. INSTITUTO POLITCNICO NACIONAL. MXICO
1991.

Das könnte Ihnen auch gefallen