Sie sind auf Seite 1von 120

1

1.1

Organizacin y presentacin de
datos

Trminos

estadsticos

Estadstica: Es la ciencia que proporciona un conjunto e mtodos que se utilizan para recolectar, resumir, clasificar
e interpretar el comportamiento de los datos con respecto a una caracterstica materia de estudio o investigacin. En primera instancia se encarga de obtener informacin, describirla y luego utiliza esta informacin
para predecir algo respecto a la fuente de informacin.
La estadstica descriptiva: Es el conjunto de mtodos que implican la recoleccin, presentacin y caracterizacin de
un conjunto de datos a fin de describir en forma apropiada las diversas caractersticas de sta, es decir, un
estudio estadstico se considera descriptivo cuando solo se analiza y describe los datos.
Estadstica inferencial: Luego de describir, el segundo aspecto de la definicin de la estadstica es: predecir algo con
respecto a la fuente de informacin, es lo que constituye la estadstica inferencia que es el conjunto de tcnicas
que posibilitan la generalizacin o toma de decisiones en base a una informacin parcial obtenida mediante
tcnicas descriptivas.
Poblacin: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten informacin sobre el fenmeno que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la poblacin ser el
total de las viviendas de dicha ciudad.
Muestra: Subconjunto que seleccionamos de la poblacin. As, si se estudia el precio de la vivienda de una ciudad,
lo normal ser no recoger informacin sobre todas las viviendas de la ciudad (sera una labor muy compleja),
sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo. El
proceso y/o tcnica de obtencin de la muestra a partir de la poblacin se denomina muestreo.
Unidad de anlisis: Cualquier elemento que porte informacin sobre el fenmeno que se estudia. As, si estudiamos
la altura de los nios de una clase, cada alumno es una unidad de anlisis; si estudiamos el precio de la vivienda,
cada vivienda es una unidad de anlisis.
Variable: Es una caracterstica que puede tomar varios valores. Las variables son caractersticas observables, susceptibles a tomar distintos valores o ser expresados en varias categoras. Variable es un aspecto especfico de la
realidad referido a la unidad de anlisis y que puede ser susceptible a ser medido o cuantificado, adquiere un
valor determinado en cada unidad de anlisis
Dato: Es el valor o respuesta que adquiere la variable en cada unidad de anlisis. Dato es el resultado de la observacin, entrevista o recopilacin en general, ellos son la materia prima de la estadstica

Organizacin y presentacin de datos

1.2
1.2.1

Presentacin de datos

Tabla de distribucin de frecuencias sin intervalos.

Sean x1 , x2 , , xn las n observaciones (datos) correspondientes a una variable cuantitativa X. Si el nmero de valores
diferentes que asumen estos datos es muy pequeo en relacin al nmero de datos, los agruparemos en una tabla
de distribucin de frecuencias sin intervalos. Sean y1 , y2 , , ym los valores diferentes que asumen estos datos donde
y1 < y2 < < ym , entonces la tabla de distribucin de frecuencias sin intervalos ser:
i

yi

ni

Ni

Ni

hi

Hi

Hi

100hi

100Hi

100Hi

y1

n1

N1

N1

h1

H1

H1

100h1

100H1

100H1

y2

n2

N2

N2

h2

H2

H2

100h2

100H2

100H2

..
.

..
.

..
.

..
.

..
.

..
.

..
.

..
.

..
.

..
.

..
.

ym

nm

Nm

Nm

hm

Hm

Hm

100hm

100Hm

100Hm

100

Para disear la tabla anterior se debe tener en cuenta los siguientes pasos
De los datos x1 , x2 , , xn , separar a los valores diferentes.
Ordenar los valores diferentes y1 , y2 , , ym .
Contar cuantos datos son iguales a cada valor diferente yi .
A continuacin definimos las expresiones que estn en la tabla anterior.
Definicin 1.1 (Frecuencias absolutas)
1

La frecuencia absoluta simple ni correspondiente al valor yi es el nmero de observaciones que son iguales a yi .

La frecuencia absoluta acumulada menor que Ni correspondiente al valor yi es el nmero de observaciones


que son menores o iguales a yi .

La frecuencia absoluta acumulada mayor que Ni correspondiente al valor yi es el nmero de observaciones


que son mayores o iguales a yi .

Definicin 1.2 (Frecuencias relativas)


1

La frecuencia relativa simple hi correspondiente al valor yi es la proporcin, con respecto del total, del nmero
de observaciones que son iguales a yi .

La frecuencia relativa acumulada menor que Hi correspondiente al valor yi es la proporcin, con respecto del
total, del nmero de observaciones que son menores o iguales a yi .

La frecuencia relativa acumulada mayor que Hi correspondiente al valor yi es la proporcin, con respecto del
total, del nmero de observaciones que son mayores o iguales a yi .

Organizacin y presentacin de datos

Definicin 1.3 (Frecuencias porcentuales)


1

La frecuencia porcentual simple 100hi correspondiente al valor yi es el porcentaje de observaciones que son
iguales a yi .

La frecuencia porcentual acumulada menor que 100Hi correspondiente al valor yi es el porcentaje de observaciones que son menores o iguales a yi .

La frecuencia porcentual acumulada mayor que 100Hi correspondiente al valor yi es el porcentaje de observaciones que son mayores o iguales a yi .

Propiedades de las frecuencias:


1. Para cada i = 1, 2, , m: ni es un nmero entero y positivo pero inferior al nmero total de datos.
2. Para cada i = 1, 2, , m: Ni es un nmero entero y positivo.
3. Para cada i = 1, 2, , m: Ni es un nmero entero y positivo.
4. Por definicin para cada i = 1, 2, , m tenemos Ni = n1 + n2 + + ni , de donde
N1 = n1 ,
N2 = n1 + n2 = N1 + n2 ,
N3 = n1 + n2 + n3 = N2 + n3 ,
..
.
.
Nm = n1 + n2 + + nm = n.

Por lo tanto: n1 = N1 < N2 < N3 < < Nm = n.

5. Por definicin para cada i = 1, 2, , m tenemos Ni = ni + ni+1 + + nm , de donde


N1 = n1 + n2 + + nm = n,
N2 = n2 + n3 + + nm ,
N3 = n3 + n4 + + nm ,
..
.
.
Nm = nm .

Por lo tanto: n = N1 > N2 > N3 > > Nm = nm .

6. De la definicin resultan hi =

ni
,
n

Hi =

Ni
n

Hi =

Ni
n

7. Para cada i = 1, 2, , m: 0 < hi < 1, 0 < Hi 1, 0 < Hi 1.


8. Por definicin para cada i = 1, 2, , m tenemos Hi = h1 + h2 + + hi , de donde
H1 = h1 , H2 = h1 + h2 ,

H3 = h1 + h2 + h3 , , Hm = h1 + h2 + + hm = 1.

Por lo tanto: h1 = H1 < H2 < H3 < < Hm = 1.


9. Por definicin para cada i = 1, 2, , m tenemos Hi = hi + hi+1 + + hm , de donde
H1 = h1 + h2 + + hm = 1,

H2 = h2 + h3 + + hm , H3 = h3 + h4 + + hm , ,

Hm = hm .

Por lo tanto: 1 = H1 > H2 > H3 > > Hm = hm .


10. Por definicin para cada i = 1, 2, , m tenemos 100Hi = 100h1 + 100h2 + + 100hi , de donde
100H1 = 100h1 , 100H2 = 100h1 + 100h2 ,

, 100Hm = 100h1 + 100h2 + + 100hm = 100.

Por lo tanto: 100h1 = 100H1 < 100H2 < 100H3 < < 100Hm = 100.
11. Por definicin para cada i = 1, 2, , m tenemos 100Hi = 100hi + 100hi+1 + + 100hm , de donde
100H1 = 100h1 + 100h2 + + 100hm = 100, 100H2 = 100h2 + 100h3 + + 100hm , , 100Hm = 100hm .
Por lo tanto: 100 = 100H1 > 100H2 > 100H3 > > 100Hm = 100hm .
3

Organizacin y presentacin de datos

Ejemplo 1.1
Sean los 50 datos correspondientes a una variable cuantitativa
20

20

20

20

20

20

22

22

22

22

22

22

22

23

23

23

23

23

23

23

23

23

23

23

25

25

25

25

25

25

25

25

25

25

25

25

25

27

27

27

27

27

27

27

27

27

27

30

30

30

Los valores diferentes de los datos son y1 = 20, y2 = 22, y3 = 23, y4 = 25, y5 = 27 y y6 = 30; agrupamos estos datos en
una tabla de distribucin de frecuencias sin intervalos
yi

ni

Ni

Ni

hi

Hi

Hi

100hi

100Hi

100Hi

20

50

0.12

0.12

12

12

100

22

13

44

0.14

0.26

0.88

14

26

88

23

11

24

37

0.22

0.48

0.74

22

48

74

25

13

37

26

0.26

0.74

0.52

26

74

52

27

10

47

13

0.20

0.94

0.26

20

94

26

30

50

0.06

0.06

100

50

100

Las frecuencias absolutas ni , Ni y Ni representan nmero de datos; las frecuencias relativas hi , Hi y Hi representan proporcin de datos y las frecuencias porcentuales 100hi , 100Hi y 100Hi representan porcentaje de datos. Interpretemos
algunas frecuencia que estn en la tabla anterior.
n3 = 11: Significa que 11 datos son iguales a 23.
n6 = 3: Significa que 3 datos son iguales a 30.
n3 + n4 = 24: Significa que 24 datos son iguales como mnimo a 23 y como mximo a 25 (esto no significa que
uno de ellos es igual a 24, menos, que la mitad son iguales a 23 y la otra mitad iguales a 25).
N3 = 24: Significa que 24 datos son iguales como mnimo a 20 y como mximo 23.
N3 = 37: Significa que 37 datos son iguales como mnimo a 23 y como mximo 30.
1
h5 = 0.20 = : Significa que 1 de cada 5 datos son iguales a 27.
5
h1 = 0.12 =

3
: Significa que 3 de cada 25 datos son iguales a 20.
25

H3 = 0.48 =

12
: Significa que 12 de cada 25 datos son iguales como mnimo a 20 y como mximo a 23.
25

H4 = 0.52 =

13
: Significa que 13 de cada 25 datos son iguales como mnimo a 25 y como mximo a 30.
25

100h5 = 20: Significa que el 20% de los datos son iguales a 27.
100h1 = 12: Significa que el 12% de los datos son iguales a 20.
100H3 = 48: Significa que el 48% de los datos son iguales como mnimo a 20 y como mximo a 23.
100H4 = 52: Significa que el 52% de los datos son iguales como mnimo a 25 y como mximo a 30.

Organizacin y presentacin de datos

A continuacin presentamos los diagramas de barras o diagramas de bastones de las frecuencias simples correspondientes a la tabla anterior
DIAGRAMA DE BARRAS DE FRECUENCIAS
ABSOLUTAS SIMPLES

ni

Nmero
de datos

DIAGRAMA DE BARRAS DE FRECUENCIAS


RELATIVAS SIMPLES

TITULO :(Debe ser el mismos ttulo de la tabla)

hi

13

0,26

11
10

0,22
0,20

7
6

0,14
0,12

0,06

Proporcin TITULO :(Debe ser el mismos ttulo de la tabla)


de datos

Valores
diferentes
de datos

20

22 23

25

27

Valores
diferentes
de datos

30

20

22 23

25

27

30

Si diseamos el diagrama de barras de las frecuencias absolutas simples (ni ), stas se disponen sobre el eje vertical (si
dos frecuencias absolutas simples son iguales, solo se debe escribir una) y los valores diferentes de los datos sobre el
eje horizontal, sobre cada valor que est en el eje horizontal dibujamos una barra vertical cuya altura debe ser igual
a la frecuencia absoluta simple que le corresponde, tal como se aprecia en el siguiente diagrama sobre 20 una barra
de altura 6, sobre 22 una barra de altura 7, sobre 27 una barra de altura 10, etc.
Para disear los diagramas de barras de otras frecuencias solo debemos cambiar los nmeros del eje vertical con las
respectivas frecuencias cuyo diagrama se va elaborar.
DIAGRAMA DE BARRAS DE FRECUENCIAS
PORCENTUALES SIMPLES

100hi

Porcentaje
TITULO :(Debe ser el mismos ttulo de la tabla)
de datos

0,26

0,22
0.20

0,14
0,12

0,06
Valores
diferentes
de datos

20

22 23

25

27

30

Organizacin y presentacin de datos

1.2.1.1

Tabla de distribucin de frecuencias para datos de variable cualitativa.

Si los datos x1 , x2 , , xn

corresponden a una variable cualitativa X y los valores diferentes que asumen estos datos son
Caracterstica1, Caracterstica2, , Caractersticam;
que no son nmeros entonces la tabla de distribucin de frecuencias ser:
i

Caractersticas

ni

hi

100hi %

Caracterstica1

n1

h1

100h1

Caracterstica2

n2

h2

100h2

..
.

..
.

..
.

..
.

..
.

Caractersticam

nm

hm

100hm

100%

aqu:
La frecuencia absoluta simple ni es el nmero de observaciones que son iguales a la i sima caracterstica.
La frecuencia relativa simple hi es la proporcin de observaciones que son iguales a la i sima caracterstica.
La frecuencia porcentual simple 100hi es el porcentaje de observaciones que son iguales a la i sima caracterstica.
En este tipo de tablas no figuran las frecuencias acumuladas pues no representan nada, y para elaborar su diagrama
de barras de las frecuencias se procede del mismo modo que para variables cuantitativas.

Ejemplo 1.2
Sean los datos correspondientes a las nacionalidades de los 40 participantes del Tercer Seminario Internacional de
Fsica Cuntica
P

Br

Br

Br

Br

Br

Br

Br

Ru

Ru

Ru

Ru

Ru

Ru,

donde P: Peruano, B: Boliviano, Br: Brasileo, E: Espaol, F: Francs y Ru: Ruso, la tabla de distribucin de frecuencias
para estos datos es

Nacionalidad

ni

hi

100hi

Peruano

0,150

15

Boliviano

0,175

17,5

Brasileo

0,175

17,5

Espaol

0,225

22,5

Francs

0,125

12,5

Ruso

0,150

15

40

100

Organizacin y presentacin de datos

Ejemplo 1.2 (Continuacin).


y los diagramas de barras de las frecuencias simples son
DIAGRAMA DE BARRAS DE FRECUENCIAS
ABSOLUTAS SIMPLES

ni

Nmero de
participantes

DIAGRAMA DE BARRAS DE FRECUENCIAS


RELATIVAS SIMPLES

hi

TITULO :Participantes del Tercer Seminario


Internacional de Fsica Cuntica
segn nacionalidades

0,225

7
6

0,175
0,15

0,125

Proporcin de
participantes

TITULO :Participantes del Tercer Seminario


Internacional de Fsica Cuntica
segn nacionalidades

ru

e
P

ru
a
liv no
B ia
ra n
s o
i
E le
s
p o
F a
ra o
n l
c
e
R s
u
s
o

Nacionalidades

a
liv no
i
ra an
s o
ile
E
s o
p
F a
ra o
n l
c
e
R s
u
s
o

Nacionalidades

DIAGRAMA DE BARRAS DE FRECUENCIAS


PORCENTUALES SIMPLES

100hi

Porcentaje de
participantes

TITULO :Participantes del Tercer Seminario


Internacional de Fsica Cuntica
segn nacionalidades

22,5
17,5
15
12,5

e
P

1.2.2

ru
a
liv no
B ia
ra n
s o
i
E le
s
p o
F a
ra o
n l
c
e
R s
u
s
o

Nacionalidades

Tabla de distribucin de frecuencias con intervalos.

Sean x1 , x2 , , xn las n observaciones (datos) correspondientes a una variable cuantitativa X. Si el nmero de valores
diferentes que asumen estos datos no es muy pequeo en relacin al nmero de datos, entonces los agruparemos
en una tabla de distribucin de frecuencias con intervalos (tambin llamados clases) todos ellos posiblemente de la
misma amplitud (longitud) y del tipo [y0i1 ; y0i i a excepcin del primero y el ltimo que tendrn formas particulares
de acuerdo a la ampliacin del recorrido de la variable. A continuacin presentamos los
1.2.2.1

Pasos para la elaboracin de una tabla de distribucin de frecuencias con intervalos:

Hallar el mnimo y mximo: El mnimo y mximo valor de los datos son definidos respectivamente por:
xmn = min{x1 , x2 , , xn }

y xmx = max{x1 , x2 , , xn }.

Es obvio que xmn < xmx , por tanto xmx xmn > 0
7

Organizacin y presentacin de datos

Hallar el rango y su amplitud: El intervalo [xmn ; xmx ] es el rango o recorrido de la variable, y contiene a
todos los datos; su longitud
` = xmx xmn
es denominado amplitud del recorrido de la variable.
Hallar la amplitud de cada intervalo: Si m representa el nmero de intervalos que tendra la tabla, entonces la
amplitud de cada subintervalo es
c=

`
m

Presentar los intervalos: El rango queda dividido en m intervalos y son


[y00 ; y01 i , [y01 ; y02 i , , [y0i1 ; y0i i , , [y0m1 ; y0m ],
donde y00 = xmn ;

y01 = y00 + c; y02 = y01 + c; ; y0m = xmx

y1
y 0

y2
y 1

yi
y 2

ym

y i-1

y i

y m-1

y m

Definicin 1.4
y0i1 + y0i
, representa a todos los datos que estn en
2
esta clase y es utilizado para el clculo de algunos estadgrafos como la media aritmtica, desviacin tpica, etc.

La marca de clase del intervalo [y0i1 ; y0i i es su punto medio yi =

Luego de culminar con el paso 4, la tabla tendr la siguiente forma


i

[y0i1 y0i i

yi

ni

Ni

Ni

hi

Hi

Hi

100hi

100Hi

100Hi

[y00 y01 i

y1

n1

N1

N1

h1

H1

H1

100h1

100H1

100H1

[y01 y02 i

y2

n2

N2

N2

h2

H2

H2

100h2

100H2

100H2

..
.

..
.

..
.

..
.

..
.

..
.

..
.

..
.

..
.

..
.

..
.

..
.

[y0m1 y0m ]

ym

nm

Nm

Nm

hm

Hm

Hm

100hm

100Hm

100Hm

100

A continuacin definimos las expresiones que estn en la tabla anterior.

Definicin 1.5
1

La frecuencia absoluta simple ni correspondiente a la clase [y0i1 y0i i es el nmero de observaciones que estn
en esta clase.

La frecuencia absoluta acumulada menor que Ni correspondiente a la clase [y0i1 y0i i es el nmero de observaciones que estn en esta clase y las anteriores a ella.

La frecuencia absoluta acumulada mayor que Ni correspondiente a la clase [y0i1 y0i i es el nmero de observaciones que estn en esta clase y las posteriores a ella.

Organizacin y presentacin de datos

Definicin 1.6
1

La frecuencia relativa simple hi correspondiente a la clase [y0i1 y0i i es la proporcin, con respecto del total, del
nmero de observaciones que estn en esta clase.

La frecuencia relativa acumulada menor que Hi correspondiente a la clase [y0i1 y0i i es la proporcin, con
respecto del total, del nmero de observaciones que estn en esta clase y las anteriores a ella.

La frecuencia relativa acumulada mayor que Hi correspondiente a la clase [y0i1 y0i i es la proporcin, con
respecto del total, del nmero de observaciones que estn en esta clase y las posteriores a ella.

Definicin 1.7
1

La frecuencia porcentual simple 100hi correspondiente a la clase [y0i1 y0i i es el porcentaje de observaciones que
estn en esta clase.

La frecuencia porcentual acumulada menor que 100Hi correspondiente a la clase [y0i1 y0i i es el porcentaje de
observaciones que estn en esta clase y las anteriores a ella.

La frecuencia porcentual acumulada mayor que 100Hi correspondiente a la clase [y0i1 y0i i es el porcentaje
de observaciones que estn en esta clase y las posteriores a ella.

Observaciones:
1

Las frecuencias cumplen las mismas propiedades de las frecuencias para tablas de distribucin sin intervalos.

Una de las frecuencias absolutas simples puede ser igual a cero.

Una observacin xi pertenece solo a un intervalo y no puede estar en dos intervalos a la vez.

Como elegir el nmero de intervalos:


El valor de m, que representa el nmero de intervalos que tiene la tabla, se puede determinar de varias maneras
Un nmero entero arbitrario m tal que 5 m 16. Cuanto mayor sea el nmero de intervalos, los estadgrafos
calculados a partir de la tabla, son ms prximos al valor que se calculara si los datos no estuvieran agrupados.
Un mtodo muy utilizado consiste en la aplicacin de la Regla de Sturges1 : m = 1 + 3.3 log n, el valor de m no es
siempre entero, entonces hay necesidad de elegir un entero ms prximo a este valor.
De acuerdo a la clasificacin que requiera la variable o la forma en que se ha venido presentando la informacin
Algunos utilizan un procedimiento, no muy recomendado, calculando m mediante la frmula m =

1 La

n.

regla de Sturges, propuesta por Herbert Sturges en 1926, es una regla prctica acerca del nmero de clases que deben considerar al elabo-

rarse un histograma. Este nmero viene dado por la siguiente expresin: m = 1 + log2 N, donde N es el tamao de la muestra que puede pasarse a
logaritmo base 10 de la siguiente forma m = 1 + 3.3 log N: El valor de m (nmero de clases) es comn redondearlo al entero ms cercano. FUENTE:
http://es.wikipedia.org/

Organizacin y presentacin de datos

1.2.2.2

Eleccin del nmero de intervalos con la Regla de Sturges:

Si x1 , x2 , , xn son los n datos de una variable

cuantitativa
1

Halle xmn y xmx , entonces ` = xmx xmn es la amplitud del rango de la variable

Segn la Regla de Sturges el nmero de intervalos a considerarse se calcula con m = 1 + 3.3 log n, dado que este
nmero no siempre resulta entero, elegimos como el nmero de intervalo a uno de los enteros prximos a m.
`
, este valor de c
m0
0
0
0
0
debe ser redondeado por exceso a c , el valor ampliado de ` es ` = c m y el error de ampliacin es e = `0 `.

Si m es redondeado por defecto a m0 , entonces la amplitud de cada subintervalo ser c =

`
, este valor de c
m0
0
0
0
0
debe ser redondeado por exceso a c , el valor ampliado de ` es ` = c m y el error de ampliacin es e = `0 `.

Si m es redondeado por exceso a m0 , entonces la amplitud de cada subintervalo ser c =

Entonces elegimos como nmero de intervalos a aquel valor redondeado de m que genera el menor error
de ampliacin; pero si en ambos casos tenemos el mismo error de ampliacin el nmero de intervalos ser
el valor redondeado por exceso de m.
3

Con los redondeos ampliamos los valores mximo y mnimo de los datos del siguiente modo




e1
e+1
0
0
Si e es impar xmn = xmn
y xmx = xmx +
2
2
e
e
0
0
Si e es par xmn
= xmn y xmx
= xmx +
2
2
Los intervalos que estarn en la tabla son
hy00 ; y01 i , [y01 ; y02 i , , [y0i1 ; y0i i , , [y0m1 ; y0m i,
0
donde y00 = xmn
;

y01 = y00 + c; y02 = y01 + c;

[y00 ; y01 i , [y01 ; y02 i , , [y0i1 ; y0i i , , [y0m1 ; y0m i,

0
; y0m = xmx

Ejemplo 1.3
Sean los datos x1 , x2 , , xn con n = 200, xmn = 325 y xmx = 986.
En este caso tenemos ` = 986 325 = 661, m = 1 + 3.3 log 200 = 8.59 . . .
661
`
=
= 82.625, de donde c0 = 83. El rango ampliado es `0 = m0 c0 = (8)(83) = 664 y el
m0
8
error de ampliacin es e = `0 ` = 664 661 = 3

Si m0 = 8, entonces c =

`
661
= 73.44 . . ., de donde c0 = 74. El rango ampliado es `0 = m0 c0 = (9)(74) = 666 y
=
0
m
9
el error de ampliacin es e = `0 ` = 666 661 = 5

Si m0 = 9, entonces c =

El redondeo por defecto m0 = 8 origina el menor error e = 3 lo cual indica que la tabla de distribucin tendr 8
intervalos todos ellos de amplitud 83,
los valores ampliados del mximo y mnimo son




e1
31
0
xmn = xmn
= 325
= 324
2
2




e+1
3+1
0
xmx = xmx +
= 986 +
= 988
2
2
y los intervalos sern:
h324 407i ,
[656 739i ,

10

[407 490i ,
[739 822i ,

[490 573i ,
[822 905i ,

[573 656i ,
[905 988i

Organizacin y presentacin de datos

Ejemplo 1.4
Sean los datos x1 , x2 , , xn con n = 100, xmn = 325 y xmx = 725.
En este caso tenemos ` = 725 325 = 400, m = 1 + 3.3 log 100 = 7.6
`
400
=
= 57, 14 . . ., de donde c0 = 58. El rango ampliado es `0 = m0 c0 = (7)(58) = 406 y
m0
7
el error de ampliacin es e = `0 ` = 406 400 = 6

Si m0 = 7, entonces c =

`
400
=
= 50, de donde c0 = 50. El rango ampliado es `0 = m0 c0 = (8)(50) = 406 y el error
m0
8
de ampliacin es e = `0 ` = 400 400 = 0

Si m0 = 8, entonces c =

El redondeo por exceso m0 = 8 origina el menor error e = 0 lo cual indica que la tabla de distribucin tendr 8 intervalos todos ellos de amplitud 50, los valores ampliados del mximo y mnimo son
0
e
0
xmn
= xmn = 325 = 325
2
2
e
0
0
y xmx
= xmx + = 725 + = 725
2
2
y los intervalos sern
[325 375i ,

[375 425i ,

[525 575i ,

[425 475i ,

[575 625i ,

[475 525i ,

[625 675i ,

[675 725]

Ejemplo 1.5
Sean los datos x1 , x2 , , xn con n = 80, xmn = 80 y xmx = 359.
En este caso tenemos ` = 359 80 = 279, m = 1 + 3.3 log 80 = 7.28 . . .
279
`
=
= 39.8 . . ., de donde c0 = 40. El rango ampliado es `0 = m0 c0 = (7)(40) = 280 y el
0
m
7
error de ampliacin es e = `0 ` = 280 279 = 1

Si m0 = 7, entonces c =

`
279
=
= 34.875, de donde c0 = 35. El rango ampliado es `0 = m0 c0 = (8)(35) = 280 y el
m0
8
error de ampliacin es e = `0 ` = 280 279 = 1

Si m0 = 8, entonces c =

En ambos casos obtenemos el mismo error e = 1, elegimos la mayor cantidad de intervalos, lo cual indica que la tabla
de distribucin tendr8 intervalos
todos
ellos de amplitud 35, los valores ampliados del mximo y mnimo son


e

1
1

1
0
xmn
= xmn
= 80
= 80
2
2




e+1
1+1
0
xmx = xmx +
= 359 +
= 360
2
2
y los intervalos sern
[80 115i ,

[115 150i ,

[220 255i ,

[150 185i ,

[255 290i ,

[185 220i ,

[290 325i ,

[325 360i

11

Organizacin y presentacin de datos

1.2.3

Elaboracin de histogramas y polgonos de frecuencia

En estadstica, un histograma es una representacin grfica de una variable en forma de barras, donde la superficie
de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente sealando las clases y las marcas de clase.
En trminos matemticos, puede ser definida como una funcin inyectiva (o mapeo) que acumula (cuenta) las observaciones que pertenecen a cada subintervalo de una particin. El histograma, como es tradicionalmente entendido,
no es ms que la representacin grfica de dicha funcin. Se utiliza cuando los datos de una variable se agrupan en
intervalos
Pasos para la elaboracin de histogramas de frecuencias En esta parte enunciamos los pasos para la elaboracin
de histogramas para datos agrupados en una tabla de distribucin de frecuencia con intervalos todos ellos de la
misma amplitud, cada uno de los tipos de frecuencia tienen su propio histograma, decir para una tabla en total son 9
histogramas
1

Tener lista la tabla de distribucin de frecuencia con intervalos.

Dibujar los ejes cartesianos, uno horizontal y el otro vertical.

Sobre el eje horizontal representar todos los intervalos y sus respectivas marcas de clase que aparecen en la
tabla. Estos tres primeros pasos son los mismos que se han de seguir cuando se elaboren los 9 histogramas que
se va elaborar a partir de la tabla.

Sobre el eje vertical representar las frecuencias (si por ejemplo se esta diseando el histograma de frecuencias
absolutas simples ni entonces sobre el eje vertical sealamos los puntos que corresponden a estas frecuencias,
si es que hubieran dos de ellas iguales en el grfico solo se presenta una).

Sobre cada intervalo dibujar un rectngulo cuyas altura debe ser igual a la frecuencia que le corresponde a
dicho intervalo.

Elaboracin de polgonos de frecuencias y ojivas


1

Para histogramas de frecuencias simples: Ubicar los puntos medio de las bases superiores de cada rectngulo y
unirlas consecutivamente con segmentos de recta obtenindose una poligonal, en el eje horizontal a la izquierda
del mnimo ubicar el punto que est a la distancia c/2, luego unirla al primer punto de la poligonal anterior,
finalmente en el eje horizontal a la derecha del mximo ubicar el punto que est a la distancia c/2, luego unirla
al ltimo punto de la poligonal anterior obtenindose as el polgono de frecuencias

Para histogramas de frecuencias acumuladas menor que: Ubicar los extremos derechos de las bases superiores
de cada rectngulo, luego unirlas consecutivamente con segmentos de recta obtenindose una poligonal, finalmente en el eje horizontal ubicar el mnimo, luego unirla al primer punto de la poligonal anterior obtenindose
as la ojiva menor que.

Para histogramas de frecuencias acumuladas mayor que: Ubicar los extremos izquierdos de las bases superiores
de cada rectngulo, luego unirlas consecutivamente con segmentos de recta obtenindose una poligonal, finalmente en el eje horizontal ubicar el mximo, luego unirla al ltimo punto de la poligonal anterior obtenindose
as la ojiva mayor que.

12

Organizacin y presentacin de datos

Ejemplo 1.6
La siguiente tabla corresponde a los salarios semanales en nuevos soles de todos los trabajadores de la constructora
NEXT durante el ao 2011.
Trabajadores de la constructora NEXT segn salarios semanales durante el ao 2011.
i

Salarios(S/.)

yi

ni

Ni

Ni

hi

Hi

Hi

100hi

100Hi

100Hi

[ 80 110i

95

50

0,10

0,10

10

10

100

[110 140i

125

14

45

0,18

0,28

0,90

18

28

90

[140 170i

155

14

28

36

0,28

0,56

0,72

28

56

72

[170 200i

185

34

22

0,12

0,68

0,44

12

68

44

[200 230i

215

10

44

16

0,20

0,88

0,32

20

88

32

[230 260]

245

50

0,12

0,12

12

100

12

50

100

FUENTE: Oficina de personal de la constructora NEXT.

Vemos que la constructora NEXT posee 50 trabajadores, el salario mnimo y mximo es de 80 y 260 nuevos soles respectivamente. Las frecuencias ni , Ni y Ni representan nmero de trabajadores; hi , Hi y Hi proporcin de trabajadores;
100hi , 100Hi y 100Hi porcentaje de trabajadores, interpretemos algunas de ellas
1

n3 = 14: Significa que 14 trabajadores de la constructora NEXT tienen salarios semanales mayores o iguales a
S/. 140 y menores a S/. 170.

n4 + n5 = 16: Significa que 16 trabajadores de la constructora NEXT tienen salarios semanales mayores o iguales
a S/. 170 y menores a S/. 230.

N4 = 34: Significa que 34 trabajadores de la constructora NEXT tienen salarios semanales mayores o iguales a
S/. 80 y menores a S/. 200.

N3 = 36: Significa que 36 trabajadores de la constructora NEXT tienen salarios semanales mayores o iguales a
S/. 140 y menores o iguales a S/. 260.

1
h5 = 0, 20 = : Significa que 1 de cada 5 trabajadores de la constructora NEXT tienen salarios semanales mayores
5
o iguales a S/. 200 y menores a S/. 230.
7
: Significa que 7 de cada 25 trabajadores de la constructora NEXT tienen salarios semanales
25
mayores o iguales a S/. 80 y menores a S/. 140.
H2 = 0, 28 =

8
: Significa que 8 de cada 25 trabajadores de la constructora NEXT tienen salarios semanales
25
mayores o iguales a S/. 200 y menores o iguales a S/. 260.
H5 = 0, 32 =

100h4 = 12: Significa que el 12% de los trabajadores de la constructora NEXT tienen salarios semanales mayores
o iguales a S/. 170 y menores a S/. 200.

100H3 = 56: Significa que el 56% de los trabajadores de la constructora NEXT tienen salarios semanales mayores
o iguales a S/. 80 y menores a S/. 170.

10

100H4 = 44: Significa que el 44% de los trabajadores de la constructora NEXT tienen salarios semanales mayores
o iguales a S/. 170 y menores o iguales a S/. 260.

13

Organizacin y presentacin de datos

A continuacin elaboramos los 9 histogramas que corresponden a la tabla anterior, en ellas adjuntamos los polgonos
de frecuencias y las ojivas.
HISTOGRAMA DE FRECUENCIAS ABSOLUTAS SIMPLES

ni

TRABAJADORES DE LA CONSTRUCTORA NEXT SEGN


SALARIOS SEMANALES DURANTE EL AO 2011

Nmero de
trabajadores

14
Polgono de frecuencias

10
9

6
5

Salarios
(S/.)
semanales
65

80

110

140

170

200

230

260

275

FUENTE: Oficina de personal de la constructora NEXT

HISTOGRAMA DE FRECUENCIAS ABSOLUTAS ACUMULADAS MAYOR QUE

HISTOGRAMA DE FRECUENCIAS ABSOLUTAS ACUMULADAS MENOR QUE

Ni

Nmero de
trabajadores

TRABAJADORES DE LA CONSTRUCTORA NEXT SEGN


SALARIOS SEMANALES DURANTE EL AO 2011

N*i

50

50

44

45

Nmero de
trabajadores

TRABAJADORES DE LA CONSTRUCTORA NEXT SEGN


SALARIOS SEMANALES DURANTE EL AO 2011

OJIVA mayor que

OJIVA menor que

36

34
28

22
16

14

Salarios
(S/.)
semanales

80

110

140

170

200

230

Salarios
(S/.)
semanales

260

80

FUENTE: Oficina de personal de la constructora NEXT

110

140

170

200

FUENTE: Oficina de personal de la constructora NEXT

HISTOGRAMA DE FRECUENCIAS RELATIVAS SIMPLES

hi

Proporcin de
trabajadores

TRABAJADORES DE LA CONSTRUCTORA NEXT SEGN


SALARIOS SEMANALES DURANTE EL AO 2011

0,28
Polgono de frecuencias

0,20
0,18

0,12
0,10

Salarios
(S/.)
semanales
65

80

110

140

170

200

FUENTE: Oficina de personal de la constructora NEXT

14

230

260

275

230

260

Organizacin y presentacin de datos

HISTOGRAMA DE FRECUENCIAS RELATIVAS ACUMULADAS MAYOR QUE

HISTOGRAMA DE FRECUENCIAS RELATIVAS ACUMULADAS MENOR QUE

Hi

Proporcin de
trabajadores

TRABAJADORES DE LA CONSTRUCTORA NEXT SEGN


SALARIOS SEMANALES DURANTE EL AO 2011

H*i

0,88

0,90

Proporcin de
trabajadores

TRABAJADORES DE LA CONSTRUCTORA NEXT SEGN


SALARIOS SEMANALES DURANTE EL AO 2011

OJIVA mayor que

OJIVA menor que

0,72

0,68
0,56

0,44
0,32

0,28

0,10

Salarios
(S/.)
semanales

80

110

140

170

200

230

0,12

Salarios
(S/.)
semanales

260

80

FUENTE: Oficina de personal de la constructora NEXT

110

140

170

200

230

260

FUENTE: Oficina de personal de la constructora NEXT

HISTOGRAMA DE FRECUENCIAS PORCENTUALES SIMPLES


Porcentaje de

100hi trabajadores

TRABAJADORES DE LA CONSTRUCTORA NEXT SEGN


SALARIOS SEMANALES DURANTE EL AO 2011

28
Polgono de frecuencias

20
18

12
10

Salarios
(S/.)
semanales
65

80

110

140

170

200

230

260

275

FUENTE: Oficina de personal de la constructora NEXT

HISTOGRAMA DE FRECUENCIAS PORCENTUALES ACUMULADAS MAYOR QUE

HISTOGRAMA DE FRECUENCIAS PORCENTUALES ACUMULADAS MENOR QUE

100Hi

Porcentaje de
trabajadores

TRABAJADORES DE LA CONSTRUCTORA NEXT SEGN


SALARIOS SEMANALES DURANTE EL AO 2011

100H*i

100

100

88

90

Porcentaje de
trabajadores

TRABAJADORES DE LA CONSTRUCTORA NEXT SEGN


SALARIOS SEMANALES DURANTE EL AO 2011

OJIVA mayor que

OJIVA menor que

72

68
56

44
32

28

10

Salarios
(S/.)
semanales

80

110

140

170

200

FUENTE: Oficina de personal de la constructora NEXT

230

260

12

Salarios
(S/.)
semanales

80

110

140

170

200

230

260

FUENTE: Oficina de personal de la constructora NEXT

15

Organizacin y presentacin de datos

Distribuciones Simtricas: Una tabla de distribucin de frecuencias, con o sin intervalos, se dice que es simtrica
m
con respecto a la frecuencia absoluta simple si ni = nmi+1 para cada i .
2
Observaciones:
1

Si una tabla de distribucin de frecuencias, con o sin intervalos, es simtrica con respecto a la frecuencia absoluta
simple, entonces es simtrica con respecto a la frecuencia relativa simple y la frecuencia porcentual simple.

Sea una tabla de distribucin de frecuencias, con o sin intervalos, con m = 7; para que sea simtrica con respecto
a la frecuencia absoluta simple debe verificarse n1 = n7 , n2 = n6 y n3 = n5 .

Sea una tabla de distribucin de frecuencias, con o sin intervalos, con m = 6; para que sea simtrica con respecto
a la frecuencia absoluta simple debe verificarse n1 = n6 , n2 = n5 y n3 = n4 .

Sea una tabla de distribucin de frecuencias, con o sin intervalos, con m = 9; para que sea simtrica con respecto
a la frecuencia absoluta simple debe verificarse n1 = n9 , n2 = n8 , n3 = n7 y n4 = n6 .

Sea una tabla de distribucin de frecuencias, con o sin intervalos, con m = 8; para que sea simtrica con respecto
a la frecuencia absoluta simple debe verificarse n1 = n8 , n2 = n7 , n3 = n6 y n4 = n5 .

Ejemplo 1.7
Presentamos

algunas
i

yi

tablas

de

distribucin

simtricas

ni

con

y1

n1

y2

n2

n4

y3

n3

n1 = n7

n3

y4

n4

n2 = n6

n2

y5

n5

n3 = n5

y6

n6

y7

n7

[y0i1 y0i i

yi

ni

n1=n7
n2=n6
n3=n5

y2

y3

y4

y5

y6

y7

HISTOORAMA DE FRECUENCIAS ABSOLUTAS SIMPLES

ni

y1

n1

[y01 y02 i

y2

n2

[y02 y03 i

y3

n3

n1 = n7

n3

[y03 y04 i

y4

n4

n2 = n6

n2

[y04 y05 i
[y05 y06 i
[y06 y07 ]

y5

n5

n3 = n5

y6

n6

y7

n7
n

16

frecuencias

Nmero
de datos

y1

[y00 y01 i

sus

n1

DIAGRAMA DE BARRAS DE FRECUENCIAS ABSOLUTAS SIMPLES

ni

n
i

respecto

Nmero
de datos

n1=n7
n2=n6
n3=n5

n4

n1

y0

y1

y2

y3

y4

y5

y6

y7

simples.

Organizacin y presentacin de datos

Ejemplo 1.7 (Continuacin).

yi

ni

y1

n1

ni

y2

n2

n4

y3

n3

n1 = n8

y4

n4

n2 = n7

y5

n5

n3 = n6

y6

n6

n4 = n5

y7

n7

y8

n8

DIAGRAMA DE BARRAS DE FRECUENCIAS ABSOLUTAS SIMPLES


Nmero
de datos

n1=n8
n2=n7
n3=n6
n4=n5

n2
n3
n1

y1 y2

y3

y4 y5

y6 y7

y8

n
i

[y0i1 y0i i

yi

ni

[y00 y01 i
[y01 y02 i
[y02 y03 i
[y03 y04 i
[y04 y05 i
[y05 y06 i
[y06 y07 i
[y07 y08 ]

y1

n1

ni

y2

n2

n4

y3

n3

n1 = n8

y4

n4

n2 = n7

y5

n5

n3 = n6

y6

n6

n4 = n5

y7

n7

y8

n8

2
3
4
5
6
7
8

HISTOGRAMA DE FRECUENCIAS ABSOLUTAS SIMPLES


Nmero
de datos

n1=n8
n2=n7
n3=n6
n4=n5

n2
n3
n1

y0

y1

y2

y3

y4

y5

y6

y7

y8

CUESTIONARIO
1 Diga qu tipo de variable es cada una de las siguientes:
a

Tiempo de servicio de los empleados de una empresa.

Nmero de cheques girados diariamente por una empresa en un mes.

Nmero de acciones comunes vendidas cada da en la bolsa de valores de Lima.

Lugar de nacimiento de las personas que estudian en esta universidad.

Nivel educativo de los habitantes del Per.

Temperatura y humedad diaria de una ciudad.

Edad, talla y masa de todos los integrantes de la seleccin peruana de futbol.

Los salarios mensuales de los trabajadores de las empresas de una ciudad.

Gasto mensual en alimentacin en un hogar durante un ao.

Ocupacin de los padres y/o apoderados de los estudiantes de la I.E. Mariscal Cceres de Ayacucho.

Grado de instruccin acadmica de los padres y/o apoderados de los estudiantes de la I.E. Mariscal
Cceres de Ayacucho.

l
m

Distrito de residencia de los trabajadores de una fbrica de la ciudad de Lima.


Nacionalidad de los participantes en Londres 2012.
17

Organizacin y presentacin de datos

Causas de Mortalidad en los ltimos 20 aos en una ciudad.

Cantidad de medallas Olmpica obtenidas por cada Nacin participante en las Olimpiadas de verano 2012.

2 Debido a la falta de personal de la empresa SMART, dedicada al servicio de mensajera, los trabajadores laboraron horas extras durante el ao 2010. El nmero de horas extras realizadas por 50 trabajadores de esta fueron:
20

20

20

30

30

35

35

35

35

35

35

35

35

35

40

40

40

40

40

40

40

40

50

50

50

50

50

50

50

50

50

55

55

55

55

55

55

55

60

60

60

60

60

60

65

65

65

65

65

75

Qu poblacin se ha considerado?. A qu variable corresponden los datos, seale el tipo?.

Disee la tabla de distribucin de frecuencias sin intervalos de clase.

Interprete algunos resultados obtenidos en la tabla de distribucin de frecuencias.

Represente grficamente mediante un diagrama de barras, la distribucin obtenida en el item anterior

3 A continuacin presentamos la cantidad de vehculos vendidos por todos los trabajadores de la importadora
Nissan durante el verano 2012.
20

21

21

21

24

22

25

21

21

22

22

21

20

22

21

23

20

20

24

20

24

23

24

25

22

26

25

23

23

23

25

24

25

21

21

26

26

24

26

20

21

21

22

23

23

21

22

21

21

21

Cul es la poblacin?, Cual es la muestra?.

Cul es la variable?, De qu tipo es?.

Construya una tabla de distribucin de frecuencias sin intervalos de clase.

Represente grficamente mediante un diagrama de barras las frecuencias simples.

Cuntos trabajadores vendieron 24 vehculos cada uno?.

Cuntos trabajadores vendieron como mnimo 24 vehculos?.

Cuntos trabajadores vendieron como mximo 24 vehculos?.

Cuntos trabajadores vendieron como mnimo 22 y como mximo 25 vehculos?.

Qu porcentaje de trabajadores vendieron 25 vehculos cada uno?.

Qu porcentaje de trabajadores vendieron como mnimo 24 vehculos?.

Qu porcentaje de trabajadores vendieron como mximo 23 vehculos?.

Qu porcentaje de trabajadores vendieron como mnimo 21 y como mximo 24 vehculos?.

4 Una fbrica de gaseosas proyecta lanzar al mercado un nuevo sabor. Se realiza un test de aceptacin de dicho
sabor en una muestra de 40 nios, utilizando una escala de 10 puntos, para medir el grado de aceptacin. Los
puntos obtenidos en los 40 nios fueron
3

La muestra estuvo compuesta por igual nmero de nios de ambos sexos de 5 a 12 aos de edad residentes en
el barrio San Bernardo de la ciudad de Maracaibo.

18

Cul es la poblacin?, Cul es la muestra?.

Cul es la variable?, De qu tipo es?.

Organizacin y presentacin de datos

Construya una tabla de distribucin de frecuencias.

Cuntos nios calificaron con 4 puntos cada uno?.

Cuntos nios calificaron con 5 puntos como mnimo?.

Cuntos nios calificaron con 6 puntos como mximo?.

Qu porcentaje de nios calificaron con 5 puntos como mximo?.

Represente grficamente mediante un diagrama de barras las frecuencias simples.

5 El Grupo Megatech-Ayacucho, importadora de computadoras, realiza un estudio sobre la preferencia de marcas


de computadoras porttiles de los docentes del Departamento Acadmico de Matemtica y Fsica, dicho estudio
se realiz a un nmero determinado de docentes, obtenindose los siguientes datos
Vaio

Toshiba

Samsung

OTRAS

Toshiba

HP

Samsung

Vaio

Toshiba

Lenovo

Vaio

HP

Apple

Toshiba

OTRAS

HP

Vaio

Toshiba

Lenovo

Toshiba

Acer

Acer

Acer

OTRAS

Toshiba

Toshiba

HP

HP

Samsung

Acer

Apple

HP

Lenovo

Lenovo

Toshiba

Samsung

Apple

OTRAS

Acer

HP

Cul es la poblacin?, Cul es la muestra?.

Cul es la variable?, De qu tipo es?.

Construya una tabla de distribucin de frecuencias.

Represente grficamente mediante un diagrama de barras las frecuencias simples.

6 Se realiza un estudio en la ciudad de Guayaquil a 150 familias de clase media, para conocer el tipo de aceite
o manteca usados en la cocina. Los resultados son los siguientes: Maz, 14 hogares; Soya 65, hogares; Ajonjol,
21 hogares; Pescado, 10 hogares; Manteca de cerdo, 21 hogares; Grasa de origen vegetal, 6 hogares; Oliva, 13
hogares.
a

Cul es la poblacin?, Cul es la muestra?, Cul es la variable?, De qu tipo es?.

Construya una tabla de distribucin de frecuencias.

Represente grficamente mediante un diagrama de barras las frecuencias simples.

7 Las nacionalidades de todos los participantes en el 1er Seminario Internacional de Fsica realizado en la UNI en
el ao 2010 son los siguientes:

Donde:
B: Boliviano

x1 = C,

x2 = B,

x3 = P,

x4 = E,

x5 = P,

x6 = Pa

x7 = P,

x8 = V ,

x9 = C,

x10 = B,

x11 = P,

x12 = Ch

x13 = P,

x14 = C,

x15 = E,

x16 = P,

x17 = B,

x18 = B

x19 = V ,

x20 = Pa,

x21 = Ch,

x22 = B,

x23 = P,

x24 = C

x25 = C,

x26 = E,

x27 = P,

x28 = P,

x29 = P,

x30 = V

x31 = P,

x32 = V ,

x33 = Ch,

x34 = C,

x35 = P,

x36 = V

x37 = P,

x38 = V ,

x39 = Ch,

x40 = C,

C: Colombiano

E: Ecuatoriano

Pa: Paraguayo

P: Peruano
V: Venezolano
Ch: Chileno
Agrupe los datos en una tabla de distribucin de frecuencias, luego interprete todas las frecuencias.

19

Organizacin y presentacin de datos

8 El seor Robles, al llegar a su vejez, decide adaptarse a los tiempos modernos, adquiriendo un telfono mvil.
Transcurrido un mes, la compaa de telfonos le remite el siguiente detalle de las llamadas efectuadas durante
ese periodo.
duracin en minutos

Llamadas a mviles

Llamadas a fijos

Llamadas al extranjero

< 00 10]

< 10 20]

10

25

< 20 30]

25

10

El precio por llamadas a mviles es de 0.12 euros, a fijos 0.15 euros y 0.8 euros al extranjero.
a

Elabore la tabla de distribucin de frecuencias para llamadas a mviles y para llamadas a fijos.

Calcule el monto que pagar por todas las llamadas a telfonos fijos.

Calcule el monto que pagar por todas las llamadas a telfonos mviles.

Cuntas llamadas a telfonos mviles son superiores a 15 minutos por llamada?.

Cuntas llamadas a telfonos fijos son inferiores a 18 minutos por llamada?.

9 Los sueldos mensuales (en euros) de 60 empleados de la empresa Pirmide S.A. durante el ao 1998 son los
siguientes:
440

560

335

587

613

400

424

466

565

393

453

650

407

376

470

560

321

500

528

526

570

430

618

537

409

600

550

432

591

428

440

340

558

460

560

607

382

667

512

492

450

530

501

471

660

470

364

634

580

450

574

500

462

380

518

480

625

507

645

382

Agrupe los datos en una tabla de distribucin de frecuencias, calcule el nmero de clases empleando la Regla
de Sturges, interprete todas las frecuencias

10 Un nuevo hotel va a abrir sus puertas en Huamanga. Antes de decidir el precio de sus habitaciones, el gerente
investiga los precios por habitacin de 40 hoteles de esta ciudad. Los datos obtenidos en dlares fueron:
39

47

37

56

43

49

50

61

51

45

53

39

43

50

60

47

51

42

44

58

33

43

41

58

44

48

63

43

53

45

40

54

39

47

33

45

47

42

45

48

Cul es la poblacin objeto de estudio?.

Qu variable estamos estudiando? Qu tipo de variable es?.

Construya la tabla de frecuencias con intervalos de amplitud igual a 5 dlares.

Cunto hoteles tienen un precio por habitacin entre 35,5 y 40,5 dlares?.

Cunto hoteles tienen un precio por habitacin superior a 50,5 dlares?.

Qu porcentaje de hoteles tienen un precio por habitacin inferior a 45,5 dlares?.

11 Suponiendo que se pierden todos los exmenes de estadstica, pero se recuerdan que las 120 notas tenan una
distribucin simtrica con 7 intervalos de clase de igual amplitud. Adems en los archivo se encuentra la siguiente informacin:
100h1 % = 5%, 100h3 % = 15%,

100H3 = 85%,

yi = 400,

i=3

20

y4 = 72.

Organizacin y presentacin de datos

Reconstruya la tabla de distribucin de frecuencias.

Si para aprobar el examen se necesita por lo menos 70 puntos, Cuntos desaprobaron aquel examen?

12 La siguiente informacin se refiere a las masas (en kg) de los 50 ingresantes a la EFP de Economa en el Examen
de Admisin del 2008: m = 6, y01 = 41, y04 = 59, 100h2 = 10, 100H1 = 6, h4 = 0.30, N3 = 21, 100h5 = 22.
a

Elabore su respectiva tabla de distribucin de frecuencias.

Dibuje el histograma de frecuencias absolutas simples y el polgono de frecuencias.

Dibuje el histograma de frecuencias absolutas acumuladas menor que y la ojiva.

Dibuje el histograma de frecuencias absolutas acumuladas mayor que y la ojiva.

Dibuje el histograma de frecuencias relativas simples y el polgono de frecuencias.

Dibuje el histograma de frecuencias relativas acumuladas menor que y la ojiva.

Dibuje el histograma de frecuencias relativas acumuladas mayor que y la ojiva.

Dibuje el histograma de frecuencias porcentuales simples y el polgono de frecuencias.

Dibuje el histograma de frecuencias porcentuales acumuladas menor que y la ojiva.

Dibuje el histograma de frecuencias porcentuales acumuladas mayor que y la ojiva.

13 El siguiente histograma incompleto se refiere a los salarios semanales (en dlares) de todos los trabajadores de
la empresa SONY

Nmero de
trabajadores

HISTOGRAMA DE FRECUENCIAS
ABSOLUTAS ACUMULADAS

80
79
76
61

44

24
11
Salarios
semanales ($)
90 105

A partir de ello Construya la tabla de distribucin de frecuencias, si los intervalos de clase tienen todas la
misma amplitud.

Calcule e interprete n4 + n5 ,

n2 + N3 ,

100H5 % + 100h6 %.

21

Organizacin y presentacin de datos

14 De un examen realizado a un grupo de alumnos, cuyas notas se han evaluado del 1 al 8, se ha obtenido la
siguiente tabla de distribucin de frecuencias:
Notas

ni

Ni

Ni

hi

16
7

100hi

100Hi

100Hi

0,08

3
4

Hi

Hi

0,16
0,14

28

38

0,14

Se pide:
a

Rellenar la tabla estadstica.

Nmero de alumnos que se han examinado.

Nmero de alumnos que han obtenido una nota superior a 3.

Porcentaje de alumnos que han sacado una nota igual a 6.

Porcentaje de alumnos que han obtenido una nota superior a 4.

Nmero de alumnos que han obtenido una nota superior a 2 e inferior a 5.

15 Una fbrica empaqueta en lotes de 100 unidades los tornillos que produce. Se establece un plan de inspeccin
por muestreo consistente en examinar, de cada lote, 20 tornillos elegidos al azar y rechazar el lote si de los 20
aparecen ms de 4 defectuosos; almacenar el lote como revisable si el nmero de defectuosos es menor que 5
pero mayor que 1, y aceptarlo en otro caso. Se inspeccionan 64 lotes y resulta el siguiente nmero de tornillos
defectuosos de cada uno:
1

Construye la tabla de frecuencias absolutas, relativas y porcentuales del resultado de la inspeccin.

Dibuja el diagrama de barras de frecuencias simples para los resultados de la inspeccin.

Agrupe los resultados por lotes: Rechazados, revisables y aceptados y:


c

Construye la tabla de frecuencias para los lotes.

Determina la proporcin de lotes rechazados.

Representa la distribucin de frecuencias mediante un diagrama.

Comenta las diferencias entre los resultados de los apartados b) y e).

16 Las estaturas (en centmetros) de los socios de un club juvenil de Pker de Panam, son:

22

153

123

129

132

147

138

137

134

131

147

138

128

134

148

125

139

146

145

148

135

152

128

146

143

138

138

122

146

137

151

145

124

132

138

144

141

137

146

138

146

152

136

160

159

157

150

160

142

148

130

Organizacin y presentacin de datos

Agruparlas en una tabla de distribucin de frecuencias con 6 intervalos, luego elaborar los histogramas de
frecuencia relativas.

Qu porcentaje de jvenes tienen tallas superiores a 150cm?.

Qu porcentaje de jvenes tienen tallas inferiores a 140cm?.

17 Con los siguientes datos, correspondientes a los saldos (en miles de dlares) de cuentas pendientes
77

70

65

62

53

78

41

48

74

63

34

38

69

79

76

55

59

69

78

75

68

56

61

41

83

54

49

68

48

64

84

74

68

73

69

31

69

78

64

34

Elabore la tabla de distribucin de frecuencia utilizando la regla de Sturges, luego determine c, y3 , y5 , H4 y N5 .

18 En una investigacin realizada a 800 empresas sobre valor de las ventas, en una quincena, se obtuvo la siguiente
distribucin
ventas($)

Proporcin de empresas

[18 28i

0,30

[28 48i

0,25

[48 98i

0,20

[98 148i

0,15

[148 198]

0,10

se pide
a

Elaborar una tabla de distribucin de frecuencia con 6 intervalos de igual amplitud.

De la tabla anterior Cuntas empresas venden ms de 138mil dlares?

Elabore los histogramas de frecuencia porcentuales a partir de la tabla hallada en a)

19 Con los siguientes datos correspondientes al nmero de retrasos (en la maana) por parte de los empleados del
Banco de la Nacin
2

Se pide elaborar una tabla de frecuencias y los diagramas de frecuencia simples correspondientes.

20 Segn la Asociacin de lucha contra la Bulimia y la Anorexia, las pautas culturales han determinado que la
delgadez sea sinnimo de xito social. Muchos jvenes luchan para conseguir el fsico ideal motivados por
modelos, artistas o por la publicidad comercial. Durante el mes de marzo del ao 2006, en el colegio Alcntara de la ciudad de Talca, despus de las vacaciones de verano, se observ con precaucin a 27 alumnos con
sntomas de anorexia, registrndose los siguientes signos visibles:
Dieta Severa

Miedo a Engordar

Hiperactividad

Uso de Ropa Holgada

Dieta Severa

Miedo a Engordar

Dieta Severa

Uso de Ropa Holgada

Dieta Severa

Uso de Ropa Holgada

Dieta Severa

Dieta Severa

Uso de Ropa Holgada

Hiperactividad

Uso de Laxantes

Uso de Laxantes

Dieta Severa

Uso de Ropa Holgada

Uso de Laxantes

Hiperactividad

Dieta Severa

Uso de Laxantes

Miedo a Engordar

Uso de Laxantes

Dieta Severa

Uso de Ropa Holgada

Hiperactividad

Resuma la informacin anterior en una tabla de distribucin de frecuencias.

Construya un grfico adecuado para resumir la informacin anterior.


23

Organizacin y presentacin de datos

21 La tabla muestra una distribucin de frecuencias de la duracin de 400 tubos de electricidad de radio comprobados en la L& M Tube Company.
Duracin (horas)

Nmero de tubos

[300 400i

14

[400 500i

46

[500 600i

58

[600 700i

76

[700 800i

68

[800 900i

62

[900 1000i

48

[1000 1100i

22

[1100 1200i

Completar la tabla para luego determinar:


a

Lmite superior de la quinta clase.

Lmite inferior de la octava clase.

Marca de clase de la sptima clase.

Tamao del intervalo de clase.

Frecuencia de la cuarta clase.

Frecuencia relativa de la sexta clase.

Porcentaje de tubos cuya duracin es menor a las 600 horas.

Porcentaje de tubos cuya duracin es mayor o igual a 900 horas.

Porcentaje de tubos cuya duracin es al menos de 500 horas pero menor de 1000 horas.

Construir un histograma y un polgono de frecuencias.

Construir un histograma y un polgono de frecuencias relativas.

Construir una ojiva porcentual.

Estimar el porcentaje de tubos con duraciones de menos de 560 horas.

Estimar el porcentaje de tubos con duraciones de 970 o ms horas.

Estimar el porcentaje de tubos con duraciones entre 620 y 890 horas.

22 En una empresa el personal (500 empleados) se distribuye de acuerdo con su actividad desarrollada en la
misma, como se indica a continuacin en el siguiente diagrama de pastel:
Profesional
10%

Operario

10%
70%

8%
2%

Tcnica

Ayudante
Aseo

A partir de esta informacin construya la tabla de distribucin de frecuencias y sus diagramas de barras correspondientes.
24

Organizacin y presentacin de datos

23 Los datos que se muestran a continuacin, son los cargos (en dlares) por los servicios de electricidad, agua y
gas durante el mes de julio del 2000 para una muestra de 50 apartamentos de 3 habitaciones en Caracas.

96

171

202

178

147

102

153

197

127

82

157

185

90

116

172

111

148

213

130

165

141

149

206

175

123

128

144

168

109

167

95

163

150

154

130

143

187

166

139

149

108

119

183

151

114

135

191

137

129

158

Elaborar:
a

Una tabla de distribucin de frecuencias, hallando el nmero de clases con la regla de Sturges.

Un histograma y un polgono de frecuencias.

Un histograma porcentual.

Una ojiva.

Determinar:
a

El porcentaje de apartamentos cuyo gasto no llega a 139 dlares.

El porcentaje de apartamentos cuyo gasto es mayor o igual a 158 dlares.

El porcentaje de apartamentos cuyo gasto es al menos de 120 dlares, pero menor de 196 dlares.

El porcentaje de apartamentos con gastos menores de 135 dlares.

El porcentaje de apartamentos con gastos de 186 dlares o ms.

El porcentaje de apartamentos con gastos entre 140 y 184 dlares.

24 En Beverage Digest se informa que, con base en las ventas de 1998, las 5 marcas de refrescos que ms se
vendieron fueron Coke Classic, Diet Coke, Dr.Pepper, Pepsi Cola y Sprite. La lista siguiente proviene de una
muestra de 50 compras de esas marcas fue:
Coke Classic

Dr.Pepper

Sprite

Coke Classic

Pepsi Cola

Pepsi Cola

Sprite

Diet Coke

Diet Coke

Coke Classic

Diet Coke

Coke Classic

Coke Classic

Diet Coke

Pepsi Cola

Pepsi Cola

Diet Coke

Coke Classic

Coke Classic

Pepsi Cola

Coke Classic

Diet Coke

Pepsi Cola

Coke Classic

Diet Coke

Coke Classic

Pepsi Cola

Pepsi Cola

Coke Classic

Coke Classic

Coke Classic

Coke Classic

Pepsi Cola

Coke Classic

Dr.Pepper

Coke Classic

Dr.Pepper

Sprite

Sprite

Coke Classic

Pepsi Cola

Dr.Pepper

Sprite

Pepsi Cola

Pepsi Cola

Pepsi Cola

Coke Classic

Diet Coke

Coke Classic

Dr.Pepper
a

Construir la tabla de distribucin de frecuencias.

Construir una grfica de barras y un diagrama de pastel.

Qu porcentaje de las ventas tienen Pepsi Cola y Coke Classic?

25

Organizacin y presentacin de datos

25 La siguiente informacin se refiere al tiempo, en minutos, que han utilizado los usuarios del Banco de la Nacin
Sede Huamanga durante el 12 de mayo de 2011 para llevar a cabo una operacin bancaria en ventanilla (el
tiempo se midi desde que el usuario llega al banco hasta realizar la operacin bancaria):
y02 = 46,
a

y05 = 70,

N1 = 12,

100H5 = 90, n2 = 2 n1 ,

100h4 = 30.

Con esa informacin complete la siguiente tabla.

tiempo(min)

H6 = 1, h1 = 0.04, H4 = 0, 74,

yi

ni

Ni

Ni

hi

Hi

Hi

100hi

100Hi

100Hi

Si la atencin en aquel banco se considera BUENA cuando la operacin bancaria dura como menos de 40
minutos, cuantas personas atendidas durante ese da califican la atencin bancaria como MALA.

Calcule el porcentaje de personas cuya operacin bancaria duro como mnimo 50 minutos.

De cuantas personas la operacin bancaria duro ms de una hora.

26 Elabore una grfica circular y una grfica circular porcentual de la siguiente distribucin, que representa los
nmeros de vehculos de motor registrados en la Oficina Regional Automotriz de Denver durante el 2013.

Tipo de vehculo

Cantidad de vehculos

Automvil de pasajeros

248

Minivan

74

Camin de dos ejes

62

Camin multiejes

22

Matocicleta

75

lancha a motor

19

Proporcin de vehculos

Porcentaje de vehculos

Total

27 Los siguientes datos


15

15

15

15

15

15

15

15

15

15

15

15

15

15

15

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

17

17

17

17

17

17

17

17

18

18

18

18

18

18

18

18

18

18

18

19

19

19

19

20

20

20

20

20

20

20

25

25

25

25

25

25

25

corresponde al nmero de viajes al extranjero via area durante el periodo 20062010 de los 80 Senadores
Venezolanos que fueron designados para labores externas a su pais y labores de representacin en el extranjero,
26

Organizacin y presentacin de datos

dichos datos se obtuvieron directamente de la Oficina de Migraciones de Aeropuerto Internacional de Caracas.


Responda los siguientes items.
a

La poblacin en estudio es:

La muestra es:

La unidad de anlisis es:

La variable es:

La tabla de distribucin de frecuencias que se va disear tendr intervalos de clase? Rta:


por que?

Elabore la tabla de distribucin de frecuencias para estos datos:


TTULO:

ni

Ni

Ni?

hi

Hi

Hi?

100hi

100Hi

100Hi?

1
2
3
4
5
6
7
Total
FUENTE:
g

Elabore el diagrama de frecuencias absolutas simples y el diagrama de frecuencias porcentuales simples.

DIAGRAMA DE FRECUENCIAS ABSOLUTAS SIMPLES

TTULO

ni

FUENTE

DIAGRAMA DE FRECUENCIAS PORCENTUALES SIMPLES

TTULO

100hi

FUENTE

27

Organizacin y presentacin de datos

Elabore el grfico circular de frecuencias absolutas simples y de frecuencias porcentuales simples.

DIAGRAMA CIRCULAR DE FRECUENCIAS ABSOLUTAS SIMPLES

DIAGRAMA CIRCULAR DE FRECUENCIAS PORCENTUALES SIMPLES

TTULO

TTULO

FUENTE

FUENTE

Interpretemos algunas frecuencias:

n2 =

: Significa que

Senadores Venezolanos que fueron designados para labores externas

y labores de representacin en el extranjero realizaron

viajes al extranjero via area durante el

periodo 20062010.

n6 =

: Significa que

Senadores Venezolanos que fueron designados para labores externas


viajes al extranjero via area durante el

y labores de representacin en el extranjero realizaron


periodo 20062010.

: Significa que

n3 + n4 =

Senadores Venezolanos que fueron designados para labores exter-

nas y labores de representacin en el extranjero realizaron entre

viajes al extranjero via

area durante el periodo 20062010.

N4 =

: Significa que

Senadores Venezolanos que fueron designados para labores externas

y labores de representacin en el extranjero realizaron como mximo

viajes al extranjero via

area durante el periodo 20062010.

N3? =

: Significa que

Senadores Venezolanos que fueron designados para labores externas y

labores de representacin en el extranjero realizaron como mnimo

viajes al extranjero via area

durante el periodo 20062010.

h3 =

: Significa que

de cada

Senadores Venezolanos que fueron designados

para labores externas y labores de representacin en el extranjero realizaron

viajes al extranjero

via area durante el periodo 20062010.

h5 =

: Significa que

de cada

Senadores Venezolanos que fueron designados

para labores externas y labores de representacin en el extranjero realizaron

viajes al extranjero

via area durante el periodo 20062010.

H4 =

: Significa que

de cada

Senadores Venezolanos que fueron designados

para labores externas y labores de representacin en el extranjero realizaron como mximo


viajes al extranjero via area durante el periodo 20062010.

H3? =

: Significa que

de cada

Senadores Venezolanos que fueron designados

para labores externas y labores de representacin en el extranjero realizaron como mnimo


viajes al extranjero via area durante el periodo 20062010.
28

Organizacin y presentacin de datos

: Significa que el

100h6 =

de los Senadores Venezolanos que fueron designados para labores


viajes al extranjero va area

externas y labores de representacin en el extranjero realizaron


durante el periodo 20062010.

100H5? =

: Significa que el

de los Senadores Venezolanos que fueron designados para la-

bores externas y labores de representacin en el extranjero realizaron como mnimo

viajes al

extranjero via area durante el periodo 20062010.


j

Hagamos algunos clculos:

El nmero de Senadores Venezolanos que realizaron ms de


durante el periodo 20062010 es

El nmero de Senadores Venezolanos que realizaron menos de


area durante el periodo 20062010 es

viajes al extranjero va area

viajes al extranjero va area

El nmero de Senadores Venezolanos que realizaron ms de


extranjero va area durante el periodo 20062010 es

El nmero de Senadores Venezolanos que realizaron


durante el periodo 20062010 es

y menos de

El nmero de Senadores Venezolanos que realizaron como mnimo

El porcentaje de Senadores Venezolanos que realizaron menos de

viajes al extranjero va

El porcentaje de Senadores Venezolanos que realizaron

viajes al extranjero va

viajes al extranjero va

area durante el periodo 20062010 es

viajes al extranjero va

area durante el periodo 20062010 es

y como mximo

El porcentaje de Senadores Venezolanos que realizaron ms de


area durante el periodo 20062010 es

viajes al

viajes al extranjero va area durante el periodo 20062010 es

viajes al extranjero va

El nmero de Senadores Venezolanos que realizaron


durante el periodo 20062010 es

viajes al extranjero va area

El porcentaje de Senadores Venezolanos que realizaron


.

area durante el periodo 20062010 es

28 En el siguiente grfico circular se representan a todos los accidentes de trnsito segn causa principal durante
la dcada de los 90s (1990-1999) ocurridos en la Panamericana Sur en Per entre los kilmetros 0 y 100.
DIAGRAMA CIRCULAR DE FRECUENCIAS PORCENTUALES SIMPLES

TTULO:

TTULO:

i
IMPRUDENCIA DEL CONDUCTOR

IMPRUDENCIA DEL PEATON

36,3%

DESACATO DE SEALES
FALLAS MECANICAS

7 ,5
%

8%

8,

hi

100hi

8,2%
19,1%

8,7%

ni

EBRIEDAD DEL CONDUCTOR

2
EXCESO DE VELOCIDAD

11,4%
OTRAS CAUSAS

3
4
5
6

FUENTE: POLICIA NACIONAL DEL PER

7
Total de accidentes

13000

FUENTE:
29

Organizacin y presentacin de datos

La poblacin en estudio es:

La muestra es:

La unidad de anlisis es:

La variable es:

La tabla de distribucin de frecuencias que se va disear tendr intervalos de clase? Rta:


por qu?

Elabore la tabla de distribucin de frecuencias para estos datos (slo frecuencias simples)

Elabore el diagrama de frecuencias absolutas simples y el diagrama de frecuencias porcentuales simples.

DIAGRAMA DE FRECUENCIAS PORCENTUALES SIMPLES

DIAGRAMA DE FRECUENCIAS ABSOLUTAS SIMPLES

TTULO

NMERO DE
ACCIDENTES

LEYENDA
A
B
C
D

PORCENTAJE DE
ACCIDENTES

E
F
G

FUENTE

CAUSAS DE LOS
ACCIDENTES

A
LEYENDA
A
B
C
D

TTULO

CAUSAS DE LOS
ACCIDENTES

E
F
G

FUENTE

Interpretemos algunas frecuencias:

n2 =

: Significa que

accidentes de trnsito en la dcada de los 90s ocurridos

en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por

n4 =

: Significa que

accidentes de trnsito en la dcada de los 90s ocurridos

en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por

n6 =

: Significa que

accidentes de trnsito en la dcada de los 90s ocurridos

en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por
30

Organizacin y presentacin de datos

: Significa que

n3 + n5 =

accidentes de trnsito en la dcada de los 90s ocurridos

en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por
o por

: Significa que

n4 + n1 =

accidentes de trnsito en la dcada de los 90s ocurridos

en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por
o por

: Significa que el

100h5 =

de los accidentes de trnsito en la dcada de los 90s

ocurridos en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente
por

: Significa que el

100h3 =

de los accidentes de trnsito en la dcada de los 90s

ocurridos en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente
por

: Significa que el

100h2 + 100h5 =

de los accidentes de trnsito en la dcada de los

90s ocurridos en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por

o por

29 Los siguientes datos


6.2

11

13.5

16.2

18

19.1

20.4

22.5

24.1

26.4

7.7

11.2

14.4

16.7

18

19.2

20.5

22.7

24.3

26.6

8.3

11.8

14.5

16.9

18.1

19.3

20.8

22.7

24.6

26.8

12.3

14.7

17

18.1

19.4

20.9

22.9

24.6

27.5

9.4

12.8

15.2

17.3

18.4

19.4

21.4

23

24.8

28.5

9.8

13.2

15.5

17.5

18.5

20

21.6

23.5

25.7

28.6

10.5

13.3

15.8

17.6

18.7

20.1

21.9

23.7

25.9

29.6

10.7

13.3

15.9

17.9

19

20.1

22.3

23.9

26.1

31.8

corresponde a la cantidad de xido de azufre (en toneladas) emitidas por La Standar Oil en los ltimos 80 das
del verano de 2004, dicha informacin fue obtenida y publicada en La Revista Ecolgica Canadiense
a

Elabore la tabla de distribucin de frecuencias con intervalos de amplitud 4 iniciando en Xmin = 5.

TTULO:

yi

Total

ni

Ni

Ni?

hi

Hi

Hi?

100hi

100Hi

100Hi?

FUENTE:

31

Organizacin y presentacin de datos

Elabore el histograma de frecuencias absolutas simples, el histograma de frecuencias porcentuales acumuladas, el polgono de frecuencias y la ojiva.

HISTOGRAMA DE FRECUENCIAS PORCENTUALES ACUMULADAS mayor que

HISTOGRAMA DE FRECUENCIAS ABSOLUTAS SIMPLES

PORCENTAJE
DE DAS

NMERO
DE DAS

CANTIDAD DE
OXIDO DE
AZUFRE
(toneladaS)

FUENTE:

CANTIDAD DE
OXIDO DE
AZUFRE
(toneladaS)

FUENTE:

Interpretemos algunas frecuencias.

n2 =

: Significa que en

de los ltimos 80 das del verano de 2004 La Standar Oil tuvo

emisiones de xido de azufre mayores o iguales a

n5 =

: Significa que en

y menores a

de los ltimos 80 das del verano de 2004 La Standar Oil tuvo

emisiones de xido de azufre mayores o iguales a

n3 + n4 + n5 =

: Significa que en

y menores a

n6 + n7 =

: Significa que en

y menores a

N3 =

: Significa que en

N5 =

: Significa que en

y menores a

N5? =

: Significa que en

y menores a

100h3 =
100h6 =

: Significa que en el
: Significa que en el

100h2 + 100h3 + 100h4 =

de los ltimos 80 das del verano de 2004 La Standar Oil tuvo


y menores a

de los ltimos 80 das del verano de 2004 La Standar Oil tuvo

emisiones de xido de azufre mayores o iguales a

y menores a

emisiones de xido de azufre mayores o iguales a

de los ltimos 80 das del verano de 2004 La Standar Oil tuvo

emisiones de xido de azufre mayores o iguales a

de los ltimos 80 das del verano de 2004 La Standar Oil tuvo

emisiones de xido de azufre mayores a

y menores a

de los ltimos 80 das del verano de 2004 La Standar Oil tuvo

emisiones de xido de azufre mayores a

de los ltimos 80 das del verano de 2004 La Standar Oil tuvo

emisiones de xido de azufre mayores o iguales a

de los ltimos 80 das del verano de 2004 La Standar Oil

tuvo emisiones de xido de azufre mayores o iguales a

: Significa que en el

y menores a

de los ltimos 80 das del verano de 2004 La

Standar Oil tuvo emisiones de xido de azufre mayores o iguales a

y menores a

100H4 =

: Significa que en el

emisiones de xido de azufre mayores a


32

de los ltimos 80 das del verano de 2004 La Standar Oil tuvo


y menores a

Organizacin y presentacin de datos

100H3? =

: Significa que en el

de los ltimos 80 das del verano de 2004 La Standar Oil tuvo

emisiones de xido de azufre mayores o iguales a


d

y menores a

Hagamos algunas clculos.

Halle el nmero de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil tuvo emisiones de xido de azufre mayores o iguales a 9 toneladas y menores a 19 toneladas. Rta:

Halle el nmero de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores o iguales a 14 toneladas y menores a 21 toneladas. Rta:

Halle el nmero de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil tuvo emisiones de xido de azufre mayores o iguales a 5 toneladas y menores a 17 toneladas. Rta:

Halle el nmero de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil tuvo emisiones de xido de azufre mayores o iguales a 9 toneladas y menores a 19 toneladas. Rta:

Halle el nmero de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil tuvo emisiones de xido de azufre mayores a 9 toneladas y menores o iguales a 19 toneladas. Rta:

Halle el porcentaje de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores o iguales a 9 toneladas y menores a 19 toneladas. Rta:

Halle el porcentaje de das de entre los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores o iguales a 14 toneladas y menores a 31 toneladas. Rta:

Halle el porcentaje de das de entre los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores o iguales a 25 toneladas y menores a 18 toneladas. Rta:

Halle el porcentaje de das de entre los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores o iguales a 13 toneladas y menores a 21 toneladas. Rta:

Halle el porcentaje de das de entre los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores a 27 toneladas y menores o iguales a 30 toneladas. Rta:

30 Los pesos de los jugadores de un equipo de ftbol americano varan entre 168 y 267 libras. Indique los lmites
de las once clases en que se van agrupar estos pesos.

33

Organizacin y presentacin de datos

34

2
Z

Nro:

2.1

Medidas de tendencia central

E.F.P:

Introduccin

Las medidas de tendencia central nos permiten determinar la posicin de un valor respecto a un conjunto de datos,
el cual consideramos como representativo o tpico para el total de las observaciones, su valor ser prximo al centro
de la distribucin.

Xmn

punto medio del rango

Xmx

punto medio del rango

Xmx

medida de tendencia central

Xmn

medida de tendencia central

Observaciones:
1. Las medidas de tendencia central son para datos de variable cuantitativa.
2. Una medida de tendencia central de un conjunto de datos puede ser menor al punto medio del rango.
3. Una medida de tendencia central de un conjunto de datos puede ser mayor al punto medio del rango.
4. Una medida de tendencia central de un conjunto de datos puede ser igual al punto medio del rango.

Caractersticas de las medidas de tendencia central


Un promedio es un valor correspondiente a una distribucin de frecuencias y este valor se calcula para representarla en calidad de medida tpica del grupo. Algunas condiciones esenciales para que este valor pueda cumplir su
cometido son:
1. Debe estar representada por una sola cifra.
2. Debe ser objetiva y definida por una formula algebraica de tal manera que, cualquiera que sea la persona que
trabaje con la distribucin, se obtenga siempre el mismo valor.
3. Debe ser descriptiva de los datos en forma que su significado sea fcil de entender
35

Medidas de tendencia central

4. No debe ser una abstraccin matemtica, que nicamente pueda ser entendida por personas muy versadas en
esta ciencia, ya que una de las condiciones de la estadstica, es simplificar los datos y no hacerlos ms complejos.
5. Debe ser fcil de calcular, pero esta condicin no debe preferirse en perjuicio de otras ventajas.
6. Debe depender de cada uno de los elementos del grupo, de tal manera que si se altera alguno de estos, consecuentemente se altera el valor del promedio ya que por definicin, esta es representante tpica de todos los
miembros del grupo y no solamente de algunos de ellos.
7. A pesar de que cada uno de los valores de los elementos del grupo debe tener influencia en el valor de la
medida, esta debe ser de tal calidad que no se deje influenciar demasiado por alguno o algunos pocos valores.
8. Debe tener lo que los estadsticos llaman estabilidad en el muestreo.
9. Deber ser de uso fcil para clculos matemticos posteriores.

2.2

Media

La media es el valor promedio de un conjunto de observaciones, entre ellas tenemos: la media aritmtica, media
geomtrica, media armnica, media cuadrtica, media cubica, entre otros
Definicin 2.1 (Media aritmtica)
Sean X una variable cuantitativa que caracteriza a todos los integrante de una poblacin P, M una muestra extrada
de P. Si x1 , x2 , , xn son todos los datos correspondientes a la variable X que asumen en la muestra M, definimos su
media aritmtica muestral por
n

XM = X =

x1 + x2 + + xn
=
n

xi

i=1

1 n
xi
n i=1

Observaciones:
1. Si de la poblacin P extraemos dos muestra, digamos M1 y M2 , entonces la media aritmtica de la variable X
con respecto a estas muestras pueden ser diferentes.
2. Para poder calcular la media de un conjunto de datos, ste tiene que ser finito.
3. Dado que en la formula de X se observa una suma finita, la media es solo vlida para datos de una variable
cuantitativa.
4. La media aritmtica que se presenta en la definicin 2.1 es la media muestral, solo se ha calculado para los datos
que la variable adquiere en una muestra M
5. La media aritmtica muestral tiende a ser diferente a la media aritmtica que se calculara con los datos que la
variable adquiere en la poblacin P.
6. Si la poblacin P es finita con N elementos y los datos que la variable X adquiere en P son x1 , x2 , , xN , entonces
la media aritmtica poblacional ser
N

xi

XP = X =
36

x1 + x2 + + xN
= i=1
N
N

1 N
xi
N i=1

Medidas de tendencia central

Ejemplo 2.1
Los siguientes datos son los puntajes obtenidos en un examen de aptitud por cuatro grupos de estudiantes.
Grupo

39

47

37

56

43

49

50

61

51

45

Grupo

53

39

43

50

60

47

51

42

44

58

Grupo

33

43

41

58

44

48

63

43

53

45

Grupo

40

54

39

47

33

45

47

42

45

48

El promedio de las calificaciones de los estudiantes del grupo A es


X=

39 + 47 + 37 + 56 + 43 + 49 + 50 + 61 + 51 + 45
= 47.8 puntos
10

El promedio de las calificaciones de los estudiantes del grupo B es


X=

53 + 39 + 43 + 50 + 60 + 47 + 51 + 42 + 44 + 58
= 48.7 puntos
10

El promedio de las calificaciones de los estudiantes del grupo C es


X=

33 + 43 + 41 + 58 + 44 + 48 + 63 + 43 + 53 + 45
= 47.1 puntos
10

El promedio de las calificaciones de los estudiantes del grupo D es


X=

40 + 54 + 39 + 47 + 33 + 45 + 47 + 42 + 45 + 48
= 44 puntos
10

El promedio las calificaciones de todos los estudiantes es


X=

suma de todos los puntajes


= 46.9 puntos
40

Al extraer 4 muestras diferentes de la poblacin de los 40 estudiantes, vemos que la media en cada una de ellas
adopta su propio valor y es diferente a la media poblacional.

Ventajas y desventajas de la media aritmtica:


Ventajas de la media aritmtica:
1. El promedio aritmtico es, en s, la medida ms fcil y la ms comnmente usada. Es un valor tal, que si se
calculara para un grupo en el cual todos los elementos fueran iguales, cada uno de ellos sera igual a su promedio aritmtico, de donde podemos deducir que el promedio aritmtico de n elementos es un nuevo elemento
1
formado, tomando una parte igual a de cada uno de los elementos originales.
n
2. Esta medida se define mediante una ecuacin matemtica muy fcil de entender y algunas veces, se puede
obtener cuando no es posible calcular otros tipos de medidas de tendencia central y, aun en el caso de no
conocer la valores individuales de la serie, por ejemplo: si 10 familias consumen 20 litros de leche, el promedio
aritmtico ser de 2 litros por familia.
3. El promedio aritmtico es extraordinariamente estable en el muestreo.
4. Es altamente sensible a cualquier cambio en los datos de la distribucin.
5. Como una ventaja final del promedio aritmtico, podemos anotar el hecho de que es excepcionalmente adaptable cuando se trata de hacer clculos matemticos posteriores con l. (Promedio ponderado, mtodos abreviados, promedio de promedios).
37

Medidas de tendencia central

Desventajas de la media aritmtica:


1. Es muy sensible a valores muy grandes o muy pequeos, especialmente a los primeros y a la inclusin de
tales datos extremos en la distribucin que se est estudiando, puede dar un promedio aritmtico que no sea
realmente el representante tpico del grupo.
2. Cuando una distribucin es marcadamente asimtrica en tal forma que el promedio aritmtico, la mediana y
el modo difieren en forma apreciable, debe considerarse siempre la posibilidad de que el promedio aritmtico
pueda no ser el valor nico representativo de la serie.
3. Otro inconveniente del promedio aritmtico es cuando la distribucin tiene forma de U, es decir, parablica; este
corresponde a los valores menos comunes en la serie y por tanto, puede dar una idea irreal de la distribucin.

2.2.1
1.

Clculo de la media aritmtica:


Para datos no agrupados en una tabla de distribucin de frecuencias. Si x1 , x2 , , xn son los datos correspondiente a una variable cuantitativa X, entonces la media aritmtica es
n

X=

2.

xi

x1 + x2 + + xn
=
n

i=1

1 n
xi
n i=1

Para datos agrupados en una tabla de distribucin de frecuencias con o sin intervalos.
?

Si x1 , x2 , , xn son los datos correspondiente a una variable cuantitativa X y stos se han agrupado en una
tabla de distribucin de frecuencias sin intervalos, como el que sigue,
i

yi

ni

yi ni

y1

n1

y1 n1

2
..
.

y2
..
.

n2
..
.

y2 n2
..
.

ym

nm

ym nm

yi ni

entonces la media aritmtica es


m

yi ni

X=
?

i=1

Si x1 , x2 , , xn son los datos correspondiente a una variable cuantitativa X y stos se han agrupado en una
tabla de distribucin de frecuencias con intervalos, como el que sigue,
i

[y0i1 y0i i

yi

ni

yi ni

[y00 y01 i

y1

n1

y1 n1

2
..
.

[y01 y02 i
..
.

y2
..
.

n2
..
.

y2 n2
..
.

[y0m1 y0m ]

ym

nm

ym nm

yi ni

entonces la media aritmtica es


m

yi ni

X=
38

i=1

Medidas de tendencia central

NOTA: Para utilizar la frmula anterior, primero se debe conocer a cada yi , a cada ni y obtener cada yi ni , luego
sumarlos. Para la primera tabla los yi son los valores diferentes de los datos, mientras que para la segunda tabla los
yi son las marcas de clase de los intervalos.
Mientras que cuando se agrupa del siguiente modo
i

yi

hi

yi hi

[y0i1 y0i i

yi

hi

yi hi

y1

h1

y1 h1

[y00 y01 i

y1

h1

y1 h1

2
..
.

y2
..
.

h2
..
.

y2 h2
..
.

2
..
.

[y01 y02 i
..
.

y2
..
.

h2
..
.

y2 h2
..
.

ym

hm

ym hm

[y0m1 y0m ]

ym

hm

ym hm

yi hi

yi hi

entonces la media aritmtica es


m

X = yi hi
i=1

NOTA: Para utilizar esta frmula primero se debe conocer a cada yi , a cada hi y obtener cada yi hi , luego sumarlos.
Para la primera tabla los yi son los valores diferentes de los datos, mientras que para la segunda tabla los yi son las
marcas de clase de los intervalos.
Ejemplo 2.2
Los siguientes datos son los puntajes obtenidos en un examen de aptitud por cuatro grupos de estudiantes.
Grupo

39

47

37

56

43

49

50

61

51

45

Grupo

53

39

43

50

60

47

51

42

44

58

Grupo

33

43

41

58

44

48

63

43

53

45

Grupo

40

54

39

47

33

45

47

42

45

48

a estos datos los agrupamos en una tabla de distribucin de frecuencias con 6 intervalos tal como sigue
i

Puntajes

yi

ni

Ni

Ni

hi

Hi

Hi

100hi

100Hi

100Hi

yi ni

yi hi

[33 38i

35,5

40

0,075

0,075

7,5

7,5

100

106,5

2,6625

[38 43i

40,5

10

37

0,175

0,25

0.925

17,5

25

92,5

283,5

7,0875

[43 48i

45,5

14

24

30

0,35

0,6

0.75

35

60

75

637

15,925

[48 53i

50,5

31

16

0,175

0,775

0.4

17,5

77,5

40

353,5

8,8375

[53 58i

55,5

35

0,1

0,875

0.225

10

87,5

22,5

222

5,55

[58 63]

60,5

40

0,125

0.125

12,5

100

12,5

302,5

7,5625

1905

47,625

sumas

40

100

El promedio de los puntajes de todos los estudiantes es:


1. Utilizando las frecuencias absolutas simples
6

yi ni

X=

i=1

40

1905
= 47, 625 puntos
40

2. Utilizando las frecuencias relativas simples


6

X = yi hi = 47, 625 puntos


i=1

39

Medidas de tendencia central

Observacin: En el ejemplo 2.1 la media aritmtica hallada fue X = 46.9 puntos, mientras que en el ejemplo 2.2 es
X = 47.625 puntos, esta diferencia es debido a que en el ejemplo 2.2 se est suponiendo que 3 datos son iguales a
35.5 puntos, 7 datos son iguales a 40.5 puntos, 14 datos son iguales a 45.5 puntos, 7 datos son iguales a 50.5 puntos, 4
datos son iguales a 55.5 puntos y 5 datos son iguales a 60.5 puntos, lo cual no es cierto, este es el error que se comete
en el clculo de la media cuando los datos se agrupan en tablas de distribucin de frecuencias con intervalos. Este
error no se cometera si los datos se agrupan en tablas de distribucin de frecuencias sin intervalos. El valor exacto de
la media se obtiene cuando se agrupan en tablas sin intervalos, mientras cuando agrupamos en tablas con intervalos
el valor de la media es aproximado.

2.2.2

Media aritmtica a partir de submuestras.

Este procedimiento tiene su justificacin por que en muchas situaciones existe la necesidad de obtener diferentes
muestras de una poblacin, ya sea por razones tcnicas o por disponibilidad de informacin.

M1

M2

Mk

X1

X2

Xk

n1 datos

n2 datos

nk datos

Supongamos que de una poblacin se obtienen las muestras M1 , M2 , , Mk disjuntas dos a dos y de tamaos
n1 , n2 , . . . , nk respectivamente. Si sus respectivas media aritmtica son X 1 ,

X 2,

X k , entonces la media aso-

ciada a la unin de las muestras


M1 M2 Mk
est dada por
X=

n1 X 1 + n2 X 2 + + nk X k
n1 + n2 + + nk

Ejemplo 2.3
La empresa A tiene 50 empleados, con un sueldo promedio mensual de $200. La empresa B tiene 100 empleados con
un sueldo promedio mensual de $190.
a) Cul es el sueldo promedio mensual de los trabajadores de las dos empresas en conjunto?
b) Si a las dos empresas se une una tercera con 40 empleados con sueldos promedio mensual de $250, cul es el
sueldo promedio mensual de los trabajadores de las tres empresas juntas?.
Solucin.
a) Vemos que nA = 50,

X A = 200; nB = 100, X B = 190, entonces el sueldo promedio mensual de las dos empre-

sas en conjunto es
X AB =

nA X A + nB X B
50(200) + 100(190)
=
= $193.33
nA + nB
50 + 100

b) Vemos que nAB = 150, X AB = 193.33; nC = 40,

X C = 250, entonces el sueldo promedio mensual de las tres

empresas en conjunto es
X ABC =

40

nAB X AB + nC X C
150(193.33) + 40(250)
=
= $205.26
nAB + nC
150 + 40

Medidas de tendencia central

Propiedades de la media aritmtica: Sean {x1 , x2 , xn } y {y1 , y2 , yn } los datos correspondientes a las variables X
e Y en dos muestras cada una de tamao n, al denotar por M[X] la media de X y por M[Y ] el media de Y , es decir;
M[X] = X y M[Y ] = Y , entonces tenemos las siguientes propiedades:
1. M[X Y ] = M[X] M[Y ]
2. Si c es una constante, entonces M[c] = c
3. Si c es una constante, M[cX] = cM[X]
4. Si c es una constante, M[X c] = M[X] c
5. Si a y b son constantes, entonces M[aX b] = aM[X] b

Ejemplo 2.4
Supngase que en la E.F.P. de Economa de la UNSCH el curso de Anlisis Matemtico I (MA-241) del semestre 2010-I
cont como nico requisito obtener la calificacin promedio mnimo de 11 puntos luego de rendir cuatro exmenes
parciales, supongamos adems que un estudiante matriculado en tal curso obtuvo 15 puntos en el primer examen
parcial, 15 puntos en el segundo examen parcial, 15 puntos en el tercer examen parcial y 15 puntos en el cuarto
examen parcial, entonces dicho estudiante tiene la calificacin promedio de 15 puntos.

Ejemplo 2.5
Cinco hermanos trabajan simultneamente en dos empresas A y B.
1

Salarios en la empresa A (dlares)

200

210

250

300

290

Salarios en la empresa B (dlares)

200

120

150

180

100

Los 5 hermanos tienen el salario mensual promedio de

Salario promedio

en la empresa A y el salario mensual promedio de

en la empresa B, por lo tanto los 5 hermanos tienen el ingreso mensual promedio de

en ambas empresas.

Ejemplo 2.6
Los salarios mensuales de todos los empleados de la empresa papelera Atlas se mantuvieron invariantes hasta el mes
de agosto del 2014, pero en los meses siguientes los salarios tendrn algunos cambios. Supongamos que el salario
mensual promedio, hasta agosto, de todos los empleados era de 400 dlares.
a) Si para el mes de setiembre los salarios de todos se duplican, entonces el salario mensual promedio de todos
los empleados ser 800 dlares.
b) Si para el mes de setiembre los salarios de todos aumentan en 100 dlares, entonces el salario mensual promedio
de todos los empleados ser 500 dlares.
c) Si para el mes de setiembre los salarios de todos disminuyen en 50 dlares, entonces el salario mensual promedio de todos los empleados ser 350 dlares.

41

Medidas de tendencia central

Ejemplo 2.7
Los siguientes datos, son los gastos (en dlares) de representacin de julio del 2010 de todos los trabajadores de la
financiera SMALL.
Tcnicos

96

171

202

178

147

102

153

197

127

82

Tcnicos

157

185

90

116

172

111

148

213

130

165

Profesionales

141

149

206

175

123

128

144

168

109

167

Profesionales

95

163

150

154

130

143

187

166

139

149

Ejecutivos

108

119

183

151

114

135

191

137

129

158

a) Calcular e interpretar la media aritmtica para los tcnicos.


X Tec =

Interpretacin:

b) Calcular e interpretar la media aritmtica para los profesionales.


X Pro f =

Interpretacin:

c) Calcular e interpretar la media aritmtica para los ejecutivos.


X E jec =

Interpretacin:

d) Utilizando la frmula de la media a partir de submuestras, calcular e interpretar la media aritmtica de los 50
trabajadores.

=
=
=

Interpretacin:

42

(n1 )X Tec + (n2 )X Pro f + (n3 )X E jec


n1 + n2 + n3
(
)(
)+(
)(
)+(
+
+

)(

Medidas de tendencia central

Ejemplo 2.7 (Continuacin).


e) Elaborar una tabla de distribucin de frecuencias con 6 intervalos de amplitud 22 (solo presente a ni y hi ).
Gasto($)

yi

ni

yi ni

Gasto($)

yi

[ 82

[ 82

sumas

hi

yi hi

sumas

f) A partir de la tabla anterior calcule la media aritmtica.


f1 En base a las frecuencias absolutas. X =

f2 En base a las frecuencias relativas. X =


g) A partir de los datos originales calcule la media aritmtica: X =

h) Explique los resultados obtenidos en f ) y g).

2.3

Mediana

Es un estadgrafo que localiza el centro de la distribucin en base a la posicin media o central que ocupa, una vez
ordenados o clasificados los datos.

Definicin 2.2 (Mediana)


Dado una lista de datos correspondientes a una variable cuantitativa X, la mediana de estos datos es aquel valor de
la variable que no es superado por ms del 50% ni supera a ms del 50% de los datos, siempre en cuando los datos
estn ordenados en forma creciente o decreciente.

43

Medidas de tendencia central

2.3.1
1.

Clculo de la mediana
Para datos no agrupados en una tabla de distribucin de frecuencias. Si x1 , x2 , , xn son datos correspondiente a una variable cuantitativa X y estn ordenados en forma creciente o decreciente entonces la mediana lo
calculamos como sigue.
i
1h
a Me =
x n2 + x 2n +1 , si n es par; es decir es la semisuma de los 2 trminos centrales.
2
b Me = x n+1 , si n es impar; es decir es el trmino central.
2

Ejemplo 2.8
Presentamos un conjunto de datos cada uno con sus respectivas medianas.
1
1. La mediana de los datos 4, 5, 5, 7, 8 , 8, 9, 50 es Me = (7 + 8) = 7.5. El nmero de datos es par.
2
2. La mediana de los datos -5, 5, 7, 8 , 9, 10, 950 es Me = 8. El nmero de datos es impar.
3. La mediana de los datos 1, 1, 1, 2, 2 , 2, 2, 2, 3 es Me = 2.
1
1
4. La mediana de los datos 1, 1, 1, 2, 2, 2 , 2, 2, 3, 3 es Me = (x5 + x6 ) = (2 + 2) = 2.
2
2

2.

Para datos agrupados en una tabla de distribucin de frecuencias. Si x1 , x2 , , xn son datos correspondiente a
una variable cuantitativa X y estn agrupados en una tabla de distribucin de frecuencias entonces la mediana
lo calculamos como sigue.
a

En tablas de distribucin de frecuencias sin intervalos (primer caso)


Pasos:
? Calcular n2 .
? Ubicar

n
2

en la columna de las Ni

? Si una frecuencia absoluta acumulada N j1 es igual a n2 , entonces N j es la primera que supera a n2 , es


decir,
N j1 =

n
< Nj,
2

la mediana es la semisuma de los valores de la variable que correspondes a N j1 y N j , es decir


Me =

y j1 + y j
.
2

yi

ni

Ni

1
..
.

y1
..
.

n1
..
.

N1
..
.

j1

y j1

n j1

j
..
.

yj
..
.

nj
..
.

Nj
..
.

ym

nm

Nm

44

N j1 =
?

n
2

Medidas de tendencia central

En tablas de distribucin de frecuencias sin intervalos (segundo caso)


Pasos:
? Calcular n2 .
? Ubicar

n
2

en la columna de las Ni

? Si
N j1 <

n
< Nj,
2

entonces N j es la primera que supera a 2n , la mediana es el valor de la variable que correspondes a N j ,


es decir
Me = y j .
i

yi

ni

Ni

1
..
.

y1
..
.

n1
..
.

N1
..
.

j1

y j1

n j1

j
..
.

yj
..
.

nj
..
.

N j1
2n
Nj ?
..
.

ym

nm

Nm

n
c

En tablas de distribucin de frecuencias con intervalos (primer caso)


Pasos:
? Calcular n2 .
? Ubicar

n
2

en la columna de las Ni

? Si una frecuencia absoluta acumulada N j1 es igual a n2 , entonces N j es la primera que supera a n2 , es


decir,
N j1 =

n
< Nj,
2

? El intervalo que correspondes a N j se denomina clase mediana, el valor de la mediana que se va


calcular pertenece a este intervalo, en este caso la mediana es el extremo inferior de la clase mediana,
es decir
Me = y0j1 .
i

[y0i1 y0i i

yi

ni

Ni

1
..
.

[y00 y01 i
..
.

y1
..
.

n1
..
.

N1
..
.

j1

[y0j2 y0j1 i

y j1

n j1

j
..
.

[y0j1 y0j i
..
.

yj
..
.

nj
..
.

Nj
..
.

[y0m1 y0m i

ym

nm

Nm

N j1 =

n
2

45

Medidas de tendencia central

En tablas de distribucin de frecuencias con intervalos (segundo caso)


Pasos:
? Calcular n2 .
? Ubicar

n
2

en la columna de las Ni

? Si
N j1 <
entonces N j es la primera que supera a

n
< Nj,
2

n
2

? El intervalo que correspondes a N j se denomina clase mediana, el valor de la mediana que se va


calcular pertenece a este intervalo, en este caso la mediana es
Me = y0j1 + c

n
2


n

N j1
N j1
= y0j1 + c 2
,
N j N j1
nj

donde c es la amplitud de la clase mediana.


i

[y0i1 y0i i

yi

ni

Ni

1
..
.

[y00 y01 i
..
.

y1
..
.

n1
..
.

N1
..
.

j1

[y0j2 y0j1 i

y j1

n j1

j
..
.

[y0j1 y0j i
..
.

yj
..
.

nj
..
.

N j1
n2
Nj ?
..
.

[y0m1 y0m i

ym

nm

Nm

Observaciones:
1. Si los datos de una variable cuantitativa estn ordenados (en forma creciente o decreciente), la mediana de stos
es aquel valor de la variable que separa a los datos en dos grupos, siendo un grupo el que contiene a la mitad
de los datos con valores menores o iguales a la mediana y el otro grupo que contiene a la mitad de los datos
con valores mayores o iguales a la mediana, ello es posible si el nmero de datos es par.

xmx

Me

xmn

50% de los datos

50% de los datos

2. La mediana puede ser uno de los datos. Tambin es posible que la mediana no sea uno de los datos.
Ilustremos las observaciones con los siguientes ejemplos

Ejemplo 2.9
Sin agrupar en una tabla de frecuencias, calcule e interprete la mediana si los siguientes datos son el nmero de horas
extras laboradas por los trabajadores de SMART durante el ao 2010.

46

20

20

20

30

30

35

35

35

35

35

35

35

35

35

40

40

40

40

40

40

40

40

50

50

50

50

50

50

50

50

50

55

55

55

55

55

55

55

60

60

60

60

60

60

65

65

65

65

65

75

Medidas de tendencia central

Ejemplo 2.9 (Continuacin).


Me =
Interpretacin:

Interpretacin:

Ejemplo 2.10
Sin agrupar en una tabla de frecuencias, calcule e interprete la mediana si los siguientes datos son la cantidad de
vehculos vendidos por todos los trabajadores de la importadora Nissan durante el verano 2012. Ordene los datos,
luego calcule la mediana.
20

21

21

21

24

22

25

21

21

22

22

21

20

22

21

23

20

20

24

20

24

23

24

25

22

26

25

23

23

23

25

24

25

21

21

26

26

24

26

20

21

21

22

23

23

21

22

21

21

21

Me =
Interpretacin:

Interpretacin:

Ejemplo 2.11 (Calculamos la mediana en los siguientes casos)


i

yi

ni

Ni

yi

ni

Ni

20

20

22

11

22

11

24

17

24

17

25

10

27

25

n
2

12

29 =

27

16

45

27

12

2n = 30.5
39 ?

30

53

30

13

52

33

58

33

61

58

61
Me =

25 + 27
= 26
2

Me = 27

47

Medidas de tendencia central

Ejemplo 2.11 (Continuacin).


i

[y0i1 y0i i

yi

ni

Ni

[y0i1 y0i i

yi

ni

Ni

[120 127i

123,5

[120 127i

123,5

[127 134i

130,5

[127 134i

130,5

[134 141i

137,5

16

[134 141i

137,5

15

[141 148i

144,5

10

25

[141 148i

144,5

10

26 =

[148 155i

151,5

14

40

[155 162i

158,5

47

[162 169i

165,5

52

n
2

[148 155i

151,5

16

2n = 28.5
41 ?

[155 162i

158,5

10

51

[162 169i

165,5

57

52

57


Me [148 155i,

Me [148155i,

Me = 148

Me = 148+7


28.5 25
= 149.53125
41 25

Ejemplo 2.12
La siguiente tabla se refiere a las estaturas de los estudiantes del 3er grado de secundaria (ambas secciones) de la IE
San Carlos, halle e interprete la mediana
Estaturas(cm)

yi

ni

Ni

Estatura(cm)

ni

[130 140i

135

[130 140i

[140 150i

145

25

[140 150i

25

[150 160i

155

43

27

70 ?

[150 160i

43

[160 170i

22

[160 170i

165

22

92

[170 180i

[170 180i

175

100

n
2

= 50

100
De la segunda tabla n = 100,

n
2

= 50; al ubicar

n
2

en la columna de las Ni vemos que 27 = N2 <

N3 = 70 es la primera frecuencia absoluta acumulada que supera a

n
2

n
2

< N3 = 70, de donde

y la clase mediana es [150 160i cuya amplitud

es 10, por tanto la mediana es





50 27
Me = 150 + 10
= 155, 34 cm
70 27
Interpretacin:
El 50% de los estudiantes del 3er grado de secundaria de la IE San Carlos, de menor estatura, tienen estaturas inferiores o iguales a 155,34 cm.
El 50% de los estudiantes del 3er grado de secundaria de la IE San Carlos, de mayor estatura, tienen estaturas superiores o iguales a 155,34 cm. Ambas interpretaciones son vlidas.

Ventajas y desventajas de la mediana:


Ventajas de la mediana:
1. La mediana tiene una definicin muy rgida y el concepto que envuelve es tan claro, que cualquiera puede
entenderlo aun no siendo familiar el trmino
48

Medidas de tendencia central

2. Si los datos estn agrupados en tablas de frecuencias, esta medida es fcil de calcular y por otro lado, los datos
extremos no tienen ninguna influencia en ella.
3. Tiene menor estabilidad en el muestreo que el promedio aritmtico, pero es ms estable que otras medidas
4. Hay situaciones en que la nica medida de tendencia central que puede calcularse es la mediana, tal y como
sucede en el caso de una distribucin cuyos intervalos primero y ltimos no estn definidos completamente.
Desventajas de la mediana:
1. No es tan conocida como la media aritmtica.
2. Es necesario ordenar los datos para poderla calcular.
3. La mediana no se adapta a clculos posteriores aritmticos, por cuanto que si obtenemos las medianas de
diferentes grupos, no podemos obtener una mediana de los grupos reunidos.
4. La mediana no es sensible a cambios de valores de los elementos que componen la distribucin, si se mantienen
ordenados los datos.
5. La mediana no siempre es exacta cuando los datos estn agrupados en tablas con intervalos.

2.4

Moda

La moda, Mo, de una muestra es aquel valor de la variable que tiene una frecuencia mxima. En otras palabras, es el
valor que ms se repite. Hay que indicar que puede suceder que la moda no sea nica, es decir que aparezcan varias
mximas frecuencias en la distribucin. En ese caso diremos que tenemos una distribucin bimodal, trimodal, etc.
Evidentemente, en el caso de una variable discreta que no toma valores repetidos, la moda no tiene sentido. Cuando
si existen valores repetidos su clculo es directo ya que puede leerse directamente de la tabla de distribucin de
frecuencias.

Definicin 2.3 (Moda)


Sean x1 , x2 , , xn los datos correspondientes a una variable X, la moda, denotada por Mo, de esos datos es aquel que
ms veces se repite sobre el resto, es decir aquel que tiene la mayor frecuencia absoluta simple.

Observaciones:
1. La moda se puede calcular para datos de variable cualitativa.
2. Es posible encontrar en un conjunto de datos x1 , x2 , , xn ms de un dato que tenga mayor frecuencia, si son
dos, entonces diremos que el conjunto de datos es bimodal

2.4.1
1.

Clculo de la Moda
Para datos no agrupados en una tabla de distribucin de frecuencias. Si x1 , x2 , , xn son datos correspondiente
a una variable X la moda ser aquel dato ms frecuente.

2.

Para datos agrupados en una tabla de distribucin de frecuencias. Si x1 , x2 , , xn son datos correspondiente a
una variable X y estn agrupados en una tabla de distribucin de frecuencias entonces la moda lo calculamos
como sigue.
49

Medidas de tendencia central

En tablas de distribucin de frecuencias sin intervalos:


Pasos:
i
yi
ni
? Ubicar en la columna de las ni la mayor frecuencia absoluta simple.
1
y1
n1
? Si n j es la mayor frecuencia absoluta simple, entonces la moda es aquel
..
..
..
.
.
.
valor de la variable que corresponde a n j , es decir,
j
yj
nj
Mo = y j .
..
..
..
.
.
.
m

ym

nm

? Es posible que hayan dos frecuencias absolutas simple que sean iguales

y sean mayores que el resto, en este caso la distribucin se dir que es


bimodal.

En tablas de distribucin de frecuencias con intervalos:


Pasos:
i
[y0i1 y0i i
yi
ni
1
..
.

[y00 y01 i
..
.

y1
..
.

n1
..
.

? Ubicar en la columna de las ni la mayor frecuencia ab-

j1

[y0j2 y0j1 i

y j1

n j1

? Si n j es la mayor frecuencia absoluta simple, el inter-

[y0j1 y0j i

yj

nj

j+1
..
.

[y0j y0j+1 i
..
.

y j+1
..
.

n j+1
..
.

[y0m1 y0m i

ym

nm

soluta simple.
valo que le corresponde se denomina clase modal, el

valor de la moda que se va calcular pertenece a este


intervalo, en este caso la moda es
Mo = y0j1 + c


n j n j1
,
(n j n j1 ) + (n j n j+1 )

donde c es la amplitud de la clase modal.

Ejemplo 2.13
Presentamos conjuntos de datos cada uno con su respectiva moda.
1. La moda de los datos: 5, 4, 5, 5, 3, 8, 1, 9, 5 es Mo = 5.
2. La moda de los datos: Blanco, Rojo, Negro, Rojo, Azul, Verde, Rojo es Mo = Ro jo.
3. La moda de los datos: 5, 4, 5, 5, 1, 8, 1, 9, 5, 1, 4, 1 es Mo = 5 Mo = 1, son datos con tendencia bimodal.
4. La moda de los datos: 4, 5, 5, 7, 8, 8, 9, 50 es Mo = 5 Mo = 8, son datos con tendencia bimodal.
5. Los datos: 14, 25, 16, 7, 8, 39, 10, 15 no tienen Moda.

Ventajas y desventajas de la moda:


Ventajas de la moda:
1. La moda, se puede usar como localizacin tanto para datos cualitativos como cuantitativos.
2. La moda no est afectada por los valores extremos. An si los valores altos son muy altos y los valores pequeos
muy pequeos, se escoge el valor ms frecuente del conjunto de datos como el valor modal.
3. La moda se puede calcular an cuando una de las clases sean abiertas en los extremos.

50

Medidas de tendencia central

Desventajas de la moda:
1. Muy a menudo, no hay un valor modal, por que el conjunto de datos no contiene valores que se repitan ms de
una vez. Otras veces, cada valor es la moda, porque cada uno aparece el mismo nmero de veces. Claramente,
la moda no es una medida til en estos casos.
2. Cuando el conjunto de observaciones contiene dos, tres o ms modas, stas son difciles de interpretar y comparar.
3. Es muy difcil de calcular en tablas con intervalos y las aproximaciones de su clculo no son de mucha confianza.
4. Es muy inestable en el muestreo.
5. No puede ser usado fcilmente en procesos algebraicos posteriores.
6. No es sensible a cambios de valores de la distribucin, a menos que tales cambios afecten su propio valor.

Ejemplo 2.14
Sin agrupar en una tabla de frecuencias, calcule e interprete la moda si los siguientes datos son nmero de horas
extras laboradas por los trabajadores de SMART durante el ao 2010.
20

20

20

30

30

35

35

35

35

35

35

35

35

35

40

40

40

40

40

40

40

40

50

50

50

50

50

50

50

50

50

55

55

55

55

55

55

55

60

60

60

60

60

60

65

65

65

65

65

75

Mo =
Interpretacin:

Ejemplo 2.15
Sin agrupar en una tabla de frecuencias, calcule e interprete la moda si los siguientes datos son cantidad de vehculos
vendidos por todos los trabajadores de la importadora Nissan durante el verano 2012. No es necesario ordenar los
datos.
20

21

21

21

24

22

25

21

21

22

22

21

20

22

21

23

20

20

24

20

24

23

24

25

22

26

25

23

23

23

25

24

25

21

21

26

26

24

26

20

21

21

22

23

23

21

22

21

21

21

Mo =
Interpretacin:

Observacin: En los dos ejemplos anteriores, la moda es posible calcularlo si los datos fueran agrupados en una
tabla de distribucin de frecuencias.
51

Medidas de tendencia central

Ejemplo 2.16
Una imprenta saca once materiales impresos, que se clasifican en: muy claro, claro, oscuro, muy claro, claro, borroso,
claro, muy claro, oscuro, borroso, claro. Hallemos la moda para este caso.
Solucin:
Clasificacin

Frecuencia

Llevemos los datos a una tabla de frecuencias para observar rp-

muy claro

idamente el valor modal. En la tabla la clasificacin que se pre-

claro

senta con mayor frecuencia es claro.

oscuro

Luego el valor modal es Mo = claro.

borroso

Total

11

Ejemplo 2.17
De la siguiente tabla calcule la media, mediana y moda.
Intervalo

yi

ni

[ 14 36i

[ 36 58i

12

[ 58 80i

16

[ 80 102 i

20

[102 124i

24

[124 146i

10

Solucin:

Intervalo

yi

ni

Ni

yi ni

[ 14 36i

25

200

[ 36 58i

47

12

20

564

[ 58 80i

69

16

36

1104
1820

[ 80 102 i

91

20

45
56 ?

[102 124i

113

24 ?

80

2712

[124 146i

135

10

90

1350

90
a

Media:

Mediana:

X=

7750

7750
= 86, 11
90

Me [80 102i,



45 36
Me = 80 + 22
= 89, 9
56 36
c

Moda:

Mo [102 124i,



24 20
Mo = 102 + 22
= 106, 88
(24 20) + (24 10)

52

Medidas de tendencia central

2.5

Medidas de posicin:

La mediana marca una posicin dentro de un conjunto de datos, cuando estn ordenados en forma creciente, simplemente los separa en 50% y 50%, el primer 50% de los datos es inferior o igual a la mediana y el otro 50% de los
datos es superior o igual a la mediana, es decir la mediana a dividido al rango [xmn ; xmx ] en dos intervalos, no
necesariamente de longitudes iguales, cada uno de ellos conteniendo el 50% de los datos.

xmx

Me

xmn

50% de los datos

50% de los datos

Sin embargo estamos interesados en dividir el conjunto de datos en partes (intervalos) que contenga porcentajes
enteros especficos; por ejemplo 25%, 10%, 1%, etc.

2.5.1

Cuartiles:

Tienen la cualidad de dividir al conjunto de datos de una variable cuantitativa, cuando estn ordenados en forma
creciente, en cuatro intervalos cada uno conteniendo un 25% del total de los datos. Para hacer efectiva tal divisin
es necesario 3 cortes, a cada uno de stos los denominaremos cuartiles, siendo Q1 el primer cuartil, Q2 el segundo
cuartil y Q3 el tercer cuartil.

Q1

xmn
25% de los datos

Q2
25% de los datos

Q3
25% de los datos

xmx
25% de los datos

Cuando los datos estn ordenados en forma creciente, los cuartiles se relacionan como sigue
Q1 < Q2 < Q3

2.5.2

adems Q2 = Me

Deciles:

Tienen la cualidad de dividir al conjunto de datos de una variable cuantitativa, cuando estn ordenados en forma
creciente, en diez intervalos cada uno conteniendo un 10% del total de los datos. Para hacer efectiva tal divisin es
necesario 9 cortes, a cada uno de stos los denominaremos deciles, siendo D1 el primer decil, D2 el segundo decil y
as sucesivamente D9 el noveno decil.

xmn

D1

D2

D5

10% de
10% de
los datos los datos

D8

D9
10% de
los datos

xmx
10% de
los datos

Cuando los datos estn ordenados en forma creciente, los deciles se relacionan como sigue
D1 < D2 < < D5 < < D9

2.5.3

adems D5 = Me

Percentiles:

Tienen la cualidad de dividir al conjunto de datos de una variable cuantitativa, cuando estn ordenados en forma
creciente, en cien intervalos cada uno conteniendo un 1% del total de los datos. Para hacer efectiva tal divisin es
necesario 99 cortes, a cada uno de stos los denominaremos percentiles, siendo P1 el primer percentil, P2 el segundo
percentil y as sucesivamente P99 el noventainueveavo percentil.
53

Medidas de tendencia central

xmn P1 P2

P10

P20

P25

P50

P75 P80

P90

P98 P99 xmx

Cuando los datos estn ordenados en forma creciente, los percentiles se relacionan como sigue
P1 < P2 < < P99

adems

P50 = Me

Las relaciones entre estas medidas de posicin son:


a) P10 = D1 , P20 = D2 , P30 = D3 , P40 = D4 ,

P50 = D5 , P60 = D6 ,

P70 = D7 , P80 = D8 , P90 = D9

b) P25 = Q1 , P50 = Q2 , P75 = Q3


c) Q2 = Me, D5 = Me, P50 = Me

2.5.4

Clculo de los percentiles

Solo presentar su forma de clculo para datos agrupados en una tabla de distribucin de frecuencias.
Si x1 , x2 , , xn son los datos correspondiente a una variable cuantitativa X y estn agrupados en una tabla de distribucin de frecuencias entonces el percentil Pk lo calculamos como sigue.
a

En tablas de distribucin de frecuencias sin intervalos (primer caso)

yi

ni

Ni

1
..
.

y1
..
.

n1
..
.

N1
..
.

j1

y j1

n j1

j
..
.

yj
..
.

nj
..
.

Nj
..
.

ym

nm

Nm

N j1 =

kn
100

n
Pasos:
? Calcular
? Ubicar

kn
100 .

kn
100

en la columna de las Ni

? Si una frecuencia absoluta acumulada N j1 es igual a


decir,
N j1 =

kn
100 ,

entonces N j es la primera que supera a

kn
< Nj,
100

el percentil Pk es la semisuma de los valores de la variable que correspondes a N j1 y N j , es decir


Pk =

54

y j1 + y j
.
2

kn
100 ,

es

Medidas de tendencia central

En tablas de distribucin de frecuencias sin intervalos (segundo caso)

yi

ni

Ni

1
..
.

y1
..
.

n1
..
.

N1
..
.

j1

y j1

n j1

j
..
.

yj
..
.

nj
..
.

N j1
kn
100
Nj ?
..
.

ym

nm

Nm

n
Pasos:
? Calcular
? Ubicar

kn
100 .

kn
100

en la columna de las Ni

? Si
N j1 <
entonces N j es la primera que supera a

kn
100 ,

kn
< Nj,
100

el percentil Pk es el valor de la variable que correspondes a N j ,

es decir
Pk = y j .
c

En tablas de distribucin de frecuencias con intervalos (primer caso)

[y0i1 y0i i

yi

ni

Ni

1
..
.

[y00 y01 i
..
.

y1
..
.

n1
..
.

N1
..
.

j1

[y0j2 y0j1 i

y j1

n j1

j
..
.

[y0j1 y0j i
..
.

yj
..
.

nj
..
.

Nj
..
.

[y0m1 y0m i

ym

nm

Nm

N j1 =

kn
100

n
Pasos:
? Calcular
? Ubicar

kn
100 .

kn
100

en la columna de las Ni

? Si una frecuencia absoluta acumulada N j1 es igual a

kn
100 ,

entonces N j es la primera que supera a

kn
100 ,

es

decir,
N j1 =

kn
< Nj,
100

? El intervalo que correspondes a N j es el que contiene al valor de Pk , en este caso el percentil Pk es el extremo
inferior de dicho, intervalo, es decir
Pk = y0j1 .
55

Medidas de tendencia central

En tablas de distribucin de frecuencias con intervalos (segundo caso)

[y0i1 y0i i

yi

ni

Ni

1
..
.

[y00 y01 i
..
.

y1
..
.

n1
..
.

N1
..
.

j1

[y0j2 y0j1 i

y j1

n j1

j
..
.

[y0j1 y0j i
..
.

yj
..
.

nj
..
.

N j1
kn
100
Nj ?
..
.

[y0m1 y0m i

ym

nm

Nm

n
Pasos:
? Calcular
? Ubicar

kn
100 .

kn
100

en la columna de las Ni

? Si
N j1 <
entonces N j es la primera que supera a

kn
< Nj,
100

kn
100

? El intervalo que correspondes a N j es el que contiene al valor de Pk , y lo calculamos con


"
#
"
#
kn
kn

N
j1
j1
Pk = y0j1 + c 100
= y0j1 + c 100
,
N j N j1
nj
donde c es la amplitud de la clase donde esta Pk .
Observacin:
Dado un conjunto de datos, si a partir de ellos se calcula el k-simo percentil, obtendremos el k% de los datos cuyos
valores son iguales o inferiores a Pk , el resto, es decir el 100 k% de los datos, con valores iguales o superiores a Pk .

k % de los datos

56

xmx

Pk

xmn

100 - k % de los datos

Medidas de tendencia central

CUESTIONARIO
1 Los siguientes datos son los importes, en nuevos soles, por consumo de electricidad correspondiente al mes de
abril 2012 de las 50 viviendas de la residencial Cuman
153

123

129

132

147

138

137

134

131

147

158

128

134

148

125

139

146

145

148

135

152

128

146

143

138

121

122

146

137

151

145

124

132

138

144

141

137

146

138

146

152

136

160

159

157

150

160

142

148

130

Calcule la media aritmtica de los datos originales.

Agrupar los datos en una tabla de distribucin de frecuencia con: c = 7, m = 6


i

Monto(s/.)

Monto(s/.)

h120 127i

h120 127i

yi

ni

yi ni

sumas
c

y
yi

y00 = 120
hi

yi hi

sumas

Calcular la media para los datos agrupados,


? En base a las frecuencias absolutas.
? En base a las frecuencias relativas.

Si en el conjunto de las 50 viviendas se dividen en tres grupos del siguiente modo: El Grupo 1 consta de
aquellos cuyos consumos por electricidad es mayor a s/.120 y menor a s/. 134, El Grupo 2 consta de aquellos cuyos consumos por electricidad es mayor o igual a s/.134 y menor a s/. 155 y El Grupo 3 consta de
aquellos cuyos consumos por electricidad es mayor o igual a s/.155 y menor a s/. 162, calcule el importe
promedio por consumo de electricidad de cada grupo.

En funcin a los clculos del item anterior calcule el importe promedio por consumo de electricidad de las
50 viviendas.

Por que la diferencia de los resultados de los apartado a) y e). Explique

Si en el mes de mayo cada vivienda duplica el importe por consumo de electricidad, cul sera el importe
promedio por consumo de electricidad de las 50 viviendas.?

Si en el mes de junio de cada vivienda el importe por consumo de electricidad aumenta en s/. 50, cul
sera el importe promedio por consumo de electricidad de las 50 viviendas.?

2 Las siguientes son los salarios diarios, en dlares, correspondientes a los trabajadores de la unidad de almacn
de la Constructora REX
20

20

20

20

20

20

22

22

22

22

22

22

22

23

23

23

23

23

23

23

23

23

23

23

25

25

25

25

25

25

25

25

25

25

25

25

25

27

27

27

27

27

27

27

27

27

27

30

30

30

57

Medidas de tendencia central

Agrupe los datos en una tabla de distribucin de frecuencias


i

Salarios($)

ni

yi ni

6
sumas

Salarios($)

hi

yi hi

sumas

Calcular la media para los datos agrupados,


? En base a las frecuencias absolutas.
? En base a las frecuencias relativas.

En el mes que se aproxima cada uno de estos trabajadores recibirn $7 de aumento, cul ser el salario
medio diario del grupo?.

En el ao prximo a cada uno de estos trabajadores se les triplicara el salario diario, cul ser el salario
medio diario del grupo?.

3 Los ingresos, en miles de dlares, de 40 empresas exportadoras de la costa peruana durante abril 2012 son los
siguientes. Calcule su ingreso medio.
ingresos (miles de$)

yi

ni

200 250

Ni

250 300
300 350

12

22

350 400

29

400 450

34

450 500

500 550

4 Los sueldos mensuales de 70 empleados de una empresa son como sigue


Ocupacin

58

Nro de empleados

Sueldos($)

Recepcionista

642

Mecanografa

12

751

Secretaria

758

Aux de Contabilidad

10

794

Tcnicos elctricos

24

801

Tcnicos mecnicos

14

911

Se pide calcular la media, la mediana y la moda e interpretar.

Calcule la media para cada grupo de trabajadores.

Calcule el sueldo medio de los trabajadores.

Calcule el sueldo medio y mediano de los tcnicos.

Medidas de tendencia central

5 Ejercicios diversos para calculadora.


=

yi

ni

642

751

12

758

794

10

801

24

911

14

yi

ni

642

751

24

758

16

794

20

801

48

911

=
=

Xn1

x2

Xn

Xn1

yi

ni

124

x2

[120

12

14

Xn

50

Xn1

[y0i1 y0i i

Xn

28

[y0i1 y0i i

x2

yi

x2

ni

442

551

12

558

594

10

601

24

711

14

yi

ni

1284

1502

12

1516

1588

10

1602

24

1822

14

x2

Xn

Xn1

x2

Xn

Xn1

ni

12

[ 43

10

Xn

50

Xn1

78

yi

59

Medidas de tendencia central

6 La siguiente informacin se refiere a la clasificacin por grado de instruccin acadmica de un grupo trabajadores no docentes de la UNSCH.
Grado

Nro de trabjs.

Analfabetos

Primaria incompleta

Primaria completa

Secundaria incompleta

Secundaria completa

10

Superior incompleta

12

Superior completa

11

Universitaria incompleta

Universitaria completa

Ni

Mencione la Poblacin y la muestra, qu tamao tiene la muestra?

Cul es la variable y de qu tipo es?.

Se pide calcular la mediana y la moda, si es posible, e interpretarlas.

Qu puede decir a cerca de estas medidas de tendencia central en este problema?

Es posible calcular la media?, Por qu?.

7 El presidente de un sindicato clasific a sus compaeros segn el salario mensual en miles de pesos de la
siguiente forma:
Salario (miles de pesos)

menos a 600

[600 800i

[800 1000i

[1000 1200i

1200 ms

30

60

45

15

50

Nro de trabajadores
a

Es posible hallar la media?, por qu?.

Calcule la mediana e interprete.

Calcule la moda e interprete.

Calcule P50 e interprete.

Calcule P30 e interprete.

Calcule P70 e interprete.

Calcule el sueldo mnimo de los 35% que ms ganan.

Calcule el sueldo mximo de los 25% que menos ganan.

Calcule el sueldo mnimo de los 35% que menos ganan.

Calcule el sueldo mximo de los 25% que ms ganan.

8 La siguiente distribucin corresponde a los salarios semanales (en $) de los trabajadores de las empresas y .
[ 49 58 >

[ 58 67 >

[ 67 76 >

[ 76 85 >

[ 85 94 >

[ 94 103 >

Empresa (ni )

11

17

10

Empresa (ni )

13

16

10

Salarios ($)

60

Medidas de tendencia central

Empresa
Salarios($)

yi

ni

Empresa
Salarios($)

Ni

total

yi

ni

Ni

total

Los trabajadores de la empresa en promedio tienen un salario semanal de

aprox.

La mayor parte de los trabajadores de la empresa tienen un salario semanal de

Los trabajadores de la empresa en promedio tienen un salario semanal de

La mayor parte de los trabajadores de la empresa tienen un salario semanal de

El promedio total de los salarios semanales de los trabajadores de ambas empresas es de

El 50% de los trabajadores de la empresa tienen un salario semanal igual o superior a

aprox.

El 50% de los trabajadores de la empresa tienen un salario semanal igual o inferior a

aprox.

El 24% de los trabajadores de la empresa tienen un salario semanal igual o superior a

aprox.

El 37% de los trabajadores de la empresa tienen un salario semanal igual o inferior a

aprox.

El 40% de los trabajadores de la empresa tienen un salario semanal igual o inferior a

aprox.

El 70% de los trabajadores de la empresa tienen un salario semanal igual o superior a

aprox.

aprox.

aprox.

aprox.

aprox.

61

Medidas de tendencia central

Suponiendo que pagan hoy, Cul de las empresas gastar menos pagando a todos sus trabajadores y
cuanto dinero debe disponer exactamente?.

Suponiendo que usted est dispuesto a comprar ambas empresas Cunto gastar cada semana pagando
a todos sus trabajadores?, Cuntos trabajadores tendra usted en ambas empresas?.

9 Ejercicios diversos para medidas de tendencia central y posicin.

yi

ni

Ni

642

751

12

19

758

15

34

794

20

54

801

34

88

911

12

100

yi

ni

Ni

342

451

12

19

458

15

34

494

20

54

501

34

88

611

12

100

[y0i1 y0i i

62

Me

Mo

P70

P34

P88

P6

Me

Mo

P70

P34

P88

P6

yi

ni

124

Me

Me

Mo

Mo

P30

Ni

[ 120

12

14

P30

50

P95

P95

yi

ni

Ni

1642

1751

12

19

1758

15

34

1794

20

54

1801

34

88

1911

12

100

Me

Mo

P70

P34

P88

P6

Medidas de tendencia central

Intervalos

yi

ni

Ni

P20

Me

P20

Mo

P60

48

[ 43

32

Mo

P60

40

P40

P10

P40

P10

P5

P90

P5

P90

Me

P25

Me

P25

Mo

P60

Intervalos

78

16

yi

ni

Ni

[ 37

64i

80

Mo

P60

100

P30

P40

40

140

P30

P40

P4

P72

P4

P72

Me

P20

Me

P20

20

500

Intervalos

200

Me

yi

ni

Ni

84

72

[ 51

48

Mo

P60

73i

60

Mo

P60

P5

P88

P5

P88

24
300

10 Dos ejercicios para calculadora


a

Complete los siguientes recuadros


yi

ni

30

25

33

65

36

X2

56

40

47

Xn

42

75

45

102

48

30

Complete los siguientes recuadros


Intervalos

yi

[ 72 79 i

ni
10

X2

15

25

Xn

40

18

Xn1

(Xn )2

Xn
X

Xn1

(Xn )2

Xn
X

63

Medidas de tendencia central

11 Considere las 20 observaciones siguientes, donde cada una representa la duracin en horas de un cierto tipo de
lmpara incandescente
612

623

666

744

883

898

964

970

983

1003

1016

1022

1029

1058

1085

1088

1122

1135

1197

1201

Calcule e interprete la media, mediana y la moda.

Si la primera lmpara dura 500 horas en lugar de 612 y la ltima lmpara dura 2000 horas en lugar de
1201, cul sera el valor de la Me del conjunto de observaciones?.

El 25% de las lmparas duran menos de

horas.

El 25% de las lmparas ms duraderas, duran ms de

El 40% de las lmparas menos duraderas, duran menos de

El 40% de las lmparas ms duraderas, duran ms de

La variabilidad de la duracin de las lmparas es de

Cul sera la duracin promedio y la duracin mediana de las lmparas, si ellas duplican la capacidad de

horas.
horas.
horas.
horas.

duracin?.
i

Cul sera la duracin promedio y la duracin mediana de las lmparas, si ellas duran 500 horas con
respecto a la capacidad de duracin registradas anteriormente?.

Cul sera la variabilidad de la duracin de las lmparas, si ellas duran 800 horas con respecto a la capacidad de duracin registradas anteriormente?.

12 Calcule algunas medidas de posicin de la siguiente tabla


Intervalos

yi

[ 72 79 i

ni

Ni

10

Me

P20

15

Me

P20

Mo

P60

25

40

Mo

P60

18

P5

P90

P5

P90

13 A partir de la siguiente distribucin de frecuencias correspondiente al nmero de errores ortogrficos cometidos en un ejercicio de dictado por los estudiantes de las tres secciones del 3er grado de Educacin Primaria del
Colegio Los lamos, calcular la media, mediana y moda e interprtelos.
# de errores

[16 22i

[22 28i

[28 34i

[34 40i

[40 46i

[46 52i

[52 58i

[58 64i

[64 70]

14

18

25

22

22

18

14

12

yi
ni
Ni
yi : marcas de clase, ni : nmero de estudiantes, Ni : nmero acumulado de estudiantes.
a

Cuntos errores ortogrficos como mnimo cometieron los estudiantes del quinto inferior?
Rta:

Cuntos errores ortogrficos como mximo cometieron los estudiantes del quinto inferior?
Rta:

64

Medidas de tendencia central

Cuntos errores ortogrficos como mnimo cometieron los estudiantes del quinto superior?

Rta:
Cuntos errores ortogrficos como mximo cometieron los estudiantes del quinto superior?

Rta:
Cuntos errores ortogrficos como mximo cometieron los estudiantes del tercio inferior?

Rta:
Cuntos errores ortogrficos como mnimo cometieron los estudiantes del tercio superior?

Rta:

14 Diga los motivos por los cuales es imposible calcular la media, la mediana y la moda a partir de la siguiente
tabla
Salarios semanales(nuevos soles)

nmero de trabajadores

menos de 200

50

[200 300i

20

300 o ms

10

La media es imposible calcularla pues


La mediana es imposible calcularla pues
La moda es imposible calcularla pues

15 Los salarios mensuales de los empleados de una empresa varan entre $300 y $800 distribuidos en forma
simtrica en 5 intervalos de igual amplitud, con el 15%, 20% y 30% de casos en el primer, segundo y tercer
intervalo respectivamente

Salarios ($)

yi

Nmero de empleados (ni )

Ni

Porcentaje de empleados (100hi )

100Hi

Calcule e interprete la media, mediana y moda si el nmero de empleados es 500.

Si se aplica un impuesto a los sueldo localizados en el cuarto superior, cul es el salario mnimo que debe
tener un empleado para pagar dicho impuesto? Rta:
y cuntos empleados seran?Rta:

Si se aplica una bonificacin extra a los sueldo localizados en el quinto inferior, cul es el salario mximo
para beneficiarse de dicha bonificacin extra? Rta:
y cuntos empleados seran?Rta:

Si se aplica un impuesto del 20% a todos los sueldos, cul es el salario neto promedio que perciben los
empleados luego de pagar dichos impuestos? Rta:

Si se aplica una bonificacin extra del 25% a todos los sueldos, cul es el salario promedio que perciben
los empleados luego de obtener la bonificacin extra? Rta:

.
65

Medidas de tendencia central

16 Para calcular el suministro de agua que una ciudad requiere mensualmente se escogen 15 viviendas familiares
de tal ciudad, resultando los siguientes consumos en metros cbicos
11,2

21,5

16,4

19,7

14,6

16,9

32,2

18,2

13,1

23,8

18,3

15,5

18,8

22,7

14,0

Si en la ciudad hay 5000 viviendas familiares, cuntos metros cbicos mensualmente se requieren como mnimo para abastecer la ciudad de agua si el consumo promedio no vara?

17 Dado el siguiente histograma que se refiere a los salarios semanales (en dlares) de los trabajadores de la empresa SONY, responda el siguiente cuestionario, justificando su clculo:

Histograma de frecuencias
absolutas acumuladas

nmero de
trabajadores
80
79

79

80

76

76

61

61

44

44

24

24

11

11

90 105

Salarios($)

salarios
semanales ($)
yi

ni

Ni

Media
: X

Mediana : Me

Moda
: Mo

P20

P25

P40

total
a

La mayor parte de los trabajadores de la empresa SONY tienen un sueldo semanal de

Los trabajadores de la empresa SONY en promedio tienen una sueldo semanal de

El 50% de los trabajadores de la empresa SONY de mayor salario tienen un sueldo semanal igual o superior
a

aprox.

aprox.

El 25% de los trabajadores de la empresa SONY de menor salario tienen un sueldo semanal igual o inferior
a

66

aprox.

aprox.

Medidas de tendencia central

El 20% de los trabajadores de la empresa SONY de menor salario tienen un sueldo semanal igual o superior
aprox.

a
f

El 20% de los trabajadores de la empresa SONY de menor salario tienen un sueldo semanal igual o inferior
a

aprox.

Calcule el sueldo mnimo del 75% de los trabajadores de la empresa SONY de mayor salario.
aprox.

Rta:
h

Calcule el sueldo mximo del 40% de los trabajadores de la empresa SONY de menor salario.
aprox.

Rta:

2.6
2.6.1

Manual de calculadoras

Para calculadoras que no contienen tablas

Aqu presentar algunos pasos para utilizar las herramientas estadsticas de las calculadoras que no contienen tablas.
1

Para borrar la configuracin siga los siguientes pasos


SHIFT A

Para ingresar al modo no estadstico siga los siguientes pasos: MODE A

Para ingresar al modo estadstico de una variable (SD): MODE A

Para ingresar al modo estadstico de dos variables (REG): MODE A

SEA LA SIGUIENTE TABLA:


yi

ni

21

32

10

47

15

51

INGRESEMOS LA INFORMACIN A LA CALCULADORA:


1

Ingrese al modo estadstico de una variable

Fila : 2 1 A

7 A

Fila : 3 2 A

1 0 A

EN PANTALLA

Fila : 4 7 A

1 5 A

EN PANTALLA

Fila : 5 1 A

8 A

Finalmente presione la tecla AC para salir de la pantalla.

EN PANTALLA

EN PANTALLA

67

Medidas de tendencia central

OBTENGAMOS ALGUNOS RESULTADOS:


1

Al presionar AC , la informacin est en la memoria de la calculadora.

Suma de los datos: SHIFT A

Suma de los datos al cuadrado: SHIFT A

Nmero de datos: SHIFT A

Media aritmtica: SHIFT A

Desviacin standar poblacional Xn : SHIFT A

Desviacin standar muestral Xn1 : SHIFT A

Suma de los datos

X =

Media aritmtica

X=

Suma de los datos al 

X2 =

Desviacin standar

Xn =

Nmero de datos

n=

Desviacin standar

Xn1 =

Observacin:

En otros modelos de calculadoras las notaciones de las desviaciones standar Xn y Xn1 son otras,

por ejemplo Xn = X

2.6.2

Xn1 = SX .

Para calculadoras que contienen tablas

Aqu presentar algunos pasos para utilizar las herramientas estadsticas de las calculadoras que contienen tablas.
1

Para borrar la configuracin siga los siguientes pasos


SHIFT A

Para ingresar al modo no estadstico siga los siguientes pasos: MODE A

Para ingresar al modo estadstico de una variable (1 VAR): MODE A

Para activar las frecuencias (FREQ): SHIFT A

Para ingresar al modo estadstico de dos variables (A + BX): MODE A

H A

SEA LA SIGUIENTE TABLA:

68

yi

ni

FREQ

21

21

32

10

32

10

47

15

47

15

51

51

Segn la calculadora la tabla es

Medidas de tendencia central

INGRESEMOS LA INFORMACIN A LA CALCULADORA:


1

Ingrese al modo estadstico de una variable


X

FREQ

Al inicio aparecer

Al final debe aparecer

2
3

FREQ

21

32

10

47

15

51

Ingresemos la informacin en la columna (columna de X)


2 1 =

3 2 =

4 7 =

Utilice las teclas direccionales I

Ingresemos la informacin en la columna (columna de FREQ)


7 =

1 0 =

5 1 =

N para desplazarse en la pantalla, pasar a la otra columna y al inicio.

1 5 =

8 =

Finalmente presione la tecla AC para salir de la pantalla.

OBTENGAMOS ALGUNOS RESULTADOS:


1

Al presionar AC , la informacin est en la memoria de la calculadora.

Suma de los datos: SHIFT A

Suma de los datos al cuadrado: SHIFT A

Nmero de datos: SHIFT A

Media aritmtica: SHIFT A

Desviacin standar poblacional Xn : SHIFT A

Desviacin standar muestral Xn1 : SHIFT A

Suma de los datos

X =

Media aritmtica

X=

Suma de los datos al 

X2 =

Desviacin standar

Xn =

Nmero de datos

n=

Desviacin standar

Xn1 =

Observacin:

En otros modelos de calculadoras las notaciones de las desviaciones standar Xn y Xn1 son otras,

por ejemplo Xn = X

Xn1 = SX .

ANOTACIONES:

69

Medidas de tendencia central

70

3
Z

Nro:

3.1

Medidas de dispersin y de forma

E.F.P:

Introduccin

Las medidas de dispersin o de variabilidad son nmeros que miden el grado de separacin de los datos con respecto
a un valor central, que generalmente es la media aritmtica.

Distribucin A

xmn

xmx

xmx

Distribucin B

xmn

En el grfico anterior se ve claramente que los datos en la distribucin A son ms dispersos que los datos en la
distribucin B.
Las principales medidas de dispersin son: El rango, el rango intercuartlico, la desviacin media, la varianza, la
desviacin estndar y el coeficiente de variacin.

Definicin 3.1 (Rango o recorrido de una variable)


El rango de variacin o recorrido (R o `) de un conjunto de datos de variable cuantitativa, es la diferencia entre sus
valores mximo y mnimo. Es decir,
R = Xmx Xmn ,
siendo Xmx el valor mximo y Xmn el valor mnimo de los datos respectivamente.

xmx

xmn
R

El rango es una medida de dispersin fcil de calcular, pero es muy inestable, porque depende de los valores extremos. Su valor puede cambiar si se agrega o quita un dato, su uso es muy limitado.
71

Medidas de dispersin y de forma

Ejemplo 3.1
Sean los siguientes datos correspondientes a una variables cuantitativa medida en dos muestras:
A:

1 4

4 5

5 5

6 6

B:

Xmn

Xmx

Xmn

Xmx

Para ambas muestras la media es 5 y el rango es R = 9 1 = 8, pero las datos de las dos muestras no tienen la
misma dispersin, ya que la segunda tiene mayor variabilidad. Este inconveniente se subsana en parte utilizando el
recorrido intercuartlico.

Definicin 3.2 (Rango intercuartlico)


El rango o recorrido intercuartlico (RI) es la diferencia entre los cuartiles tercero y primero, es decir
RI = Q3 Q1

xmn

Q1

Q2

Q3

xmx

RI

El rango intercuartlico es una medida que excluye el 25% de los datos de mayor valor y el 25% de los datos de menor
valor, dando un rango central dentro del cual se encuentra el 50% de los datos.
Esta medida de dispersin es, evidentemente, ms exacta que el simple recorrido de la variable, ya que evita el
inconveniente de valores extremos anormales, tomando aquellos dos valores que dejan entre s el 50% de los valores
(los ms centrales) de los datos de la variable.
Ejemplo 3.2
Sean los siguientes datos correspondientes a una variables cuantitativa medida en dos muestras:
A: 1

12

B: 1

10

11

12

Calcule el recorrido intercuartlico en cada caso, luego compare los resultados.


Solucin: Para ambas muestras tenemos R = 12 1 = 11, hallemos RI para cada uno.
Para A: Q1 = 4, 5 y Q3 = 7, 5
1 4

Q1

10

11

12

Q3

Para B: Q1 = 3, 5 y Q3 = 9, 5
1 2

y
Q1

72

y
Q3

12

Medidas de dispersin y de forma

Ejemplo 3.2 (Continuacin).


Por lo tanto aunque el recorrido de la variable sea el mismo en ambos casos, el recorrido intercuartlico toma los
valores
RIA = Q3 Q1 = 7, 5 4, 5 = 3
RIB = Q3 Q1 = 9, 5 3, 5 = 6
marcando claramente la mayor dispersin que existe en el segundo caso.

Definicin 3.3 (Recorrido Interdeclico)


Es la diferencia entre el percentil 90 y el percentil 10, es decir,
RID = P90 P10

xmn

D1

D2

D5

D8

D9

xmx

RID

Definicin 3.4 (Rango Semiintercuartlico)


Es igual al rango intercualtil dividido entre dos, es decir,
RSI =

Q3 Q1
2

El rango semiintercuartlico mide el recorrido promedio de un cuarto de los datos. Es representativo de la dispersin
de los datos, ya se calcula, tomando el promedio de la mitad de los elementos del medio en lugar de escoger uno de
los cuartos.

Del ejemplo anterior tenemos


Q3 Q1
7, 5 4, 5
=
= 1, 5
2
2
9, 5 3, 5
Q3 Q1
RSIB =
=
=3
2
2
observndose la mayor dispersin de los datos en B.
RSIA =

Ejemplo 3.3 (La resolucin de este ejemplo queda como ejercicio)


Dada siguiente distribucin corresponde a los salarios semanales (en $) de los trabajadores de las empresas y
[ 49 58i

[ 58 67i

[ 67 76i

[ 76 85i

[ 85 94i

[ 94 103]

Empresa (ni )

13

19

12

Empresa (ni )

15

16

12

Salarios ($)

calcule el rango de la variable, el recorrido intercuartlico, el recorrido interdeclico para cada grupo de salarios y
luego diga qu grupo de salarios presenta mayor dispersin.

73

Medidas de dispersin y de forma

3.2

Desviacin media

Una de las medidas de dispersin que intenta solucionar los inconvenientes de las anteriormente presentadas es la
desviacin media que lo denotaremos por DM, ella mide el promedio de las desviaciones de cada dato con respecto
su media.

Definicin 3.5
Sean x1 , x2 xn los datos correspondientes
a una
variable cuantitativa y X la media de estos datos. La deviacin


absoluta de xi con respecto a la media X es xi X , es decir es la distancia de xi a la media X.

Definicin 3.6 (Desviacin Media)


Sean x1 , x2 xn los datos correspondientes a una variable cuantitativa y X la media de estos datos. La deviacin
media de estos datos es el promedio de las desviaciones absolutas de cada uno de ellos respecto a su media X, es
decir






x1 X + x2 X + + xn X
DM =
=
n

xi X

i=1

Prcticamente la definicin (3.6) nos indica la forma del clculo de la desviacin media, cuando los datos no estn
agrupados.

Clculo de la desviacin media para datos agrupados


No interesa que ellos estn agrupados en una tabla de distribucin de frecuencia con o sin intervalos
i

yi

ni

yi ni

y1

n1

y1 n1

2
..
.

y2
..
.

n2
..
.

y2 n2
..
.

ym

nm

ym nm

yi ni



yi X ni


y2 X n1


y2 X n2
..
.


ym X nm


yi X ni

[y0i1 y0i i

yi

ni

yi ni

[y00 y01 i

y1

n1

y1 n1

2
..
.

[y01 y02 i
..
.

y2
..
.

n2
..
.

y2 n2
..
.

[y0m1 y0m ]

ym

nm

ym nm

yi ni

sabemos que la media aritmtica es


m

yi ni

X=

i=1

entonces la desviacin media en ambos casos ser


m

yi X ni

DM =

74

i=1



yi X ni


y1 X n1


y2 X n2
..
.


ym X nm


yi X ni

Medidas de dispersin y de forma

Ejemplo 3.4
Halle la desviacin media en los siguientes casos:
1

yi

20

23

24

28

30

ni

10

12

Intervalos

[22, 5 27, 5i

[27, 5 32, 5i

[32, 5 37, 5i

[37, 5 42, 5i

[42, 5 47, 5i

ni

10

12

Solucin:
1

Para emplear la frmula de la desviacin media generamos columnas adicionales a la tabla presentada al inicio.
i

yi

ni

yi ni

yi X

|yi X|

|yi X|ni

20

80

20

23

10

230

20

24

12

288

12

28

252

27

30

150

25

40

1000

1000
= 25
40
Enseguida elaboramos las columnas
La media es

X=

yi X,

|yi X|,

|yi X|ni

as la desviacin media es:


DM =

104

104
= 2, 6
40

Para emplear la frmula de la desviacin media generamos columnas adicionales a la tabla presentada al inicio.
i

[y0i1 y0i i

yi

ni

yi ni

yi X

|yi X|

|yi X|ni

[22, 5 27, 5i

25

100

10, 125

10, 125

40, 5

[27, 5 32, 5i

30

10

300

5, 125

5, 125

51, 25

[32, 5 37, 5i

35

12

420

0, 125

0, 125

1, 5

[37, 5 42, 5i

40

360

4, 875

4, 875

43, 875

[42, 5 47, 5i

45

225

9, 875

9, 875

49, 375

40

1405

1405
= 35, 125
40
Enseguida elaboramos las columnas
La media es X =

yi X,

|yi X|,

|yi X|ni

as la desviacin media es
DM =

186,5

186, 5
= 4, 6625
40

OBSERVACIN: Las unidades en las cuales se expresan la media y la desviacin media son las mismas.

Ejemplo 3.5
Dada siguiente distribucin corresponde a los salarios semanales (en $) de los trabajadores de las empresas y
[ 49 58i

[ 58 67i

[ 67 76i

[ 76 85i

[ 85 94i

[ 94 103]

Empresa (ni )

13

19

12

Empresa (ni )

15

16

12

Salarios ($)

calcule la desviacin media para cada grupo de salarios y luego diga qu grupo de salarios presenta mayor dispersin.

75

Medidas de dispersin y de forma

Ejemplo 3.5 (Continuacin).


Solucin:

Empresa
Salarios($)

yi

ni

yi ni

|yi X|ni

ni

yi ni

|yi X|ni

[49 58i

53,5

13

695,5

215,71875

214

98,4375

[58 67i

62,5

19

1187,5

144,28125

562,5

140,484375

[67 76i

71,5

12

858

16,875

15

1072,5

99,140625

[76 85i

80,5

724,5

93,65625

16

1288

38,25

[85 94i

89,5

626,5

135,84375

12

1074

136,6875

[94 103]

98,5

394

113,625

788

163,125

64

4486

720

64

4999

676,125

total
1

4486
yi ni
=
= $ 70, 09375,
n
64
con ello diseamos la columna |yi X|ni , de donde |yi X|ni = 720, por lo tanto la desviacin media es
Para los salarios de los trabajadores de la empresa , el salario promedio es X =

DM =

720
|yi X|ni
=
= $11, 25.
n
64

4999
yi ni
=
= $ 78, 109275,
n
64
con ello diseamos la columna |yi X|ni , de donde |yi X|ni = 676, 125, por lo tanto la desviacin media es

Para los salarios de los trabajadores de la empresa , el salario promedio es X =

DM =
3

Empresa

676, 125
|yi X|ni
=
= $10, 56445313.
n
64

Comparando las desviaciones media concluimos que el grupo de los trabajadores de la empresa tienen los
salarios ms dispersos.

3.3

Varianza y Desviacin estndar

Sin lugar a dudas la medida ms usada para estimar la dispersin de los datos es la desviacin tpica. Esta es especialmente aconsejable cuando se usa la media artimtica como medida de tendencia central. Al igual que la desviacin
media, est basada en un valor promedio de las desviaciones respecto a la media. En este caso, en vez de tomar
valores absolutos de las desviaciones, para evitar as que se compensen desviaciones positivas y negativas, se usan
los cuadrados de las desviaciones. Esto hace adems que los datos con desviaciones grandes influyan mucho en el
resultado final.

Definicin 3.7
Sean x1 , x2 xn los datos correspondientes a una variable cuantitativa y X la media de estos datos. La deviacin
2
cuadrtica de xi con respecto a la media X es xi X , es decir es el cuadrado de la distancia de xi a la media X.

76

Medidas de dispersin y de forma

La varianza es una medida que cuantifica el grado de dispersin (variacin) de los valores de una variable cuantitativa con respecto a su media aritmtica. Si los valores tienden a concentrarse alrededor de su media, la varianza ser
pequea. Si los valores tienden a distribuirse lejos de la media, la varianza ser grande.

Definicin 3.8 (Varianza)


Es el estadgrafo de dispersin ms importante y expresa el grado de dispersin de las observaciones respecto a la
media aritmtica. La varianza se define como el promedio aritmtico de las deviaciones cuadrticas de los datos con
respecto a su media.
Especficamente si x1 , x2 xn son los datos correspondientes a una variable cuantitativa y X la media de estos datos,
2
2
2
la varianza de estos datos es el promedio de las desviaciones cuadrticas x1 X , x2 X , , xn X , es decir
n

V=

x1 X

2

2

+ x2 X + + xn X
n

2
=

xi X

2

i=1

Clculo de la varianza
1

Datos sin agrupar:


Donde:
N

( xi )2

i=1

V=

Poblacional o terica

( xi X )2

V=

i=1

n1

Muestral o prctica

: promedio poblacional

: promedio muestral

: cantidad de elementos de la poblacin

: cantidad de elementos de la muestra

xi

: i-simo valor de la variable

Datos agrupados (en una tabla con o sin intervalos):


m

( yi )2 .ni

V=

i=1

Donde:
Poblacional o terica

( yi X )2 .ni

V=

i=1

n1

yi

: marca de clase

ni

: frecuencia absoluta simple

Muestral o prctica

2
2
xi X
xi X
OBSERVACIN: La diferencia entre
y
es grande para muestras pequeas, y es mnima para
n
n1
muestras grandes, prcticamente son iguales. Entonces para muestras grandes, n 60, puede usarse cualquiera de
2
xi X
las frmulas. Para muestras pequeas se usa
, la cual es llamada varianza muestral o varianza corregida.
n1

Propiedades de la Varianza (V):


Sean x1 , x2 , , xn los datos correspondientes a la variable cuantitativa X, al denotar por V (X) la varianza de X tenemos
las siguientes propiedades:
1

V (X) 0

V (aX) = a2V (X)

V (c) = 0 donde c es una constante, si todos los datos


son iguales entonces la varianza es 0.

5
3

V (aX b) = a2V (X)

V (X c) = V (X), si los datos aumentan en una constante, la varianza no se modifica.


77

Medidas de dispersin y de forma

Ejemplo 3.6
En un centro de ayuda a la familia que atiende a mujeres maltratadas, se hace un recuento de las edades (aos) de las
mujeres ingresadas el da 25 de octubre de 2010 y el resultado es el siguiente 22, 23, 24, 25, 23. Determinar la varianza
de las edades de la muestra.
Solucin: Se procede como sigue
1

Se determina la media aritmtica de la muestra.

Se toma la diferencia entre cada observacin y la media aritmtica.

Se eleva al cuadrado estas desviaciones.

Se multiplica a cada uno de estos resultados por sus respectivas frecuencias absolutas simples

Se suman los resultados anteriores.

La suma se divide por n 1 si la muestra es pequea y por n 1 n si la muestra es muy grande

Todos los pasos estn resumidos en la tabla siguiente:


i

xi

ni

yi ni

xi x

(xi x)2

(xi x)2 ni

22

22

1, 4

1,96

1,96

23

46

0, 4

0,16

0,32

24

24

0, 6

0,36

0,36

25

25

1, 6

2,56

2,56

117

5,2

yi ni

117
=
= 23, 4 aos
n
5
En promedio se tiene que la edad de las mujeres maltratadas es de 23,4 aos aproximadamente.
La media de las edades es X =

i=1

Luego calculamos la varianza poblacional y muestral respectivamente (Ver la tabla anterior en donde se ha
elaborado las columnas yi X, (yi X)2 , (yi X)2 ni
4
2
yi X ni 5, 2
V = i=1
=
= 1, 04 aos2 ,
varianza poblacional
n
5
4
2
yi X ni 5, 2
V = i=1
=
= 1, 3 aos2 ,
varianza muestral
n1
51

Podemos observar que la varianza poblacional es menor a la varianza muestral.

Ejemplo 3.7
Tenemos la siguiente informacin sobre el gasto semanal en ocio de un grupo de estudiantes universitarios.
Nivel de Gasto($)
N de jvenes
Hallar la varianza de la muestra.

78

[0 5i

[5 10i

[10 15i

[15 20i

[20 25i

[25 30i

11

16

22

Medidas de dispersin y de forma

Ejemplo 3.7 (Continuacin).


Solucin: Suponiendo que los datos se encuentran uniformemente distribuidos en cada intervalo de clase, lo cual
justifica que se tome el punto medio de cada intervalo, como valor representativo de todos los valores de dicho
intervalo. Entonces resumimos los pasos en la tabla siguiente:
yi

ni

yi ni

yi X

(yi X)2

(yi X)2 ni

[0 5i

2, 5

10

121, 76

162, 8176

651, 2704

[5 10i

7, 5

11

82, 5

7, 76

60, 2176

662, 3936

[10 15i

12, 5

16

200

2, 76

7, 6176

121, 8816

[15 20i

17, 5

22

385

2, 24

5, 0176

110, 3872

[20 25i

22, 5

180

7, 24

52, 4176

419, 3408

[25 30i

27, 5

165

12, 24

149, 8176

898, 9056

67

1022, 5

Gasto($)

Totales

2864, 1792

yi ni

i=1

1022, 5
= 15, 26119403 . . . 15, 26 dlares
67

Calculamos la media aritmtica X =

La varianza poblacional y muestral respectivamente ser:

( yi X )2 ni

V=

i=1

2864, 1792
= 42, 748943 dlares2 ,
67

varianza poblacional

2864, 1792
= 43, 396654 dlares2 ,
67 1

varianza muestral

( yi X )2 ni

V=

i=1

n1

Note la diferencia entre las varianzas poblacional y muestral.

Nota: Al expresar cuantitativamente la dispersin de un conjunto de datos, ocurre el inconveniente en la interpretacin de esta cantidad, ya que ella esta dado por el cuadrado de las dimensiones la que expresa la caracterstica,
y en ocasiones trae confusin. Es conveniente, entonces contar con otro estadgrafo que basado en el valor de la varianza, sirva para dar una medida de dispersin en la misma dimensin en que estn los datos. Esta medida es la
desviacin estndar o desviacin tpica.

Definicin 3.9 (Desviacin Estndar)


La desviacin tpica o desviacin estndar S se define como la raz cuadrada de la varianza, es decir
1

Para datos sin agrupar:


v
u N
u
u (xi )2
t
S = i=1
N
v
u m
u
u (xi X)2
t
S = i=1
n1

Poblacional o terica

Muestral o prctica

Para datos agrupados:

S=

v
u m
u
u (yi )2 ni
t i=1

S=

N
v
u m
u
u (yi X)2 ni
t i=1
n1

Poblacional o terica

Muestral o prctica

79

Medidas de dispersin y de forma

Muy importante (clculo de la varianza con una calculadora)


2
2
Al ingresar los datos a una calculadora, para obtener la varianza poblacional solo se deba calcular Xn o X ;
2
2
mientras que para obtener la varianza muetral solo se deba calcular Xn1 o SX .

Ventajas de la Desviacin estndar


1

La desviacin estndar es sin duda, la medida de dispersin que posee una mayor estabilidad frente a las
fluctuaciones de la muestra tomada.

Se basa en todos los valores de la variable, tanto atendiendo a su magnitud como a su signo.

Su estudio es indispensable cuando se trata de interpretar datos en relacin con la distribucin normal.

Nota: En general, los estadgrafos de dispersin se usan para comparar dos o ms poblaciones en funcin a sus
datos. A mayor dispersin o heterogeneidad entre los valores o elementos de una poblacin, le corresponde un valor
mayor para el estadgrafo de dispersin.

Ejemplo 3.8
En un centro de mujeres maltratadas se hace un recuento de las edades (aos) de las mujeres ingresadas y el
resultado es el siguiente: 22, 23, 24, 25, 23. Determinar desviacin tpica de las edades de la muestra.
Solucin: Como ya calculamos la varianza poblacional y muestral que resultaron respectivamente, V = 1, 04
aos2 y V = 1, 3 aos2 y dado que la desviacin estndar es la raz cuadrada de la varianza, entonces las desviaciones
estndar poblacional y muestral son
q
S = 1, 04 aos2 = 1, 019803903 aos

S=

1, 3 aos2 = 1, 140175425 aos

Ejemplo 3.9
Las estaturas (en centmetros) de un grupo de personas se distribuyen como sigue
talla(cm)

frecuencias

[150 155i

[155 160i

[160 165i

10

[165 170i

18

[170 175i

24

[175 180i

17

[180 185i

[185 190i

[190 195i

[195 200i

Determinar la desviacin tpica de la distribucin.

80

Medidas de dispersin y de forma

Ejemplo 3.9 (Continuacin).


Solucin: Para encontrar la desviacin estndar, calculamos en una tabla los valores que necesitamos para sustituirlo en la frmula de la varianza
i

talla(cm)

yi

ni

yi ni

(yi X)2 ni

[150 155i

152,5

457,5

1329,3075

[155 160i

157,5

787,5

1288,0125

[160 165i

162,5

10

1625

1221,025

[165 170i

167,5

18

3015

658,845

[170 175i

172,5

24

4140

26,46

[175 180i

177,5

17

3017,5

265,2425

[180 185i

182,5

1642,5

720,9225

[185 190i

187,5

1312,5

1362,2175

[190 195i

192,5

962,5

1795,5125

10

[195 200i

197,5

395

1147,205

100

17355

9814,75

Totales
Primero hallamos la media y es X =

17355
= 173, 55 cm, este resultados los utilizamos para completar la ltima
100

columna de la tabla anterior.

10

( yi X )2 ni

9814, 75
La varianza poblacional de la distribucin es V = S2 = i=1
=
= 98, 1475 cm2
100
p n

y la desviacin estndar poblacional es S = varianza = 98, 1475 cm2 = 9, 906942011 cm

OBSERVACIONES:
1

Las unidades en las cuales se expresan los datos, la media y la desviacin estndar son las mismas.

Las unidades en las cuales se expresan los datos no son las mismas para la varianza. Por ejemplo si los datos
estn en dlares, entonces la varianza se expresa en dlares2 .

3.4

Otras medidas de dispersin

Definicin 3.10 (Coeficiente de Variacin)


El coeficiente de variacin, CV , es una medida de dispersin relativa (no tiene unidades de medida) , que se define
como la desviacin estndar dividido por la media aritmtica. Es decir
CV =

S
X

OBSERVACIONES:
1

El coeficiente de variacin se utiliza para comparar la variabilidad de dos o ms conjuntos de datos que tengan
medias iguales o diferentes, o tengan unidades de medida iguales o diferentes, por ejemplo salarios de dos
grupos de trabajadores de dos empresas en el cual para un grupo se miden en dlares y para otro en euros .
81

Medidas de dispersin y de forma

El coeficiente de variacin no tiene unidades y se utiliza para comparar distribuciones con distintas unidades
de medidas. Por ejemplo tallas y pesos.

Suele expresarse en porcentajes. Tambin se utiliza cuando al comparar dos distribuciones sobre la misma
variable estn medidas en distintas unidades, por ejemplo en metros y Kilmetros

Su ventaja es que permite comparar distribuciones distintas, incluso con unidades de medidas distintas.

Su desventaja es que deja de ser representativa y no debe utilizarse cuando la media de una de las distribuciones
sea muy baja, pues la fraccin tiende a ser grande.

Ejemplo 3.10
En dos pruebas de conocimiento A y B que se aplic a un grupo de estudiantes, la prueba A se calific en la escala
de 0 100 puntos; la media aritmtica de los resultados fue de 75 puntos con una desviacin estndar de 8 puntos.
La prueba B se calific en la escala de 0 80 puntos; la media aritmtica de los resultados fue de 50 puntos con una
desviacin estndar de 5 puntos. En cul de las pruebas hubo mayor variacin de los resultados?.
Solucin:
Para conocer en que prueba hay mayor variacin comparemos sus coeficientes de variacin.
CVA =

SA
8
= 0, 1066 . . .
=
75
XA

SB
5
=
= 0, 1
50
XB
Por tanto, la prueba de conocimiento A tiene mayor variacin de sus resultados.
CVB =

Nota:
?

Si CV < 0, 15, la distribucin se dir que es homognea.

Si CV 0, 15, la distribucin se dir que es heterognea.

Uso de las medidas de Dispersin


?

Si dos o ms series de datos (observados en el mismo tipo de medicin) tienen medias aritmticas iguales (o
casi iguales) es ms dispersa la serie que tiene mayor medida de variabilidad: Rango, RI, S2 , S, CV .

Si dos o ms series de datos, no tienen medias iguales (o casi iguales), o no tienen las mismas unidades de
medicin, entonces, es ms dispersa la serie que tenga mayor coeficiente de variacin.

Definicin 3.11 (Valores estandarizados)


Cuando se necesiten comparar valores observados que pertenecen a diferentes distribuciones de datos, las que difieren en su media aritmtica o en su varianza, o difieren en el tipo de unidad de medida, entonces se usa el valor
estndar Z que se define por
Z=

xX
S

donde: x es un dato en particular del cual se va averiguar su valor estandarizado.

82

Medidas de dispersin y de forma

Ejemplo 3.11
En una evaluacin de Estadstica e Historia resultan las medias de 11 puntos y 15 puntos, mientras que las desviaciones estndar son 3 puntos y 4 puntos respectivamente. Si un estudiante obtiene 14 puntos en Estadstica y 16
puntos en Historia, en cul de los dos cursos tiene mejor rendimiento relativo?.
Solucin:
Que tenga 16 en Historia y 14 en Estadstica no significa que tiene mejor rendimiento en Historia. Se deben calcular
los rendimientos relativos con la puntuacin estandarizada Z.
En Estadstica ZE
En Historia

ZH

=
=

14 11
=1
3
16 15
= 0, 25
4

En consecuencia tiene un mejor rendimiento relativo en Estadstica (ZH < ZE ).

3.5

Medidas de Forma

En trabajos propios de algunas disciplinas encontramos la necesidad de calcular una medida que muestre las direcciones de la dispersin de los datos con respecto a su centro y que completan la descripcin de las distribuciones
de frecuencias. Estas caractersticas se llaman: Asimetra y curtosis o apuntamiento. Las medidas de dispersin slo
indican la magnitud de las variaciones, pero no dan informacin acerca de la direccin de las variaciones.

3.5.1

Medidas de Asimetra

La asimetra de una distribucin indica la deformacin horizontal de las distribuciones de frecuencia.


1

Se dir que una distribucin de frecuencias unimodal presenta asimetra negativa o concentrada a la derecha,
si tiene una ramificacin ms extendida hacia la izquierda o hacia valores pequeos de la variable.

Se dir que una distribucin de frecuencias unimodal es simtrica cuando la media aritmtica, la mediana, y la
moda, coinciden.

Se dir que una distribucin de frecuencia unimodal presenta asimetra positiva o concentrada a la izquierda,
si tiene una ramificacin ms extendida hacia la derecha o hacia valores grandes de la variable.

ni

ni

Me Mo

ASIMETRA NEGATIVA

ni

X = Me = Mo

SIMTRICA

Mo Me X
ASIMETRA POSITIVA

83

Medidas de dispersin y de forma

ni

ni

ni

Me Mo

X = Me = Mo

ASIMETRA NEGATIVA

Mo Me X

SIMTRICA

ASIMETRA POSITIVA

Definicin 3.12 (Coeficiente de Pearson)


El coeficiente (o ndice) de asimetra de Pearson es el nmero
As =

X Mo
S

Mide el grado de deformacin horizontal de la distribucin de frecuencias.

Como en distribuciones asimtricas se verifica X Mo


= 3(X Me) entonces otra forma de expresar el ndice de
asimetra es:
As =

3(X Me)
S

Para su interpretacin:
?

As < 0, la distribucin es asimtrica negativa o concentrada a la derecha ( X < Me < Mo )

As = 0, la distribucin de los datos es simtrica ( X = Me = Mo )

As > 0, la distribucin es asimtrica positiva o concentradada a la izquierda ( Mo < Me < X )

(Desigualdad de Chebyshev)
Cualquiera que sea la forma de la distribucion de frecuencias (simtrica o asimtrica), el intervalo [X kS, X + kS],
1
1
k > 1, contiene al (1 2 ) 100% de los datos y el porcentaje de los datos que no estn en tal intervalo es 2 100% .
k
k

Ejemplo 3.12
Para la siguiente distribucin de frecuencias, se pide calcular e interpretar los coeficientes de la asimetra de Pearson.

84

intervalo

frecuencia

[60 66i

[66 72i

[72 78i

[78 84i

11

[84 90i

[90 96]

Medidas de dispersin y de forma

Ejemplo 3.12 (Continuacin).


Solucin: Calculemos primero las medidas de tendencia central y la desviacin tpica:
intervalo

yi

ni

Ni

[60 66i

63

[66 72i

69

10

[72 78i

75

17

[78 84i

81

11

28

[84 90i

87

36

[90 96]

93

40

totales

media

: X = 78, 75

Mediana

: Me = 79, 64

Moda

: Mo = 81, 42

Varianza muestral : S2 = 78, 80769231

Desviacin Tpica : S = varianza = 8, 877369673

40

Por lo tanto los coeficientes de Pearson son:


As =
As =

X Mo 78, 75 81, 42
=
= 0, 3045963174
S
8, 877369673
3(X Me) 3(78, 75 79, 64)
=
= 0, 3045963174
S
8, 877369673

Como As < 0, la distribucin es asimtrica o concentrada hacia la derecha.


Para completar el ejemplo, sera conveniente graficar un polgono de frecuencias y sobre l las medidas de tendencia
central y de esa manera comprobar que se trata de una distribucin asimtrica negativa. (Se deja como ejercicio)

Ejemplo 3.13
Para la distribucion de los datos del ejemplo 3.12, utilice la desigualdad de Chebyshev para:
1

Obtener el intervalo centrado en X que contiene al 75%.

Qe porcentaje de datos estn en el intervalo [X 3S, X + 3S]?

Solucin: En la distribucin tenemos X = 78, 75 y S = 8, 877369673


1
) 100% = 75%, de donde resulta k = 2, con este valor de k, tenemos X kS = X 2S =
k2
61, 2185996 y X + kS = X + 2S = 96, 2814004. Por lo tanto el intervalo requerido es [61, 2185996; 96, 2814004].

En este caso (1

En este caso k = 3, (1

3.5.2

1
1
) 100% = (1 2 ) 100% = 88, 88888888 %, el porcentaje da datos requerido es
k2
3
88, 88% aproxiamdamente.

Medidas de Apuntamiento o curtosis

Mide el grado de deformacin vertical de la distribucin de frecuencias. La curtosis es la propiedad de una distribucin de frecuencias por la cual se compara la dispersin de los datos observados cercanos al valor central con la
dispersin de los datos cercanos a ambos extremos de la distribucin. La curtosis se mide en comparacin a la curva
simtrica normal.
La curtosis utilizando percentiles se define por el cociente
K=

P75 P25
2(P90 P10 )
85

Medidas de dispersin y de forma

Para su Interpretacin:

Si K = 0, 263 la distribucin es normal o mesocrtica (apuntamiento de la curva normal).

Si K > 0, 263 la distribucin es leptocrtica (mas apuntada que la curva normal).

Si K < 0, 263 la distribucin es platicrtica (mas aplanada que la curva normal).

ni

ni

DISTRIBUCIN PLATICRTICA

ni

ni

DISTRIBUCIN MESOCRTICA

ni

DISTRIBUCIN PLATICRTICA

DISTRIBUCIN LEPTOCRTICA

ni

DISTRIBUCIN MESOCRTICA

DISTRIBUCIN LEPTOCRTICA

Nota: Al igual que el coeficiente de asimetra de una distribucin, los que representan a curtosis o apuntamiento
se utiliza para ayudar a describir las caractersticas de una distribucin y no precisamente como medidas, ya que a
veces el valor de la curtosis se contradice con la realidad por estar relacionada con la distribucin normal.

Ejemplo 3.14
Del ejercicio anterior calcular el coeficiente de curtosis e interpretar.
Solucin: Calculamos los siguientes percentiles:
P10 = 66

P25 = 72


30 28
P75 = 84 + 6
36 28


= 85, 5

P90 = 90

Luego:
K=

P75 P25
85, 5 72
=
= 0, 28125
2(P90 P10 ) 2(90 66)

Como K = 0, 28125 > 0, 263 es un apuntamiento muy prximo a la curva normal, la distribucin es ligeramente
leptocrtica.

86

Medidas de dispersin y de forma

Ejemplo 3.15
Cierta empresa tiene 100 trabajadores profesionales, para los nombrados el sueldo bsico mximo es de 450 soles
y el mnimo 60 soles mensuales, Hay un 6% de practicantes que trabajan ad-honoren o perciben compensaciones
inferiores a 60 soles, 16 trabajadores nombrados perciben sueldos inferiores a 250 soles, el 87% de los profesionales
tienen sueldos inferiores a 400 soles. Con esta informacin, se pide calcular:
a

La media, la mediana y la moda

El coeficiente de asimetra y de apuntamiento de la distribucin de sueldos

Un polgono de frecuencias para comprobar el grado y la clase de asimetra.

Solucin: De acuerdo al enunciado tenemos la siguiente tabla de frecuencias


2a
n

Sueldos

ni

Ni

yi

yi ni

y2i ni

amplitud

[0 60i

30

180

5400

60

1,2

[60 250i

16

22

155

2480

384400

190

3,8

4,21

[250 400i

65

87

325

21125

6865625

150

21,67

[400 450]

13

100

425

5525

2348125

50

13

29310

9603550

100

(a.e) =

altura =

ni
a.e

29310
= 293, 10
100


50 22
Mediana: Me = 250 + 150
= 314, 62
65


49
Moda: Mo = 250 + 150
= 322, 77
49 + 52
Desviacin Tpica: S = 103, 53
Media: y

El coeficiente de asimetra es:


As =
As =

X Mo 293, 10 322, 77
=
= 0, 3099
S
103, 53
3(X Me) 3(293, 10 314, 62)
=
= 0, 6936
S
103, 53

Como As < 0 entonces la distribucin es ligeramente asimtrica negativa o concentrada hacia la derecha.
El coeficiente de curtosis es:
K=
donde:

P75 P25
372, 31 256, 92
=
= 0, 182,
2(P90 P10 ) 2(411, 54 94, 55)




10 6
25 22
25(100)
= 10
P10 = 60 + 190
= 94, 55
P25 = 250 + 150
= 256, 92
100 = 25
65 
 22


75 22
90 87
75(100)
P75 = 250 + 150
= 372, 31 90(100)
= 90
P90 = 400 + 50
= 411, 54
100 = 75
100
65
13
Como K = 0, 182 < 0, 263 la distribucin es platicrtica (ms achatada que la normal).
10(100)
100

El polgono de frecuencias de la distribucin queda como ejercicio.

87

Medidas de dispersin y de forma

3.6

Diagramas de caja

El diagrama de caja es una presentacin visual que describe al mismo tiempo varias caractersticas importantes de
un conjunto de datos, tales como el centro, la dispersin, la simetra o asimetra y la identificacin de observaciones
atpicas. El diagrama de caja representa los tres cuartiles, y los valores mnimo y mximo de los datos sobre un
rectngulo (caja), alineado horizontal o verticalmente.
El grfico de cajas, proporciona informacin acerca de:
?

La centralizacin (observando la informacin de la mediana)

La dispersin a variabilidad (mediante el rango intercuartlico: RI = P75 P25 )

La asimetra (comparando: Me P25

Las colas (por la longitud de los segmentos que salen de los lados de la caja) cuya parte final contiene, una el

con

P75 Me

mnimo y la otra el mximo. las colas estn dibujadas sobre los valores anormales de los datos.
Construccin:
1

Se construye una escala de referencia, ya sea horizontal o vertical.

Se calculan los cuartiles (Q1 , Q2 y Q3 ) y el rango intercuartlico (RI).

Se calculan dos valores f1 y f3 que llamaremos barreras interiores, de la siguiente manera:


f1 = Q1 1, 5(RI)

f3 = Q3 + 1, 5(RI)

Se calculan los puntos a1 y a3 llamados valores adyacentes. El punto a1 es el dato ms cercano a f1 ( f1 puede
coincidir con un valor de los datos) sin ser el menor de esa barrera, El punto a3 es el dato ms cercano a f3 ( f3
puede coincidir con un valor de los datos) pero mayor que esa barrera.

Se localizan todos los puntos en la escala horizontal o vertical, segn se haya elegido.

Se dibuja una caja con los extremos en el primer y tercer cuartil. Se dibuja la mediana con una lnea interior en
el lugar adecuado.

Los valores adyacentes se unen a la caja por medio de lneas, esto genera los brazos de las cajas.

Si existen datos que queden fuera de las barreras interiores, se dibujaran con crculos abiertos. Estos datos se
conocen como datos atpicos.

Ejemplo 3.16
Los siguientes datos corresponden a los tiempos de hospitalizacin, en das, despus de una ciruga de crneo de un
conjunto de pacientes.

12

13

13

15

15

17

23

25

21

Con ello elaboremos el diagrama de caja correspondiente

88

28

33

36

36

26

38

38

21

45

44

73

90.

Medidas de dispersin y de forma

Ejemplo 3.16 (Continuacin).


Solucin: Ordenando

12

13

13

15

15

17

21

21

23

25

26

28

33

36

Realizando los clculos para los cuartiles se tiene:

El rango intercuartlico es RI = 37 14 = 23, y las barreras interiores son:

38

38

44

45

73

90.

Q1 = 14, Q2 = 24, Q3 = 37;

f1 = 14 1, 5(23) = 20, 5,
y

36

f3 = 37 + 1, 5(23) = 71, 5

Los valores adyacentes son a1 = 8

a3 = 73. Las colas de la caja abarcan desde 8 hasta 73.

Solamente tenemos un dato que cae fuera las valores adyacentes, es en el lado derecho, y el dato es 90. Se
procede a construir el diagrama de caja, quedando de la siguiente manera:

Tiempo (das) de
hospitalizacin
14
8 9

24

12 13 15 17

37

21 23 25 26 28

33

36 38

44 45

73

90

Del diagrama de caja podemos establecer anlisis como los siguientes: El 90 es un dato atpico, el 50% de los pacientes
fueron hospitalizados ms de 24 das, etc. Tenga en mente para el anlisis la informacin que proporcionan los
cuartiles.
En el diagrama de caja se puede observar que los tiempos de hospitalizacin estn concentrados a la izquierda. Qu
significa que los tiempos de hospitalizacin estn concentrados a la izquierda?, significa que la distribucin tiene
simetra positiva.

Ejemplo 3.17
En una prueba de conocimientos 20 alumnos han obtenido las calificaciones:
1 2

3 4

5 6

7 9

10

12

13

12

13

14

15

12

13

14

15

Analizar los datos utilizando una grfica de caja.


Solucin:
?

Calculamos la mediana, para ello ordenamos los datos en forma creciente:


1 2
n = 20,

Me =

3 4

5 6

7 8

10

12

12

12

13

13

13

14

14

15

15

x(10) + x(11)
10 + 12
=
= 11 puntos
2
2

89

Medidas de dispersin y de forma

Ejemplo 3.17 (Continuacin).


?

Calculamos P25 = Q1 y P75 = Q3


5+6
13 + 13
= 5, 5 puntos
;
P(75) =
= 13 puntos
2
2
El recorrido intercuartlico es RI = P75 P15 = 13 5, 5 = 7, 5 puntos
P(25) =

U = xmx = 15,

L = xmn = 1

Los datos atpicos (discordantes, outliers (aislados)) son aquellos que se encuentran fuera del intervalo
[P25 1, 5RI; P75 + 1, 5RI] = [5, 5 1, 5(7, 5); 13 + 1, 5(7, 5)] = [5, 75; 24, 25]
Todos los datos estn en el intervalo mencionado, entonces no hay datos atpicos.
En este caso Me P25 = 5, 5 puntos y P75 Me = 2, entonces la distribucin de los datos tiene asimetra negativa.

OBSERVACIONES:
?

En una distribucin con asimetra negativa: Me P25 > P75 Me

En una distribucin con simtrica: Me P25 = P75 Me

En una distribucin con asimetra positiva: Me P25 < P75 Me

CUESTIONARIO
1 Las longitudes de rutas de autobs para un sistema de transito particular varan por lo comn de una ruta a
otra. En un artculo de la Planing City Buss Routes aparece la siguiente informacin acerca de las longitudes
en kilmetros para un determinado sistema (Suponer L :longitud en kilmetros, F :frecuencias)

L
F

90

[6 8i [8 10i [10 12i [12 14i [14 16i [16 18i [18 20i [20 22i [22 24i [24 26i [26 28i [28 30]
6

23

30

35

32

48

Trace el histograma de frecuencias absolutas simples.

42

40

28

27

26

Medidas de dispersin y de forma

Qu porcentaje de rutas tienen longitudes inferiores a 20 km? Rta:

Cul es la longitud de la ruta mediana? Rta:

La mayor parte de las rutas tienen longitudes de

Las rutas en promedio tienen longitudes de

El 25% de las rutas ms cortas tienen longitudes inferiores o iguales a

El 25% de las rutas ms largas tienen longitudes superiores o iguales a

El 50% de las rutas ms cortas tienen longitudes inferiores o iguales a

El 50% de las rutas ms largas tienen longitudes superiores o iguales a

Trace el diagrama de caja para estos datos.

La longitud mnima del 40% de las rutas ms largas es de

kms. aprox.

La longitud mxima del 40% de las rutas ms cortas es de

kms. aprox.

La longitud mnima del 10% de las rutas ms largas es de

kms. aprox.

La longitud mxima del 10% de las rutas ms cortas es de

kms. aprox.

La longitud mnima del 30% de las rutas ms largas es de

kms. aprox.

La longitud mxima del 30% de las rutas ms cortas es de

kms. aprox.

aprox.
aprox.
kms. aprox.
kms. aprox.
kms. aprox.
kms. aprox.

Los datos presentados agrpelos en una tabla de frecuencias con intervalos de amplitud 4, luego:

Halle la varianza y la desviacin estndar de los datos. Rta:

La dispersin relativa de las longitudes de las rutas es de

Calcule e interprete el coeficiente de asimetra de Pearson, luego interprete. Rta:

aprox.

Interpretacin:

Calcule e interprete el coeficiente de curtosis, luego interprete. Rta:


Interpretacin:

2 Las siguientes tablas se refieren a los puntajes obtenidos en un examen de BECAS Internacionales por los alumnos de las carreras de Matemtica y Fsica de todo el Per.

91

Medidas de dispersin y de forma

MATEMTICA
Punta jes
[ 21 29i

yi

ni
6

[ 29 37i
[ 37 45i

Ni

16
14

30

[ 45 53i

44

[ 53 61i

54

[ 61 69i

60

FSICA

C
V

Punta jes

yi

ni

Ni

[ 21 29i

[ 29 37i

11

[ 37 45i

28

[ 45 53i

39

[ 53 61i

48

[ 61 69i

60

total

C
V

Los estudiantes de Matemtica en promedio tienen un puntaje de

Los estudiantes de Fsica en promedio tienen un puntaje de

La mayor parte de los estudiantes de Matemtica tienen un puntaje de

El 50% los estudiantes de Matemtica, de menor calificacin, tienen un puntaje igual o


inferior a

aprox.
aprox.

El 50% los estudiantes de Matemtica, de menor calificacin, tienen un puntaje igual o


aprox.

La mayor parte de los estudiantes de Fsica tienen un puntaje de

Cul de los grupos de puntajes est ms disperso?

El 50% los estudiantes de Fsica, de mayor calificacin, tienen un puntaje igual o superior
a

aprox.

aprox.

El 10% de los estudiantes de Matemtica, de menor puntaje, tienen un puntaje igual o inferior
a

aprox.

El 10% de los estudiantes de Matemtica, de mayor puntaje, tienen un puntaje igual o superior
a

aprox.

El 25% de los estudiantes de Matemtica, del cuarto superior, tienen un puntaje igual o superior
a

aprox.

El 25% de los estudiantes de Matemtica, del cuarto inferior, tienen un puntaje igual o inferior
a

aprox.

El 50% los estudiantes de Fsica, de mayor calificacin, tienen un puntaje igual o inferior
a

aprox.

aprox.

superior a

total

aprox.

Calcule el coeficiente de asimetra de Pearson para los datos de los estudiantes de Fsica, luego interprete.
Rta:
Interpretacin:

Calcule la Krtosis para los datos de los estudiantes de Matemtica, luego interprete. Rta:
Interpretacin:

Suponiendo que un solo grupo de estudiantes, por buen rendimiento, se hace merecedor a un premio
adicional, que grupo de estudiantes se lleva el premio y Cul es el puntaje total acumulado por este
grupo?.

92

Medidas de dispersin y de forma

Dibuje la curva de frecuencias para los datos del grupo de los matemticos y los fsicos ubicando X, Me y
Mo.

3 Se seleccionaron tres tipos distintos de cables de acero y se estableci el lmite de ruptura (medido en Kilonewtons KN) frente a tensiones altas, para cada muestra con resultados siguientes
Tipo I

350

350

350

358

370

370

370

371

371

372

372

384

391

391

392

395

Tipo II

350

354

359

363

365

368

369

371

373

374

376

380

383

388

392

400

Tipo III

350

361

362

364

364

365

366

371

377

377

377

379

380

380

392

392

Trace el diagrama de cajas comparativo y comente las diferencias y semejanzas.

Que grupo de datos es mas disperso.

Que grupo de datos es relativamente ms disperso.

4 Si la media de 75 artculos es de 52, 6 galones y la de 25 artculos es de 48, 4 galones, calcule la media de los 100
artculos.

5 De 500 estudiantes de educacin secundaria cuya estatura media es de 1, 57m, 150 son mujeres. Si la estatura
media de las mujeres es de 1, 52m. Cul es la estatura media de todos los varones?

6 Se propone a los estudiantes de Historia un examen difcil, resulta que la mayora de los estudiantes obtendrn
calificaciones bajas y solo algunos destacaran con notas altas. Qu tipo de asimetra tendr la distribucin de
sus calificaciones?.

7 Carlos se presenta a dos exmenes, uno de Historia y otro de Fsica. En Historia la media de las notas de su
grupo es de 80 pts (la nota mxima es 100pts), con una varianza de 16pts2 . En Fsica la media de las notas de
su grupo tambin es 80pts con una varianza de 9pts2 . Carlos obtuvo 90pts en Historia y 92pts en Fsica. Qu
puede decir de estos resultados?, En qu examen tiene mejor rendimiento relativo?.

8 En una regin, resulta que los precios de ciertos productos en la zona turstica para los mismos productos son
mucho ms caros que en las zonas rurales. A continuacin se muestra el precio en dlares de 5 productos de la
zona turstica {3, 4, 4, 6, 8} y los productos de la zona rural {2, 2, 3, 4, 4}. Estandarice el 4 en ambas distribuciones,
compare los resultados, luego diga donde resulta ms caro el producto de 4 dlares.

9 Se toma nota de las edades de un grupo de inmigrantes recin llegados a un centro de la Cruz Roja y son
{20, 20, 22, 24, 24}. Cul sera la media y la mediana?. Suponga que llega otro grupo igual excepto que una
persona tiene 26 aos en vez de 24. Cmo afecta eso la media?, cmo afecta a la mediana? y cmo afecta a la
dispersin tpica?.

10 El volumen de ventas de La TELEFNICA en el 2010 se reparte de la siguiente manera


?

Dentro de la telefona mvil fue de 7, 51 millones de dlares, mientras que la media en el sector fue de 6, 61
millones de dlares y la varianza de 86, 5 millones de dlares2 .

En el caso de la telefona fija, las ventas fueron de 8, 41 millones de dlares, mientras que la media del
sector fue de 7, 2 millones de dlares y la varianza de 117, 79 millones de dlares2 .
93

Medidas de dispersin y de forma

En qu tipo de telefona obtiene ms utilidades?

11 Se realiz un estudio de cmo influye la violencia social y poltica en los riesgos de de complicacin de embarazo en mujeres de edades entre 19 y 40 aos inscritas en cuidados prenatales en el Hospital Regional de
Huamanga, los siguientes datos muestran el nmero de complicaciones prenatales durante el embarazo de 12
mujeres. Calcule e interprete el coeficiente de asimetra de Pearson y la curtosis.
2

10

12 Una fbrica de beeper A, asegura que en promedio los beeper fallan a los 2 aos continuos de uso con desviacin
estndar de S = 0, 96 aos. Otra fbrica B de la competencia asegura que en promedio los beeper fallan a los 2
aos de uso con desviacin estndar de S = 1, 3 aos. En cul de las dos fbricas presenta mayor dispersin
relativa?

13 Las ayudas concedidas, en millones de pesetas, por el Fondo Europeo para el Desarrollo Regional (FEDER) a
62 proyectos espaoles vienen reflejadas en la siguiente tabla:
importe de ayuda

[0 100i

[100 250i

[250 500i

[500 1000i

n de proyectos

12

15

20

15

Calcula la ayuda media y la desviacin tpica.

Representa el histograma pertinente.

Calcula la ayuda mxima concedida al 60% de los proyectos menos favorecidos en el reparto.

Estudia la concentracin de las ayudas.

Si para el ao siguiente las ayudas aumentan un 5% sobre el valor inicial, mantenindose el criterio del
reparto, cul ser ahora la ayuda media y la desviacin tpica?

Supongamos que queremos contactar con el 20% de as empresas a quienes han sido concedidas estas
ayudas, pero no queremos que sean ni las empresas que ms han recibido, ni las que menos, sino que
queremos quedarnos con el 20% centrales. Entre qu valores se mueven las ayudas concedidas a este
grupo de empresas?

Calcula la asimetra y la curtosis de esta distribucin.

14 En un barrio de una gran ciudad espaola se ha constatado que las familias residentes se han distribuido, segn
su composicin (nmero de integrantes), de la siguiente forma:
Composicin

[0 2i

[2 4i

[4 6i

[6 8i

[8 10i

110

200

90

75

25

Familias
a

Cul es el nmero medio de personas por familia?

Cul es el tipo de familia ms usual?

Si slo hubiera plazas de aparcamiento para el 50% de las familias, y stas se atendieran de mayor a menor
nmero de miembros, Cuntos componentes debera tener una familia para entrar en el cupo?

Si el coeficiente de variacin de Pearson de otro barrio de la misma ciudad es 1,8; cul de los dos barrios puede ajustar mejor sus previsiones en base al diferente nmero de miembros de las familias que lo
habitan?

Si el ayuntamiento concede una ayuda de 5 000 ptas. fijas por familia, ms 10000 ptas. por cada miembro
de la unidad familiar, determinar el importe medio por familia y la desviacin tpica.

94

Nmero de miembros que tienen como mximo el 85% de las familias menos numerosas.

Medidas de dispersin y de forma

15 La distribucin de acciones de una sociedad es:


acciones

[0 50i [50 100i [100 150i [150 200i [200 250i [250 300i [300 350i [350 400]

accionistas

23

72

62

48

19

14

Calcular el nmero medio de acciones que posee un accionista.

Nmero de acciones que ms frecuentemente posee un accionista.

Nmero de acciones que debe poseer un accionista para que la mitad de los restantes tengan menos acciones que l.

Asimetra y curtosis de esta distribucin.

16 Se ha realizado un estudio de las rentas de alquiler de 390 viviendas (donde la renta viene dada en miles de
pesetas), en una poblacin de tamao medio, obtenindose
Tipos de alquiler

0-25

25-50

50-100

100-150

150-200

nmero de viviendas

20

140

180

40

10

Qu porcentaje de alquileres es superior a 100 000 pts? Cul es el alquiler ms frecuente?

En qu intervalo se encuentra el 50% de los alquileres ms bajos?, y el 30% de los ms altos?

El propietario de la vivienda debe pagar el 10% del precio que establece como alquiler, ms una cantidad
fija de 3000 ptas., al Ayuntamiento, en concepto de impuestos, cul es el impuesto medio que se ha de
pagar?

17 Supongamos que dos empresas desean repartir beneficios entre sus cuatro principales accionistas, y que el
reparto se realiza de la siguiente forma:
Empresa A

Empresa B

1er accionista

100 000$

1 200000$

2do accionista

500 000$

1 300000$

3er accionista

300 000$

1 400000$

4to accionista

100 000$

1 100000$

Cul de los dos repartos el ms equitativo?

18 La distribucin de la superficie de los 90 despachos que se han construido en un nuevo edificio comercial es:
Superficie (m2)

[40 60i

[60 80i

[80 120i

[120 200i

[200 400i

N oficinas

12

16

20

32

10

Cul es la superficie media de un despacho? Y el tamao de despacho ms comn?

Se puede considerar el tamao medio que acabamos de calcular como representativo de la superficie total
de los despachos?

Qu tamao mnimo debe tener una oficina para poder ser considerada en el grupo del 15% de las ms
grandes?.

Qu porcentaje de oficinas tienen ms de 80 metros cuadrados de superficie?

Calcule e interprete la asimetra y curtosis de esta distribucin.


95

Medidas de dispersin y de forma

ANOTACIONES:

96

4
4.1

Distribuciones bidimensionales

Variables bidimensionales

A cerca de un grupo de individuos podemos estudiar ms de una variable, por ejemplo de un grupo de estudiantes
de la UNSCH observamos su edad, ndice acadmico, distrito de residencia, nmero de crditos aprobados, carrera
profesional que estudia, etc.
Cuando estudiamos a dos variables en conjunto estamos en un caso de variable bidimensional, cada unidad de
anlisis de una muestra o poblacin responde con un dato del tipo (X,Y ) a una variable bidimensional, veamos el
siguiente
Ejemplo 4.1
Supongamos que de un grupo de 10 estudiantes de la Facultad de Derecho matriculados en ES-150 se investig el
nmero de horas que se dedic en todo octubre de 2014 exclusivamente a estudiar Estadstica y el puntaje obtenido
en el segundo examen parcial. Como resultado de la pesquisa se obtiene la siguiente informacin:
Estudiante Nro

10

Nro de horas de estudio

12

12

10

15

10

12

12

Ptje en el 2do examen

130

124

100

165

160

140

83

155

50

126

Aqu tenemos dos variables (la primera es el nmero de horas de estudio de estadstica en octubre y la segunda es
el puntaje en el segundo examen parcial) que se observ a una sola muestra, estas dos variables en conjunto es un
ejemplo de variable bidimensional, las dos variables que constituyen la variable bidimensional son c/u cuantitativas.

Las variables bidimensionales estn constituidas de dos variables que sern llamadas componentes de la variable
bidimensional, las variables componentes pueden ser de cualquier tipo, por ejemplo
1

cuantitativa cuantitativa,

cuantitativa cualitativa,

cualitativa cuantitativa,

cualitativa cualitativa,

cuantitativa discreta cuantitativa continua, etc.

Observaciones:
1

Si de una muestra que tiene n elementos extraemos los datos correspondientes a una variable bidimensional,
dichos datos son de la forma: (x1 , y1 ); (x2 , y2 ); (x3 , y3 ); ; (xn , yn ), esto es debido a que una variable bidimensional
suele denotarse por (X,Y ).

Tambin existen variables tridimensionales, o ms aun multidimensionales.

Para variables bidimensionales, es posible que una de las variables dependa de la otra, si este es el caso e Y
depende de X entonces a X le denominamos variable independiente y a Y variable dependiente.
97

Distribuciones bidimensionales

4.2
4.2.1

Tablas de distribucin de frecuencias para variables bidimensionales

Tablas para variables bidimensionales con componentes cuantitativas

Sean (b
x1 , yb1 ); (b
x2 , yb2 ); (b
x3 , yb3 ); . . . ; (b
xn , ybn ); los datos correspondientes a una variable bidimensional (X,Y ) extradas de
una muestra que posee n elementos (a estos datos los denominaremos, datos originales de la variable (X,Y ))
Para la variable X, asumiendo que es cuantitativa, sean x1 , x2 , x3 , , xk los valores diferentes que toman los xbi .
Para la variable Y , asumiendo que es cuantitativa, sean y1 , y2 , y3 , , yr los valores diferentes que toman los ybj .
Suponiendo que se ordenan los valores diferentes de los datos de cada variable como sigue x1 < x2 < x3 < < xk
, y1 < y2 < y3 < < yr , y que los nmeros k y r son pequeos en comparacin con el nmero de datos n, entonces
tenemos la siguiente tabla bidimensional de distribucin de frecuencias absolutas simples
r

HH
HH Y
H
X
H
H

y1

x1

n11

n12

n13

...

n1 j

...

n1r

n1

x2

n21

n22

n23

...

n2 j

...

n2r

n2

x3
..
.

n31
..
.

n32
..
.

n33
..
.

...
..
.

n3 j
..
.

...
..
.

n3r
..
.

n3
..
.

xi
..
.

ni1
..
.

ni2
..
.

ni3
..
.

...
..
.

ni j
..
.

...
..
.

nir
..
.

ni
..
.

xk

nk1

nk2

nk3

...

nk j

...

nkr

nk

ni j

n1

n2

n3

...

n j

...

nr

y2

...

y3

yj

...

yr

ni j

j=1

k
i=1

donde los valores diferentes de los datos de la variable X se disponen ordenadamente en la primera columna y los
valores diferentes de los datos de la variable Y se disponen ordenadamente en la primera fila.

Definicin 4.1
Los nmeros ni j , con i = 1, , k y j = 1, , r, se denominan frecuencias absolutas simples. Cada ni j es el nmero de
datos que son iguales a (xi , y j ) en el grupo de los datos originales de la variable (X,Y ).

Observaciones y propiedades:
1

Cada frecuencia absoluta simple ni j es un nmero entero no negativo.

Una de las frecuencias absolutas simples puede ser igual a CERO, pero no todas la frecuencias absolutas simples
de una fila o columna.

Cada ni es la suma de todas las frecuencias absolutas simple de la ifila, es decir:


r

Para la fila 1: n1 = n11 + n12 + n13 + + n1r =

n1 j ;

j=1
r

Para la fila 2: n2 = n21 + n22 + n23 + + n2r =

n2 j ;

j=1
r

Para la fila 3: n3 = n31 + n32 + n33 + + n3r =

n3 j ; etc.

j=1

98

Distribuciones bidimensionales

Cada n j es la suma de todas las frecuencias absolutas simple de la jcolumna, es decir:

Para la columna 1: n1 = n11 + n21 + n31 + + nk1 = ni1 ;


i=1
k

Para la columna 2: n2 = n12 + n22 + n32 + + nk2 = ni2 ;


i=1
k

Para la columna 3: n3 = n13 + n23 + n33 + + nk3 = ni3 ; etc.


i=1

El nmero n es la suma de todas los n j , es decir, n = n1 + n2 + + nr =

n j .

j=1

El nmero n es la suma de todas los ni , es decir, n = n1 + n2 + + nk = ni .


i=1

El nmero n es igual al nmero de datos n.

4.2.2 Frecuencias relativas


Definicin 4.2
Los nmeros hi j , con i = 1, , k y j = 1, , r, se denominan frecuencias relativas simples. Cada hi j es la proporcin
con respecto del total del nmero de datos que son iguales a (xi , y j ) en el grupo de los datos originales de la variable
(X,Y ), es decir
hi j =

ni j
n

Luego de definirse las frecuencias relativas simple tenemos la siguiente tabla bidimensional de distribucin de
frecuencias relativas simples
r

HH
Y
H
H
X
H
H

y1

y2

y3

...

yj

...

yr

hi j

j=1

x1

h11

h12

h13

...

h1 j

...

h1r

h1

x2

h21

h22

h23

...

h2 j

...

h2r

h2

x3
..
.

h31
..
.

h32
..
.

h33
..
.

...
..
.

h3 j
..
.

...
..
.

h3r
..
.

h3
..
.

xi
..
.

hi1
..
.

hi2
..
.

hi3
..
.

...
..
.

hi j
..
.

...
..
.

hir
..
.

hi
..
.

xk

hk1

hk2

hk3

...

hk j

...

hkr

hk

hi j

h1

h2

h3

...

h j

...

hr

h = 1

k
i=1

esta tabla se obtiene de la penltima tabla dividiendo cada frecuencia entre n.


99

Distribuciones bidimensionales

Ejemplo 4.2
De las 40 empresas formales de la ciudad de Huamanga, se considera a la variable X: nmero de accionistas, y la
variable Y : nmero de sucursales que posee a nivel nacional. Los datos son:

Empresa Nro

10

11

12

13

14

15

16

17

18

19

20

Empresa Nro

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

Elabore la tabla bidimensional de distribucin de frecuencias absolutas simples.

Solucin
?

Tenemos 40 datos presentados en un recuadro, se debe suponer que se tratan datos del tipo (x, y). Al hacer
algunas identificaciones tenemos: (x1 , y1 ) = (6, 2); (x9 , y9 ) = (5, 3), , (x20 , y20 ) = (4, 1), , (x30 , y30 ) = (5, 4), ,
(x40 , y40 ) = (5, 1), etc.

Los valores diferentes de los datos correspondientes a la variable X son 4, 5, 6, 7, 8 y 9 a los cuales los denotaremos por
x1 = 4, x2 = 5, x3 = 6, x4 = 7, x5 = 8 y x6 = 9.

Los valores diferentes de los datos correspondientes a la variable Y son 1, 2, 3, 4 y 5 a los cuales los denotaremos
por
y1 = 1, y2 = 2, y3 = 3, y4 = 4 y y5 = 5.

A cada xi , donde i = 1, 2, 3, 4, 5, 6, los disponemos en la primera columna de la tabla en forma ordenada (de
arriba hacia abajo).

A cada y j , donde j = 1, 2, 3, 4, 5, los disponemos en la primera fila de la tabla en forma ordenada (de izquierda
a derecha).

100

La tabla tendr un ttulo y una fuente de informacin como sigue.

Distribuciones bidimensionales

EMPRESAS FORMALES DE LA CIUDAD DE HUAMANGA SEGN NMERO DE ACCIONISTAS


Y NMERO DE SUCURSALES A NIVEL NACIONAL
hhhh
hhhh

hhh Y : Nro de sucursales


hhhh
hhh
X: Nro de accionistas
hhh

y1 = 1

y2 = 2

y3 = 3

y4 = 4

y5 = 5

ni j

j=1

x1 = 4
x2 = 5
x3 = 6
x4 = 7
x5 = 8
x6 = 9
6

ni j

i=1

FUENTE: CMARA DE COMERCIO DE AYACUCHO

Interpretemos algunas frecuencias absolutas


?

n11 =

, significa que

sucursales a nivel nacional cada uno.

n22 =

, significa que

sucursales a nivel nacional cada uno.

n32 =

, significa que

sucursales a nivel nacional cada uno.

n53 =

, significa que

cionistas y
?

n45 =
cionistas y

empresas formales de la ciudad de Huamanga poseen

empresas formales de la ciudad de Huamanga poseen

empresa formal de la ciudad de Huamanga posee

, significa que

empresa formal de la ciudad de Huamanga posee

, significa que

empresas formales de la ciudad de Huamanga poseen

sucursales a nivel nacional cada uno.

n2 =

, significa que

empresas formales de la ciudad de Huamanga que tienen


o

, significa que

n2 =

accionistas

ac-

ac-

, significa que

accionistas

sucursales

accionistas.

empresas formales de la ciudad de Huamanga que tienen

a nivel nacional poseen entre


?

accionistas

sucursales a nivel nacional.

n23 =

n2 =

accionistas

sucursales a nivel nacional.

a nivel nacional poseen


?

empresas formales de la ciudad de Huamanga poseen

sucursales

accionistas.

empresas formales de la ciudad de Huamanga poseen

sucursales a

nivel nacional cada uno.


?

n4 =

, significa que

a nivel nacional poseen

empresas formales de la ciudad de Huamanga que tienen


o

sucursales

accionistas.
101

Distribuciones bidimensionales

, significa que

n4 =

empresas formales de la ciudad de Huamanga que tienen


y

a nivel nacional poseen entre


?

, significa que

n4 =

sucursales

accionistas.

empresas formales de la ciudad de Huamanga poseen

sucursales a

nivel nacional cada uno.


?

, significa que

n5 =

empresas formales de la ciudad de Huamanga que tienen

a nivel nacional poseen


?

, significa que

n5 =

, significa que

n5 =

accionistas.

empresas formales de la ciudad de Huamanga que tienen

a nivel nacional poseen entre


?

sucursales

accionistas, pero no

sucursales

accionistas.

empresas formales de la ciudad de Huamanga poseen

sucursales a

nivel nacional cada uno.


?

, significa que

n3 =
poseen

, significa que

n3 =

poseen entre
?

empresas formales de la ciudad de Huamanga que tienen 6 accionistas

n3 =

sucursales a nivel nacional.

empresas formales de la ciudad de Huamanga que tienen 6 accionistas


sucursales a nivel nacional.

, significa que

empresas formales de la ciudad de Huamanga poseen

accionistas

, significa que

empresas formales de la ciudad de Huamanga tienen 4 accionistas poseen

cada uno.
?

n1 =
o

n1 =
entre

n1 =

sucursales a nivel nacional.

, significa que
y

empresas formales de la ciudad de Huamanga tienen 4 accionistas poseen

sucursales a nivel nacional.

, significa que

empresas formales de la ciudad de Huamanga poseen

accionistas

, significa que

empresas formales de la ciudad de Huamanga que tienen 8 accionistas

cada uno.
?

n5 =
poseen

sucursales a nivel nacional.

Interpretemos algunas frecuencias relativas


?

h22 =

poseen
?

h32 =

accionistas y
=

h2 =

de cada

de cada

h2 =

poseen
?

h3 =

, significa que

de cada

, significa que

h3 =
poseen

102

empresas formales de la ciudad de Huamanga


y

de cada

accionistas.
empresas formales de la ciudad de Huamanga

sucursales a nivel nacional cada uno.


=

, significa que

tienen 6 accionistas y poseen entre


?

empresas formales de la ciudad de Huamanga

sucursales a nivel nacional cada uno.

tienen 2 sucursales a nivel nacional y poseen entre


?

empresas formales de la ciudad de Huamanga

sucursales a nivel nacional cada uno.

, significa que
accionistas y

poseen
?

, significa que

, significa que
accionistas cada uno.

de cada
y

empresas formales de la ciudad de Huamanga

sucursales a nivel nacional.


de cada

empresas formales de la ciudad de Huamanga

Distribuciones bidimensionales

4.2.3

Tablas para variables bidimensionales con una componente cuantitativa y otra cualitativa

En el siguiente ejemplo veremos un caso en el cual una variable bidimensional esta constituida por una variable cuantitativa y otra cualitativa, el diseo de la tabla bidimensional de frecuencias es similar al de variables bidimensionales
con componentes cuantitativas.

Ejemplo 4.3
De los 40 ingresantes a la Facultad de Enfermera a la UNSCH del ao 2010 se estudi la variable bidimensional
(X,Y ), donde X es la edad en aos e Y es el distrito de residencia de los ingresantes, la tabla bidimensional es:
INGRESANTES A LA FACULTAD DE ENFERMERA DE LA UNSCH AO 2010

Carmen
Alto

San Juan
Bautista

Jess
Nazareno

hhh

Ayacucho

SEGN EDAD Y DISTRITO DE RESIDENCIA

n1 =

18

n2 =

20

n3 =

21

n4 =

22

n5 =

25

n6 =

n1 =

n2 =

n3 =

n4 =

n =

hhYh: Distrito de residencia


hhhh
hhh
X: Edad en aos
hhh
h
17
hhhh

SUMAS

FUENTE: COMISIN DE ADMISINUNSCH

Complete la tabla anterior.

Interprete las siguientes frecuencias


?

n22 =

: Significa que

n42 =

: Significa que

n24 =

: Significa que

n5 =

: Significa que

n5 =

: Significa que

SUMAS

103

Distribuciones bidimensionales

n3 =

: Significa que

n3 =

: Significa que

4.3

Manejo de calculadoras para variables bidimensionales

En esta subseccin presentamos los pasos para el manejo de calculadoras con estadsticas bidimensionales, como
estamos familiarizados con el manejo de calculadoras para estadsticas unidimensionales los pasos son similares, por
ello presentaremos algunos pasos adicionales para tal fin.
1

En una calculadora que no posee tabla, para ingresar al modo estadstico de dos variables (REG) presione las
teclas:

REG

MODE A

LIN

en la pantalla de la calculadora aparecer REG en letras pequeas.


2

En una calculadora que posee tabla, para ingresar al modo estadstico de dos variables presione las teclas:
STAT

MODE A

A+BX

A
X

FREQ

en la pantalla de la calculadora aparecer la siguiente tabla: 1


2
3
Ejemplo 4.4
En el siguiente recuadro presentamos a 5 datos de una variable bidimensional.
X

10

15

12

Utilice su calculadora para realizar algunos clculos.

Solucin:
Para calculadoras que no poseen tablas
1

Ingrese al modo estadstico de dos variables.

Ingrese los datos

Primer dato: 5 A, A 1 2 M+ ? Segundo dato: 7 A, A 8 M+

Tercer dato: 1 0 A, A 9 M+

Quinto dato: 1 5 A, A 6 M+

Cuarto dato: 4 A, A 4 M+

Luego de culminar con el ingreso de los datos presione la tecla AC , los datos estn en la memoria de la
calculadora.

104

Distribuciones bidimensionales

SSUM

Para obtener algunas sumas presione las teclas SHIFT A

, en pantalla obtendr varias opciones de

sumas, obtengamos algunas sumas:


X2 =

X =

n=

Y 2 =

Y =

XY =
SVAR

Para obtener algunos promedios y desviaciones presione las teclas SHIFT A

, en pantalla obtendr

varias opciones de clculo, obtengamos algunos de ellos:


X=

Xn =

Xn1 =

Y=

Y n =

Y n1 =

A=

B=

r=

Dependiendo del modelo de calculadora: Xn = X , Xn1 = SX , Y n = Y , Y n1 = SY


Para calculadoras que poseen tablas
1

Ingrese al modo estadstico de dos variables.


X

FREQ

5
7
10
4
15

12
8
9
4
6

1
1
1
1
1

Ingrese los datos hasta que en pantalla aparezca la tabla

Luego de culminar con el ingreso de los datos presione la tecla roja AC .

Para obtener algunas sumas presione las teclas SHIFT 1 A

SUM

, en pantalla obtendr varias opciones

de sumas, obtengamos algunas sumas:


X2 =

X =

Y 2 =

Y =

XY =

X3 =
VAR

Para obtener algunos promedios y desviaciones presione las teclas SHIFT 1 A

, en pantalla ob-

tendr varias opciones de clculo, obtengamos algunos de ellos:


X=

Xn =

Xn1 =

Y=

Y n =

Y n1 =

Dependiendo del modelo de calculadora: Xn = X , Xn1 = SX , Y n = Y , Y n1 = SY


REG

Para obtener otros nmeros presione las teclas SHIFT 1 A

, en pantalla obtendr varias opciones

de clculo, obtengamos algunos de ellos:


A=

B=

r=
105

Distribuciones bidimensionales

Ejemplo 4.5
Utilice su calculadora para obtener algunos resultados a partir de la siguiente tabla
X

Solucin:

4.4

X2 =

X =

n=

Y 2 =

Y =

XY =

X=

Xn =

Xn1 =

Y=

Y n =

Y n1 =

A=

B=

r=

Tablas bidimensionales con intervalos

Cuando tratemos con variables bidimensionales con componentes cuantitativas, es posible que los datos da cada
variable componente se agrupen en intervalos

Ejemplo 4.6
A continuacin se presenta la tabla que indica Y: el tiempo de servicios (aos) y X: los ingresos mensuales (dlares)
correspondientes a los 40 empleados bancarios de la financiera AVIRA.
TRABAJADORES DE LA FINANCIERA AVIRA SEGN TIEMPO DE SERVICIOS (aos)
E INGRESOS MENSUALES (dlares)
yi

HH

11

15

19

23

27

[5 9i

[9 13i

[13 17i

[17 21i

[21 25i

[25 29]

285

HH Y
[1 5i
H
X
H
H
[268 302 >
4

319

[302 336 >

353

[336 370 >

387

[370 404 >

421

[404 438 >

455

[438 472 >

xi

ni

n j
X: los ingresos mensuales (dlares)

Y : el tiempo de servicios (aos)

FUENTE: OFICINA DE PERSONAL DE LA FINANCIERA AVIRA


Interprete algunas frecuencias

106

Distribuciones bidimensionales

, significa que

n24 =

empleados de la financiera AVIRA tienen ingresos mensuales mayores o

iguales a
dlares y menores a
y menores a

aos

aos.

, significa que

n32 =

dlares; tiempos de servicio mayores o iguales a

empleados de la financiera AVIRA tienen ingresos mensuales mayores o

iguales a
dlares y menores a
y menores a

dlares; tiempos de servicio mayores o iguales a

aos.

, significa que

n34 =

aos

empleado de la financiera AVIRA tiene su ingreso mensual mayor o

igual a
dlares y menor a
menor a

dlares; tiempo de servicio mayor o igual a

aos.

, significa que

n46 =

aos y

empleado de la financiera AVIRA tiene su ingreso mensual mayor o

igual a
dlares y menor a
menor a

aos y

aos.

, significa que

n2 =

dlares; tiempo de servicio mayor o igual a

empleados de la financiera AVIRA tienen ingresos mensuales mayores o

iguales a
dlares y menores a

, significa que

n4 =

dlares.

empleados de la financiera AVIRA tienen ingresos mensuales mayores o

iguales a
dlares y menores a

, significa que

n3 =
iguales a

iguales a

iguales a

4.5

aos.

empleados de la financiera AVIRA tienen tiempos de servicio mayores o

aos y menores a

, significa que

n7 =

empleados de la financiera AVIRA tienen tiempos de servicio mayores o

aos y menores a

, significa que

n5 =

dlares.

aos.

empleados de la financiera AVIRA tienen tiempos de servicio mayores o

aos y menores o iguales a

aos.

Distribuciones Marginales

Cuando trabajamos con variables bidimensionales y queremos hallar las distribuciones de frecuencias de cada una
de manera independiente, nos encontramos con las distribuciones marginales.
Sea la tabla bidimensional de distribucin de frecuencias absolutas simples
107

Distribuciones bidimensionales

HH
Y
H
HH
X
H
H

y1

y2

y3

...

yj

...

yr

ni

x1

n11

n12

n13

...

n1 j

...

n1r

n1

x2

n21

n22

n23

...

n2 j

...

n2r

n2

x3
..
.

n31
..
.

n32
..
.

n33
..
.

...
..
.

n3 j
..
.

...
..
.

n3r
..
.

n3
..
.

xi
..
.

ni1
..
.

ni2
..
.

ni3
..
.

...
..
.

ni j
..
.

...
..
.

nir
..
.

ni
..
.

xk

nk1

nk2

nk3

...

nk j

...

nkr

nk

n j

n1

n2

n3

...

n j

...

nr

Las distribuciones de cada variable son


DISTRIBUCIN MARGINAL DE Y

DISTRIBUCIN MARGINAL DE X
Datos de

Frec. Abs.

Frec. Rel.

Datos de

Frec. Abs.

Frec. Rel.

ni

hi

n j

h j

x1

n1

h1

y1

n1

h1

x2

n2

h2

y2

n2

h2

x3
..
.

n3
..
.

h3
..
.

y3
..
.

n3
..
.

h3
..
.

xi
..
.

ni
..
.

hi
..
.

yj
..
.

n j
..
.

h j
..
.

xk

nk

hk

yr

nr

hr

Total

h = 1

Total

h = 1

Ejemplo 4.7
De la tabla obtenida en el ejemplo 4.2 obtenemos las distribuciones marginales de cada variable
DISTRIBUCIN MARGINAL DE X

DISTRIBUCIN MARGINAL DE Y

Nro de accionistas

Nro de Emprs.

Prop. de Emprs.

Nro de sucursales

Nro de Emprs.

Prop. de Emprs.

ni

hi

n j

h j

x1 = 4

n1 = 7

h1 = 0, 175

y1 = 1

n1 = 6

h1 = 0, 150

x2 = 5

n2 = 12

h2 = 0, 300

y2 = 2

n2 = 6

h2 = 0, 150

x3 = 6

n3 = 10

h3 = 0, 250

y3 = 3

n3 = 14

h3 = 0, 350

x4 = 7

n4 = 6

h4 = 0, 150

y4 = 4

n4 = 8

h4 = 0, 200

x5 = 8

n5 = 2

h5 = 0, 050

y5 = 5

n5 = 6

h5 = 0, 150

x6 = 9

n6 = 3

h6 = 0, 150

Total

n = 40

h = 1

Total

n = 40

h = 1

Observaciones:
1

Con las distribuciones marginales obtenidas de cada variable las medidas de tendencia central, de dispersin y
de forma sern obtenidas sin ninguna dificultad.

Tambin son posibles los clculos de la media y desviacin de cada variable sin obtener sus distribuciones
marginales, pera ello emplearemos calculadoras.

108

Distribuciones bidimensionales

Ejemplo 4.8
HH

Y
H
6
HH
X
H
H
5
3

Dada la siguiente tabla bidimensional de distribucin de frecuencias

ni

10

n j

20

Utilice su calculadora para obtener los resultados de:


X2

Y 2

XY

Xn

Xn1

Y n

Y n1

Dependiendo del modelo de calculadora: Xn = X , Xn1 = SX , Y n = Y , Y n1 = SY


Solucin: Lo resolveremos para ambos tipos de calculadora
PARA CALCULADORAS QUE POSEEN TABLAS
1

Ingrese al modo estadstico de dos variables


STAT

MODE A
2

PARA CALCULADORAS QUE NO POSEEN TABLAS


1

Ingrese al modo estadstico de dos variables


REG

A+BX

MODE A

Rellene la tabla que apareci hasta obtener

LIN

Ingrese cada dato y su frecuencia del siguiente


modo

FREQ

5 , 6 SHIFT , 3 M+

5
5
8
8
10
10

6
7
7
8
6
9

3
2
2
6
4
3

5 , 7 SHIFT , 2 M+
8 , 7 SHIFT , 2 M+
8 , 8 SHIFT , 6 M+
10 , 6 SHIFT , 4 M+
10 , 9 SHIFT , 3 M+

Presione la tecla AC y rellene el siguiente cuadro.


Observacin:
?

Presione la tecla AC y rellene el siguiente cuadro.


Observacin:

En la fila es que el dato (5, 6) tiene 3 repeti-

ciones.
?

ciones.

En la fila es que el dato (5, 7) tiene 2 repeti-

ciones.
?

En la fila es que el dato (5, 7) tiene 2 repeticiones.

En la fila es que el dato (8, 7) tiene 2 repeti-

ciones.
?

En la fila es que el dato (5, 6) tiene 3 repeti-

En la fila es que el dato (8, 7) tiene 2 repeticiones.

etc. Vea el recuadro principal de la tabla bidimensional.

etc. El ; separa al dato y su frecuencia.

X2 =

X =

n=

Y2

Y =

XY =

X=

Xn =

Xn1 =

Y=

Y n =

Y n1 =

A=

B=

r=

109

Distribuciones bidimensionales

4.6

Rectas en el plano cartesiano XY

Presentamos un breve resumen a cerca de rectas en el plano cartesiano XY , una recta posee varias ecuaciones las
cuales describen la relacin entre las coordenadas de cada uno de sus puntos, por ejemplo existe una recta en donde
todos sus puntos tienen su primera y segunda coordenadas iguales y la ecuacin de dicha recta es
y=x
La ecuacin anterior es un caso particular de
y = mx + b,
con m = 1 y b = 0.

La pendiente de una recta


La pendiente de una recta es un nmero real que mide su inclinacin con respecto al eje horizontal X, se define como
la tangente del ngulo que forma una recta con el eje X.

Origen de
coordenadas

q
0

X
tan q = pendiente de la recta L

Dependiendo del signo de la tangente de un ngulo presentamos los tres casos de inclinacin de una recta

L
L
X

X
recta con
pendiente
igual a cero

recta con
pendiente
negativa

Si una recta L tiene por ecuacin a

y = mx + b

X
recta con
pendiente
positiva

lo abreviaremos por

L : y = mx + b.
El nmero m es la pendiente de la recta L y el nmero b es la interseccin de la recta L con el eje Y .
?

Si b < 0, entonces la recta L pasa por debajo del origen de coordenadas.

Si b = 0, entonces la recta L pasa por el origen de coordenadas.

110

Distribuciones bidimensionales

Si b > 0, entonces la recta L pasa por encima del origen de coordenadas.

En los siguientes grficos veremos algunos ejemplos de una recta y su ecuacin:

4
2

X
-2

Recta L : y = x + 2,

Recta L : y = 2x + 4,

Recta L : y = x 2,

donde m = 1 y b = 2

donde m = 2 y b = 4

donde m = 1 y b = 2

Y
3

L
4

-4

Recta L : y = 2x 4,

Recta L : y = 3,

donde m = 2 y b = 4

donde m = 0 y b = 3

Recta L : x = 4, para rectas verticales no se definen su pendiente

111

Distribuciones bidimensionales

4.7

Regresin y Corelacin

Iniciamos esta subseccin con dos ejemplos

Ejemplo 4.9
Supongamos que a un grupo de 10 empleados de la financiera AV IRA se les gratific con dinero extra de acuerdo al
nmero de horas extras que laboraron durante el mes de octubre del 2014. Como resultado se obtiene el siguiente
cuadro:

Empleado Nro

10

X:

Nro de horas extras laboradas

10

10

12

15

15

15

18

18

20

20

Y:

Gratificacin (nuevos soles)

300

300

340

400

400

400

460

460

500

500

Existe alguna relacin entre las variables Y y X? Rta:

Pues:
2

Qu variable depende de la otra? Rta: La variable


es decir la

depende de la variable

depende del

Halle la relacin entre dichas variables. Rta:

Si el empleado nmero once durante octubre labor 17 horas extra, a cunto asciende su gratificacin?
Rta:

Si el empleado nmero doce tuvo S/. 260 de gratificacin, cuntas horas extra labor?
Rta:

Cmo lo denominara usted a la variable X? Rta:

Cmo lo denominara usted a la variable Y ? Rta:

Ejemplo 4.10
El siguiente cuadro muestra las edades y crditos acumulados de un grupo de 10 estudiantes de la UNSCH.

Estudiante Nro

10

X:

Edad (aos)

17

17

17

18

18

19

19

19

20

20

Y:

Nro de crditos

50

96

34

10

95

140

40

60

150

50

Existe alguna relacin entre las variables Y y X? Rta:

Pues:
2

Si usted tiene 17 aos de edad, cuntos crditos te corresponden?


Rta:

112

Cual es la variable independiente? Rta:

Cual es la variable dependiente? Rta:

pues
pues

.
.

Distribuciones bidimensionales

Trataremos con variables cuantitativas medibles Y y X; el objetivo es estudiar la asociacin entre dos variables conocida tambin como asociacin simple.
La primera forma del estudio de la asociacin entre las variables Y y X es la regresin, que consiste en determinar
una relacin entre ellas, con el fin de que se pueda predecir el valor de una variable en base a la otra.
La segunda forma del estudio de la asociacin entre las variables X e Y, es denominada correlacin, que consiste en
determinar la variacin conjunta de las dos variables, su grado de relacin.

4.7.1

Diagramas de Dispersin

Sean (x1 , y1 ); (x2 , y2 ); (x3 , y3 ); ; (xn , yn ), los datos correspondientes a una variable bidimensional (X,Y ). Denominaremos como diagrama de dispersin o nube de puntos, a la grfica de los datos (xi , yi ) de la variables bidimensional
(X,Y ) en el sistema cartesiano.

(a)

(b)

(c)

En la figura (a) se visualiza una relacin lineal entre las variables.

En la figura (b) se visualiza una relacin lineal entre las variables.

En la figura (c) se visualiza una relacin parablica entre las variables.

En la figura (d) no se visualiza una relacin entre las variables.

Una observacin

! muy importante

(d)

Al obtener la nube de puntos para un conjunto de datos de una variable bidi-

mensional, se ve la tendencia de tales puntos en el sentido de que se asemeja a una curva conocida, el objetivo es
determinar esa curva y su ecuacin a la cual ms se ajusta la nube de puntos a este proceso se denomina regresin y
para analizar la validez de una regresin utilizamos el coeficiente de correlacin.
Nos concentraremos en el estudio de la regresin lineal simple, cuando el diagrama de dispersin se asemeje a una
recta y obtendremos la ecuacin de la recta de regresin que tendr la forma
Y = A + BX,
donde los coeficiente A y B se obtendrn con el mtodo de los mnimos cuadrados que presentamos ms adelante.

4.7.2

La covarianza y el coeficiente de correlacin

Sean (x1 , y1 ); (x2 , y2 ); (x3 , y3 ); ; (xn , yn ), los datos correspondientes a una variable bidimensional (X,Y ), donde cada
una de las variables Y y X son cuantitativas.
?

Sea X la media de los datos de la variable X,

Sea Y la media de los datos de la variable Y ,

Los nmeros xi X son las desviaciones de cada dato con respecto a su media en la variable X,
113

Distribuciones bidimensionales

Los nmeros yi Y son las desviaciones de cada dato con respecto a su media en la variable Y ,

Con los nmeros anteriores generamos los productos (xi X)(yi Y ) que los denotaremos por Zi ,

Al promedio de los nmeros Zi le asignaremos un nombre (Covarianza).

Definicin 4.3 (Covarianza)


La covarianza, denotada por SXY o por Cov(X,Y ), de los datos (x1 , y1 ); (x2 , y2 ); (x3 , y3 ); ; (xn , yn ), de una variable
bidimensional (X,Y ) es el promedio aritmtico de los productos (xi X)(yi Y ) que son denominados productos de
las desviaciones de los datos con respecto a sus correspondientes medias, es decir
n

Cov(X,Y ) = SXY =




xi X yi Y

i=1

Observaciones:
1

La covarianza es una estadgrafo que mide el grado de dispersin o variabilidad conjunta de los datos de las
variables Y y X con respecto a sus medias aritmticas Y y X.

Un mtodo para calcular la covarianza es mediante la frmula


n

xi yi

Cov(X,Y ) = SXY =

i=1

X Y .

Y si usted va utilizar su calculadora, luego de ingresar datos de variable bidimensional digite hasta que en la
pantalla de su calculadora aparezca:
( XY ) n (X)(Y )
3

Las unidades en las cuales resulta la covarianza es el producto de las unidades de las variables Y y X.

La covarianza puede resultar un nmero negativo.

El inconveniente de las unidades es preferible evitarlo con alguna fraccin, por ello definimos el coeficiente de correlacin.

Definicin 4.4 (Coeficiente de correlacin)


Dado un conjunto de datos (x1 , y1 ); (x2 , y2 ); (x3 , y3 ); ; (xn , yn ), de una variable bidimensional definimos su coeficiente
de correlacin como la fraccin
r=

Cov(X,Y )
X Y

donde:
?

Cov(X,Y ) o SXY es la covarianza,

X la desviacin estndar de los datos en la variable X y

Y la desviacin estndar de los datos en la variable Y .

Observaciones:
1

114

El coeficiente de correlacin no posee unidades de medida.

SXY
,
X Y

Distribuciones bidimensionales

Un mtodo para calcular coeficiente de correlacin es mediante la frmula

n xi yi
v
u
u n
tn x2
i
i=1

xi

!2 v
u
u
x tn
i

i=1

yi

i=1

i=1

r=

i=1
n

!2 .

y2i yi

i=1

i=1

1 r 1 .

El coeficiente de correlacin es nmero que est en el intervalo [1, 1], es decir

Si r = 1, se dice que hay una correlacin perfecta negativa.

Si r = 0, se dice que no hay correlacin entre las variables Y y X.

Si r = 1, se dice que hay una correlacin perfecta positiva.

Si r es prximo a 1 o a 1, la correlacin entre las variables Y y X tiene alto grado de aceptabilidad.

Si r es prximo a 0, la correlacin entre las variables Y y X tiene bajo grado de aceptabilidad.

(a)

4.7.3

(b)

Si r = 1, hay una correlacin

(c)

Si r 0, prximo a cero, no hay

Si r = 1, hay una correlacin

perfecta negativa; los puntos

correlacin entre las variables Y

perfecta positiva; los puntos es-

estn alineados en una recta

y X; los punto no estn alinea-

tn alineados en una recta con

con pendiente negativa.

dos.

pendiente positiva.

La regresin lineal simple y el mtodo de los mnimos cuadrados

Sea (X,Y ) una variable bidimensional con ambas componentes cuantitativas, donde Y es la variable dependiente y X
es la variable independiente.
Consideremos un conjunto de datos (x1 , y1 ); (x2 , y2 ); (x3 , y3 ); ; (xn , yn ), de la variable bidimensional (X,Y ) cuyo
diagrama de dispersin se asemeja al de una recta, con la regresin lineal simple obtendremos la ecuacin de la recta
que mejor se ajuste a los datos, para ello supondremos que la ecuacin de dicha recta es
y = A + Bx,
a tal recta lo denominaremos recta de regresin.
Lo nico que faltara es obtener los valores de los coeficientes A y B, esto es posible con el mtodo de los mnimos
cuadrados que aqu no expondremos por tener un desarrollo matemtico muy elaborado.
Al finalizar tal desarrollo matemtico muy elaborado los resultados de A y B son:
!
!
n

n xi yi
B=

i=1

i=1

n xi2
i=1

xi
n

yi

i=1

!2

Cov(X,Y )
X

A=Y

Cov(X,Y )
X.
X

xi

i=1

115

Distribuciones bidimensionales

Luego de obtener la recta de regresin L : y = A + Bx, es necesario obtener su respectivo coeficiente de correlacin r
para ver si tenemos cierto grado de confiabilidad en el proceso de regresin.

! muy importante

Con la ecuacin de la recta de regresin L : y = A + Bx ya conocida es posible predecir un valor

de la variable Y que le corresponde a un determinado valor de la variable X.

! muy importante

Usted no debe preocuparse del clculo de los coeficientes A, B y r; ya que todo ello es posible

utilizando su calculadora en el modo regresin lineal (vea la seccin 4.3)

Ejemplo 4.11
A un concurso de Gimnasia se presentan 10 atletas, tal concurso cuenta con dos jurados calificadores, el siguiente
cuadro muestra las calificaciones que proporcionan los jurados a cada concursante.
Concursante Nro

10

X: Calificacin del primer jurado (puntos)

10

Y: Calificacin del segundo jurado (puntos)

10

Calificacin promedio de cada concursante (puntos)


a

Halle la calificacin promedio de cada concursante (tabla anterior)

La calificaciones emitidas por un jurado dependen del otro jurado? Rta:

Calcule la covarianza de las calificaciones conjuntas. Rta:

Calcule el coeficiente de correlacin. Rta:

Qu significa el valor de r que usted obtuvo? Rta:

Cov(X,Y ) =

r=

Ejemplo 4.12
La empresas para obtener utilidades tienen la necesidad de invertir en publicidad, sobre todo en publicidad televisiva, el siguiente cuadro muestra el tiempo (minutos) en publicidad televisiva que emplean 5 empresas durante una
semana y las utilidades obtenidas como consecuencia de su inversin en publicidad.
Empresa Nro

: Tiempo en publicidad televisiva (minutos)

20

30

25

35

40

: Utilidades obtenidas (miles de nuevos soles)

17

25

22

28

34

Responda los siguientes items justificando su respuesta de ser necesario.

En este caso la variable independiente es

En este caso la variable dependiente es

Complete el siguiente recuadro:

116

A=

B=

r=

X=

Y=

SXY =

Distribuciones bidimensionales

Calcule el tiempo promedio que emplean en publicidad las 5 empresas. Rta:

Calcule la utilidad promedio de las 5 empresas. Rta:

Presente el diagrama de dispersin (nube de puntos) para el conjunto de datos.

La nube de puntos se asemeja a una

La ecuacin de la recta de regresin que mejor se ajusta

Utilidades
(miles de nuevos soles)

34

a los datos es:

28

L : y=

25

El coeficiente de correlacin es r =

Cierta empresa emplea 60 minutos en publicidad tele-

22

Tiempo (minutos) empleado en


publicidad televisiva por semana

17

visiva por semana, estime la utilidad que obtendr.


Rta:
k

Cierta empresa obtuvo S/. 40 000 de utilidades, estime


el tiempo que emplea en publicidad televisiva por semana.

20

25

30

35

40

Rta:
l

Cul es el significado del signo de B? Rta:

Ejemplo 4.13
En cierto concurso de ortografa participaron 150 estudiantes de Educacin Primaria que obtuvieron calificaciones
diversas. El siguiente cuadro muestra el nmero de errores ortogrficos cometidos por 6 estudiantes y sus respectivas
calificaciones.
Estudiente Nro

: Nro de errores

30

40

35

45

50

48

: Calificacin (puntos)

60

38

46

28

20

22

Responda los siguientes items justificando su respuesta de ser necesario.

En este caso la variable independiente es

En este caso la variable dependiente es

Complete el siguiente recuadro:


A=

B=

r=

X=

Y=

SXY =

Los 6 estudiantes en promedio cometieron

Los 6 estudiantes en promedio tienen

Presente el diagrama de dispersin (nube de

errores.
de calificacin.
g

La nube de puntos se asemeja a una

puntos) para el conjunto de datos.


117

Distribuciones bidimensionales

La ecuacin de la recta de regresin que mejor se ajusta


a los datos es:

Calificaciones (puntos)

60

L : y=

.
a

46
i

. 38

El coeficiente de correlacin es r =

28
a

Cierto estudiante cometi 60 errores ortogrficos, es-

22
20

time la calificacin que obtendr.

Nmero de
errores cometidos

Rta:

Cierto estudiente calific 33 puntos, estime el nmero


de errores ortogrficos que cometi.
30

Rta:

35

40

45

48 50

Cul es el significado del signo de B? Rta:

CUESTIONARIO
1 Dada un conjunto de datos de una variable bidimensional (X,Y )

Complete el siguiente recuadro:


A=

B=

r=

X=

Y=

XY =

n=

SXY =

Halle la ecuacin de la recta de regresin que relaciona las variables.


Rta: L :

Si x = 4 estime el valor de y. Rta: y =

En su calculadora digite

Si y = 7 estime el valor de x. Rta: x =


En su calculadora digite

4 yb

7 xb

2 Las tallas y los pesos de 10 personas vienen en la siguiente tabla:


X: talla (cm)

160

165

170

180

185

192

175

182

172

Y : pesos (kg)

58

61

73

80

85

83

68

74

67

Trazar el diagrama de dispersin, si X es la variable independiente e Y es la variable dependiente.

Hallar la recta de regresin que mejor ajuste a los datos luego dibujarlo sobre el diagrama anterior

Estimar el peso de una persona que posee 168 cm de talla.

Calcule el coeficiente de correlacin y diga si la correlacin es confiable.

3 A continuacin se muestran las edades en aos de los padres de los nacidos en una maternidad durante mayo
del 2011. (Considere X: Edad de la madre, Y : Edad del padre)
118

Distribuciones bidimensionales

Nio Nro

10

11

12

13

14

15

16

17

18

19

20

36

26

26

29

30

16

17

18

27

37

28

17

31

27

22

27

23

21

30

17

37

31

26

27

32

17

25

23

24

33

17

22

33

26

36

23

39

38

24

35

Agrupar a los datos de cada variable en 5 intervalos de amplitud igual a 5 aos, empezando con el mnimos
de 15 aos, luego interprete algunas frecuencia absolutas simples y algunas frecuencias marginales de cada
variable.
yi
xi

HH

HH Y
h15 20i
H
X
H
H
h15 20i

[20 25i

[25 30i

[30 35i

[35 40i

ni

[20 25i
[25 30i
[30 35i
[35 40i
n j

4 Se supone que el alargamiento de un cable de acero est relacionado linealmente con la intensidad de la fuerza
aplicada. Cinco especmenes idnticos de cable dieron los resultados siguientes:
Fuerza en Newtons (X)

1.0

1.5

2.5

3.5

5.4

6.9

8.4

Alargamiento en centmetros (Y )
a

Cul es la variable independiente?

Cul es la variable dependiente?

Presente el diagrama de dispersin.

Halle la covarianza

Halle el coeficiente de correlacin.

Estudia el grado de asociacin lineal entre las variables.

Halle la ecuacin de la recta de regresin.

Es confiable la regresin realizada?

Estimar en el alargamiento de un cable si le aplican una fuerza de 2,2 Newtons.

5 Para analizar la degradacin de la seal emitida por una antena, se tomaron los siguientes datos: la frecuencia
de la seal en el momento de ser emitida (X) y la frecuencia de la seal al ser recibida (Y). Los resultados
medidos en Megahercios fueron:
X

1.75

1.8

1.78

2.01

2.48

2.58

2.98

2.65

2.01

3.87

1.56

1.45

1.75

0.84

2.02

2.41

2.75

1.44

1.55

2.02

Calcular la media, mediana y moda de ambas variables.

Determinar el intervalo en el que se encuentra el 50% de los valores centrales de la variable Y.

Es significativa la relacin lineal entre las variables?. Influye significativamente la variable X sobre Y ?.

Qu frecuencia se predice en la seal al ser recibida si al ser emitida es de 3.5 Megahercios?. Es fiable la
prediccin?.
119

Distribuciones bidimensionales

6 El siguiente cuadro muestra las calificaciones obtenidas en un examen de matemticas de un grupo de 10


estudiantes, las horas de estudio dedicadas a su preparacin y las horas de entretenimiento en televisin en la
ltima semana antes de la evaluacin

Estudiente Nro

10

Calificaciones (puntos)

Nro de horas de estudio

12

11

12

15

14

Nro de horas de TV

18

12

14

10

Identifique la variable independiente X y la variable dependiente Y si consideramos la calificaciones y


horas de estudio.

Estudie grficamente la correlacin existente entre estas variables.

Halle la ecuacin de la recta de regresin.

Estime la calificacin si un estudiante se dedica 20 horas de estudio.

Estime el nmero de horas de estudio para obtener una calificacin de 15 pts.

Identifique la variable independiente X y la variable dependiente Y si consideramos la calificaciones y


horas de televisin

120

Estudie grficamente la correlacin existente entre estas variables.

Halle la ecuacin de la recta de regresin.

Estime la calificacin si un estudiante se dedica 13 horas en ver la TV.

Estime el nmero de horas de entretenimiento en TV para obtener una nota de 15 pts.

Das könnte Ihnen auch gefallen