Sie sind auf Seite 1von 118

MEDIDAS DE

POSICIN
Ing. William Len Velsquez
wjleonv@yahoo.com
CLASE 05
ESTADISTICA Y
PROBABILIDADES
MEDIDAS DE POSICIN
Las medidas de posicin
tambin facilitan informacin
sobre la serie de datos que se
desea analizar.

La descripcin de un conjunto
de datos, incluye como un
elemento de importancia la
ubicacin de stos, dentro de
un contexto de valores
posible.
ING. WILLIAM LEON V.
2
MEDIDA DE POSICIN


UTILIDAD
Se trata de encontrar unas
medidas que sinteticen las
distribuciones de frecuencias.
En vez de manejar todos los
datos sobre las variables, tarea
que puede ser pesada, se
puede describir su distribucin
de frecuencias mediante
algunos valores numricos,
eligiendo como resumen de los
datos un valor central
alrededor del cual se
encuentran distribuidos los
valores de la variable
ING. WILLIAM LEON V.
3


MEDIDA DE POSICIN
DEFINICIN
Son indicadores usados
para sealar que
porcentaje de datos dentro
de una distribucin de
frecuencias superan estas
expresiones, cuyo valor
representa el valor del dato
que se encuentra en el
centro de la distribucin de
frecuencia.
ING. WILLIAM LEON V.
4


MEDIDA DE POSICIN
DEFINICIN
Estas medidas de posicin de una
distribucin de frecuencias han
de cumplir determinadas
condiciones para que sean
verdaderamente representativas
de la variable a la que resumen.
Toda sntesis de una distribucin se
considerara como operativa si
intervienen en su determinacin
todos y cada uno de los valores
de la distribucin, siendo nica
para cada distribucin de
frecuencias y siendo siempre
calculable y de fcil obtencin
ING. WILLIAM LEON V.
5


MEDIDA DE POSICIN
CUANTILES
Son valores que dividen al
total de los datos
debidamente ordenados
en k partes iguales.
ING. WILLIAM LEON V.
6


CUANTILES
CUARTILES
Son medidas de
posicin que dividen al
total de los datos
ordenados, en cuatro
partes iguales.
De esta forma entre dos
cuartiles consecutivos
se encuentra ubicado
no ms del 25% del total
de los datos.
ING. WILLIAM LEON V.
7


DEFINICIN
CUARTILES
Hay 3 cuartiles que dividen a una
distribucin en 4 partes iguales:
primero, segundo y tercer cuartil.
ING. WILLIAM LEON V. 8

DEFINICIN
CUARTILES
El clculo para los cuartiles se
determina a travs de la siguiente
expresin:






( )
A
f
f
kn
L Q
i
i acum
i k
1
4

+ =
ING. WILLIAM LEON V. 9

DEFINICIN
CUARTILES
Donde:
ING. WILLIAM LEON V. 10

DEFINICIN
k
Orden del cuartil
Lmite inferior del intervalo que
contiene al cuartil
Frecuencia acumulada considerada al
intervalo donde se encuentra
Frecuencia del intervalo que contiene el
cuartil
n
Nmero de mediciones
A Ic
Amplitud del intervalo

i
f
( ) 1 i acum
f
i
L
PRIMER CUARTIL (Q1)
Aquel valor de una serie que
supera al 25% de los datos y es
superado por el 75% restante.

Formula de Q1 para series de
Datos Agrupados en Clase.
ING. WILLIAM LEON V. 11


DEFINICIN
PRIMER CUARTIL (Q1)
Donde:
: posicin de Q1, la cual se


localiza en la primera frecuencia
acumulada que la contenga,
siendo la clase de Q1, la
correspondiente a tal frecuencia
acumulada.
Li, faa, fi, Ic : idntico a los
conceptos vistos para Mediana
pero referidos a la medida de la
posicin correspondiente.
ING. WILLIAM LEON V. 12


DEFINICIN
SEGUNDO CUARTIL (Q2)
Coincide, es idntico o
similar al valor de la
Mediana (Q2 = Md).

Es decir, supera y es
superado por el 50% de los
valores de una Serie.
ING. WILLIAM LEON V. 13


DEFINICIN
TERCER CUARTIL (Q3)
Es aquel valor, termino o dato
que supera al 75% y es
superado por el 25% de los
datos restantes de la Serie.
Formula de Q3 para series de
Datos Agrupados en Clase.
ING. WILLIAM LEON V. 14


DEFINICIN
TERCER CUARTIL (Q3)
Donde:
: posicin de Q3, la cual se


localiza en la primera frecuencia
acumulada que la contenga, siendo
la clase de Q3, la correspondiente a
tal frecuencia acumulada.
Li, faa, fi, Ic : idntico a los conceptos
vistos para Mediana pero referidos a
la medida de la posicin
correspondiente.
ING. WILLIAM LEON V. 15


DEFINICIN
CUARTILES
Un reporte de laboratorio
indica el nmero de
pacientes que en los
primeros 100 das del ao
recibieron peticiones por
parte de una clnica, de
reportes clnicos para
realizar estudios de
glucosa.
ING. WILLIAM LEON V. 16


EJEMPLO
CUARTILES
ING. WILLIAM LEON V. 17

EJEMPLO
Veremos que el primer cuartil se localiza
en el intervalo de clase marcada en color

El intervalo de clase donde se ubica el
segundo cuartil esta marcado por

El tercer cuartil esta marcado por

El nmero de datos a considerar son 63
pacientes.


CUARTILES
ING. WILLIAM LEON V. 18


EJEMPLO
Intervalos
1 da a 9 das
5
5
5
10 da a 19 das
14.5
6
11
20 da a 29 das
24.5
8
19
30 da a 39 das
34.5
8
27
40 da a 49 das
44.5
4
31
50 da a 59 das
54.5
5
36
60 da a 69 das
64.5
7
43
70 da a 79 das
74.5
8
51
80 da a 89 das
84.5
4
55
90da a 100 das
94.5
8
63
Promedio
de das
i
x
Nmero de
pacientes
i
f
Frecuencia acumulada
acumulada
f
CUARTILES
Para la obtencin del primer
cuartil tenemos k=1, obteniendo:
( )
75 . 15
4
63 ) 1 (
4
= =
kn
ING. WILLIAM LEON V. 19


EJEMPLO
CUARTILES
lo que representa que el primer cuartil se
encuentre en la tercera clase, sus datos
estn dados como
( )
9 ; 8 ; 11 ; 20
1
= = = =

A f f L
i i acum i
ING. WILLIAM LEON V. 20


EJEMPLO
CUARTILES
por lo que el primer cuartil es igual a
das Q 34 . 25 9
8
11
4
) 63 ( 1
20
1
=

+ =
ING. WILLIAM LEON V. 21


EJEMPLO
CUARTILES
Interpretacin:
Lo que indica que 25 % de
los pacientes fueron
mandados a valoracin de
glucosa en 25.34 das y el
75% de los pacientes
atendidos lo hicieron
despus de 25.34 das.
ING. WILLIAM LEON V. 22


EJEMPLO
CUARTILES
Ntese que la consideracin para
elegir el primer cuartil se hizo
considerando la frecuencia
acumulada y de esta manera se
considerar para localizarla para
el resto.
ING. WILLIAM LEON V. 23


EJEMPLO
CUARTILES
Para la obtencin del segundo
cuartil consideraremos k=2 por lo
que
5 . 31
4
63 2
4
=

=
kn
ING. WILLIAM LEON V. 24


EJEMPLO
CUARTILES
Considerando que para este
segundo cuartil ,


con ello el cuartil tendr un valor de
( )
9 ; 5 ; 31 ; 50
1
= = = =

A f f L
i i acum i
das Q 9 . 50 9
5
31
4
) 63 ( 2
50
2
=

+ =
ING. WILLIAM LEON V. 25


EJEMPLO
CUARTILES
Lo que indica que en 50.9 das se haban
atendido al 50 % de los pacientes a ser
valorados de los niveles de glucosa.
Lo que indica que 50 % de los pacientes fueron
mandados a valoracin de glucosa en 50.9
das y el 50% restante de los pacientes
atendidos lo hicieron despus de 50.9 das.

ING. WILLIAM LEON V. 26


EJEMPLO
CUARTILES
Ntese que efectivamente el segundo
cuartil corresponde a la mediana, ya
que si sustituimos k=2 tendremos la
misma formula que utilizamos para el
calculo de la mediana para datos
agrupados
( ) ( )
Me A
f
f
n
L A
f
f
n
L Q
i
i acum
i
i
i acum
i
=

+ =

+ =
1 1
2
2 4
2
ING. WILLIAM LEON V. 27


EJEMPLO
CUARTILES
Para el clculo del tercer cuartil,
k=3, observamos que:



con
25 . 47
4
63 3
4
=

=
kn
( )
9 ; 8 ; 43 ; 70
1
= = = =

A f f L
i i acum i
ING. WILLIAM LEON V. 28


EJEMPLO
CUARTILES
tenemos
das Q 78 . 74 9
8
43
4
) 63 ( 3
70
3
=

+ =
ING. WILLIAM LEON V. 29


EJEMPLO
lo cual indica que 75% de pacientes
que envi la clnica a realizarse
estudios de glucosa lo realizo en
74.78das y el resto en los otros das
restantes.
CUARTILES
Ntese que para el clculo del cuarto
cuartil es de manera inmediata, en
este se contempla la totalidad de la
muestra, por lo que no es necesario
realizar ningn clculo, aunque si lo
realizamos observamos que cubre el
total de das.
ING. WILLIAM LEON V. 30


EJEMPLO
Cuartiles para datos no
agrupados
La forma de calcular los cuartiles
cuando los datos no estn agrupados
se da a travs del siguiente concepto.
Para un nmero de n observaciones en
el que los datos no son representados
en clases, una vez ordenados los datos
la posicin de los cuartiles se pueden
localizar de la siguiente forma:
ING. WILLIAM LEON V. 31


DEFINICIN
Cuartiles para datos no
agrupados
es importante considerar que si el
clculo no corresponde con la
posicin exacta entonces se usa
interpolacin lineal.
( )
4 y 3 , 2 , 1 ,
4
1
=
+
k
n k
ING. WILLIAM LEON V. 32


DEFINICIN
Cuartiles para datos no
agrupados
En el caso en que la posicin no
corresponda exactamente con la
posicin la interpolacin se realiza de
la siguiente forma:



Donde:

( )
4 , 3 , 2 , 1 ,
4
=

+ = k
L L k
L Q
i s
i k
ING. WILLIAM LEON V. 33


DEFINICIN
; Superior Limite ; , inferior limite ; Cuartil = = =
f i k
L L k Q
Cuartiles para datos no
agrupados
Ejemplo. Consideremos las siguientes tabla de
temperaturas reportadas en un experimento:
ING. WILLIAM LEON V. 34


EJEMPLO:
25 C 28 C 25 C 26 C 28 C 28 C
35 C 32 C 31 C 31 C 32 C 27 C
25 C 29 C 26 C 28 C 27 C 28 C
30 C 30 C 31 C 31 C 30 C 31 C
Cuartiles para datos no
agrupados
Ordenando los datos tenemos:

25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28,
28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32,
32, 35
ING. WILLIAM LEON V. 35


EJEMPLO:
Cuartiles para datos no
agrupados
La posicin del primer cuartil es:
( )
25 . 6
4
25
4
1 24 1
= =
+
ING. WILLIAM LEON V. 36


EJEMPLO:
Cuartiles para datos no
agrupados
lo que significa que el primer cuartil
se encuentra entre la posicin 6 y
7, como en este caso el nmero es
el mismo entonces

por lo que el primer cuartil es igual a
.
0 =
f i
L L
ING. WILLIAM LEON V. 37


EJEMPLO:
C Q = 27
1
Cuartiles para datos no
agrupados
La posicin para el segundo cuartil
es
( )
5 . 12
4
50
4
1 24 2
= =
+
ING. WILLIAM LEON V. 38


EJEMPLO:
Cuartiles para datos no
agrupados
En este caso la posicin 12 la
ocupa la temperatura 28C y la
posicin 13 la temperatura 29C
entonces, la interpolacin nos
conduce a
( )
5 . 28
4
28 29 2
28
2
=

+ = Q
ING. WILLIAM LEON V. 39


EJEMPLO:
Cuartiles para datos no
agrupados
La posicin del tercer cuartil se
puede calcular como
( )
75 . 18
4
1 24 3
=
+
ING. WILLIAM LEON V. 40


EJEMPLO:
Cuartiles para datos no
agrupados
Como la posicin 18 y 19 tienen la
temperatura 30C entonces, por la
misma razn que el primer cuartil,
el tercer cuartil es igual a 30C.
ING. WILLIAM LEON V. 41


EJEMPLO:
RANGO INTERCUARTIL
Es la distancia que hay entre el tercer cuartil (Q
3 ) y el primer cuartil (Q 1 ):
RIC = Q 3 - Q 1
RIC es la amplitud del intervalo que contiene el
50% central de individuos.
Interpretacin es como una medida de
variabilidad;
Si es pequea significar que los valores estn
muy concentrados alrededor de la medida de
tendencia central (mediana) y
Si es grande hay gran dispersin.
ING. WILLIAM LEON V. 42
DECILES
Son valores que dividen al total de
los datos ordenados, en diez partes
iguales; de modo que en cada
una de estas partes se encuentre
ubicado no ms del 10% del total.
ING. WILLIAM LEON V. 43


DEFINICIN
Primer Decil (D1)
El primer decil es aquel valor de
una serie que supera a 1/10 parte
de los datos y es superado por las
9/10 partes restantes
(respectivamente, hablando en
porcentajes, supera al 10% y es
superado por el 90% restante),
ING. WILLIAM LEON V. 44


DEFINICIN
Primer Decil (D1)
ING. WILLIAM LEON V.
45


DEFINICIN
Quinto Decil (D5)
El quinto decil es aquel valor de
una serie que supera a 5/10 parte
de los datos y es superado por las
5/10 partes restantes
(respectivamente, hablando en
porcentajes, supera al 50% y es
superado por el 50% restante),
ING. WILLIAM LEON V. 46


DEFINICIN
Quinto Decil (D5)
ING. WILLIAM LEON V.
47


DEFINICIN
Noveno Decil (D9)
El noveno decil es aquel valor de
una serie que supera a 9/10 parte
de los datos y es superado por las
1/10 partes restantes
(respectivamente, hablando en
porcentajes, supera al 90% y es
superado por el 10% restante),
ING. WILLIAM LEON V. 48


DEFINICIN
Noveno Decil (D9)
ING. WILLIAM LEON V.
49


DEFINICIN
Deciles
Como se observa, son formulas
parecidas a la del calculo de la
Mediana, cambiando solamente la
respectivas posiciones de las
medidas.
ING. WILLIAM LEON V. 50


DEFINICIN
PERCENTILES
Son valores que dividen al total de
los datos ordenados, en cien
partes iguales: de manera que en
cada una de estas partes se
encuentre ubicado no ms del 1%
del total.
ING. WILLIAM LEON V. 51


DEFINICIN
PERCENTILES
De esta manera se puede
establecer la siguiente relacin
entre cuartiles, deciles y percentiles
as como tambin con la mediana.
ING. WILLIAM LEON V. 52


DEFINICIN
Primer Percentil (P1)
El primer percentil supera al uno
por ciento de los valores y es
superado por el noventa y nueve
por ciento restante.
Formulas de P1, para series de
Datos Agrupados en Clase.
ING. WILLIAM LEON V. 53


DEFINICIN
Percentil 50 (P50)
El percentil 50 supera al cincuenta
por ciento de los valores y es
superado por el cincuenta por
ciento restante.
Formulas de P50, para series de
Datos Agrupados en Clase.
ING. WILLIAM LEON V. 54


DEFINICIN
Percentil 99 (P99)
El percentil 99 supera al noventa y
nueve por ciento de los valores y
es superado por el uno por ciento
restante.
Formulas de P99, para series de
Datos Agrupados en Clase.
ING. WILLIAM LEON V. 55


DEFINICIN
Percentil
Para determinar estas medidas se
aplicara el principio de la mediana;
as, el primer cuartil cereal valor por
debajo del cual se encuentra el 25
por ciento de los datos; bajo el tecer
cuartil se encuentra el 75 por ciento;
el 80 decil ser el valor por encima
del cual estar el 20 por ciento de los
datos, etc.


ING. WILLIAM LEON V. 56


DEFINICIN
Percentil
Como se observa, todas estas
medidas no son sino casos
particulares del percentil ya que el
primer cuartil no es sino el 25
percentil, el tercer cuartil el 75
percentil, el cuarto decil el 40
percentil, etc.
ING. WILLIAM LEON V. 57


DEFINICIN
Percentil
Ejemplo:
Para la siguiente tabla de
frecuencias que
corresponde a la
distribucin de 42 das de
acuerdo a la temperatura
que se registr en cada
da.
El 35% inferior de los das,
qu temperatura
present como mximo?
ING. WILLIAM LEON V. 58


Ejemplo
Percentil
ING. WILLIAM LEON V. 59


Ejemplo

Temperatura
( C )
N das
10-15 8 8
15-18 9 17
18-25 12 29
25-30 7 36
30-34 6 42
lugar . vo 15 7 , 14
100
42 35
= =

i
F
Percentil
Luego:
ING. WILLIAM LEON V.
60


Ejemplo

2 1
F
100
42 35
F <

<
2 35
I P e
33 , 17
9
8 15
3 15 P
35
=
(


+ =
Percentil
Interpretacin:
En el 35% inferior de los das se registr una
temperatura de 17 C como mximo?
ING. WILLIAM LEON V.
61


Ejemplo

Cuantiles para datos no
agrupados:
Ejemplo:
En una serie de 32
trminos se desea
localizar el 4 sextil, 8
decil y el 95 percentil.
ING. WILLIAM LEON V.
62


Ejemplo

Cuantiles para datos no
agrupados:
ING. WILLIAM LEON V.
63


Ejemplo

Cuantiles para datos no
agrupados:
Esto significa que el 4 sextil se encuentra
localizado en el termino numero 21, es
decir, el que ocupa la 21 posicin; el 8
decil se encuentra localizado entre el
termino numero 25 y 26 ; y el 95
percentil entre la posicin 30 y 31 .
ING. WILLIAM LEON V.
64


Ejemplo

Cuantiles para datos agrupados:
Ejemplo:
Determinacin del
primer cuartil, el cuarto
sextil, el sptimo decil y
el 30 percentil.
ING. WILLIAM LEON V.
65


Ejemplo

Cuantiles para datos agrupados:
Ejemplo:
Determinacin del primer cuartil, el
cuarto sextil, el sptimo decil y el 30
percentil.
ING. WILLIAM LEON V.
66


Ejemplo

Salarios(I. de
Clases)
N de empleados (f
i
) f
a

200 299 85 85
300 399 90 175
400 499 120 295
500 599 70 365
600 699 62 427
700 800 36 463
Cuantiles para datos agrupados:
Ejemplo:
.
ING. WILLIAM LEON V. 67


Ejemplo
Cuantiles para datos agrupados:
Ejemplo:
.
ING. WILLIAM LEON V. 68


Ejemplo
Cuantiles para datos agrupados:
Ejemplo:
.
ING. WILLIAM LEON V. 69


Ejemplo
Cuantiles para datos agrupados:
Ejemplo:
.
ING. WILLIAM LEON V. 70


Ejemplo
Cuantiles para datos agrupados:
Estos resultados nos indican que el 25
por ciento de los empleados ganan
salarios por debajo de $. 334; que
sobre $. 519,51 ganan el 33,33 por
ciento de los empleados; que bajo $
541,57 gana el 57 por ciento de los
empleados y sobre $. 359,88 gana el 70
por ciento de los empleados.

.
ING. WILLIAM LEON V. 71


Ejemplo
Cuantiles
Muchas veces necesitamos conocer
el porcentaje de valores que esta
por debajo o por encima de un
valor dado; lo que representa un
problema contrario al anterior, esto
es, dado un cierto valor en la
abscisa determinar en la ordenada
el tanto por ciento de valores
inferiores y superiores al valor dado.
.
ING. WILLIAM LEON V. 72


Definicin
Cuantiles
Operacin que se resuelve utilizando la
siguiente formula general:


Donde:
P: lugar percentil que se busca.
P: valor reconocido en la escala X.
fa-1: frecuencia acumulada de la clase
anterior a la clase en que esta incluida P.
fi: frecuencia de la clase que contiene a p.
Li: limite inferior de la clase que contiene a P.
Ic: intervalo de clase.
N: frecuencia total..
ING. WILLIAM LEON V. 73


Definicin
Cuantiles
Ejemplo:
Utilizando la distribucin
anterior, determinar que
porcentaje de personas ganan
salarios inferiores a $ 450,00
ING. WILLIAM LEON V. 74


Definicin
Cuantiles
ING. WILLIAM LEON V.
75
El 50,75 por ciento de las personas ganan
salarios inferiores a $. 450.


Definicin
DIAGRAMAS
DE CAJAS
Ing. William Len Velsquez
wjleonv@yahoo.com
DIAGRAMAS DE CAJA
Es una presentacin visual que describe
al mismo tiempo varias caractersticas
importantes de un conjunto de datos,
ING. WILLIAM LEON V.
77


CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
Las caractersticas que representan
son:
el centro, la dispersin, la desviacin
de la simetra y
la identificacin de observaciones
que se alejan de manera poco usual
del resto de los datos, este tipo de
observaciones se conocen como
valores atpicos.
ING. WILLIAM LEON V.
78


CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
ING. WILLIAM LEON V.
79


CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
El diagrama de caja presenta los tres
cuartiles, y los valores mnimo y mximo de
los datos sobre un rectngulo, alineado
horizontal o verticalmente.
El rectngulo delimita el rango
intercuartlico con la arista izquierda (o
inferior) ubicada en el primer cuartil y la
arista derecha (o superior) en el tercer
cuartil.
ING. WILLIAM LEON V.
80


CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
Dentro del rectngulo se dibuja una lnea
en la posicin que corresponde a la
mediana.
Cuando la distribucin es simtrica la
mediana divide a la caja en dos partes
iguales.
ING. WILLIAM LEON V.
81


CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
Fuera del rectngulo se dibujan dos segmentos,
llamados `bigotes' o brazos que llegan hasta los
datos ms lejos que estn a una distancia menor o
igual a 1:5 x (RI) del rectngulo, donde RI
representa el rango intercuartil.
Cualquier punto que no est incluido en este rango
se representa individualmente y se considera un
punto atpico (outlier).
ING. WILLIAM LEON V.
82


CAJAS Y BRAZOS
DIAGRAMAS DE CAJA
ING. WILLIAM LEON V.
83


CAJAS Y BRAZOS
RESUMEN DE CINCO NMEROS
Los cinco nmeros son el valor mnimo, el primer
cuartil, la mediana,
el tercer cuartil, y el valor mximo,
respectivamente.
ING. WILLIAM LEON V.
84
CAJAS MLTIPLES
Estos grficos se utilizan para
comparar la distribucin de los
valores entre diferentes grupos.
Si en una caja la lnea que
representa al cuartil 1 est por
encima de la lnea que representa a
la mediana en la otra caja,
entonces se concluye que las
medias de las poblaciones son
diferentes.
ING. WILLIAM LEON V.
85


CAJAS Y BRAZOS
CAJAS MLTIPLES
ING. WILLIAM LEON V.
86


CAJAS Y BRAZOS
CARACTERSTICAS
a) La anchura de la caja refleja la
amplitud intercuartil (abreviado como IQR
o como RI), en ella est representado el
50% de la muestra.
b) El borde superior de la caja es el
percentil 75 (Q3).
c) El borde inferior es el percentil 25 (Q1).
ING. WILLIAM LEON V.
87


CAJAS Y BRAZOS
CARACTERSTICAS
d) La lnea central de la caja es la
mediana. Cuando el valor de la
mediana coincide con el punto
medio de la caja (IQR/2 + Q1), la
variable representada es simtrica.
Diremos que es asimtrica positiva
o a la derecha si est prxima al
borde izquierdo de la caja y,
asimtrica negativa o a la izquierda
si est prxima al borde derecho
ING. WILLIAM LEON V.
88


CAJAS Y BRAZOS
CARACTERSTICAS
e) Los valores que no son
considerados extremos son aqullos
comprendidos entre el lmite inferior
y el lmite superior.
Lmite inferior = Q1 1,5*IQR
Lmite superior = Q3 + 1,5IQR
Los valores de las patillas
corresponden a la primera y ltima
observacin dentro de dichos lmites.
ING. WILLIAM LEON V.
89


CAJAS Y BRAZOS
CARACTERSTICAS
f) Se sealan con signos (*,O) los casos
muy alejados o extremos.
g) Con una O se marcan los casos
situados entre 1,5 y 3 veces la amplitud
intercuartil desde los dos extremos de la
caja.
ING. WILLIAM LEON V.
90


CAJAS Y BRAZOS
Variables
estadsticas
bidimensionales
Ing. William Len Velsquez
Covarianza
Correlacion
Variables estadsticas
bidimensionales

Se trata de variables
que surgen cuando
se estudian dos
caractersticas
asociadas a la
observacin de un
fenmeno.

Organizacin de datos
Las variables estadsticas bidimensionales se
representan por el par (X,Y), donde X es una
variable unidimensional que toma los valores
x1,x2,....xn e Y es otra variable unidimensional
que toma los valores y1,y2,...yn.
Si representamos estos pares (x1,y1),
(x2,y2)......en un sistema de ejes cartesianos se
obtiene un conjunto de puntos sobre el plano
que se denomina diagrama de dispersin o
nube de puntos.
Clculo de parmetro
Considere una variable
estadstica bidimensional
(X,Y) y recuerde las
definiciones de media y
varianza para
distribuciones de variable
estadstica
unidimensional:
Clculo de parmetro
A la raz cuadrada positiva de las varianzas se la llama
desviacin tpica y se representa por Sx y por Sy.
Variables estadsticas bidimensionales
Ejemplo 1.- Estudiamos la
talla, medida en cm. y el
peso, medido en kg. de
un grupo de 10 personas,
podemos obtener los
siguientes valores

Talla
(cms)
160 165 168 170 171 175 175 180 180 182
Peso
(kgs)
55 58 58 61 67 62 66 74 79 83


Podemos llamar X a la talla e Y al peso
con lo que se obtendra la variable
bidimensional (X, Y) que toma 10 valores,
que son las 10 parejas de valores de la
tabla anterior: (160,55), (165,58), etc.
83 79 74 66 62 67 61 58 58 55
Peso
(kgs)
182 180 180 175 175 171 170 168 165 160
Talla
(cms)
83 79 74 66 62 67 61 58 58 55
Peso
(kgs)
182 180 180 175 175 171 170 168 165 160
Talla
(cms)
Variables estadsticas
bidimensionales
En algunos casos el nmero de "parejas" de
valores (x,y) es grande y adems muchos de
ellos aparecen repetidos; en este caso se
utiliza una "Tabla de doble entrada" como la
que se muestra a continuacin en el ejemplo
2

En la primera fila se colocan los valores de
una de las caractersticas o variable que
componen la variable bidimensional y en la
primera columna los de la otra.

Variables estadsticas
bidimensionales
Ejemplo 2.- Se representa por X el nmero de hijos
de 100 familias y por Y el nmero de hijas

# de hijas (Y)
0 1 2 3
# de hijos (x)
----------- ---- ---- ---- ---
0 ----------- 10 15 15 3
1 ----------- 10 12 7 2
2 ----------- 8 4 3 1
3 ----------- 3 2 1 0
4 ----------- 2 1 1 0
Variables estadsticas bidimensionales
La lectura de esta tabla es sencilla.
Por ejemplo: habra 7 familias que tendran 1
hijo y 2 hijas y ninguna familia tendra 3 hijos
y 3 hijas.
Diagramas de dispersin o nubes de
puntos
La representacin grfica de este
tipo de variables es en realidad
semejante a la respresentacin
de puntos en el plano, usando
unos ejes de coordenadas. Cada
pareja de valores da lugar a un
punto en el plano y el conjunto
de puntos que se obtiene se
denomina "diagrama de
dispersin o nube de puntos".
Diagramas de dispersin o nubes de puntos
En el ejemplo 1 anterior en el que se estudiaba la
talla y el peso de 10 personas se obtendra el
siguiente diagrama de dispersin: (En el eje X se
representa la talla en cm. y en el eje Y el peso en
kg.)
TALLA
P
E
S
O

Diagramas de dispersin o nubes
de puntos
Se puede ver en el primera figura que corresponda
al diagrama de talla - peso que la serie de puntos
presenta una tendencia "ascendente" . Se dice en
este caso que existen entre las dos variables una
"dependencia directa" .

En caso en que la tendencia sea "descendente" se
dira que estaramos ante una " dependencia
inversa "

En caso en que no se pueda observar una
tendencia clara estaramos ante una dependencia
muy dbil que no se puede observar mediante la
nube de puntos
Diagramas de dispersin o nubes de puntos
COVARIANZA
Sean (x
i,
y
i
) pares de
observaciones de dos
caracteristicas X y Y, y sean
sus respectivas medias. La
covarianza entre entre las dos
variables se define por :


COVARIANZA
Donde xi e yi representan los pares de
valores de la variable y el producto
corresponde al producto de las medias
aritmticas de las variables x e y
respectivamente.
Pasos para calcular la covarianza de una serie
de eventos




Paso 1: Se calcula xiyi , esto es la sumatoria de los
productos de las variablares x y y; o sea:
(x1 * y1) + (x2 * y2) + ... +(xn * yn )
Paso 2: se define n, que el numero de eventos o el
numero de pares de variables
Paso 3: Se calcula , que es el producto de las medias
de ambas variables
Paso 4: Obtenidos todos los datos se sustituyen en la
formula y se obtiene el resultado
Calcular la covarianza para el ejemplo primero
correspondiente a la variable talla - peso
83 79 74 66 62 67 61 58 58 55
Peso
(kgs)
182 180 180 175 175 171 170 168 165 160
Talla
(cms)
83 79 74 66 62 67 61 58 58 55
Peso
(kgs)
182 180 180 175 175 171 170 168 165 160
Talla
(cms)
Paso 1:
La suma de todos los productos de los valores de x (talla) por
los de y (peso) sera:


160 55 + 165 58 + 168 58 + 170 61 + 171 67 + 175 62 +
175 66 + 180 74 + 180 79 + 182 83 = 114987

Paso 2:

Definir n como el numero de eventos en este caso es 10

Paso 3:
A este valor debemos restarle el producto de las medias de
ambas variables que naturalmente sabes calcular:
Media de x (talla): 172.6

= 172.6 * 66.3 = 11443.38

Media de y (peso): 66.3

De acuerdo ala formula tenemos que:
Sxy = (114987 / 10 ) 11443.38

Sxy = 55.32
Se ha obtenido un valor positivo para la covarianza que
corresponde a una dependencia directa como ya habamos
intuido con la nube de puntos
CORRELACIN

Se llama correlacin a
la teora que trata de
estudiar la relacin o
dependencia que existe
entre las dos variables
que intervienen en una
distribucin
bidimensional.

Coeficiente de correlacin de Pearson.
Si le llamamos r, su valor es:






Puede observarse que el signo del
coeficiente de correlacin es el mismo
que el de la covarianza y puede
deducirse que el valor del mismo esta
comprendico entre -1 y 1.
CORRELACIN


Se pueden deducir las siguientes conclusiones
relativas al coeficiente de correlacin (r):

- Su signo es el mismo de la covarianza, luego si r es
positivo la dependencia es directa y si es negativo
inversa.

- Si r se acerca a -1 o a +1, la dependencia es fuerte y
por tanto las predicciones que se realicen a partir de la
recta de regresin sern bastante fiables.

- Si r se acerca a 0 la dependencia es dbil y por tanto
las predicciones que se realicen a partir de la recta de
regresin sern poco fiables
CORRELACIN

Ejemplo:
Calcularemos la correlacion para el ejemplo de las
tallas y los pesos

Sxy = 55.32

Sx = 50.71

Sy = 752.81
r = 55.32 / (50.71 * 752.81)

r =0.0014
r se acerca a 0 la dependencia es dbil y por tanto las
predicciones que se realicen a partir de la recta de
regresin sern poco fiables
CORRELACIN

EJERCICIOS 01
Se han realizado unas pruebas de habilidad (puntan de
0 a 5) en un grupo de alumnos. Las siguientes
puntuaciones corresponden a las obtenidas por seis
alumnos en dos de ellas:
Calcula la covarianza y el coeficiente de correlacin.
Cmo es la relacin entre las variables?



EJERCICIOS 01
Clculos
EJERCICIOS 01
Clculos
EJERCICIOS 01
Clculos
FIN
wjleonv@yahoo.com

Das könnte Ihnen auch gefallen