Beruflich Dokumente
Kultur Dokumente
d
e
A
l
u
m
n
o
s
Notas
GRAFICO 1
0 500 1000 1500 2000 2500
Tumbes
Piura
Lambayeque
Cajamarca
La Libertad
1000Ha
Tierras de Cultivo
Autor: Abel Barrantes Herrera Pgina 4
Tema : Estadstica Descriptiva
ANLISIS DE LOS DATOS
El anlisis de los datos pasa necesariamente por determinar un centro de los
datos y que tan juntos o distantes estn los datos entre si, es decir que tan
dispersos estn los datos. Las medidas de centralizacin y dispersin
responden a diversos criterios que veremos a continuacin.
Los datos de una variable discreta aparecen
1 2
, , ,
n
x x x dato por dato,
indicando cuantas veces se repite cada dato
1 1 2 2
( , ); ( , ); ; ( , )
k k
x f x f x f donde los
i
f indican las veces que se repite el i-simo dato y se denomina como
Frecuencia Absoluta
Si
1
k
i
i
n f
=
=
Definimos adicionalmente las frecuencias acumuladas:
1
l
l i
i
F f
=
=
i
i
f
h
n
= : frecuencia relativa de la clase i, se cumple que
1
1
k
i
h
1
l
l i
i
F f
=
=
(ii) Para un conjunto de datos la media es nica
(iii) Si un valor se modifica la media tambin se modifica
(iv)
2 2
1 1
( ) ( )
n n
i i i i
f x x f x B B s
significando que la media
aritmtica es el punto que minimiza la suma de los
cuadrados de las distancias de los datos a un punto dado
(v) Si a todos los valores de una variable X se les suma (resta)
una constante C, entonces la media aritmtica aumenta
(disminuye) en C
si y x C y x C = =
(vi) Si los valores se multiplican por una constante la media
queda multiplicada por dicha constante
si y Cx y Cx = =
Ejemplos: sean los datos
Autor: Abel Barrantes Herrera Pgina 9
Tema : Estadstica Descriptiva
Media ponderada.- Si
1 2
, , ,
r
x x x son las medias aritmticas
de conjuntos de tamao
1 2
, , ,
r
n n n ; respectivamente, entonces
la media ponderada
p
X est dada por:
1 1 2 2
1 2
r r
p
r
n x n x n x
X
n n n
+ + +
=
+ + +
2. Mediana
Para datos sueltos
Si la variables es discreta, se procede a ordenar los datos en forma
ascendente descendente y se define
1
2
( )
n
Med x x
+
= cuando n es impar
1
2 2
( )
2
n n
x x
Med x
+
+
=
Para datos agrupados (la variables es continua se considera continua) la
mediana es el punto que divide a los datos en 2 partes iguales 50% antes,
50% despus.
Resolveremos el caso de manera genrica, para dividir los datos en 2
partes % p a la derecha, 100 % p a la izquierda. Al nmero p le llamamos
percentil y lo denominamos por
p
P .
a) Calcular /100 p donde p = 1,2,....,100
b) Se identifica la clase que contiene al percentil analizando su frecuencia
relativa acumulada. Esta clase, a la que denominaremos por k es la que
cumple con:
1
/100
k k
H p H
s s
c) Conocida la clase donde se encuentra el percentil, lo calculamos por una
simple regla de tres dividiendo la fraccin del percentil contenida en
dicha clase entre la frecuencia relativa de la clase y multiplicando este
cociente por el ancho de clase.
1
1
100
k
p k k
k k
p
H
X l C
H H
| |
|
= +
|
|
|
\ .
Autor: Abel Barrantes Herrera Pgina 10
Tema : Estadstica Descriptiva
tambin, si deseamos expresarlo en trminos de frecuencias absolutas
1
1
*
100
k
p k k
k k
p n
F
X l C
F F
| |
|
= +
|
|
|
\ .
Donde :
k
l es el lmite inferior de la clase que contiene a p
n es el numero total de datos
k
C es el ancho de la clase que contiene a p
k
H es la frecuencia relativa acumulada de la clase que contiene a p
1 k
H
es la frecuencia relativa acumulada de la clase anterior de la
clase que contiene a p
k
F es la frecuencia relativa acumulada de la clase que contiene a p
1 k
F
es la frecuencia relativa acumulada de la clase anterior de la
clase que contiene a p
Esta frmula permite calcular la mediana (caso
50
P )
Propiedades de la mediana
(i)
1 1
| ( ) | | |
k k
i i i i
f x Med x f x A A s
(ii) La mediana depende del nmero de valores observados y no del
tamao de los valores extremos
(iii) La mediana no es adecuada para operaciones algebraicas
Nota esta frmula es aplicable a todo los percentil, especialmente a :
Primer cuartil =
25
P
Tercer cuartil =
75
P
Primer decil =
10
P , etc.
Autor: Abel Barrantes Herrera Pgina 11
Tema : Estadstica Descriptiva
3. La Moda
Para el caso de datos sueltos la moda es el dato que mas veces se repite,
puede no ser nica.
Una distribucin con una moda se denomina unimodal
Una distribucin con dos modas se denomina bimodal
Una distribucin con tres modas se denomina trimodal, etc.
Para calcular la moda con datos continuos agrupados en clases:
a) Identificar la clase modal C
m
(la de mayor frecuencia)
b) Usar la frmula
1
1 2
( )
m m
Moda X l C
| | A
= +
|
A + A
\ .
donde:
m
l es el lmite inferior de la clase modal
m
C es el ancho de la clase modal
1 1 Mo Mo
f f
A = siendo
Mo
f la frecuencia de la clase modal,
1 Mo
f
la
frecuencia de la clase anterior a la clase modal
2 1 Mo Mo
f f
+
A = siendo
Mo
f la frecuencia de la clase modal,
1 Mo
f
la
frecuencia de la clase posterior a la clase modal
Propiedades
(i) El valor de la moda es independiente de los valores extremos
(ii) Vara si cambia el intervalo de clase
(iii) No se presta a manipulaciones algebraicas
Relacin entre Media, Mediana y Moda
a) Para el caso
( ) ( ) x Med x Moda x = =
La distribucin es simtrica
b) Para el caso
Autor: Abel Barrantes Herrera Pgina 12
Tema : Estadstica Descriptiva
( ) ( ) x Med x Moda x > >
La distribucin es sesgada a la derecha
c) Para el caso
( ) ( ) x Med x Moda x < <
La distribucin es sesgada a la izquierda
Nota sesgo significa donde est la mayor cola
4. Media Armnica
Si tenemos datos sueltos
1 2
, , ,
k
x x x con frecuencias
1 2
, , ,
k
f f f definimos la media
armnica por la frmula
1 2
1 2
1
( ) ;
k
k
k
i
n
Mh x
f f f
x x x
n f
=
+ + +
=
5. Media Geomtrica
La media geomtrica para n datos sueltos
1 2
, , ,
n
x x x se define por:
1 2
( ) * * *
n
n
MG X x x x =
Si los datos estn agrupados en frecuencias, entonces
1 2
1 2
( ) * * *
k
f f f
n
k
MG X x x x =
donde
1
k
i
i
n f
=
=
Si aplicamos logaritmos a esta ltima frmula
1 1 2 2 1
( )
( ) ( ) ( )
( ( ))
k
i i
k k i
f Log x
f Log x f Log x f Log x
Log MG X
n n
=
+ + +
= =
Autor: Abel Barrantes Herrera Pgina 13
Tema : Estadstica Descriptiva
de donde
1 1
( )
( )
k
i i
i
f Log x
MG X Log
n
=
| |
|
| =
|
|
\ .
de donde concluimos que la media geomtrica es el antilogaritmo de la
media aritmtica de los logaritmos de los datos en anlisis.
Propiedades
i. Si
( )
( )
( )
i
i
i
X MG X
Z MG Z
Y MG Y
= =
ii. El clculo est basado en todos los datos u observaciones
iii. No es aplicable a datos negativos
iv. Si uno de los datos es 0 la media geomtrica es 0
v. Es de utilidad cuando se aplica para promediar proporciones
NOTA.- la relacin entre las medias es: ( ) ( ) Mh X MG X X s s
6. Media Cuadrtica
La media cuadrtica para n datos sueltos
1 2
, , ,
n
x x x se define por:
2 2 2
1 2
( )
n
x x x
MQ X
n
+ + +
=
Si los datos estn agrupados en frecuencias, entonces
2 2 2
1 1 2 2
( )
k k
f x f x f x
MQ X
n
+ + +
=
donde
1
k
i
i
n f
=
=
Medidas de Dispersin.- Las medidas de dispersin buscan definir que tan
cerca (lejos) se encuentran los datos de su centro.
1. ( ) ( ) Rango Max X Min X =
2. Recorrido intercuartlico
3 1 i
Q Q Q =
3. Recorrido semi-intercuartlico
Autor: Abel Barrantes Herrera Pgina 14
Tema : Estadstica Descriptiva
3 1
2
i
s
Q Q
Q
=
4. Desviacin Media a un punto r
1
( ) | |
k
M i i
D r h x r =
En el caso de datos agrupados x
i
es la marca de clase. Son de inters
los casos cuando r es la media, la mediana, o la moda
Ntese que la Desviacin Media usa todos los datos.
5. Varianza
a) Para datos sueltos:
2
2 1
( )
1
n
i
x x
S
n
b) Para datos agrupados en frecuencias
2
2 1
( )
1
k
i i
f x x
S
n
c) Para datos agrupados en k clases
2
2 1
( )
1
k
i i
f x x
S
n
, donde
i
x es
la marca de clase
d) Llamamos Desviacin Estndar a
2 2
S S =
Propiedades
i)
2
0 S > Para que sea 0 es necesario que
1 1 n
x x x Cte = = = =
ii) Se tiene
( ) ( ) Var x c Var x =
Demostracin:
( ) Media x c x c =
2
1
[( ) ( )]
( )
1
k
i i i
f x c Media x c
Var x c
n
=
2
1
[( ) ( )]
( )
1
k
i i i
f x c x c
Var x c
n
=
Autor: Abel Barrantes Herrera Pgina 15
Tema : Estadstica Descriptiva
2
1
( )
( ) ( )
1
k
i i i
f x x
Var x c Var x
n
= =
2
( ) ( ) Var cx c Var x =
La demostracin es similar usando ( ) Media cx cx =
iii)
2
( ) ( ) Var aX b a Var X = para a y b constantes
iv) Para distribuciones simtricas se cumple que:
El 68.27% delos datos X S e
El 95.45% de los datos 2 X S e
El 99.73% de los datos 3 X S e
v) Si conocemos
1 2
, x x las medias y
2 2
1 2
, S S las varianzas de dos
muestras de tamao n
1
, n
2
, respectivamente, entonces:
2 2
2 2
1 1 2 2 2 1 1 2 2
1 2 1 2
( ) ( )
( 1) ( 1)
1 1
p p
n x x n x x
n S n S
S
n n n n
+
+
= +
+ +
Esto se puede generalizar considerando
1 2
, , ,
l
x x x las medias y
2 2 2
1 2
, , ,
l
S S S las varianzas de l muestras de tamao
1 2
, , ,
l
n n n
respectivamente, entonces
2 2
2 1 1
( 1) ( )
1 1
l l
i i i i p
n S n x x
S
n n
= +
, siendo
1
l
i
n n =
2
1
( 1)
var
1
l
i i
n S
Intra ianza
n
2
1
( )
var
1
l
i i p
n x x
Inter ianza
n
Medidas de dispersin relativa
Coeficiente de Variacin
. .
S
CV
x
=
Autor: Abel Barrantes Herrera Pgina 16
Tema : Estadstica Descriptiva
Considerando si . . 50% CV > alto grado de dispersin
Momentos
Sean
1 2
, , ,
k
x x x valores de la variable X con frecuencias absolutas
1 2
, , ,
k
f f f ;
respectivamente. Definimos el momento de orden m respecto del punto C:
1 1
1
1
( ) ( )
( ) ( )
k k
r r
i i i i k
r
r i i k
i
f x C f x C
M C h x C
n
f
= = =
La interpretacin es similar a la interpretacin fsica, si consideramos a
i
h como
la masa concentrada en el punto
i
x y a ( )
i
x C la distancia de
i
x al punto C .
As tenemos una similitud con los momentos de masa usados en fsica.
Son de particular inters los momentos respecto del origen (cuando 0 C = )
denominados
r
M' y los momentos respecto de la media ( C x = ) denominados
r
M tenindose:
0 0
1 1
0 0
1 1
1 1
1 1
2 2
1 1
2 2
( )
1 1
( )
0
( )
( )
k k
i i i i
k k
i i i i
k k
i i i i
f x f x x
M M
n n
f x f x x
M x M
n n
f x f x x
M M Var X
n n
' = = = =
' = = = =
' = = =
Autor: Abel Barrantes Herrera Pgina 17
Tema : Estadstica Descriptiva
Medidas de Asimetra
Las medidas de dispersin nos muestran la magnitud de las variaciones sin
indicarnos la direccin hacia donde ocurren. Las medidas de asimetra indican
la deformacin horizontal de las curvas de frecuencias, as sin la curva es
alargada a la derecha decimos que tiene asimetra a la derecha o positiva, si es
alargada a la izquierda decimos que tiene asimetra a la izquierda o negativa.
Coeficientes de Asimetra
Cuando disponemos de los valores de la media, moda, mediana, cuartiles y
desviacin estndar y la distribucin es unimodal, debemos usar:
Primer coeficiente de Pearson
( ) ( )
s
Media X Moda X
A
S
=
En el caso que no podamos calcular la media ni la distribucin estndar,
Segundo coeficiente de Pearson
3 1
3 1
2 ( )
s
Q Q Mediana X
A
Q Q
+
=
La lectura de los coeficientes es:
Si 0
s
A = la distribucin es simtrica
Si 0
s
A > la distribucin es sesgada al lado derecho
Si 0
s
A < la distribucin es sesgada al lado izquierdo
Coeficiente de Fisher
3
3 1
3 3
( )
k
i i
s
f x x
M
A
S nS
= =
Un valor | | 1
k
S > indica una distribucin altamente asimtrica, una distribucin
con 1 | | 1/ 2
k
S > > indica una asimetra moderada, y si 1/ 2 | | 0
k
S > > la
distribucin es simtrica
Medidas de Curtosis
Curtosis es el grado de deformacin vertical (apuntamiento) esto es que tan
alargadas hacia arriba aplanadas son las distribuciones de frecuencias.
Autor: Abel Barrantes Herrera Pgina 18
Tema : Estadstica Descriptiva
Segn el grado de apuntamiento las curvas se clasifican en Leptocrticas, si su
apuntamiento es alto, Mesocrticas si su apuntamiento es medio y platicrticas
si son mas bien aplanadas. El siguiente cuadro muestra los tres casos
Una de las medidas de curtosis est dada por el coeficiente
3 1
90 10
2( )
Q Q
k
P P
donde
Si K > 0.263 la curva de la distribucin es leptocrtica
Si k = 0.263 la curva de la distribucin es mesocrtica
Si k < 0.263 la curva de la distribucin es platicrtica
Otra forma de medir la curtosis es usando
4
4
t
M
K
S
= Esta medida es siempre
positiva y se interpreta por
Si 3
t
K > la curva de la distribucin es leptocrtica
3
Q : Cuartil 3
1
Q : Cuartil 1
90
P : Percentil 90
10
P : Percentil 10
Autor: Abel Barrantes Herrera Pgina 19
Tema : Estadstica Descriptiva
Si 3
t
K = la curva de la distribucin es mesocrtica
Si 3
t
K < la curva de la distribucin es platicrtica
Autor: Abel Barrantes Herrera Pgina 20
Tema : Estadstica Descriptiva
Ejemplos
CALCULO DE MEDIDAS DE CENTRALIZACIN
CALCULO DE LA MODA.- Sea el cuadro de frecuencias
De a
Marca de
clase
Frecuencia
relativa
Frecuencia
relativa ac.
Frecuencia
Absoluta
Frecuencia
Absoluta ac.
1 0.50 2.50 1.50 0.02 0.02 4 4
2 2.50 4.50 3.50 0.10 0.12 20 24
3 4.50 6.50 5.50 0.20 0.32 40 64
4 6.50 8.50 7.50 0.16 0.48 32 96
5 8.50 10.50 9.50 0.40 0.88 80 176
6 10.50 12.50 11.50 0.10 0.98 20 196
7 12.50 14.50 13.50 0.02 1.00 4 200
Sumas 1 200
Clase modal : 5 (la de mayor frecuencia absoluta relativa)
Frmula
1
1 2
( )
m m
Moda X l C
| | A
= +
|
A + A
\ .
donde:
m
l es el lmite inferior de la clase modal 8.5
m
l =
m
C es el ancho de la clase modal 2
m
C =
1 1 Mo Mo
f f
A = siendo
Mo
f la frecuencia de la clase modal,
1 Mo
f
la
frecuencia de la clase anterior a la clase modal
1 1
80 32 48
Mo Mo
f f
A = = =
2 1 Mo Mo
f f
+
A = siendo
Mo
f la frecuencia de la clase modal,
1 Mo
f
la
frecuencia de la clase posterior a la clase modal
2 1
80 20 60
Mo Mo
f f
+
A = = =
1
1 2
48
( ) 8.5 2 9.39
48 60
m m
Moda X l C
| | A | |
= + = + =
| |
A + A +
\ .
\ .
Autor: Abel Barrantes Herrera Pgina 21
Tema : Estadstica Descriptiva
CALCULO DE LA MEDIANA
De a
Marca de
clase
Frecuencia
relativa
Frecuencia
relativa ac.
Frecuencia
Absoluta
Frecuencia
Absoluta ac.
1 0.50 2.50 1.50 0.02 0.02 4 4
2 2.50 4.50 3.50 0.10 0.12 20 24
3 4.50 6.50 5.50 0.20 0.32 40 64
4 6.50 8.50 7.50 0.16 0.48 32 96
5 8.50 10.50 9.50 0.40 0.88 80 176
6 10.50 12.50 11.50 0.10 0.98 20 196
7 12.50 14.50 13.50 0.02 1.00 4 200
Sumas 1 200
Clase Mediana: 5 (la menor de las clases cuya frecuencia relativa acumulada
es mayor igual a 0.5 )
Usamos la frmula para percentles recordando que la mediana es el percentil
50 (p = 50)
1
1
100
k
i k k
k k
p
H
p l C
H H
| |
|
= +
|
|
|
\ .
Donde :
k
l es el lmite inferior de la clase que contiene a p 8.5
k
l =
n es el numero total de datos
k
C es el ancho de la clase que contiene a p 2
k
C =
k
H es la frecuencia relativa acumulada de la clase que contiene a p
0.88
k
H =
1 k
H
es la frecuencia relativa acumulada de la clase anterior de la
clase que contiene a p
1
0.48
k
H
=
1
1
0.50 0.48
100
( ) 8.5 2 8.6
0.88 0.48
k
k k
k k
p
H
Med X l C
H H
| |
|
| |
= + = + =
|
|
\ .
|
|
\ .
Autor: Abel Barrantes Herrera Pgina 22
Tema : Estadstica Descriptiva
Autor: Abel Barrantes Herrera Pgina 23
Tema : Estadstica Descriptiva
CALCULO DE LA MEDIA
De a
Marca de
clase
Frecuencia
relativa
Frecuencia
Relativa Ac.
Frecuencia
Absoluta
Frecuencia
Absoluta Ac. X
i
*h
i
1 0.50 2.50 1.50 0.02 0.02 4 4 0.03
2 2.50 4.50 3.50 0.10 0.12 20 24 0.35
3 4.50 6.50 5.50 0.20 0.32 40 64 1.1
4 6.50 8.50 7.50 0.16 0.48 32 96 1.2
5 8.50 10.50 9.50 0.40 0.88 80 176 3.8
6 10.50 12.50 11.50 0.10 0.98 20 196 1.15
7 12.50 14.50 13.50 0.02 1.00 4 200 0.27
Sumas 1 200 7.9
1 1
1
1
k k
i i i i k
i
x f x h x
f
= =
1
k
i i
x h x =
usando la segunda obtenemos: Media(X) = 2.6744
Autor: Abel Barrantes Herrera Pgina 26
Tema : Estadstica Descriptiva
b. Clculo de la Mediana(X) Frmula:
1
1
100
k
i k k
k k
p
H
p l C
H H
| |
|
= +
|
|
|
\ .
i. 50 p = ; Clase mediana: 4 (ntese:
3 4
0.50 H H < < )
ii. 2.65
k
l =
iii. 0.1
k
C =
iv. 0.689
k
H =
v.
1
0.433
k
H
=
Mediana(X)=2.676
c. Moda :
1
1 2
( )
m m
Moda X l C
| | A
= +
|
A + A
\ .
Clase modal: 4
l
m
= 2.65
1
1
23 19 4
23 17 5
A = =
A = =
0.1
m
C =
Moda = 2.690
d. Rango Intercuartlico
i. p = 25 ; Clase: 3
ii. 2.55
k
l =
iii. 0.1
k
C =
iv. 0.433
k
H =
v.
1
0.222
k
H
=
p(25) =2.563
vi. p = 75 ; Clase: 5
vii. 2.75
k
l =
viii. 0.1
k
C =
Autor: Abel Barrantes Herrera Pgina 27
Tema : Estadstica Descriptiva
ix. 0.878
k
H =
x.
1
0.689
k
H
=
p(75)=2.782
Rango intercuartlico = 2.782 2.563 = 0.219
e. Percentil 90
i. 90 p = ;Clase: 6
ii. 2.85
k
l =
iii. 0.1
k
C =
iv. 0.956
k
H =
v.
1
0.878
k
H
=
p(90)=2.878
Percentil 10
vi. 10 p = ;Clase: 2
vii. 2.45
k
l =
viii. 0.1
k
C =
ix. 0.222
k
H =
x.
1
0.078
k
H
=
p(10)=2.878
f. Asimetra.- Se cumple Moda > Mediana > Media, entonces, es
sesgada a la derecha. Ntese que las diferencias entre las
tres medidas son mnimas.
g. Curtosis
3 1
90 10
2( )
Q Q
k
P P
;
2.782 2.563
0.265
2(2.878 2.465)
k
= =
0.263 k > la curva es leptocrtica
h. Coeficiente de variacin
Varianza = 2.0912/89 = 0.0235
Desviacin estndar = 0.153
Coeficiente de variacin = 0.153/2.674 = 5.72%
Autor: Abel Barrantes Herrera Pgina 28
Tema : Estadstica Descriptiva
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
2.35 2.45 2.55 2.65 2.75 2.85 2.95 3.05
OJIVA