Beruflich Dokumente
Kultur Dokumente
Septiembre 2010
Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Introduccion a la Estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Poblacion, Muestra y Caracter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1
Box Plot con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2
Contenidos
Introduccion a la Estadstica.
Introduccion a la Estadstica
Fenomenos Determinsticos: Aquellos que llevados a cabo en las mismas condiciones,
conducen siempre al mismo resultado.
Fenomenos Aleatorios: Sujetos al azar. Llevados a cabo en las mismas condiciones dan
resultados diferentes.
Estadstica,
Inferencial: Deduce o infiere a partir de los datos, leyes o propiedades para establecer un
modelo teorico de probabilidad que sigue la poblacion de la que proceden los datos.
3
Poblacion, Muestra y Caracter
Poblacion: Conjunto de Individuos, objetos o entes en general, sobre los que van a recaer
observaciones de un numero finito de caractersticas.
Unidad Estadstica: Cada uno de los elementos que componen la poblacion estadstica.
Variable Estadstica: El valor que adopta un caracter de entre sus distintas modalidades posibles.
Cuantitativas.
Cualitativas.
4
Frecuencias Absolutas y Relativas 5 / 32
Frecuencia Absoluta
Consideremos una muestra de tamano n, extrada de una poblacion estadstica de la que
observamos un caracter C que puede tomar las modalidades C1 , C2 , . . . , Cm .
Debido a que las modalidades constituyen una particion del espacio muestral,
X
m
n1 + n2 + + nm = ni = n
i=1
0 ni n, para todo i = 1, 2, . . . , m
Ejemplo: Fabrica de barras roscadas de 5 m.
Poblacion:
Unidad Estadstica:
Muestra:
120, 121, 120, 119, 121, 120, 120, 119, 120, 121,
120, 120, 122, 120, 121, 120, 119, 122, 120, 119
Caracter:
Modalidad:
Variable Estadstica:
5
Frecuencia Relativa
La Frecuencia Relativa de la modalidad Ci se define como el cociente entre la Frecuencia
Absoluta y el tamano de la muestra,
fi = ni /n para todo i = 1, . . . , m
X
m
f1 + f2 + + fm = fi = 1
i=1
0 fi 1, para todo i = 1, . . . , m.
Suele ser frecuente hablar en terminos de porcentajes, multiplicando las frecuencias relativas por
100.
Ejemplo:
Caracter Ci ni fi
C1 = 119
C2 = 120
C3 = 121
C4 = 122
P P
Total ni = 20 fi = 1
> table(x)
x
119 120 121 122
4 10 4 2
> table(x)/length(x)
x
119 120 121 122
0.2 0.5 0.2 0.1
6
Frecuencias Absolutas y Relativas con R
> addmargins(table(x))
x
119 120 121 122 Sum
4 10 4 2 20
> addmargins(table(x)/length(x))
x
119 120 121 122 Sum
0.2 0.5 0.2 0.1 1.0
Verificandose Nm = n.
Frecuencia Relativa Acumulada: Tiene sentido para variables cuantitativas y cualitativas
ordinales.
n1 + n2 + + ni X
i
Fi = = f1 + f2 + + fi = fk
n
k=1
Verificandose Fm = 1.
Ejemplo:
Caracter Ci ni Ni fi Fi
C1 = 119
C2 = 120
C3 = 121
C4 = 122 =n 1
P P
Total ni = 12 fi = 1
7
Frecuencias Acumuladas con R
> cumsum(table(x))
> cumsum(table(x)/length(x))
Diagrama de Rectangulos
Sobre el eje de Abcisas se representan las distintas modalidades de un caracter cualitativo y se
levantan sobre ellos rectangulos de bases iguales, no solapados y cuya altura es proporcional a la
frecuencia Absoluta o Relativa de cada modalidad.
15
0.4
0.3
10
Frecuencia
Frecuencia
0.2
5
0.1
0.0
0
nd Pr Se Su nd Pr Se Su
Formacin Formacin
8
Diagramas de Rectangulos con R
Datos referentes a la formacion de trabajadores de una empresa:
> form<-c('nd','Pr','Pr','Se','Su','Pr','Pr','Se',
+ 'Su','Se','Su','Se','Su','Se','Su','Pr','Pr',
+ 'Pr','Pr','Se','Su','Se','Su','Se','Su','Se',
+ 'Su','Pr','Pr','Pr','Pr','Pr','Pr','Pr','Pr',
+ 'Se','Se')
> barplot(table(form),xlab="Formacion",ylab="Frecuencia")
> barplot(table(form)/length(form),xlab="Formacion",
+ ylab="Frecuencia")
Diagrama de Sectores
Sobre un crculo, se asigna a cada una de las modalidades un sector circular con amplitud
proporcional a la frecuencia (absoluta o relativa).
ni
Amplitudi = 360 = 360 fi
n
Pr
nd
Se
Su
9
Diagrama de Sectores con R
A chart made by plotting the numeric values of a set of quantities as a set of adjacent circular
wedges with arc lengths proportional to the total amount.
> pie(table(form))
Pictograma
Cada modalidad se representa mediante un dibujo de tamano proporcional a la frecuencia
de la misma.
Todos los dibujos empleados son del mismo tamano, a cada modalidad se le asignan tantos
dibujos o partes del mismo segun su frecuencia.
10
Cartograma
Representacion por medio de un mapa.
11
Ordenacion de datos de Caracter Cuantitativo 19 / 32
Confeccionar la tabla de frecuencias ordenando los valores del caracter de menor a mayor:
Caracter Ci ni Ni fi Fi
C1 n1 N1 = n1 f1 F1 = f1
C2 n2 N2 f2 F2
.. .. .. .. ..
. . . . .
Cm nm Nm = n fm Fm = 1
P P
Total ni = n fi = 1
Los extremos de los intervalos de clase se denominan Extremos de Clase, bi , y sus puntos
medios Marcas de Clase, xi .
El numero de Intervalos de Clase se elige entre 4 y 15 de forma que en cada intervalo haya al
menos 5 observaciones.
Los Intervalos de Clase no pueden solaparse.
xi ni Ni fi Fi
[b1 , b2 ) x1 n1 N1 = n1 f1 F1 = f1
[b2 , b3 ) x2 n2 N2 f2 F2
.. .. .. .. .. ..
. . . . . .
[bm1 , bm ] xm nm Nm = n fm Fm = 1
P P
Total ni = n fi = 1
12
Ejemplo: Ingresos Anuales
66814.19 42144.33 25697.76 35976.87 39060.60 13362.83
61674.64 53451.35 16446.57 9867.94 35976.87 7195.37
78121.21 28781.49 12334.92 45947.61 54479.26 43172.24
69897.92 58590.90 52423.44 25697.76 51395.53 87372.40
59618.82 25697.76 26725.67 71953.74 48311.80 6475.83
[bi1 , bi ) xi ni Ni fi Fi
[0, 20000) 10000
[20000, 40000)
[40000, 60000)
[60000, 80000)
[80000, 100000] 90000 30 1
P P
Total ni = 30 fi = 1
Diagrama de Barras
Se utiliza para representar variables estadsticas no agrupadas, las alturas de las barras deben
ser proporcionales a las frecuencias, absolutas o relativas.
La suma de la altura de las barras debera ser n o 1.
0.5
10
0.4
8
Frecuencia
Frecuencia
0.3
6
0.2
4
0.1
2
119.0 119.5 120.0 120.5 121.0 121.5 122.0 119.0 119.5 120.0 120.5 121.0 121.5 122.0
N Vueltas N Vueltas
13
Diagrama de Barras con R
Numero de vueltas completas en 1 m de barra roscada.
Histograma
Se utiliza para representar las frecuencias absolutas o relativas cuando los datos estan
agrupados, el area de los rectangulos sera proporcional a las frecuencias.
La suma de las areas debera ser n o 1.
Cuidado cuando la amplitud de los Intervalos de Clase no sean del mismo tamano.
1.5e05
Densidad de Frecuencia
Densidad de Frecuencia
1.0e05
1.0e05
5.0e06
5.0e06
0.0e+00
0.0e+00
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 0 20000 40000 60000 80000
Ingresos Ingresos
14
Histograma con R
> Ingresos<-c(66814.195,42144.338,25697.767,35976.874,39060.606,
+ 13362.839,61674.641,53451.356,16446.571,9867.943,35976.874,
+ 7195.375,78121.212,28781.499,12334.928,459476.077,54479.266,
+ 43172.249,69897.927,58590.909,52423.445,25697.767,51395.534,
+ 87372.408,59618.820,25697.767,26725.678,71953.748,48311.802,
+ 6475.837)
> histograma<-hist(Ingresos,breaks=seq(0,100000,by=20000),
+ freq=FALSE,main="Histograma de Ingresos",
+ ylab="Densidad de Frecuencia")
> histograma
> histograma$breaks
> histograma$counts
> histograma$intensities
> histograma$mids
15
Polgonos de Frecuencias
Si los datos estan sin agrupar, se obtienen uniendo los extremos de las barras.
10
8
Frecuencia
6
4
2
N Vueltas
Si los datos estan agrupados, se obtiene uniendo los puntos medios superiores de los
rectangulos y en los extremos con los puntos medios de las alturas de los rectangulos. Area
bajo el polgono n o 1.
Histograma de Ingresos
1.5e05
Densidad de Frecuencia
1.0e05
5.0e06
0.0e+00
Ingresos
16
Frecuencias Acumuladas
En el caso de datos sin agrupar se utiliza el Diagrama de Frecuencias Acumuladas.
1.0
20
0.8
15
Frecuencia Acumulada
Frecuencia Acumulada
0.6
10
0.4
5
0.2
0.0
0
118 119 120 121 122 123 118 119 120 121 122 123
N Vueltas N Vueltas
1.0
30
25
0.8
20
Frecuencia Acumulada
Frecuencia Acumulada
0.6
15
0.4
10
0.2
5
0.0
0
20000 0 20000 40000 60000 80000 100000 120000 20000 0 20000 40000 60000 80000 100000 120000
Ingresos Ingresos
Tallo y Hojas
Procedimiento semigrafico util con menos de 50 datos.
Redondear los datos a dos o tres cifras significativas. Disponerlos en una tabla con dos columnas,
tallo y hojas.
Cada tallo se escribe solo una vez. El numero de hojas representa la frecuencia de cada clase.
0|67
1|0236
2|66679
3|669
4|2368 Ingresos Anuales
5|12349
6|027
7|028
8|7
El punto decimal se situa 4 posiciones a la derecha de |.
17
Tallo y Hojas con R
Menu Paquetes, Instalar Paquetes..., elegir Mirror e instalar UsingR.
> library(UsingR)
> ingresos <- cfb$INCOME[1:15]
> stem(ingresos)
0 | 70236
2 | 69669
4 | 23
6 | 278
> ingresos
18
Box Plot
Permite mostrar la distribucion de los datos de una muestra. Esta especialmente indicado para
detectar valores atpicos, outliers.
4e+05
60000
3e+05
2e+05
40000
1e+05
20000
0e+00
Se consideraran como valores atpicos los valores fuera del intervalo (LI, LS).
Dibujar las lneas que van desde los extremos de la caja hasta el valor mas extremo, no
atpico.
Ingresos Anuales Ingresos Anuales Modificado
80000
4e+05
60000
3e+05
2e+05
40000
1e+05
20000
0e+00
19
Box Plot con R
> library(UsingR)
> ingresos <- cfb$INCOME[1:15]
> boxplot(ingresos)
> ingresos <- cfb$INCOME[1:16]
> boxplot(ingresos)
70000
4e+05
3e+05
50000
2e+05
30000
1e+05
10000
0e+00
20