Sie sind auf Seite 1von 20

Estadstica

Tema 1: Estadstica Descriptiva Unidimensional


Unidad 1: Frecuencias y Graficos

Area de Estadstica e Investigacion Operativa


Licesio J. Rodrguez-Aragon

Septiembre 2010

Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Introduccion a la Estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Poblacion, Muestra y Caracter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Frecuencias Absolutas y Relativas 5


Frecuencia Absoluta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Frecuencia Relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Frecuencias Absolutas y Relativas con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Frecuencias Absolutas y Relativas con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Frecuencias Acumuladas (Cumulative). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Frecuencias Acumuladas con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Graficos para un Caracter Cualitativo 12


Diagrama de Rectangulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Diagramas de Rectangulos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Diagrama de Sectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Diagrama de Sectores con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Pictograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Cartograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Ordenacion de datos de Caracter Cuantitativo 19


Intervalos y Marcas de Clase. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Ejemplo: Ingresos Anuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Graficos para un Caracter Cuantitativo 22


Diagrama de Barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Diagrama de Barras con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Histograma con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Polgonos de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Frecuencias Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Tallo y Hojas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Tallo y Hojas con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Box Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1
Box Plot con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2
Contenidos
 Introduccion a la Estadstica.

 Poblacion, Muestra y Caracter.

 Frecuencias Absolutas y Relativas.

 Graficos para un Caracter Cualitativo.

 Ordenacion de datos de Caracter Cuantitativo.

 Graficos para un Caracter Cuantitativo.

La Distribucion de Frecuencias son el objeto de la Estadstica Descriptiva

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 2 / 32

Introduccion a la Estadstica
 Fenomenos Determinsticos: Aquellos que llevados a cabo en las mismas condiciones,
conducen siempre al mismo resultado.

 Fenomenos Aleatorios: Sujetos al azar. Llevados a cabo en las mismas condiciones dan
resultados diferentes.

Estadstica,

 Descriptiva: Establece normas para obtener datos, ordenarlos en tablas, representarlos


graficamente y reducirlos.

 Inferencial: Deduce o infiere a partir de los datos, leyes o propiedades para establecer un
modelo teorico de probabilidad que sigue la poblacion de la que proceden los datos.

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 3 / 32

3
Poblacion, Muestra y Caracter
 Poblacion: Conjunto de Individuos, objetos o entes en general, sobre los que van a recaer
observaciones de un numero finito de caractersticas.

 Unidad Estadstica: Cada uno de los elementos que componen la poblacion estadstica.

 Muestra: Conjunto finito de unidades estadsticas, pudiendo estar repetidas o no.

En muchos experimentos cientficos la poblacion estadstica es el conjunto imaginario de infinitas


repeticiones del experimento.

 Caracter: Propiedad o cualidad inherente en las unidades estadsticas. Algunos medibles,


cuantificables, otros no, cualidades.

Cuantitativos o Medibles: altura, peso, longitud, densidad, etc.


Cualitativos o Cualidades: Valido/Defectuoso, G/M/P, Soltero/Casado/Viudo, etc.

 Modalidades: Diferentes valores o situaciones que puede tomar un caracter.

Variable Estadstica: El valor que adopta un caracter de entre sus distintas modalidades posibles.

 Cuantitativas.

Discretas (Cantidad finita o numerable): Pasos de vuelta completos en 1 m de barra


roscada.
Continuas: Gramos de barniz por recipiente, en una planta de envasado.

 Cualitativas.

Nominal (No admite orden): Control de calidad, Valido, Desechar, Reparar.


Ordinal (Admite orden): Clasificacion en categoras, productos alimenticios (huevos).

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 4 / 32

4
Frecuencias Absolutas y Relativas 5 / 32

Frecuencia Absoluta
Consideremos una muestra de tamano n, extrada de una poblacion estadstica de la que
observamos un caracter C que puede tomar las modalidades C1 , C2 , . . . , Cm .

Se llama Frecuencia Absoluta de la modalidad Ci al numero de veces ni que aparece repetida


esa modalidad en el conjunto de observaciones realizadas.
Es decir, numero de unidades estadsticas de la muestra que presentan la modalidad Ci .

Debido a que las modalidades constituyen una particion del espacio muestral,

X
m
n1 + n2 + + nm = ni = n
i=1

0 ni n, para todo i = 1, 2, . . . , m
Ejemplo: Fabrica de barras roscadas de 5 m.

Poblacion:

Unidad Estadstica:

Muestra:

120, 121, 120, 119, 121, 120, 120, 119, 120, 121,
120, 120, 122, 120, 121, 120, 119, 122, 120, 119
Caracter:

Modalidad:

Variable Estadstica:

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 6 / 32

5
Frecuencia Relativa
La Frecuencia Relativa de la modalidad Ci se define como el cociente entre la Frecuencia
Absoluta y el tamano de la muestra,

fi = ni /n para todo i = 1, . . . , m

Es inmediato, por definicion de Frecuencia Absoluta,

X
m
f1 + f2 + + fm = fi = 1
i=1

0 fi 1, para todo i = 1, . . . , m.
Suele ser frecuente hablar en terminos de porcentajes, multiplicando las frecuencias relativas por
100.

Ejemplo:

Caracter Ci ni fi
C1 = 119
C2 = 120
C3 = 121
C4 = 122
P P
Total ni = 20 fi = 1

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 7 / 32

Frecuencias Absolutas y Relativas con R


> x <- c(120, 121, 120, 119, 121, 120, 120, 119, 120, 121, 120,
+ 120, 122, 120, 121, 120, 119, 122, 120, 119)

> table(x)

x
119 120 121 122
4 10 4 2

> table(x)/length(x)

x
119 120 121 122
0.2 0.5 0.2 0.1

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 8 / 32

6
Frecuencias Absolutas y Relativas con R
> addmargins(table(x))

x
119 120 121 122 Sum
4 10 4 2 20

> addmargins(table(x)/length(x))

x
119 120 121 122 Sum
0.2 0.5 0.2 0.1 1.0

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 9 / 32

Frecuencias Acumuladas (Cumulative)


Frecuencia Absoluta Acumulada: Tiene sentido para variables cuantitativas y cualitativas
ordinales.
X
i
Ni = n1 + n2 + + ni = nk
k=1

Verificandose Nm = n.
Frecuencia Relativa Acumulada: Tiene sentido para variables cuantitativas y cualitativas
ordinales.
n1 + n2 + + ni X
i
Fi = = f1 + f2 + + fi = fk
n
k=1

Verificandose Fm = 1.

Ejemplo:
Caracter Ci ni Ni fi Fi
C1 = 119
C2 = 120
C3 = 121
C4 = 122 =n 1
P P
Total ni = 12 fi = 1

Ejercicio: Calcular la tabla de Frecuencias: Absolutas, Relativas y sus respectivas Acumuladas,


usando algun tipo de herramienta informatica: Excel, Matlab, R, etc.

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 10 / 32

7
Frecuencias Acumuladas con R
> cumsum(table(x))

119 120 121 122


4 14 18 20

> cumsum(table(x)/length(x))

119 120 121 122


0.2 0.7 0.9 1.0

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 11 / 32

Graficos para un Caracter Cualitativo 12 / 32

Diagrama de Rectangulos
Sobre el eje de Abcisas se representan las distintas modalidades de un caracter cualitativo y se
levantan sobre ellos rectangulos de bases iguales, no solapados y cuya altura es proporcional a la
frecuencia Absoluta o Relativa de cada modalidad.
15

0.4
0.3
10
Frecuencia

Frecuencia

0.2
5

0.1
0.0
0

nd Pr Se Su nd Pr Se Su

Formacin Formacin

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 13 / 32

8
Diagramas de Rectangulos con R
Datos referentes a la formacion de trabajadores de una empresa:

> form<-c('nd','Pr','Pr','Se','Su','Pr','Pr','Se',
+ 'Su','Se','Su','Se','Su','Se','Su','Pr','Pr',

+ 'Pr','Pr','Se','Su','Se','Su','Se','Su','Se',

+ 'Su','Pr','Pr','Pr','Pr','Pr','Pr','Pr','Pr',

+ 'Se','Se')

> barplot(table(form),xlab="Formacion",ylab="Frecuencia")
> barplot(table(form)/length(form),xlab="Formacion",
+ ylab="Frecuencia")

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 14 / 32

Diagrama de Sectores
Sobre un crculo, se asigna a cada una de las modalidades un sector circular con amplitud
proporcional a la frecuencia (absoluta o relativa).
ni
Amplitudi = 360 = 360 fi
n
Pr

nd

Se
Su

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 15 / 32

9
Diagrama de Sectores con R
A chart made by plotting the numeric values of a set of quantities as a set of adjacent circular
wedges with arc lengths proportional to the total amount.

> pie(table(form))

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 16 / 32

Pictograma
 Cada modalidad se representa mediante un dibujo de tamano proporcional a la frecuencia
de la misma.

 Todos los dibujos empleados son del mismo tamano, a cada modalidad se le asignan tantos
dibujos o partes del mismo segun su frecuencia.

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 17 / 32

10
Cartograma
Representacion por medio de un mapa.

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 18 / 32

11
Ordenacion de datos de Caracter Cuantitativo 19 / 32

Intervalos y Marcas de Clase


En las observaciones de un Caracter Cuantitativo puede ocurrir:

 La variable estadstica tome pocos valores diferentes.

Confeccionar la tabla de frecuencias ordenando los valores del caracter de menor a mayor:
Caracter Ci ni Ni fi Fi
C1 n1 N1 = n1 f1 F1 = f1
C2 n2 N2 f2 F2
.. .. .. .. ..
. . . . .
Cm nm Nm = n fm Fm = 1
P P
Total ni = n fi = 1

 La variable estadstica tome muchos valores diferentes, caracteres cuantitativos continuos y


muestras de gran tamano.

Agrupar los valores de la variable estadstica en Intervalos de Clase, contiguos y elegidos


convenientemente para perder la mnima informacion posible.

Los extremos de los intervalos de clase se denominan Extremos de Clase, bi , y sus puntos
medios Marcas de Clase, xi .

El numero de Intervalos de Clase se elige entre 4 y 15 de forma que en cada intervalo haya al
menos 5 observaciones.
Los Intervalos de Clase no pueden solaparse.

 Intervalo de Clase: [bi1 , bi ).


bi1 +bi
 Marca de Clase: xi = 2 .

xi ni Ni fi Fi
[b1 , b2 ) x1 n1 N1 = n1 f1 F1 = f1
[b2 , b3 ) x2 n2 N2 f2 F2
.. .. .. .. .. ..
. . . . . .
[bm1 , bm ] xm nm Nm = n fm Fm = 1
P P
Total ni = n fi = 1

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 20 / 32

12
Ejemplo: Ingresos Anuales
66814.19 42144.33 25697.76 35976.87 39060.60 13362.83
61674.64 53451.35 16446.57 9867.94 35976.87 7195.37
78121.21 28781.49 12334.92 45947.61 54479.26 43172.24
69897.92 58590.90 52423.44 25697.76 51395.53 87372.40
59618.82 25697.76 26725.67 71953.74 48311.80 6475.83
[bi1 , bi ) xi ni Ni fi Fi
[0, 20000) 10000
[20000, 40000)
[40000, 60000)
[60000, 80000)
[80000, 100000] 90000 30 1
P P
Total ni = 30 fi = 1

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 21 / 32

Graficos para un Caracter Cuantitativo 22 / 32

Diagrama de Barras
Se utiliza para representar variables estadsticas no agrupadas, las alturas de las barras deben
ser proporcionales a las frecuencias, absolutas o relativas.
La suma de la altura de las barras debera ser n o 1.
0.5
10

0.4
8
Frecuencia

Frecuencia

0.3
6

0.2
4

0.1
2

119.0 119.5 120.0 120.5 121.0 121.5 122.0 119.0 119.5 120.0 120.5 121.0 121.5 122.0

N Vueltas N Vueltas

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 23 / 32

13
Diagrama de Barras con R
Numero de vueltas completas en 1 m de barra roscada.

> pvuelta<-c(120, 121, 120, 119, 121, 120, 120, 119,


+ 120, 121,120, 120, 122, 120, 121, 120, 119,
+ 122, 120, 119)
> barplot(table(pvuelta),space=c(100,2))
> barplot(table(pvuelta)/length(pvuelta),space=c(100,2))

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 24 / 32

Histograma
Se utiliza para representar las frecuencias absolutas o relativas cuando los datos estan
agrupados, el area de los rectangulos sera proporcional a las frecuencias.
La suma de las areas debera ser n o 1.

Densidades de Frecuencias: altura de los rectangulos.


ni fi
hi = , o bien hi =
bi+1 bi bi+1 bi

Cuidado cuando la amplitud de los Intervalos de Clase no sean del mismo tamano.

Histograma de Ingresos Histograma de Ingresos


1.5e05

1.5e05
Densidad de Frecuencia

Densidad de Frecuencia
1.0e05

1.0e05
5.0e06

5.0e06
0.0e+00

0.0e+00

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 0 20000 40000 60000 80000

Ingresos Ingresos

Histogramas de los Ingresos Anuales. El area de cada rectangulo, es proporcional a la frecuencia


relativa, fi .
La suma de las areas de los rectangulos es 1.

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 25 / 32

14
Histograma con R
> Ingresos<-c(66814.195,42144.338,25697.767,35976.874,39060.606,
+ 13362.839,61674.641,53451.356,16446.571,9867.943,35976.874,
+ 7195.375,78121.212,28781.499,12334.928,459476.077,54479.266,
+ 43172.249,69897.927,58590.909,52423.445,25697.767,51395.534,
+ 87372.408,59618.820,25697.767,26725.678,71953.748,48311.802,
+ 6475.837)
> histograma<-hist(Ingresos,breaks=seq(0,100000,by=20000),
+ freq=FALSE,main="Histograma de Ingresos",
+ ylab="Densidad de Frecuencia")
> histograma
> histograma$breaks
> histograma$counts
> histograma$intensities
> histograma$mids

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 26 / 32

15
Polgonos de Frecuencias
 Si los datos estan sin agrupar, se obtienen uniendo los extremos de las barras.

10
8
Frecuencia

6
4
2

119.0 119.5 120.0 120.5 121.0 121.5 122.0

N Vueltas

 Si los datos estan agrupados, se obtiene uniendo los puntos medios superiores de los
rectangulos y en los extremos con los puntos medios de las alturas de los rectangulos. Area
bajo el polgono n o 1.
Histograma de Ingresos
1.5e05
Densidad de Frecuencia

1.0e05
5.0e06
0.0e+00

20000 0 20000 40000 60000 80000 100000 120000

Ingresos

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 27 / 32

16
Frecuencias Acumuladas
En el caso de datos sin agrupar se utiliza el Diagrama de Frecuencias Acumuladas.

1.0
20

0.8
15
Frecuencia Acumulada

Frecuencia Acumulada

0.6
10

0.4
5

0.2
0.0
0

118 119 120 121 122 123 118 119 120 121 122 123

N Vueltas N Vueltas

Si los datos estan agrupados se utiliza el Polgono de Frecuencias Acumuladas.

1.0
30
25

0.8
20
Frecuencia Acumulada

Frecuencia Acumulada

0.6
15

0.4
10

0.2
5

0.0
0

20000 0 20000 40000 60000 80000 100000 120000 20000 0 20000 40000 60000 80000 100000 120000

Ingresos Ingresos

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 28 / 32

Tallo y Hojas
Procedimiento semigrafico util con menos de 50 datos.

Redondear los datos a dos o tres cifras significativas. Disponerlos en una tabla con dos columnas,
tallo y hojas.

Cada tallo se escribe solo una vez. El numero de hojas representa la frecuencia de cada clase.

0|67
1|0236
2|66679
3|669
4|2368 Ingresos Anuales
5|12349
6|027
7|028
8|7
El punto decimal se situa 4 posiciones a la derecha de |.

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 29 / 32

17
Tallo y Hojas con R
Menu Paquetes, Instalar Paquetes..., elegir Mirror e instalar UsingR.

> library(UsingR)
> ingresos <- cfb$INCOME[1:15]
> stem(ingresos)

The decimal point is 4 digit(s) to the right of the |

0 | 70236
2 | 69669
4 | 23
6 | 278

> ingresos

[1] 66814.195 42144.338 25697.767 35976.874 39060.606 13362.839 61674.641


[8] 53451.356 16446.571 9867.943 35976.874 7195.375 78121.212 28781.499
[15] 12334.928

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 30 / 32

18
Box Plot
Permite mostrar la distribucion de los datos de una muestra. Esta especialmente indicado para
detectar valores atpicos, outliers.

 Mediana, Median , lnea central, Q2 .

 Primer y Tercer Cuartiles, Quartiles , lmites de la caja, Q1 , Q2 .

Ingresos Anuales Ingresos Anuales Modificado


80000

4e+05
60000

3e+05
2e+05
40000

1e+05
20000

0e+00

 Lmites superior e Inferior, LI = Q1 1.5(Q3 Q1 ), LS = Q3 + 1.5(Q3 Q1 ).

 Se consideraran como valores atpicos los valores fuera del intervalo (LI, LS).

 Dibujar las lneas que van desde los extremos de la caja hasta el valor mas extremo, no
atpico.
Ingresos Anuales Ingresos Anuales Modificado
80000

4e+05
60000

3e+05
2e+05
40000

1e+05
20000

0e+00

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 31 / 32

19
Box Plot con R
> library(UsingR)
> ingresos <- cfb$INCOME[1:15]
> boxplot(ingresos)
> ingresos <- cfb$INCOME[1:16]
> boxplot(ingresos)
70000

4e+05
3e+05
50000

2e+05
30000

1e+05
10000

0e+00

Licesio J. Rodrguez-Aragon Tema 1,Unidad 1. 32 / 32

20

Das könnte Ihnen auch gefallen