Sie sind auf Seite 1von 56

Nada en esta maravillosa vida es 100% seguro.

En
todoloque hacemos, siempre estamos estimandolos
chances de resultados exitosos: en los negocios, en la
medicina, en el clima y principalmente en los juegos
de azar.
As el estudiode las leyes formales de loaleatorioes
la Probabilidad

Estadstica es la ciencia,

pura y aplicada, de creacin,


desarrollo y de aplicacin de
tcnicas tales que la
incertidumbre de la
inferencia inductiva pueda
ser evaluada

Tomar decisiones es una gran


responsabilidad.
Para tomar decisiones se requiere
INFORMACIN disponible,
esperanzadamente confiable y til.
Generalmente se necesita una porcin
de la base de datos o muestra para
revelar un patrn lgico o realizar un
anlisis estadstico.

Estadstica

Poblacin

Muestra
Probabilidad

Objetivo de la Estadstica Descriptiva

Conocer la informacin que se tiene


para poder identificar e interpretar
aspectos relevantes de una muestra.
Utilizar esta informacin para obtener
resultados, planear o hacer inferencia
acerca de la poblacin bajo estudio.

Los datos son la materia prima del estadstico. Usa


los nmeros para interpretar la realidad.
Todos los problemas estadsticos involucran ola
recolecta, la descripcin y el anlisis de los datos, o
pensar cmorecolectar, describir y hacer el anlisis
de los datos.
7

3 5 1 24 3
9 3
517
76
2
1 83 0 57 3
05 8 59
6
8 42
3
43

7
9
58
0 4

Poblacin
in
pc
cr i
es
D

In
fere
ncia

Muestra

Anlisis
Estimacin
Hiptesis
Transformacin

Tengoun 98% de probabilidad


de hacer algoque tenga sentido
con estos nmeros.

3 5 1 24 3
9 3
517
76
2
1 83 0 57 3
05 8 59
6
8 42
3
43

7
9
58
0 4

El conjunto de datos que describen un


fenmeno (nuestro objetivo) constituyen lo
que se llama Poblacin
Una Muestra es un subconjunto de la
poblacin sobre la cual vamos a realizar
las medidas sobre una o mas
caractersticas de inters

muestreo ...

Por qu muestreamos?
- Poblaciones muy grandes
- Respuesta rpida
- Destruccin de la muestra

muestreo ...

Una caracterstica importante de una


muestra es que sea Representativa
de la poblacin de inters.
Cualquiera que sea nuestro objetivo:
describir a la poblacin, analizar o
pronosticar el comportamiento de la
poblacin, la muestra, al ser
representativa, ser Confiable

- Cada unidad tiene la misma


oportunidad de ser elegida

- La seleccin de una unidad


no tiene influencia sobre la
eleccin de otra unidad

muestreo ...

MuestreoAleatorio

MuestreoEstratificado

muestreo ...

- Divide a la poblacin en
grupos homogneos
- Se extrae una muestra
aleatoria simple de cada
grupo o estrato

Muestreopor
Conglomerado

- Divide a la poblacin en
grupos
-Se extrae una muestra

muestreo ...

MuestreoSistemtico

- Se elige aleatoriamente a
una unidad
- A partir de sta se selecciona
cada k-sima unidad que se
encuentra despus de la
elegida

Muestreo
Oportunista

Un parmetro es una medida numrica de


un aspecto de la poblacin
Una estadstica es una medida numrica de
un aspecto de la muestra X, S, n,~X

Una estadstica consiste de un conjunto de


mediciones de dicha caracterstica que vara
de una observacin (unidad experimental) a
otra, y a estas mediciones las llamaremos

variable

No todas las variables son numricas


entonces podemos clasificarlas de acuerdo a
su tipo en:
Cualitativas: Son variables que denotan una
cualidad o atributo y solo pueden ser
clasificadas en categoras o clases
mutuamente excluyentes y exhaustivas
Cuantitativas: Son aquellas variables que se
obtuvieron de un proceso de conteo
(discretas) o medicin (contnuas)

Clasificacin de las variables


Cualitativas de acuerdo a su escala de
medicin:
Nominal: Son clasificadas en categoras, sin

importar el orden. No tiene sentido hacer


operaciones aritmticas con ellas (gnero, grupo
sanguneo, Fuma (si/no))

Ordinal: Las categoras se pueden arreglar en


orden, pero las distancias entre las clases no son
iguales (intensidad del dolor, escolaridad, nivel
socioeconmico)

Clasificacin de las variables


Cuantitativas de acuerdo a su escala de
medicin:
Intervalo: Son medidas en las que las distancias

entre los valores es significativa pero no existe un


cero absoluto (el cero no es ausencia de atributo) . No
tiene sentido hacer cociente o producto (temperatura,
usos horarios)
Razn: Las proporciones y razones tienen sentido
al determinar cunto mas tiene una unidad que otra de
alguna caracterstica. (peso, ingreso, rendimiento)

El anlisis de cada variable se hace de


acuerdo a su escala de medicin
Podemos
hacer
diagramas,
tablas y
resmenes
numricos
de los datos
recopilados

Cmo presentar los datos?

La frecuencia absoluta fi para una clase


particular es el nmero de observaciones
que caen en cada clase.

Laobservaciones
frecuencia relativa o porcentaje para
fsu
i
una clase particularpi es
frecuencia

n total de
absoluta entre el nmero

Esta frecuencia ayuda a sumarizar en forma


ordenada la informacin contenida en la
muestra tanto en tablas como en grficas.

0.75
Frecuencia

gnero frecuencia porcentaje


0
19
0.63
1
11
0.37
Total
30
1

Histograma

0.50
0.25
0.00

tabla de distribucin de
frecuencias

F
Gnero

diagrama de barras

Si las variables son cuantitativas discretas las


tablas de frecuencias se realizan con la creacin
de diferentes clases en base a los datos que
toma la variable.
frecuencia

porcentaje

38

0.10

39

0.10

40

0.20

41

0.03

42

0.10

43

0.07

44

0.13

45

0.10

46

0.13

47

0.00

48

0.00

49

0.03

30

1.00

Total

Histogramade Frecuencias para Edad

Frecuencia

edad

7
6
5
4
3
2
1
0
38 39 40 41 42 43 44 45 46 47 48 49
Edad

Si las variables son cuantitativas continuas


las tablas de frecuencias se realizan con la
creacin de intervalos numricos que formarn
las diferentes clases.

H is togHistograma
ra m a

0.03

993110531

0.03

1053111131

1113111731

1173112331

0.17

1233112931

0.17

0.10
0.20

0.25
0.20
0.15
0.10
0.05
0.00

0.30
Frecuencia

9331-9931

frecuenci porcentaj
a
e

F recu en cia

tiempo

0.20

0.10

0.00

931 531 1131 1731 2331 2931 3531 4131


-9 -1 0 1 -1
1 -1 1 -1 1 -1 1 -1 1 -1
31
93 9931 1053 1113 1173 1233 1293 1353

Podemos completar esta tabla de frecuencias con una


columna que nos de las Frecuencias Acumuladas qu
uso tienen?
frecuencia

porcentaje

Frec.Acum.

9631

0.033

0.033

10231

0.033

0.067

10831

0.100

0.1 67

11431

0.200

0.367

0.167

0.533

12631

0.167

0.700

13231

0.20

13831

0.100

12031

F recu en cia

tiempo(seg)

a)

0.167 is togra m a

c)

46.7%

0.900
1.000

9631

10231

10831

11431

12031

12631

e) 12,031 seg
Total
30
1.00
ie m
a) qu frecuencia de individuos tuvieron un tiempo menor T a p o
11,431 seg?
b) qu porcentaje de individuos tuvieron un tiempo mayor o igual
a 12,631 seg?
c) qu tiempo mximo es el que al menos el 50% de las personas
tuvieron?

132

Otros diagramas de utilidad:


3
6
12
13
(3)
14
12
8
5
1
1
1

38
39
40
41
42
43
44
45
46
47
48
49

0
0
0
0
0
0
0
0
0

0 0
0 0
0 0 0 0 0
0 0
0
0
0 0 0
0 0
0 0

0
diagrama de tallo y hojas
para la variable edad 38|0
= 38.0

-se usa con pocos valores


-los datos estn ordenados
-encontramos fcilmente
mnimo y mximo
-encontramos fcilmente los
porcentiles
distribucin de los datos
-da una visin grfica de la

:
:

. .
.
: . :
:
:
:
.
:
:
:
:
:
.
+---------+---------+---------+---------+---------+-------Edad
38.0
40.0
42.0
44.0
46.0
48.0

agrama de puntos. til para cuando tenemos


cos datos discretos
Polgono de Frecuencias

29000

10000

11000

12000

13000

14000

0.75

0.50

0.259000

Tiempo
0

Ojiva

1.00

Polgono de Frecuencia
Porcentaje Acumulado

Frecuencia

Ojiva

10000

11000

12000

Tiempo
0.00

13000

14000

Mtodos Numricos
(vlidos solo para datos cuantitativos)

Si pudiramos escoger entre dos nmeros que nos


ayuden a construir una imagen mental burda de la
distribucin de un bonche de datos Cules
escogeramos?
de la distribucin
-un nmero que est
localizado cerca del centro
-un nmero que mida la
dispersin de la
distribucin

3
3
9
3
1
3 9
91 4 3 9
1
95
9
3
3
3
9
9 4 434731 355
32 1 5 3
1
7 895
107 5 2 15 9 413 8 9
1
83 1 0
4 4 8 7 7325 12 5 5 8
0
875591 07 37 155
8 8
7
310510 85 83830 07 55 23 2 48 7 2752 5
7
9 3115304 853388 5 07
3
6 27 8 2
5 509 9 75834 3043 63 08 75803 2 46 8 7
13 318
4
18
95 9 6 31
75 67306 7 0 04 0 3
5
8 42 4 3 1835 589 89
3
3
6
70 85 4 046
6
9
7
98
8
4
8
7 8442 822 79 3 3 5 9 677 2 83 3 4 260 57 7 0 4
6
3
3 8 22
3
62 732 5 03 4 2 0
58 5 29 68
77 3 7 85464
6
3
5
6
7
3
2 5 7
4 2
57
347 2 2 2 76 546 6 3 6
2
3
2
6
67
34 2
6
2
5
4

Medidas de Tendencia Central


Son nmeros que se localizan cerca del centro o cerca
de donde se encuentran los datos con mayor frecuencia:

Frecuencia

media, mediana, moda

Polgono de Frecuencia

9000

10000

11000

12000

13000

14000

Tiempo
4

Medidas de Dispersin
0

Son nmeros que indican qu tan separados estn los


datos entre si: rango, desviacin estndar, rango

Medidas de tendencia central


media

1
n

n
i1

xi

en el caso en que los datos estn agrupados:

tiempo(seg)

frecuencia

porcentaje

Frec.Acum.

9631

0.03

0.03

10231

0.03

0.07

10831

0.10

0.17

11431

0.20

0.37

12031

0.17

0.53

12631

0.17

0.70

13231

0.20

0.90

13831

0.10

1.00

Total

30

F recu en cia

10831(0.10)
12,187

13831(0.10)

His togra m a

9631

10231

10831

11431

12031

T ie m p o

12631

13231

medidas de tendencia central ...

mediana
l ~

se localiza el valor central


X n1 y se observa
el valor
que
toma
3
38 0 0 0
6
12
13
(3)
14
12
8
5
1
1
1

39
40
41
42
43
44
45
46
47
48
49

0
0
0
0
0
0
0
0
0

0 0
0 0 0 0 0
0
00
0
0

0
0 0
0
0 0

~ 30115.5
lX
2

el valor quetoma la
variablees 42.0 aos

medidas de tendencia central ...

para
se estima como
~ datos agrupados
p
m

X a A 0 .5Pm1B A

11131-11731

0.200

0.367

11731-12331

0.167

0.533

12331-12931

0.167

0.700

12931-13531

0.200

0.900

13531-14131

0.100

1.000

Total

30

F re c u e n c ia

donde A y B son los lmites inferior y superior de la clase que


tiempo
frec.
porc.
contiene
a la
mediana,
Pm-1FrecAcum
es la frecuencia acumulada hasta la
9331-9931
1
0.033
0.033
clase anterior a la que contien la mediana y pm es la frecuencia
9931-10531
1
0.033
0.067
0 5
relativa
de
la
clase
que
contiene
a
la
mediana
10531-11131
3
0.100
0.167

31
m1
131
73
331
931
531
05
-9
11
11
12
12
13
-1
1111131
31
53
13
73
33
93
.2a 93
0
0.167
99
10
11
11
12
12
135
0 .2 0 0
931

medidas de tendencia central ...

moda
es el valor con la frecuencia mas alta.
La distribucin puede ser unimodar, multimodal
cuando los datos estn agrupados
podemos hablar de una clase modal o
d1
Mo la
moda:
A d1d
B A
estimar
2

donde A y B son los lmites inferior y superior


de la clase modal, d1= fmo fmo-1 y d2= fmo fmo+1

Medidas de Dispersin

rango se define como la diferencia entre el valor


mximo y el mnimo:
Rango = max - min
Es una medida sensible a valores extremos y no es muy
informativa ya que es insensible a datos intermedios

amplitud intercuartlica es la distancia entre


el porcentil 75 y el porcentil 25:
AI = P75 - P25
Nos da una idea de la distancia entre los valores que
determinan el 50% de los datos centrales

medidas de dispersin...

Varianza es una variacin promedio alrededor de


la media, definida como
X X
S
n

i1 i

n1

un problema de la varianza es que tiene las unidades al


cuadrado y su interpretacin no es fcil, por lo que usamos
su raiz:
desviacin

X
n

i1

estndar

X2
i

n1

es sensible a valores extremos.


Si los datos estn agrupados en k intervalos, la varianza se
estima como:
S2
a

k
i1

fimi X a
n1

para nuestro ejemplo qu valor toma Sa ?

medidas de dispersin...

Hay algunas formas de poner juntos a la desviacin


estndar y a la media muestrales

Coeficiente de Variacin: es una medida de

variacin relativa y expresa la desviacin estndar


como un porcentaje de la media aritmtica. Se
obtiene como
CV S x100
X

por su falta de dimensiones es muy til para


comparar variacin entre diferentes poblaciones,
que a simple vista seran difciles de comparar.

Creacin de Intervalos:

medidas de dispersin...

on S y X se pueden formar intervalos de la forma


X kS
y obtener el nmero de
observaciones que caen dentro de ese intervalo.

i nuestra distribucin muestral tiene una forma mas o menos


imtrica y acampanada podemos usar la regla emprica:

lrededor del 69% de las observaciones cae dentro de una


esviacin estndar de la media

lrededor del 95% de las observaciones cae dentro de dos


esviaciones estndar de la media

lrededor del 97.7% de las observaciones cae dentro de tres


esviaciones estndar de la media

Monxido de Carbono en
el humo de los cigarros

n = 372
X = 11.66
s = 4.089

Frecuencia

Intervalos
alrededor
de la media

25

20

15

10

11

s
5

2s

X
0

13

3s

15

17

19

21

2s
3s

(7.57 , 15.75)

X
X

2s
3s

(3.48 , 19.84) 353 obs. 94.89%


(-0.61 , 23.93) 372 obs. 100.00%

264 obs. 70.96%

medidas de dispersin...

Medidas de Posicin Relativa


Son medidas descriptivas que localizan la
posicin de una medicin en relacin a otras
mediciones.
Una medida que expresa esta posicin en
trminos de un porcentaje es llamado

porcentil
El porcentil de orden (P ) es el valor de la
variable por debajo del cual se encuentra una
frecuencia acumulada .

medidas de posicin relativa...

El porcetil 25 o primer
cuartil Q1= - 0.675 deja a
su izquierda el 25% de
las observaciones

El porcetil 70, es decir,


P70= 0.525 deja a su
izquierda el 70% de las
observaciones

medidas de posicin relativa...

El diagrama de tallo y hojas, nos ayuda a


localizarlos rpidamente
3
6
12
13
(3)
14
12
8
5
1
1
1

38
39
40
41
42
43
44
45
46
47
48
49

0
0
0
0
0
0
0
0
0

0 0
0 0
0 0 0 0 0
0
0
0
0
0

0
0 0
0
0 0

los porcentiles no
0
necesariamente son
nmeros observados

-los datos se ordenan de menor a


mayor
-se encuentra la localizacin de los
porcentiles:

l(P )
100

(n)

-se lee el valor de dicha observacin


-si la localizacin es fraccionaria se
toma el promedio del valor en la
localizacin anterior y posterior

medidas de posicin relativa...

1
3
6
11
(5)
14
9
5

9
10
10
11
11
12
12
13

6
2
6
0
7
0
6
0

l(Q1) = (25/100)31 = 7.75


3
7
1
7
0
6
2

9
3
8
1
9
3

3 3
8 8
2 3
9
3
4

Q1= P25 = 11.05

l(Q3) = (75/100)31 = 23.25


Q3= P75 = 12.65
l(Q2) = (50/100)31 = 15.5
Q2= P50 = 11.8

Los cuartiles Q1 y Q3 son muy tiles para


construir lo que llamamos diagrama de
caja y brazos.

Diagrama de Caja y Brazos


Nos permite ver la distribucin de los datos, el
mximo, el mnimo, la localizacin de los
Cuartiles, y la dispersin por cuartiles. Nos
permitir ver si existe un sesgo as como
puntos extremos.

Tiempo

25000

20000

15000

Anlisis Exploratorio de Datos

ara hacer estadstica diferente a la descriptiva,


odemos usar todas las tcnicas hasta ahora
prendidas y hacer algn anlisis comparativo o
sociativo.

El problema de comparacin consiste en


ontrastar las distribuciones de frecuencia de
na variable de inters para dos o mas
ubpoblaciones basndose en los datos de la
muestra.

En el problema de comparacin surgen


algunas preguntas:

Hay alguna diferencia en las distribuciones


poblacionales?
Cul es la naturaleza de esas diferencias?
Qu tan grandes son esas diferencias?
El anlisis exploratorio nos ayudar a darnos una
idea de las respuestas a estas preguntas

comparacin...

La comparacin de las distribuciones de


frecuencia entre subpoblaciones cuando la
variable de inters es cualitativa se hace con
una tabla de contingencias o tabulacin
cruzada
Hbitosdetabaquismo
Gnero

Nuncaha
fumado

Dejde
fumar

Fuma
actualmente

Total

Masculino

154

25

185

364

Femenino

127

11

38

176

Total

281

36

223

540

s frecuencias pueden ser realtivas o absolutas y nos dan una idea


tan frecuente se presentan simultneamente ambos atributos e
a poblacin

comparacin...

El objetivo de la comparacin es ver si una


caracterstica determinada vara relativo a
alguna subclase, por lo que se calculan las
frecuencias relativas condicionales fij/ fi
pij/ pi (de sta manera compensamos por
diferencias de tamaos) ...
Hbitosdetabaquismo(%)
Gnero

Nuncaha
fumado

Dejde
fumar

Fuma
actualmente

Total

Masculino

28.5

4.6

34.3

67.4

Femenino

23.5

2.1

7.0

32.6

Total

52.0

6.7

41.3

100

comparacin...

... y calculamos las frecuencias relativas


condicionadas a gnero
Hbitosdetabaquismocondicionadasagnero(%)

Frecuencia

Gnero

Gnero

Nuncaha
fumado

Dejde
fumar

Fuma
actualmente

Total

Masculino

42.3

6.8

50.9

100

Femenino

72.1

6.5

21.5

100

Total

52.0

6.7

41.3

100

el hbito de
tabaquismo
difiere si se es
hombre o
mujer?

comparacin...

Si la variable a analizar es discreta se puede


tratar como si fuera cualitativa.

Gnero
Masculino

39
40
41
42
Edad en aos condicionada a gnero (%)
10.53
21.05
42.11
26.32

Total
100

Femenino

36.36

18.18

18.18

27.27

100

Total

20.00

20.00

33.33

26.67

100

Distribucin de Edad por Gnero


45.00

30.00

Masculino
Femenino

15.00

39

40

41

42

hay alguna
diferencia entre
gneros con
respecto a la
edad?

comparacin...

En el caso de que la variable a analizar sea


contnua podemos estar interesados en
comparar tanto la localizacin como la
dispersin entre las distribuciones de
frecuencia de las subpoblaciones. Una
manera de hacerlo es por medio de un
diagrama esquemtico
Tiempos por Gnero

Ordenllegada

30000

20000

F
10000

Gnero

Quin tiene
tiempos ms
altos?
quin tiene
mayor
dispersin?

Muchas veces es importante saber si una


ariable influye sobre el comportaminto de otra
ariable. Con ello estudiamos el problema de
sociacin.
Ambas Variables Ordinales

El uso de la tabla de contingencia y su


correspondiente diagrama de barras es de gran
utilidad para asociar variables cualitativas en
escala ordinal.
sta tabla se presenta con las frecuencias
relativas condicionadas a las clases de una de
las variables

Posicinrespectoalhorariodeverano

Nivel
Socioeconmi
co

Desacuerd
o

Indiferent
e

Acuerdo

Total

23.90
47.02
20.69

49.02
31.93
36.21

27.07
21.05
43.10

100.00
100.00
100.00

Bajo
Medio
Alto

Posicin respecto al horario de verano

A mayor nivel
socioeconmico,
mayor aceptacin?

60.00

45.00

30.00

15.00

0.00

Bajo

Medio
Desacuerdo

Indiferente

Alto
Acuerdo

asociacin ...

asociacin ...

Una Variable Ordinal y otra Cuantitativa


Una manera de evidenciar la posible asociacin
entre las variables es a travs del diagrama
esquemtico.
ste diagrama nos da una idea de cmo
dependen la variable cuantitativa, no solo en
localizacin sino tambin en dispersin con
respecto al aumento o disminucin en escala de
la variable cualitativa ordinal.

asociacin ...
Grado Escolar
Maternal

Kinder I

68

255

425

35

202

370

145

317

380

173

327

476

190

247

410

225

100

358

340

448

338

123

412

373

228

228

377

192

467

297

388

500

Habilidad de Lenguaje

Qu nos dice
este diagrama
esquemtico?

Kinder II

400
300

200

0
100

Maternal

Kinder I

Kinder II

asociacin...

Ambas Variables Cuantitativas


Para este caso el diagrama de dispersin es muy
usado para asociar variables cuantitativas.
Consiste en graficar parejas de valores ( xi, yi)
correapondientes a un solo individuo, sobre un
plano cartesiano.
Una medida de asociacin que complementa este
diagrama es el coeficiente de correlacin (medida
de relacin lineal entre las variables) obtenido
n
como
X XYi Y/

S
r(x, y)

X X /(n1) Y Y /(n1) S S
(n1)
i

i1

i1

xy

n
i1

asociacin ...
80
70
100

60
50
40

90

30
20
10

80

30
140

150

160

170

180

190

200

140

70

r = 0.99

150

160

170

180

190

200

190

200

r = - 0.7

60

100

330

90
50

280

80
70

230

40

60
180

50
40

140

150

30

r = 0.8

160

170

180

190

200

30
130
140

80

150

160

170

180

r = 0.1

Se puede decir que si r es cero, las variables son independientes

asociacin ...

Edad versus Tiempo


75

Edad

60

45

30

15

10000

20000

30000

40000

Tiempo
0

r = 0.130

Existe alguna relacin lineal


entre el tiempo que tom
correr el maratn y la edad de
los participantes? Confirma
el valor de r esta relacin?

Das könnte Ihnen auch gefallen