Sie sind auf Seite 1von 44

Qu es la

Estadstica?

Qu dicen para Usted estos datos?


Edades de
Empleados de
una Empresa

29
33
27 26
28 32

26
32

30
31

29
30 31

29

27

25

29

28 30

27

31

32
28
30
30
29
31
30
30
34
33
31

31

Conjunto de Datos

Qu dicen para Usted estos datos?

29
33
27 26
28 32

26
32

30
31

29
30 31

29

27

25

29

28 30

27

31

32
28
30
30
29
31
30
30
34
33
31

Conjunto de Datos

31

24 25 26 27 28 29 30 31 32 33 34 35
Edades de Empleados de una Empresa

Qu es la estadstica?
Qu queremos significar por estadstica?
Qu entendemos por estadstica descriptiva e inferencial?
Qu es una poblacin y que una muestra?
Qu es una variable, el dato y los datos?
Cundo la informacin se refiere a un parmetro y cuando a una
estadstica?
Distinguir cuando una variable es cualitativa y cuando cuantitativa
Distinguir entre una variable discreta y continua.
Distinguir las distintas escalas de medicin nominal, ordinal, de intervalo y de
razn

Qu es la estadstica?
La Ciencia se ocupa en general de fenmenos observables
La Ciencia se desarrolla observando hechos, formulando
leyes que los explican y realizando experimentos para
validar o rechazar dichas leyes
Los modelos que crea la ciencia son de tipo determinista o
aleatorio (estocstico)
La Estadstica se utiliza como tecnologa al servicio de las
ciencias donde la variabilidad y la incertidumbre forman
parte de su naturaleza

Qu es la estadstica?
La Estadstica suministra un conjunto de
herramientas tiles en la investigacin para:

Recolectar
Describir
Organizar
e Interpretar

los Datos

para transformarlos en informacin, para la toma


mas eficiente de decisiones.

Qu es la estadstica?
EXACTITUD
O
PRECISIN?

Qu es la estadstica?
La Estadstica es la ciencia de la

s
e
D

a
v
i
t
p
i
cr

Sistematizacin, recogida, ordenacin y


presentacin de los datos referentes a un
fenmeno que presenta variabilidad o
incertidumbre para su estudio metdico, con
objeto de

d
a
lid
i
b
a
ob
r
P

fe
n
I

ia
c
n
re

deducir las leyes que rigen esos fenmenos,

y poder de esa forma hacer previsiones sobre los


mismos, tomar decisiones u obtener
conclusiones.

Qu es la estadstica?
El objetivo de la Estadstica es hacer inferencias
acerca de una poblacin, sobre la base de la
informacin contenida en una muestra.
En este sentido la estadstica se ocupa de la
extraccin de la informacin contenida en datos
y de su uso para hacer inferencias acerca de la
poblacin de la que se extraen los datos.

Pasos en un estudio estadstico

Plantear hiptesis sobre una poblacin

Decidir qu datos recoger (diseo de experimentos)

Qu individuos pertenecern al estudio (muestras)


Fumadores y no fumadores en edad laboral.
Criterios de exclusin Cmo se eligen? Descartamos los que padecen enfermedades crnicas?
Qu datos recoger de los mismos (variables)
Nmero de bajas
Tiempo de duracin de cada baja
Sexo? Sector laboral? Otros factores?

Recoger los datos (muestreo)

Aleatorio Simple? Estratificado? Conglomerados? Sistemticamente?

Describir (resumir) los datos obtenidos

tiempo medio de baja en fumadores y no (estadsticos)


% de bajas por fumadores y sexo (frecuencias), grficos,...

No tenis que
entenderlo, an

Realizar una inferencia sobre la poblacin

Los fumadores tienen ms bajas laborales que los no fumadores


En qu sentido? Mayor nmero? Tiempo medio?

Los fumadores estn de baja al menos 10 das/ao ms de media que los no fumadores.

Cuantificar la confianza en la inferencia

Nivel de confianza del 95%


Significacin del contraste: p=2%

Mtodo cientfico y estadstica

Plantear
hiptesis

Disear
experimento

Obtener
conclusiones

Recoger datos
y analizarlos

Quienes usan la estadstica?

Organismos oficiales.
Diarios y revistas.
Polticos.
Deportes.
Investigadores de
Mercados.
Control de calidad.
Administradores.
Investigadores
cientficos.
Mdicos.
Economistas.

Diseo de Experimentos.
Investigadores Agrcolas.
Compaas de Seguros
(actuarial).
Socilogos.
Casinos
Etc.

Tipos de Estadstica
Estadstica Descriptiva: Mtodo de recolectar,
organizar, resumir y presentar los datos en
forma informativa.

Ejemplo 1: Los datos del Censo de poblacin de 2005.


Ejemplo 2: La cantidad de robos ocurridos el ltimo mes en el el
municipio clasificados por tipo y cuanta.
Ejemplo 3: La cantidad de pacientes atendidos en el Hospital municipal
el ltimo ao.
Ejemplo 4: Clasificacin de los empleados de la compaa por
departamentos, nivel de estudios, edad y estrato socioeconmico.

Tipos de Estadstica
Estadstica inferencial: Mtodos usados
para determinar algo acerca de la
poblacin, basado en una muestra.
Poblacin(1) es la coleccin, o conjunto, de
individuos, objetos o eventos cuyas
propiedades sern analizadas.
Muestra es un subconjunto de la poblacin
de inters.
Debera ser representativa
Esta formada por miembros
seleccionados de la poblacin (individuos,
unidades experimentales).
(1) Algunos autores utilizan Universo como sinnimo

Poblacin y Muestra
Poblacin

Muestra

Parmetro y Estadstica
Parmetro: Caracterstica medible en una poblacin.
Se utilizan letras griegas para simbolizar un parmetro como
ser (Media Poblacional) y (Desviacin Estndar).

Ejemplos: La calificacin promedio de secundaria en el momento de


admisin de todos los estudiantes que han asistido alguna vez a la
Universidad del Valle o la proporcin de estudiantes del SENA cuyo lugar de
origen era distinto del municipio del Centro de Formacin.

Estadstica: Caracterstica medible en una muestra.


Se utilizan letras del alfabeto espaol para simbolizarlas como
ser x (Media de la Muestra) y s (Desviacin Muestral).

Ejemplo: La edad promedio registrada en una encuesta de 150 empleados


de una empresa de automoviles.

Tipos de Estadstica
(ejemplos de estadstica inferencial)
Ejemplo 1: Una encuesta desarrollada por IBOPE, en
marzo 2002, dice que el rating de radio en Cali esta
encabezado por FM 98.3, La MEGA con un 1.5% seguido
por FM 95.9 ROCK & POP con 1.18%
Ejemplo 2: De acuerdo con una encuesta desarrollada por
Prince & Cook sobre telefona residencial en el 2001, el
gasto mensual promedio por cliente es de $34.530. A nivel
nacional.
Ejemplo 3: El DANE inform que la Encuesta Continua de
Hogares (ECH) del mes de mayo de 2002 reporto la tasa
mas alta de desempleo que ascendi al 24.3% a nivel
nacional.

Variable
Variable: Caracterstica de inters sobre cada elemento
individual de una poblacin o muestra. La informacin que
disponemos de cada individuo es resumida en variables.

Dato: Valor de la variable asociada a un elemento de la


poblacin o muestra. Este valor puede ser un nmero,
una palabra o un smbolo.
Ejemplo: La familia Gonzlez tiene 4 miembros, sus ingresos
mensuales son de $685, 2 son de sexo femenino y 2 masculino.

Variable
Datos: Conjunto de valores recolectados para la
variable de cada uno de los elementos que
pertenecen a la poblacin o muestra.
Ejemplo1: El conjunto de 54 cantidad de miembros
recolectados de 54 familias residentes en Escobar.
Ejemplo2: El conjunto de las calificaciones de los 43
estudiantes de estadstica de la carrera de Sistemas

1-7

Tipos de Variables
Cualitativa o de Atributos Clasifica o describe un
elemento de la poblacin. Los valores que
puede asumir no constituyen un espacio
mtrico, por lo tanto las operaciones aritmticas,
como sumar y obtener promedios, no son
significativas.
Ejemplos: Sexo, Nacionalidad, Marcas de auto, Grado
de Satisfaccin con la Universidad, etc..

Tipos de Variables
Cuantitativa o Numrica Cuantifica un elemento
de la poblacin. Los valores que puede asumir
constituyen un espacio mtrico, por lo tanto las
operaciones aritmticas, como sumar y obtener
promedios, son significativas.
Ejemplos: Cantidad de Habitaciones, Nmero de hijos,
Kilmetros recorridos, Tiempo de vuelo, Ingreso, etc..

1-9

Tipos de Variables
Las variables cuantitativas se pueden clasificar
a su vez en discretas o continuas.
Cuantitativas Discretas: solo pueden asumir
ciertos valores y normalmente hay huecos entre
ellos. Son conteos normalmente.
Ejemplo1: Cantidad de materias aprobadas.(1, 2,3 ......)
Ejemplo2: Cantidad de hijos (1, 2, 3,4...)

1-9

Tipos de Variables
Cuantitativas Continuas: puede asumir
cualquier valor dentro del rango de medicin.
Normalmente se miden magnitudes como ser
longitud, superficie, volumen, peso, tiempo,
dinero.
Ejemplo 1: Peso al nacer.
Ejemplo 2: Salario de un empleado
Ejemplo 3: Tiempo de viaje en bus entre Salomia y la
Plaza de Caicedo.

1-12

Escalas de Medicin
Las variables cualitativas se miden en escala
nominal o ordinal.
Nominal: los elementos solo pueden ser clasificados
en categoras pero no se da un orden o jerarqua. El
numero es un cdigo.
Ejemplo 1: Barrio de residencia de los alumnos. (1 Sena, 2
Floralia, 3 Obrero).
Ejemplo 2: Color de ojos (1 Negros, 2 Castaos)
Ejemplo 3: Simpatizante de un club de ftbol (1Cali, 2 Amrica)

1-12

Escalas de Medicin
Ordinal: los elementos son clasificados en
categoras que tienen un orden o jerarqua, la
diferencia entre valores no se pueden realizar o
no son significativas.
Ejemplo 1: Grado de satisfaccin en el uso de un servicio
pblico. (1 Excelente, 2 Bueno, 3 Regular, 4 Malo)
Ejemplo 2: Tabla de posiciones del Campeonato Mundial
de Futbol (1. Colombia, 2 Brasil, 3 Alemania)

Escalas de Medicin
Las variables cuantitativas se miden en escala de
intervalo o razn.
Intervalo: los elementos son clasificados en
categoras que tienen un orden o jerarqua, la
diferencia entre valores se pueden realizar y son
significativas. La diferencia entre dos valores
consecutivos es de tamao constante y no existe
el 0 absoluto, el 0 es relativo.
Ejemplo: Temperatura en grados Celsius

Escalas de Medicin
Razn: los elementos son clasificados en
categoras que tienen un orden o jerarqua, la
diferencia entre valores se pueden realizar y son
significativas. Existe el 0 absoluto, es decir la
ausencia de la variable medida.
Ejemplo 1: Tiempo de vuelo.
Ejemplo 2: Ingresos familiares

Resumen de Tipos de variables y


Escalas de Medicin
V a r ia b le s
C u a lit a t iv a o A t r ib u t o
E s c a la d e m e d ic i n

C u a n t it a t iv a o N m e r ic a

E s c a la d e m e d ic i n

N o m in a l

I n t e r v a lo

D is c r e t a

O r d in a l

R azn

C o n t in u a

Presentacin de los Datos

Presentacin ordenada de datos

Gnero

Frec.

Hombre

Mujer

Las tablas de frecuencias y las representaciones grficas son dos


maneras equivalentes de presentar la informacin. Las dos
exponen ordenadamente la informacin recogida en una muestra.

Tablas de Frecuencias

Exponen la informacin recogida en la muestra, de forma que no se pierda nada de informacin (o poca).

Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad

Frecuencias relativas (porcentajes): Idem, pero dividido por el total

Frecuencias acumuladas: Slo tienen sentido para variables ordinales y numricas


Muy tiles para calcular cuantiles (ver ms adelante)
Qu porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8
Entre 4 y 6 hijos? Soluc 1: 8,4%+3,6%+1,6%= 13,6%. Soluc 2: 97,3% - 83,8% = 13,5%

Sexo del encuestado

Vlidos

Hombre
Mujer
Total

Frecuencia
636
881
1517

Porcentaje
41,9
58,1
100,0

Nmero de hijos
Porcentaje
vlido
41,9
58,1
100,0

Vlidos

Nivel de felicidad

Vlidos

Perdidos
Total

Muy feliz
Bastante feliz
No demasiado feliz
Total
No contesta

Frecuencia
467
872
165
1504
13
1517

Porcentaje
30,8
57,5
10,9
99,1
,9
100,0

Porcentaje
vlido
31,1
58,0
11,0
100,0

Porcentaje
acumulado
31,1
89,0
100,0

Perdidos
Total

0
1
2
3
4
5
6
7
Ocho o ms
Total
No contesta

Frecuencia
419
255
375
215
127
54
24
23
17
1509
8
1517

Porcentaje
27,6
16,8
24,7
14,2
8,4
3,6
1,6
1,5
1,1
99,5
,5
100,0

Porcentaje
vlido
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcentaje
acumulado
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

Datos desordenados y ordenados en


tablas
Variable: Gnero
Modalidades:
H = Hombre
M = Mujer

Gnero

Frecuencia.

Frecuencia
relativa
porcentaje

Hombre

4/10=0,4=40
%

Mujer

6/10=0,6=60
%

10=tamao
muestral

Muestra:
MHHMMHMMMH
equivale a
HHHH MMMMMM

Ejemplo

Cuntos individuos
tienen menos de 2 hijos?
frec. indiv. sin hijos
+
frec. indiv. con 1 hijo
= 419 + 255
= 674 individuos

Qu porcentaje de
individuos tiene 6 hijos o
menos?
97,3%

Qu cantidad de hijos es
tal que al menos el 50%
de la poblacin tiene una
cantidad inferior o igual?
2 hijos

Nmero de hijos

0
1
2
3
4
5
6
7
Ocho+
Total

Frec.
419
255
375
215
127
54
24
23
17
1509

Porcent.
(vlido)
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcent.
acum.
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

50%

Grficos para variables


cualitativas

Diagramas de barras
Alturas proporcionales a las frecuencias (abs. o rel.)
Se pueden aplicar tambin a variables discretas

Diagramas de sectores (tartas, polares)


No usarlo con variables ordinales.
El rea de cada sector es proporcional a su
frecuencia (abs. o rel.)

Pictogramas
Fciles de entender.
El rea de cada modalidad debe ser proporcional a
la frecuencia. De los dos, cul es incorrecto?.

Grficos diferenciales para variables


numricas
419
400

Son diferentes en funcin de que las


variables sean discretas o continuas. Valen
con frecuencias absolutas o relativas.

375

300

255
215
200

127
100

Diagramas barras para variables


discretas

54
24
0

23

17

7 Ocho o ms

Nmero de hijos

Se deja un hueco entre barras para indicar los


valores que no son posibles
250

Histogramas para variables continuas


El rea que hay bajo el histograma entre dos
puntos cualesquiera indica la cantidad
(porcentaje o frecuencia) de individuos en el
intervalo.

200

150

100

50

20

40

60

Edad del encuestado

80

Diagramas integrales

Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral.


Se realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la
variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual
al mismo. Se pasan de los diferenciales a los integrales por integracin y a la
inversa por derivacin (en un sentido ms general del que se ve en bachillerato.)

Reduccin de Datos
Las tcnicas utilizadas para la descripcin de datos se
dividen, bsicamente, en dos bloques:
Parmetros de centralizacin: Son aquellos cuyo objetivo
es explicar mediante un valor numrico, cual es la tendencia
mayoritaria de las observaciones de la coleccin de datos
que se analizan. Dichos parmetros sern, entre otros, la
media, la mediana y la moda.
Parmetros de dispersin: Corresponden a aquellos
parmetros cuyo objetivo es detectar el grado de proximidad
de los datos respecto a los valores centrales. Dichos
parmetros sern, entre otros, el rango, los cuartiles, la
varianza y la desviacin estndar.

Reduccin de Datos
Medidas de centralizacin
Las medidas de centralizacin nos sirven para representar el valor
medio de los datos, es decir, el valor que refleja el tamao del dato
ms esperado. Ello nos indica la posicin en la que se encuentra en
el centro de los datos.
Media : Es la suma de un conjunto de observaciones dividido por el nmero total
de observaciones realizadas.
Media de la poblacin

Media de la muestra

Reduccin de Datos
Mediana : Es un nmero tal que, si ordenamos los datos de forma creciente o
decreciente, cumple la condicin de ser mayor que una mitad y menor que la
otra. Es decir, divide a la distribucin en dos partes iguales.
Ordenamos los datos en orden creciente:
10 10 12 12 13 14 15 16 16 16 18 20 20 21 22
Moda : Es el valor que ms veces se repite en la distribucin. Si los datos de la
distribucin estn agrupados en intervalos, la moda es el punto medio del
intervalo que contiene el mayor nmero de frecuencias. Una distribucin de
observaciones puede no tener moda, es decir, puede que no haya ningn
valor de la distribucin que aparezca con ms frecuencia.
Siguiendo con el ejemplo anterior, agrupamos los datos segn su frecuencia,
observamos que la moda ser el 16 que es valor que ms veces se repite.

Reduccin de Datos
Medidas de dispersin
Para conocer con detalle un conjunto de datos, no basta con conocer las
medidas de tendencia central, necesitamos conocer tambin la dispersin
que presentan los datos en su distribucin con referencia a un parametro,
con objeto de tener una visin de los mismos ms acorde con la realidad a
la hora de describirlos e interpretarlos.
Recorrido o amplitud: Es la diferencia entre el valor mximo de la distribucin y el
valor mnimo.
Cuartiles: As como la mediana divide a la distribucin en mitades, los cuartiles de
una distribucin son los valores que dividen la distribucin en cuartos. El primer
cuartil (Q1) deja un cuarto de las observaciones por debajo del mismo, y tres
cuartos por encima. El segundo cuartil (Q2) tiene dos cuartos por debajo y dos por
encima (el segundo cuartil coincide con la mediana). El tercer cuartil (Q3) tiene tres
cuartos de las observaciones por debajo y un cuarto por encima.

Reduccin de Datos
Diagramas de caja
El diagrama de caja es un grfico simple donde vienen representados los
anteriores 5 valores anteriores (mnimo, primer cuartil, mediana (segundo
cuartil), tercer cuartil y mximo)

Reduccin de Datos
Varianza: Se define como la media aritmtica de las desviaciones de los datos
observados con respecto a la media, elevadas al cuadrado.

Desviacin Estndar: Es la raz cuadrada positiva de la varianza.

Reduccin de Datos
Coeficiente de variacin: Es la relacin entre la desviacin estndar y la media.
El coeficiente de variacin es muy til cuando queremos comparar dos o ms
medidas de dispersin y stas estn en unidades diferentes o bien estn en las
mismas unidades pero sus medias son muy distintas.

EJEMPLO

Mtodos Multivariados
Modelos de Regresin
Anlisis de la varianza y Diseo de Experimentos
Mtodos grficos exploratorios.
Anlisis en Componentes Principales.
Anlisis discriminante.
Mtodos de Clasificacin
Series temporales

Das könnte Ihnen auch gefallen