Beruflich Dokumente
Kultur Dokumente
Estadstica?
29
33
27 26
28 32
26
32
30
31
29
30 31
29
27
25
29
28 30
27
31
32
28
30
30
29
31
30
30
34
33
31
31
Conjunto de Datos
29
33
27 26
28 32
26
32
30
31
29
30 31
29
27
25
29
28 30
27
31
32
28
30
30
29
31
30
30
34
33
31
Conjunto de Datos
31
24 25 26 27 28 29 30 31 32 33 34 35
Edades de Empleados de una Empresa
Qu es la estadstica?
Qu queremos significar por estadstica?
Qu entendemos por estadstica descriptiva e inferencial?
Qu es una poblacin y que una muestra?
Qu es una variable, el dato y los datos?
Cundo la informacin se refiere a un parmetro y cuando a una
estadstica?
Distinguir cuando una variable es cualitativa y cuando cuantitativa
Distinguir entre una variable discreta y continua.
Distinguir las distintas escalas de medicin nominal, ordinal, de intervalo y de
razn
Qu es la estadstica?
La Ciencia se ocupa en general de fenmenos observables
La Ciencia se desarrolla observando hechos, formulando
leyes que los explican y realizando experimentos para
validar o rechazar dichas leyes
Los modelos que crea la ciencia son de tipo determinista o
aleatorio (estocstico)
La Estadstica se utiliza como tecnologa al servicio de las
ciencias donde la variabilidad y la incertidumbre forman
parte de su naturaleza
Qu es la estadstica?
La Estadstica suministra un conjunto de
herramientas tiles en la investigacin para:
Recolectar
Describir
Organizar
e Interpretar
los Datos
Qu es la estadstica?
EXACTITUD
O
PRECISIN?
Qu es la estadstica?
La Estadstica es la ciencia de la
s
e
D
a
v
i
t
p
i
cr
d
a
lid
i
b
a
ob
r
P
fe
n
I
ia
c
n
re
Qu es la estadstica?
El objetivo de la Estadstica es hacer inferencias
acerca de una poblacin, sobre la base de la
informacin contenida en una muestra.
En este sentido la estadstica se ocupa de la
extraccin de la informacin contenida en datos
y de su uso para hacer inferencias acerca de la
poblacin de la que se extraen los datos.
No tenis que
entenderlo, an
Los fumadores estn de baja al menos 10 das/ao ms de media que los no fumadores.
Plantear
hiptesis
Disear
experimento
Obtener
conclusiones
Recoger datos
y analizarlos
Organismos oficiales.
Diarios y revistas.
Polticos.
Deportes.
Investigadores de
Mercados.
Control de calidad.
Administradores.
Investigadores
cientficos.
Mdicos.
Economistas.
Diseo de Experimentos.
Investigadores Agrcolas.
Compaas de Seguros
(actuarial).
Socilogos.
Casinos
Etc.
Tipos de Estadstica
Estadstica Descriptiva: Mtodo de recolectar,
organizar, resumir y presentar los datos en
forma informativa.
Tipos de Estadstica
Estadstica inferencial: Mtodos usados
para determinar algo acerca de la
poblacin, basado en una muestra.
Poblacin(1) es la coleccin, o conjunto, de
individuos, objetos o eventos cuyas
propiedades sern analizadas.
Muestra es un subconjunto de la poblacin
de inters.
Debera ser representativa
Esta formada por miembros
seleccionados de la poblacin (individuos,
unidades experimentales).
(1) Algunos autores utilizan Universo como sinnimo
Poblacin y Muestra
Poblacin
Muestra
Parmetro y Estadstica
Parmetro: Caracterstica medible en una poblacin.
Se utilizan letras griegas para simbolizar un parmetro como
ser (Media Poblacional) y (Desviacin Estndar).
Tipos de Estadstica
(ejemplos de estadstica inferencial)
Ejemplo 1: Una encuesta desarrollada por IBOPE, en
marzo 2002, dice que el rating de radio en Cali esta
encabezado por FM 98.3, La MEGA con un 1.5% seguido
por FM 95.9 ROCK & POP con 1.18%
Ejemplo 2: De acuerdo con una encuesta desarrollada por
Prince & Cook sobre telefona residencial en el 2001, el
gasto mensual promedio por cliente es de $34.530. A nivel
nacional.
Ejemplo 3: El DANE inform que la Encuesta Continua de
Hogares (ECH) del mes de mayo de 2002 reporto la tasa
mas alta de desempleo que ascendi al 24.3% a nivel
nacional.
Variable
Variable: Caracterstica de inters sobre cada elemento
individual de una poblacin o muestra. La informacin que
disponemos de cada individuo es resumida en variables.
Variable
Datos: Conjunto de valores recolectados para la
variable de cada uno de los elementos que
pertenecen a la poblacin o muestra.
Ejemplo1: El conjunto de 54 cantidad de miembros
recolectados de 54 familias residentes en Escobar.
Ejemplo2: El conjunto de las calificaciones de los 43
estudiantes de estadstica de la carrera de Sistemas
1-7
Tipos de Variables
Cualitativa o de Atributos Clasifica o describe un
elemento de la poblacin. Los valores que
puede asumir no constituyen un espacio
mtrico, por lo tanto las operaciones aritmticas,
como sumar y obtener promedios, no son
significativas.
Ejemplos: Sexo, Nacionalidad, Marcas de auto, Grado
de Satisfaccin con la Universidad, etc..
Tipos de Variables
Cuantitativa o Numrica Cuantifica un elemento
de la poblacin. Los valores que puede asumir
constituyen un espacio mtrico, por lo tanto las
operaciones aritmticas, como sumar y obtener
promedios, son significativas.
Ejemplos: Cantidad de Habitaciones, Nmero de hijos,
Kilmetros recorridos, Tiempo de vuelo, Ingreso, etc..
1-9
Tipos de Variables
Las variables cuantitativas se pueden clasificar
a su vez en discretas o continuas.
Cuantitativas Discretas: solo pueden asumir
ciertos valores y normalmente hay huecos entre
ellos. Son conteos normalmente.
Ejemplo1: Cantidad de materias aprobadas.(1, 2,3 ......)
Ejemplo2: Cantidad de hijos (1, 2, 3,4...)
1-9
Tipos de Variables
Cuantitativas Continuas: puede asumir
cualquier valor dentro del rango de medicin.
Normalmente se miden magnitudes como ser
longitud, superficie, volumen, peso, tiempo,
dinero.
Ejemplo 1: Peso al nacer.
Ejemplo 2: Salario de un empleado
Ejemplo 3: Tiempo de viaje en bus entre Salomia y la
Plaza de Caicedo.
1-12
Escalas de Medicin
Las variables cualitativas se miden en escala
nominal o ordinal.
Nominal: los elementos solo pueden ser clasificados
en categoras pero no se da un orden o jerarqua. El
numero es un cdigo.
Ejemplo 1: Barrio de residencia de los alumnos. (1 Sena, 2
Floralia, 3 Obrero).
Ejemplo 2: Color de ojos (1 Negros, 2 Castaos)
Ejemplo 3: Simpatizante de un club de ftbol (1Cali, 2 Amrica)
1-12
Escalas de Medicin
Ordinal: los elementos son clasificados en
categoras que tienen un orden o jerarqua, la
diferencia entre valores no se pueden realizar o
no son significativas.
Ejemplo 1: Grado de satisfaccin en el uso de un servicio
pblico. (1 Excelente, 2 Bueno, 3 Regular, 4 Malo)
Ejemplo 2: Tabla de posiciones del Campeonato Mundial
de Futbol (1. Colombia, 2 Brasil, 3 Alemania)
Escalas de Medicin
Las variables cuantitativas se miden en escala de
intervalo o razn.
Intervalo: los elementos son clasificados en
categoras que tienen un orden o jerarqua, la
diferencia entre valores se pueden realizar y son
significativas. La diferencia entre dos valores
consecutivos es de tamao constante y no existe
el 0 absoluto, el 0 es relativo.
Ejemplo: Temperatura en grados Celsius
Escalas de Medicin
Razn: los elementos son clasificados en
categoras que tienen un orden o jerarqua, la
diferencia entre valores se pueden realizar y son
significativas. Existe el 0 absoluto, es decir la
ausencia de la variable medida.
Ejemplo 1: Tiempo de vuelo.
Ejemplo 2: Ingresos familiares
C u a n t it a t iv a o N m e r ic a
E s c a la d e m e d ic i n
N o m in a l
I n t e r v a lo
D is c r e t a
O r d in a l
R azn
C o n t in u a
Gnero
Frec.
Hombre
Mujer
Tablas de Frecuencias
Exponen la informacin recogida en la muestra, de forma que no se pierda nada de informacin (o poca).
Vlidos
Hombre
Mujer
Total
Frecuencia
636
881
1517
Porcentaje
41,9
58,1
100,0
Nmero de hijos
Porcentaje
vlido
41,9
58,1
100,0
Vlidos
Nivel de felicidad
Vlidos
Perdidos
Total
Muy feliz
Bastante feliz
No demasiado feliz
Total
No contesta
Frecuencia
467
872
165
1504
13
1517
Porcentaje
30,8
57,5
10,9
99,1
,9
100,0
Porcentaje
vlido
31,1
58,0
11,0
100,0
Porcentaje
acumulado
31,1
89,0
100,0
Perdidos
Total
0
1
2
3
4
5
6
7
Ocho o ms
Total
No contesta
Frecuencia
419
255
375
215
127
54
24
23
17
1509
8
1517
Porcentaje
27,6
16,8
24,7
14,2
8,4
3,6
1,6
1,5
1,1
99,5
,5
100,0
Porcentaje
vlido
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0
Porcentaje
acumulado
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0
Gnero
Frecuencia.
Frecuencia
relativa
porcentaje
Hombre
4/10=0,4=40
%
Mujer
6/10=0,6=60
%
10=tamao
muestral
Muestra:
MHHMMHMMMH
equivale a
HHHH MMMMMM
Ejemplo
Cuntos individuos
tienen menos de 2 hijos?
frec. indiv. sin hijos
+
frec. indiv. con 1 hijo
= 419 + 255
= 674 individuos
Qu porcentaje de
individuos tiene 6 hijos o
menos?
97,3%
Qu cantidad de hijos es
tal que al menos el 50%
de la poblacin tiene una
cantidad inferior o igual?
2 hijos
Nmero de hijos
0
1
2
3
4
5
6
7
Ocho+
Total
Frec.
419
255
375
215
127
54
24
23
17
1509
Porcent.
(vlido)
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0
Porcent.
acum.
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0
50%
Diagramas de barras
Alturas proporcionales a las frecuencias (abs. o rel.)
Se pueden aplicar tambin a variables discretas
Pictogramas
Fciles de entender.
El rea de cada modalidad debe ser proporcional a
la frecuencia. De los dos, cul es incorrecto?.
375
300
255
215
200
127
100
54
24
0
23
17
7 Ocho o ms
Nmero de hijos
200
150
100
50
20
40
60
80
Diagramas integrales
Reduccin de Datos
Las tcnicas utilizadas para la descripcin de datos se
dividen, bsicamente, en dos bloques:
Parmetros de centralizacin: Son aquellos cuyo objetivo
es explicar mediante un valor numrico, cual es la tendencia
mayoritaria de las observaciones de la coleccin de datos
que se analizan. Dichos parmetros sern, entre otros, la
media, la mediana y la moda.
Parmetros de dispersin: Corresponden a aquellos
parmetros cuyo objetivo es detectar el grado de proximidad
de los datos respecto a los valores centrales. Dichos
parmetros sern, entre otros, el rango, los cuartiles, la
varianza y la desviacin estndar.
Reduccin de Datos
Medidas de centralizacin
Las medidas de centralizacin nos sirven para representar el valor
medio de los datos, es decir, el valor que refleja el tamao del dato
ms esperado. Ello nos indica la posicin en la que se encuentra en
el centro de los datos.
Media : Es la suma de un conjunto de observaciones dividido por el nmero total
de observaciones realizadas.
Media de la poblacin
Media de la muestra
Reduccin de Datos
Mediana : Es un nmero tal que, si ordenamos los datos de forma creciente o
decreciente, cumple la condicin de ser mayor que una mitad y menor que la
otra. Es decir, divide a la distribucin en dos partes iguales.
Ordenamos los datos en orden creciente:
10 10 12 12 13 14 15 16 16 16 18 20 20 21 22
Moda : Es el valor que ms veces se repite en la distribucin. Si los datos de la
distribucin estn agrupados en intervalos, la moda es el punto medio del
intervalo que contiene el mayor nmero de frecuencias. Una distribucin de
observaciones puede no tener moda, es decir, puede que no haya ningn
valor de la distribucin que aparezca con ms frecuencia.
Siguiendo con el ejemplo anterior, agrupamos los datos segn su frecuencia,
observamos que la moda ser el 16 que es valor que ms veces se repite.
Reduccin de Datos
Medidas de dispersin
Para conocer con detalle un conjunto de datos, no basta con conocer las
medidas de tendencia central, necesitamos conocer tambin la dispersin
que presentan los datos en su distribucin con referencia a un parametro,
con objeto de tener una visin de los mismos ms acorde con la realidad a
la hora de describirlos e interpretarlos.
Recorrido o amplitud: Es la diferencia entre el valor mximo de la distribucin y el
valor mnimo.
Cuartiles: As como la mediana divide a la distribucin en mitades, los cuartiles de
una distribucin son los valores que dividen la distribucin en cuartos. El primer
cuartil (Q1) deja un cuarto de las observaciones por debajo del mismo, y tres
cuartos por encima. El segundo cuartil (Q2) tiene dos cuartos por debajo y dos por
encima (el segundo cuartil coincide con la mediana). El tercer cuartil (Q3) tiene tres
cuartos de las observaciones por debajo y un cuarto por encima.
Reduccin de Datos
Diagramas de caja
El diagrama de caja es un grfico simple donde vienen representados los
anteriores 5 valores anteriores (mnimo, primer cuartil, mediana (segundo
cuartil), tercer cuartil y mximo)
Reduccin de Datos
Varianza: Se define como la media aritmtica de las desviaciones de los datos
observados con respecto a la media, elevadas al cuadrado.
Reduccin de Datos
Coeficiente de variacin: Es la relacin entre la desviacin estndar y la media.
El coeficiente de variacin es muy til cuando queremos comparar dos o ms
medidas de dispersin y stas estn en unidades diferentes o bien estn en las
mismas unidades pero sus medias son muy distintas.
EJEMPLO
Mtodos Multivariados
Modelos de Regresin
Anlisis de la varianza y Diseo de Experimentos
Mtodos grficos exploratorios.
Anlisis en Componentes Principales.
Anlisis discriminante.
Mtodos de Clasificacin
Series temporales