Beruflich Dokumente
Kultur Dokumente
Inferencia Estadstica
Como es la verdad
INFERENCIA
deduccin
f. Conclusin, inferencia:
con lo que sabes, deberas sacar tus deducciones y decidir.
filos. Mtodo de razonamiento que parte de conceptos generales o
principios universales para llegar a conclusiones particulares:
la deduccin presupone el pensamiento hipottico.
Descuento, rebaja:
aplique la deduccin por rendimiento del trabajo.
Estadstica inferencial
Muestra
Procedimiento
La inferencia estadstica parte de un conjunto de
observaciones de una variable, y a partir de
estos datos infiere o genera un modelo
probabilstico; por tanto es la consecuencia de
la investigacin emprica, caundo se est
llevando a cabo, y como consecuencia de la
ciencia terica, cuando se estn generando
estimadores, o mtodos, con tal o cual
caracterstica para casos particulares. La
inferencia estadstica es, en consecuencia, un
planteamiento inductivo.
Definiciones complementarias
Es la parte de la estadstica matemtica que se
encarga del estudio de los mtodos para la
obtencin del modelo de probabilidad que sigue
una variable aleatoria de una determinada
poblacin, a travs de una muestra obtenida de
la misma
proceso de anlisis que consiste en inferir las
propiedades de una poblacin con base en la
caracterizacin de la muestra.
Problemas fundamentales
Los dos problemas fundamentales que
estudia la inferencia estadstica son el
"Problema de la estimacin" y el
"Problema del contraste de hiptesis"
Paramtrica y No paramtrica
Cuando se conoce la forma funcional de la
funcin de distribucin que sigue la variable
aleatoria objeto de estudio y slo tenemos que
estimar los parametros que la determinan,
estamos en un problema de inferencia
estadstica paramtrica ; por el contrario
cuando no se conoce la forma funcional de la
distribucin que sigue la variable aleatoria
objeto de estudio, estamos ante un problema de
inferencia estadstica no paramtrica.
Teoras en las que se basa
En todos estos problemas que estudia la
inferencia estadstica juega un papel
fundamental la "Teora de la
Probabilidad" (distintas formas
funcionales de las distribuciones de
probabilidad) y la "Teora de Muestras"
(procedimientos para tomar muestras de
manera apropiada).
Teora de Muestras
Consideremos la poblacin compuesta por los
nios espaoles al nacer. Una caracterstica
medible de los individuos de esta poblacin es
su peso; esta caracterstica depende de
mltiples factores y se puede considerar una
variable aleatoria. La distribucin que sigue esta
variable aleatoria es normal, pero, cul es su
media? y cul es su desviacin tpica?.
teora de muestras
Pues bien, la teora de muestras estudia
las tcnicas y procedimientos que
debemos emplear para que las muestras
sean representativas de la poblacin que
pretendemos estudiar, de forma que los
errores en la determinacin de los
parmetros de la poblacin objeto de
estudio sean mnimos.
Para conseguirlo, la muestra tiene que ser
representativa de la poblacin. Para que la
extraccin de la muestra sea representativa se
deben cumplir dos principios bsicos:
Que haya independencia en la seleccin de los
individuos que forman la muestra
Que todos los individuos tengan la misma
probabilidad de ser incluidos en la muestra
Para conseguir estos objetivos se emplean
distintas tcnicas de muestreo.
Modelos de Muestreo
Bsicos
Muestreo Aleatorio Simple
Bachillerato :
Video
ESTADSTICA INFERENCIAL
ESTADSTICA INFERENCIAL
Poblacin Muestra
Definicin Coleccin de elementos Parte o porcin de la
considerados poblacin seleccionada
para su estudio
Caractersticas Parmetros Estadsticos
Smbolos Tamao de la poblacin = N Tamao de la muestra =
n
Media de la poblacin = m Media de la muestra = X
EJEMPLO IPC
Guayaquil, Machala, Portoviejo, Quito, Ambato, Cuenca y, Manta, Esmeraldas
y Quevedo, Riobamba, Loja y Latacunga.
Con estas ciudades se cubre el 67% de la poblacin urbana del pas,
CONCEPTOS INICIALES
Estimacin Puntual.- Estadstico calculado a partir de la
informacin obtenida de la muestra y que se usa para
estimar el parmetro poblacional
m 1,96
s
n
m mz
s
n
X1
X2
X4 X3 X5
INTERVALOS DE CONFIANZA
INTERVALO DE CONFIANZA PARA MUESTRAS MAYORES A
30 ELEMENTOS
s
X z
n
s
X t
n
DESVIACIN ESTNDAR
s
( X m)2 X 2
( X ) 2
n
N s
n 1
PROPORCIONES
PROPORCIN.- Fraccin, razn o porcentaje que indica la parte de la
muestra o poblacin que tiene una caracterstica determinada
x
PROPORCIN MUESTRAL: p
n
INTERVALOS DE CONFIANZA PARA UNA
PROPORCIN POBLACIONAL
p zs p
p(1 p)
sp
n
EJERCICIO
Suponga que se toma una muestra de 30 empleados de los cuales reciben
en promedio 349$ y una desviacin estndar de 110$. Cul es el intervalo
de confianza?
s
X z 349 39
n
349 1,96
110 310 389
30
Suponga que se toma una muestra de 20 empleados de los cuales reciben
en promedio 346$ y una desviacin estndar de 126$. Cul es el intervalo
de confianza?
s
X t 346 59
n
126
346 2,093 287 405
20
EJERCICIO - PROPORCIONES
p(1 p)
pz
n
0,80(1 0,80)
0,80 1,96 0,80 0,018
2000
PRUEBAS DE HIPTESIS PARA UNA MUESTRA
HIPTESIS.- Es una afirmacin sobre una poblacin,
que puede someterse a pruebas al extraer una muestra
aleatoria.
PRUEBA DE HIPTESIS.- Formular una teora y luego
contrastarla
1. PRUEBA DE HIPTESIS
2. SELECCIONAR EL NIVEL DE SIGNIFICANCIA
3. CALCULAR EL VALOR ESTADSTICO DE PRUEBA
4. FORMULAR LA REGLA DE DECISIN
5. DECIDIR
PASO1 PLANTEAR H0 Y H1
H 0 : m m0 Hiptesis nula: Afirmacin acerca del valor de un
parmetro poblacional
H 0:m m0
0.05/2=0.025 0.5-0.05=0.45
-2,7
m 40visitas t
X m
s
x 42visitas n
s 2.1visitas
n 28
PASO 4: REGLA DE DECISIN
Rechazo H0 SI t calculado es mayor a 1.703
( f0 fe )
2
x
2
fe
PRUEBA DE BONDAD DE AJUSTE DE
FRECUENCIAS ESPERADAS
EJEMPLO: Una empresa de venta VENDEDOR Vehculos
de vehculos desea comprobar si no
hay diferencia significativa en la A 13
venta de vehculos por sus B 33
vendedores, se espera que las
frecuencias observadas (fo) fueran C 14
iguales. Puede concluirse que D 7
existe diferencia entre la las ventas
de vehculos de cada vendedor E 36
F 17
TOTAL 120
Debido a que existen 120 datos, es de esperar
que 20 queden en cada una de las 6 categoras
Vehculos
Vendedores vendidos fo Nmero vendido esperado fe
A 13 20
B 33 20
C 14 20
D 7 20
E 36 20
F 17 20
TOTAL 120 100
PASO 1. Se establece Ho y H1
PASO 2. Se selecciona el nivel
Ho= Fo=fe de significancia 0.05, que es la
probabilidad de rechazar una
H1=Fo=fe
hiptesis nula verdadera
PASO 3. Seleccin del estadstico de prueba
( f0 fe )2
x
2
fe
PASO 5. DECIDIR.
Como el resultado calculado 34.5 es mayor que el de la tabla 11.070,
rechazamos la hiptesis de que las frecuencias son iguales, las ventas
son diferentes.
PRUEBA DE BONDAD DEAJUSTE
FRECUENCIAS ESPERADAS
DIFERENTES
Una empresa quiere comparar si el comportamiento de los datos
de ingresos a un hospital obtenidos a nivel local difieren de los
obtenidos a nivel nacional
PASO. 1.
Ho: No existe diferencia entre la situacin local y la situacin nacional
H1: Si existe diferencia entre las situaciones local y nacional
PASO 2. Se establece el nivel de significancia de 0.05%
PASO 3.El estadstico de prueba a utilizar es chi cuadrado
PASO 4. Se establece la regla de decisin
NMERO DE NMERO DE
VECES PERSONAS, Fe fo-fe (fo-fe)^2 (fo-fe)^2/fe
ADMITIDAS Fo
1 165 160 5 25 0,156
2 7 80 -1 1 0,013
3 50 56 -6 36 0,643
4 44 40 4 16 0,400
5 32 32 0 0 0,000
6 20 24 -4 16 0,667
7 10 8 2 4 0,500
400 400 Chi =68.96
Observando el valor de la tabla con 7-1 grados de libertad, obtenemos
un valor de 12,59. es decir, si el valor calculado de chi-cuadrado es
mayor al valor de la tabla, entonces rechazamos Ho caso contrario
aceptamos.
PASO 5. DECIDIR.
Como el valor calculado es 68,96 se encuentra en la regin de Rechazo,
es decir Rechazo Ho
Independencia - Dependencia
Cuando se estudian dos caractersticas simultneamente sobre una muestra,
se puede considerar que una de ellas influye sobre la otra de alguna
manera. Por ejemplo la altura y el peso o las horas de estudio y la
calificacin en un examen.
Dependencia
Independencia estadstica Dependencia funcional
estadstica
- + 55
Grado de asociacin entre dos variables
GRFICOS DE DISPERSIN: Permite ver si hay asociacin
Dadas dos variables X y Y tomadas sobre el mismo elemento de la
poblacin, el diagrama de dispersin es simplemente un grfico de
dos dimensiones, donde en un eje (la abscisa) se sita una
variable, y en el otro eje (la ordenada) se sita la otra variable. Si
las variables estn correlacionadas, el grfico mostrara algn nivel
de correlacin (tendencia) entre las dos variables. Si no hay
ninguna correlacin, el grfico presentara una figura sin forma,
una nube de puntos dispersos en el grfico.
Asociacin
positiva. Si
aumenta X
aumenta Y
56
GRFICOS DE DISPERSIN / RECTA DE REGRESIN
La relacin entre dos variables mtricas puede ser
representada mediante la lnea de mejor ajuste a los datos.
Esta recta se le denomina recta de regresin, que puede ser
negativa o positiva, la primera con tendencia decreciente y la
segunda creciente.
57
GRFICOS DE DISPERSIN / RECTA DE REGRESIN
Para el clculo de la recta de regresin se aplica el mtodo de
mnimos cuadrados entre dos variables. Esta lnea es la que
hace mnima la suma de los cuadrados de los residuos, es
decir, es aquella recta en la que las diferencias elevadas al
cuadrado entre los valores calculados por la ecuacin de la
recta y los valores reales de la serie, son las menores posibles.
y = a + bx
58
Recta de regresin Pendiente
yn
yn 1 y i
y3
u3 ui
yi
y1 yi
y2
Intercepto
x1 x2 x3 xi xn 1 xn
yi a bxi ui ui yi yi
Error 59
Llamemos a u perturbacin o error, siendo la diferencia que hay entre el
valor observado de la variable exgena (y) y el valor estimado que
obtendremos a travs de la rectay ide regresin .
y i a bxi
La metodologa para la obtencin de la recta ser hacer MNIMA la suma de
los CUADRADOS de las perturbaciones. Por qu se elevan al cuadrado?
n n
u ( yi yi ) 2
2
i i
u 2
i 1
i i
( y
i 1
y ) 2
n 2 n n
2
ui ( yi yi ) yi aq bpxi
2
min
q, p i 1 i 1 i 1
60
En el modelo de regresin lineal simple la funcin elegida para aproximar la relacin entre las
variables es una recta, es decir y=a+bx, donde a,b son los parmetros. A esta recta la
llamaremos RECTA DE REGRESIN DE Y SOBRE X.
Vamos a deducir su ecuacin usando el mtodo de los mnimos cuadrados. Dado un valor de
X, tenemos los dos valores de Y, el observado, yi , y el terico, yi* = a + bxi. Hemos de
minimizar los errores cometidos:
n n
x y y bx x b x
i
i i
i
i
i
2
i
x y
y
x bxnx b x
i
yi a bxi 0 y ab x
2
2 i i
i i
n
i i
a
i i i
i i i i
x y a x b x
2 yi a bxi xi 0 i i i
2
i
xi yi ynx b
xi2 nx 2
b
i i i i i i
S xy
S xy bSx2 b 61
S x2
y obtenemos que la recta de regresin de Y sobre X: y = a + bx con los
valores a y b anteriormente calculados, o bien la siguiente expresin:
S xy
y y x x
S x2
S xy
b' y a' x b' y
S y2
S xy
x x y y
S y2 62
Varianza residual: Ayuda a medir la dependencia.
yi yi
2
Si es grande, los residuos, por trmino
VR = Su2 S R2y medio, sern grandes. Dependencia
N pequea y viceversa.
Su2 rxy R
Haciendo unas transformaciones se demuestra que r(xy)
R 1 2 visto en el captulo 6 slo es un caso particular de R
SY
R2
Elevado al cuadrado obtenemos el coeficiente de determinacin que sirve como medida
del buen ajuste de la recta de regresin
2
Cuando solo exista una variable explicativa o S xy S xy S xy
2
R bb' 63 r 2
S x2 S y2 S x S y
independiente y una sola dependiente se cumple: xy
1 r 1 1 R 1 0 r 2 1 0 R2 1
S S S
Recta de regresin: yi y XY2 x XY2 xi y XY2 xi x
SX SX SX
S XY S X SY S XY SY SY
yi y 2 i
x x y i
x x y r xi x
S X SY S X S X SY S X SX
r 1 1 r 0 r 0 0 r 1 r 1
64
2
S Y
Se descompone en:
S S VR
2
u
2
ry
S S S
2
R
2
Y
2
u
VE
S S 2
S 2
S 2 2
VR VE
R 1
2 u
Y R 1 u
SY2
2
2
S SY
Y
VT VT
S S S
2
Y
2
R
2
u VT VR VE
2
R Tanto por uno de la Y que viene explicado por la X
S XY
y 0 aq bpx0 y 2 x0 x
SX
66
PARADIGMAS
JOEL BARKER
Lder-gerente
El gerente administra, el lder innova.
El gerente tiene una visin de corto alcance, el lder tiene una
perspectiva de largo alcance.
El gerente le pregunta cmo y cundo, el lder pregunta qu y por
qu.
El gerente tiene su ojo hacia la parte inferior, el lder tiene la mirada
puesta en el horizonte.
El gerente acepta el status quo, el lder los desafos.
"Nadie va a darle las gracias por cuidar a los presentes si han dejado de lado
el futuro".
Video: El nuevo negocio
de los paradigmas
Actividad en clase
Escribir por equipo de 3 personas en una
cuartilla, su opinin sobre el video del
nuevo negocio de los paradigmas.
Tiempo: 15 minutos.
DISTRIBUCION
DE FRECUENCIAS
DESPUES DE LA RECOPILACION DE LOS DATOS,
ES NECESARIO,CLASIFICARLOS, RESUMIRLOS Y
PRESENTARLOS EN FORMA TAL, QUE FACILITEN
SU COMPRENSION Y SU POSTERIOR ANALISIS Y
UTILIZACION. PARA ELLO SE ORDENAN EN UNA
TABLA DE DISTRIBUCION DE FRECUENCIAS Y
LUEGO SE PRESENTARAN EN GRAFICOS.
TABLA DE DISTRIBUCION
DE FRECUENCIAS
*PRESENTAN LA DISTRIBUCION DE UN CONJUNTO
DE DATOS DE ACUERDO AL TIPO DE VARIABLE QUE
SE TENGA. EN ELLA SE OBSERVA LA FRECUENCIA
(NUMERO DE DATOS OBSERVADOS EN CADA CLASE
O INTERVALO)DESPUES DE REALIZAR EL PROCESO
DE CONTEO O TABULACION.
PROGRAMAS N DE TELEVIDENTES
variable
NOTICIEROS 17
SERIES 15
18
NOVELAS frecuencias
DIBUJOS 16
CULTURALES 14
TOTAL 80
TABLA DE FRECUENCIAS PARA LA PREFERENCIA DE PROGRAMAS DE TV.
PROGRAMAS Frecuencia Absoluta (fi) Frecuencia Relativa (hi)
(nmero de televidentes)
NOTICIEROS 17 0.2125
SERIES 15 0.1875
NOVELAS 18 0.2250
DIBUJOS 16 0.2000
CULTURALES 14 0.1750
TOTAL n=80 1.0000
(1)La frecuencia absoluta fi, es el nmero de datos observados en
cada categoria o modalidad. La suma de todas las frecuencias
absolutas es igual al total de datos observados (n=80).
(2)La frecuencia relativa hi se define por hi = fi /n
La suma de todas las frecuencias relativas es igual a uno.
(3)La frecuencia relativa se convierte en % multiplicandola por 100
(4)Las frecuencias relativas son conocidas como proporciones.
CON LA INFORMACION DE LA TABLA PODEMOS
REALIZAR ALGUNAS PREGUNTAS:
DIAGRAMAS DE BARRAS
20
FRECUENCIA ABSOLUTA
15
10
0
NOTICIEROS SERIES NOVELAS DIBUJOS CULTURALES
PROGRAMAS
DIAGRAMA CIRCULAR O TIPO PASTEL
CULTURAL
NOTICIEROS
18% 21%
DIBUJOS
SERIES
20%
19%
NOVELAS
22%
hi x 360
TABLA DE FRECUENCIAS SIMPLES
3 7 7 6 7 4 5 1 4 5
5 9 4 2 4 6 7 4 7 6
6
5
No de familias
4
3
2
1
0
1 2 3 4 5 6 7 8 9
No de hijos
Frecuencias relativas
30
25
% de familias
20
15
10
5
0
1 2 3 4 5 6 7 8 9
No de hijos
TABLA DE FRECUENCIAS POR
INTERVALOS
VARIABLES CUANTITATIVAS CONTINUAS
Y TAMBIEN DISCRETAS
VARIABLE
[Li , Ls > Xi fi hi Fi Hi
k
Total n f i
i 1
h Fk n
k
i 1
fi n
i 1
i 1
L L
X i
i s
2
6.- EL ANCHO DE CLASE C REPRESENTA LA
LONGITUD DEL INTERVALO: C = Ls Li
GENERALMENTE ES CONSTANTE.
85 89 76 110 104 78 84 96 90 75
102 80 56 78 84 66 69 78 84 98
Rango: R= 134 - 42 = 92
Intervalos Tarjas Xi fi hi Fi Hi
o conteo
[42-58> 50 2 0.050 2 0.050
14,6 12,8 13,9 15,3 14,2 15,6 14,2 13,4 13,8 14,5
13,9 14,2 14,9 13,1 12,2 14,1 15,1 15,7 13,4 13,2
PROCEDIMIENTO:
Intervalos Tarjas Xi fi hi
Fi Hi
o conteo
[12,2-12,8> // 12,5 2 0,0667 2 0,0667
1.- Cuntas semanas tienen ventas entre 14,0 y 14,6 miles de soles?
Rpta. f4 = 6 semanas.
7
Frequencia Absoluta
0
12.2 12.8 13.4 14.0 14.6 15.2 15.8
Ventas
Histograma de Frecuencias Relativas (%)
30
25
Frequencia Relativa %
20
15
10
0
12.2 12.8 13.4 14.0 14.6 15.2 15.8
Ventas
Poligono de Frecuencias Absolutas
7
numero de semanas
0
12.5 13.1 13.7 14.3 14.9 15.5
Ventas
Polgono de frecuencias absolutas
10
Num. de semanas
8
6
4
2
0
12.5 13.1 13.7 14.3 14.9 15.5
ventas
Observacin
Los polgonos de frecuencia son especialmente
tiles para comparar las distribuciones de dos
grupos de datos diferentes, para ello es
conveniente trabajar en un mismo grfico y
empleando los mismos intervalos.
Importante: Si la cantidad de datos es muy
diferente en ambos grupos es preferible trabajar
con polgonos de frecuencia relativa.
OJIVA
UNA OJIVA ES LA REPRESENTACION GRAFICA DE
UNA DISTRIBUCION DE FRECUENCIAS ABSOLUTAS
ACUMULADAS O LAS FRECUENCIAS RELATIVAS
ACUMULADAS.
40 *
42 0 0
58 2 0.05 31 *
74 7 0.174 22 *
90 22 0.550
7 *
106 31 0.775
122 37 0.925 2 *
138 40 1.000 *
OBJETIVOS:
TALLO HOJA
8 5
TALLO HOJA
32 9
Para los siguientes datos, construya un diagrama tallos y hojas:
12, 15,18, 22,24, 26, 27, 31, 33, 33,35, 36, 42, 42, 45, 46, 50, 51, 53