Beruflich Dokumente
Kultur Dokumente
CONCEPTOS PREVIOS
ESTADISTICA
La estadstica es la rama de las matemticas aplicadas
que permite estudiar fenmenos cuyos resultados son en
parte inciertos.
MUESTRA
Es un subconjunto de la poblacin seleccionado
mediante un mecanismo ms o menos explcito.
En general, rara vez se dispone de los recursos necesarios
para estudiar a toda la poblacin y, en consecuencia,
suelen emplearse muestras representativas obtenidas a
partir de estas poblaciones.
CONCEPTOS PREVIOS
DATOS
Los datos son la materia prima de la estadstica.
Los datos que se utilizan en estadstica resultan de uno de dos
procesos: La toma de medidas o el proceso de conteo.
Se pueden obtener con fines especficos (encuestas, experimentos) o con
fines administrativos (registro de admisin, historia clnica)
ESTADSTICO
Es cualquier operacin realizada sobre los valores de una variable.
PARMETRO
Es un valor de la poblacin sobre el que se desea realizar
inferencias a partir de estadsticos obtenidos de la muestra, que en
este caso se denominan estimadores.
Por convencin, los parmetros poblacionales se denotan con
letras del alfabeto griego, mientras que los estimadores muestrales
se denotan con letras de nuestro alfabeto
VARIABLES
Variable es toda caracterstica o atributo
susceptible de tomar un valor y ser medido. Esta
caracterstica puede ser de las personas, objetos,
lugares o cosas.
Como su nombre lo dice, vara de acuerdo a
cada sujeto de estudio; por lo tanto, para
convertirse en variable la caracterstica debe
tener mas de dos valores.
TIPOS DE VARIABLES
CUALITATIVAS O CATEGORICAS: Si sus valores no se pueden
asociar naturalmente a un nmero (no se pueden hacer
operaciones algebraicas con ellos)
NOMINALES: Si sus valores no se pueden ordenar
Ejem.: Sexo, Grupo Sanguneo, Religin, Nacionalidad,
Fumar (S/No)
ORDINALES: Si sus valores se pueden ordenar
Ejem.: Mejora a un tratamiento, Grado de satisfaccin,
Intensidad del dolor
Escala Nominal.
Variables Cualitativas
Escala Ordinal.
ESCALA ORDINAL:
Existe un cierto orden o jerarqua entre las categoras, por lo
tanto estn definidas las operaciones lgicas (>, <, , ).
Ejem.: grados militares, organigrama de una empresa,
escalafn de los profesores universitarios, grados de
disnea, estadiaje de un tumor.
ESCALAS DE MEDIDA
ESCALA DE INTERVALOS:
Valores numricos de las variables y adems de las
relaciones de orden (>, <, , ), se pueden establecer
distancias, es decir, tienen sentido las operaciones de suma
y resta. Tiene dos propiedades:
Existe una unidad de medida que se mantiene
constante para todos los valores que toma la
variable.
Existe un valor patrn u origen relativo que no
significa la ausencia de valor en la variable (El
cero es arbitrario o convencional, este no
indica la ausencia del fenmeno estudiado).
Ejem.: Temperatura, nivel de ruido, movimientos
ssmicos.
ESCALAS DE MEDIDA
ESCALA DE RAZN O PROPORCIN:
Es la ms completa y general de todas las escalas.
Se caracteriza porque los valores de la variable son nmeros
entre los cuales, adems de las relaciones de orden (>, <, ,
) y distancia (+,-), se pueden establecer mltiplos y
proporciones.
El cero de la escala de razn es real; esto quiere decir que el
valor 0 indica la ausencia del fenmeno estudiado.
Ejemplos: peso, altura, volumen, etc.
ESTADSTICA
DESCRIPTIVA
ESTADISTICA DESCRIPTIVA
Estudia las tcnicas necesarias para la organizacin,
presentacin y resumen de los datos obtenidos.
N=100
ORGANIZACIN DE LOS DATOS
Centralizacin
Indican valores con respecto a los que los datos
parecen agruparse.
Media, mediana y moda
Algunos conceptos previos
Dispersin
Indican la mayor o menor
concentracin de los datos con
respecto a las medidas de
centralizacin.
Desviacin estndar, coeficiente de
variacin, rango, varianza.
Forma
Asimetra
Curtosis
ESTADSTICOS DE POSICIN
x
x
N
MEDIA
Ventajas
Siempre existe.
Es fcil de calcular.
Extrae el mximo de informacin de un conjunto de datos.
Desventajas.
Se ve seriamente afectada por valores extremos en un conjunto
de datos.
MEDIANA
La mediana se refiere al valor que divide la distribucin en
dos partes iguales, por tanto no se afecta por valores
extremos.
PROCEDIMIENTO DE CLCULO
Desventajas.
Implica ordenar los datos.
Insensible a la magnitud de los valores.
Sensible al tamao del conjunto de datos.
MODA
Es la medida de tendencia central ms fcil de obtener. Esto
es cierto debido a que la moda puede, encontrarse
simplemente por inspeccin ms que por clculo.
Desventajas.
No siempre existe
Es insensible a la presencia de valores extremos.
No provee informacin referente a la distribucin de
frecuencia de un grupo de datos.
MODA
PROCEDIMIENTO DE CLCULO.
n
ni
dm ( xi x )
i 1 N
i 1 N
Se denota como cuando se hace referencia a una
muestra, y como si se trata de una poblacin.
VARIANZA
La varianza hace uso de la propiedad de todos los
cuadrados de ser positivos para establecer una medida
unidireccional.
n
ni
S S ( xi x )
2 2
i 1 N
MUESTREO
POBLACIN OBJETIVO
Es la coleccin de todas las posibles mediciones u
observaciones que cumplen ciertas propiedades y
entre los cuales se desea estudiar un determinado
fenmeno.
Puede ser finita o infinita.
Se debe definir claramente los sujetos cuyos
atributos sern medidos, por tanto se debe definir
en primer lugar cual ser la unidad de anlisis.
Adems se deben delimitar:
Criterios de seleccin (inclusin, exclusin, eliminacin).
Ubicacin espacio - temporal.
MUESTRA
Es un subconjunto de la poblacin seleccionado mediante
un mecanismo ms o menos explcito.
En general, rara vez se dispone de los recursos necesarios
para estudiar a toda la poblacin y, en consecuencia,
suelen emplearse muestras representativas obtenidas a partir
de estas poblaciones.
Se debe procurar que adems la muestra sea aleatoria, es
decir que el mecanismo para la obtencin de la muestra
debe garantizar que cada uno de los elementos de la
poblacin tenga una probabilidad de ser parte de la
muestra.
MUESTRAS
PROBABILISTICAS NO PROBABILISTICAS
Cada individuo tiene igual Los sujetos (personas) no
probabilidad de formar son seleccionados de
parte de la muestra. acuerdo a un esquema
aleatorio.
Probabilidad de seleccin
es conocida para cada tiles para ciertos estudios,
individuo de la poblacin. en los cuales no es
indispensable que las
Se puede evaluar la muestras sean extradas
confiabilidad de las aleatoriamente de la
conclusiones que se poblacin, sino que renan
obtengan a partir de ciertas caractersticas
muestras de este tipo. previamente especificadas.
VENTAJAS Y DESVENTAJAS DE LOS DISEOS
MUESTRALES ALEATORIOS Y NO ALEATORIOS
PRINCIPIOS BSICOS DEL
MUESTREO PROBABILISTICO
El propsito del muestreo probabilstico es obtener
observaciones (mediciones) que sean representativas de la
poblacin de inters, usando una parte de la misma, lo cual
reducir el costo y el tiempo de la investigacin y permitir
obtener informacin ms confiable.
Pero es importante tener en cuenta que el uso inadecuado
de un procedimiento de muestreo puede llevar a sesgos
(vicios) de interpretacin del resultado, por lo que, es
fundamental controlar los sesgos en el procedimiento de
seleccin, y alcanzar la mxima precisin en las mediciones.
ERRORES DE MUESTREO
Cuando se toma una decisin en base a la
informacin de una muestra siempre existe el riesgo de
cometer un error denominado error de muestreo.
No es posible eliminar este tipo de error a menos que el
tamao de la muestra sea igual a la poblacin (N=n).
Este riesgo de conclusiones erradas debido a los errores
de muestreo puede ser medido siempre que las
muestras sean probabilsticas (muestras aleatorias).
TAMAO DE LA MUESTRA
Cuando decidimos realizar una investigacin, de inmediato
surgen dos preguntas:
Cuntos individuos son necesarios para que la muestra
represente a la poblacin y se puedan realizar
inferencias vlidas?
Cul es el tamao de muestra?
Cmo se debe seleccionar los individuos que
conformarn la muestra de modo que se eviten sesgos
de seleccin?
Cul es el mtodo de seleccin?
TAMAO DE LA MUESTRA
Desde un punto de vista estadstico, el tamao de la
muestra depender de:
El grado de variabilidad de la poblacin con respecto a la
caracterstica de inters
El margen de error (error relativo) que est dispuesto a cometer
al hacer las inferencias de la muestra hacia la poblacin.
El nivel de confianza (1-alfa). Usualmente fijado en 0.95 (95%). Es
la probabilidad de no cometer el error
El tamao de la poblacin en estudio (N).
MUESTREO ALEATORIO SIMPLE (M.A.S.)
Se eligen individuos de la poblacin de estudio (marco
muestral), de manera que todos tienen la misma probabilidad
de aparecer, hasta alcanzar el tamao muestral deseado.
NMERO DE ESTRATOS:
No se debe pensar que aumentando notablemente el
nmero de estratos se obtienen altos beneficios. En la
prctica el aumento mas all de 6 estratos produce pocas
ganancias en la reduccin de las varianzas.
Definido por criterio del investigador.
MUESTREO POR GRUPOS O CONGLOMERADOS
SUPUESTOS DE LA CONGLOMERACIN
Homogeneidad
Entre elementos de distintos conglomerados.
Heterogeneidad
Entre elementos del mismo conglomerado.
PRINCIPALES LEYES DE
DISTRIBUCION DE
VARIABLES ALEATORIAS
VARIABLE ALEATORIA
El resultado de un experimento aleatorio puede ser descrito en
ocasiones como una cantidad numrica.
En estos casos aparece la nocin de variable aleatoria
Funcin que asigna a cada suceso un nmero.
Hay distribuciones de variables aleatorias que aparecen con
frecuencia en las ciencias de la salud.
Experimentos dicotmicos: Distribucin de Bernoulli
Contar xitos en experimentos dicotmicos repetidos:
Binomial
Poisson (sucesos raros)
En otros experimentos o diseos de investigacin
Distribucin normal
Distribucin X2
Distribucin t de stundent
DISTRIBUCIN DE BERNOULLI
Tenemos un experimento de Bernoulli si al realizar un
experimentos slo son posibles dos resultados:
X=1 (xito, con probabilidad p)
X=0 (fracaso, con probabilidad q=1-p)
k
P[ X k ] e , k 0,1,2,...
k!
DISTRIBUCIN CHI CUADRADO
La funcin de densidad es
asimtrica positiva. Slo tienen
densidad los valores positivos.
La funcin de densidad se
hace ms simtrica incluso casi
gausiana cuando aumenta el
nmero de grados de libertad.
Normalmente consideraremos
anmalos aquellos valores de
la variable de la cola de la
derecha.
DISTRIBUCIN T DE STUDENT
Tiene un parmetro denominado grados de libertad.
Cuando aumentan los grados de libertad, ms se acerca a
N(0,1).
Es simtrica con respecto al cero.
Se consideran valores anmalos los que se alejan de cero
(positivos o negativos).
DISTRIBUCIN NORMAL
Est caracterizada por dos parmetros: La media, , y la
desviacin tpica, .
Su funcin de densidad es:
1 x
2
1
2
f ( x) e
2
Est definida por los valores de sus parmetros, una media igual
a 0 y una desviacin estndar igual a 1. [N(0,1)]
Es simtrica con respecto a la media.
En ella coinciden los valores de la media, mediana y moda.
Es asinttica.
El rea total bajo la curva es igual a 1.
TEOREMA DEL LIMITE CENTRAL
Lo que dice el teorema del limite central es que si se seleccionan
muestras aleatorias del mismo tamao (n) de una poblacin de
tamao N, la distribucin de las medias de todas las muestras
posibles se aproxima a la distribucin normal.
0 1 X1 ... k X k
Donde, 0 , 1,..., k son constantes y constituyen los
parmetros del modelo de regresin; y X1, X2, , XK, son las
variables explicativas del modelo.
Y
O de manera equivalente:
Y 0 1 X1 ... k X k
Donde :
es un error aleatorio que incluye variables
explicativas que no han sido consideradas en el
modelo y efectos puramente aleatorios.
MODELOS ESTADSTICOS
FORMULACIN DEL MODELO
El error () del modelo es una variable aleatoria no observable,
por lo que slo podemos establecer algunos supuestos que
debe cumplir para que el modelo de regresin lineal sea vlido:
a) La media de los errores es igual a cero: E() =0.
b) La varianza de los errores es 2 constante : V() = 2
c) Los errores no estn correlacionados (La covarianza
de los errores es igual a cero)
d) Los errores () se distribuyen de acuerdo a una
normal con media cero y varianza 2, esto es:
N(0, 2)
La condiciones a) y d) implican que el error no contiene
informacin que ayude a explicar la respuesta.
MODELOS ESTADSTICOS
FORMULACIN DEL MODELO
Un requisito para poder utilizar el modelo lineal general es
que la variable dependiente debe ser numrica.
Las variables independientes (v. explicativas, factores),
pueden ser:
Todas categricas (nominal, ordinal) en cuyo caso el
modelo se denominar Modelo de rango
incompleto o modelo de anlisis de varianza.
Todas numricas (intervalo o razn) , en cuyo caso el
modelo se denominar modelo de rango completo
o Modelo de anlisis de regresin.
En la prctica podra ocurrir que algunas variables
independientes sean numricas y otras categricas, por lo
que tendremos que encontrar mtodos para realizar el
anlisis de regresin incluyendo ambos tipos de variables.
MODELOS ESTADSTICOS
ESTIMACIN DE PARMETROS
En el contexto del anlisis de regresin se supone que las
variables independientes X1,X2,...,Xk, son fijadas y por tanto
conocidas antes de observar la respuesta y el error aleatorio
es inobservable.
En consecuencia, la variable respuesta, Y, es aleatoria pero
observable a partir del conocimiento de las variables
independientes y de mantener controlado el error aleatorio.
Pero el modelo tiene un conjunto de constantes
(parmetros) desconocidos 0,1,...,k, adems de 2 que
debern ser estimados.
Nuestro objetivo ahora, es estimar (o ajustar) el modelo de
regresin para eso usamos los datos observados y estimamos
los parmetros del modelo.
MODELOS ESTADSTICOS
ESTIMACIN DE PARMETROS
Una vez formulado el modelo de regresin, el siguiente paso
es la obtencin de datos para estimar los parmetros o, 1,
, k y la varianza del error aleatorio ( 2 ).
Los parmetros del modelo se estiman usando un de los dos
mtodos siguientes.
Mtodo de mnimos cuadrados
Mtodo de mxima verosimilitud.
La estimacin puede ser puntual o por intervalos.
MODELOS ESTADSTICOS
ESTIMACIN DE PARMETROS
Mnimos cuadrados ordinarios. Es el mtodo ms utilizado
para la estimacin de parmetros, su objetivo es encontrar
el conjunto de parmetros que haga mnima la distancia
euclidiana entre las observaciones y el modelo elegido. Este
mtodo no requiere que la distribucin de la variable
respuesta ( o el error) sea conocida.
Mxima verosimilitud. Este mtodo busca maximizar la
verosimilitud de que el modelo elegido haya generado los
datos observados. Este mtodo requiere que la distribucin
de probabilidad de la variable respuesta sea conocida.
Mtodos bayesianos. Utilizan informacin a priori sobre el
comportamiento de la variable respuesta y estiman los
parmetros utilizando esta informacin.
MODELOS ESTADSTICOS
BONDAD DE AJUSTE
Se necesita evaluar qu tan bueno es el ajuste entre la lnea
de regresin y los datos de la muestral, para ello nos valemos
del coeficiente de determinacin (r2).
El coeficiente de determinacin, es un estadstico usado en
el contexto de un modelo estadstico cuyo principal
propsito es predecir futuros resultados o probar una
hiptesis.
El coeficiente determina la calidad del modelo para replicar
los resultados, y la proporcin de variacin de los resultados
que puede explicarse por el modelo.
El R adquiere valores entre 0 y 1.
En el caso de la Regresin lineal simple el R es el cuadrado
del coeficiente de correlacin de Pearson.
MODELOS ESTADSTICOS
EVALUACIN DEL MODELO AJUSTADO.
Una vez ajustado el modelo el siguiente paso es evaluar si el
modelo representa la realidad y esto se hace mediante la
evaluacin de la bondad del ajuste y de la adecuacin del
modelo.
MODELO DE REGRESIN LINEAL
Cuando el conocimiento de una variable determina
totalmente el valor de otra, tenemos el caso extremo de
dependencia, entonces diremos que existe una relacin
exacta o funcional entre estas variables.
En el caso opuesto, si el conocimiento de una de ellas no
aporta informacin sobre el valor de la otra, diremos
entonces que ambas variables son independientes.
Las relaciones que observamos entre variables biolgicas,
sociales, fsicas o econmicas se caracterizan por que el
valor de una o ms variables permite predecir en mayor o
menor grado (probabilidad) el valor de una variable de
respuesta: diremos entonces que, existe una relacin
estadstica o estocstica entre ellas.
Los modelos de regresin estudian la construccin de
modelos explicativos para este tipo de relaciones.
MODELO DE REGRESIN LINEAL
EJEMPLO
Se quiere evaluar el peso de los recin nacidos de una
poblacin X, para ello se sabe que el peso del recin
nacido depende prioritariamente del tiempo de gestacin.
Para ello, se selecciona una muestra de aleatoria simple de
32 registros de nacimiento y se registra: el peso del recin
nacido (Kgs.) y el nmero de semanas de gestacin.
Semanas de
Peso al Nacer
gestacin
MODELO DE REGRESIN LINEAL
EJEMPLO
Se haba sealado que el modelo de regresin lineal estaba
dado por:
Y 0 1 X1 2 X2 ... k Xk
Donde,
Y es la variable dependiente,
X1,X2,...,Xk son las variables independientes
0, 1,..., k son constantes desconocidas (parmetros
del modelo de regresin),
es el error aleatorio.
MODELO DE REGRESIN LINEAL
EJEMPLO
Pare el ejemplo se tienen un estudio donde la variable
dependiente es el peso del recin nacido y la
independiente el numero de semanas de gestacin.
Las 32 mediciones del muestreo aleatorio simple, son las
siguientes:
3400
3200
3000
2800
Peso del recin nacido
2600
2400
2200
33 34 35 36 37 38 39 40 41 42 43
Semanas de gestacin
MODELO DE REGRESIN LINEAL
EJEMPLO: FORMULACIN DEL MODELO
El modelo de regresin lineal es dado por la expresin:
1 = 0
1 0
MODELO DE REGRESIN LINEAL
EJEMPLO
El modelo ajustado es :
0,8
Prevalencia de EC
0,6
0,4
0,2
0
20-29 30-34 35-39 40-44 45-49 50-54 55-59 60-69
Grupo de edad
(X )
logit( ( X )) ln 0 1 x1 ... k xk
1 ( X )
( x)
ln i ( x) o 1 x Ventaja (Odds) para x
1 ( x)
El valor ajustado para una edad x +1 valor de ser :
( x 1)
ln i ( xi ) o 1 ( x 1) Ventaja (Odds) para x+1
1 ( x 1)
REGRESIN LOGSTICA
INTERPRETACIN DE LOS COEFICIENTES ESTIMADOS
La diferencia de ventajas (odds)
( x 1) ( x) ln(Ventaja( x 1) ln(Ventaja( x) 1
Ventaja( x 1) Odds( x 1) 1
OREstimado e
Ventaja( x) Odds( x)
El OR ajustado se puede interpretar como el incremento en
la chance de tener el evento dado que un individuo tiene
un valor de la variable x+1 comparado con la chance de un
individuo que tiene un valor x.
MODELO DE REGRESIN LOGSITCA
EJEMPLO (Asociacin entre la enfermedad cardiovascular y la edad)
Situacin 1. La variable edad como variable cuantitativa
continua
Variables en la ecuacin
B Sig. Exp(B)
Paso
a edad ,111 ,000 1,117
1 Constante -5,309 ,000 ,005
a. Variable(s) introducida(s ) en el paso 1: edad.
e5.3090.111 Edad
( x)
1 e5.3090.111 Edad
Calculemos la razn de ventajas para la edad x=21 con respecto a x=20
aos
Ventaja( x 1) Odds(21)
OREstimado e0.111(21 20) e0.111(1) 1.117
Ventaja( x) Odds(20)
El OR estimado indica que una persona con 21 aos de edad tiene 1.117
veces ms chance (posibilidad o ventaja) de presentar enfermedad
coronaria comparado con otra persona con 20 aos de edad.
Tambin se puede decir que por cada ao adicional en la edad de las
personas , el riesgo estimado de tener enfermedad coronaria es 1.117
ms.
MODELO DE REGRESIN LOGSITCA
EJEMPLO (Asociacin entre la enfermedad cardiovascular y la edad)
Situacin 2. La variable edad como variable cualitativa
Supongamos que las edades han sido agrupadas en menor de 40 y
40 a ms.
1 40 a ms
Edad
0 Menor de 40
La ecuacin ajustada considerando la edad agrupada es:
e1.6421.995 Edad
( x)
1 e1.6421.995 Edad
Calculamos la razn de ventajas para la edad x+1 con respecto a
la edad x