Sie sind auf Seite 1von 260

BIOESTADISTICA

CONCEPTOS PREVIOS
ESTADISTICA
La estadstica es la rama de las matemticas aplicadas
que permite estudiar fenmenos cuyos resultados son en
parte inciertos.

El mtodo estadstico nos ayuda a elaborar inferencias


inductivas a partir de la constatacin de hechos
particulares, independientemente del mtodo de
investigacin con que se haga esta constatacin.

Desde el punto de vista descriptivo-analtico la


estadstica se define como u conjunto sistemtico de
procedimientos para observar y describir numricamente
los fenmenos y descubrir las leyes que regulan la
aparicin, transformacin y desaparicin de los mismos.
CONCEPTOS PREVIOS
ESTADSTICA
El objeto de la estadstica consiste en extraer la mxima
informacin sobre estas relaciones estructurales a partir
de los datos recogidos.
En estadstica se distinguen dos grandes grupos de
tcnicas:
La estadstica descriptiva, en la que se estudian las
tcnicas necesarias para la organizacin,
presentacin y resumen de los datos obtenidos.
La estadstica inferencial, en la que se estudian las
bases lgicas y las tcnicas mediante las cuales
pueden establecerse conclusiones sobre la poblacin
a estudio a partir de los resultados obtenidos en una
muestra.
CONCEPTOS PREVIOS
La estadstica proporciona al mtodo cientfica los mtodos
y procedimientos para recolectar, organizar, cuantificar y
analizar la informacin obtenida durante el proceso de
investigacin.
CONCEPTOS PREVIOS
POBLACIN
Es la coleccin de todas las posibles mediciones u
observaciones que cumplen ciertas propiedades y entre
los cuales se desea estudiar un determinado fenmeno.
Puede ser finita o infinita.

MUESTRA
Es un subconjunto de la poblacin seleccionado
mediante un mecanismo ms o menos explcito.
En general, rara vez se dispone de los recursos necesarios
para estudiar a toda la poblacin y, en consecuencia,
suelen emplearse muestras representativas obtenidas a
partir de estas poblaciones.
CONCEPTOS PREVIOS
DATOS
Los datos son la materia prima de la estadstica.
Los datos que se utilizan en estadstica resultan de uno de dos
procesos: La toma de medidas o el proceso de conteo.
Se pueden obtener con fines especficos (encuestas, experimentos) o con
fines administrativos (registro de admisin, historia clnica)

ESTADSTICO
Es cualquier operacin realizada sobre los valores de una variable.

PARMETRO
Es un valor de la poblacin sobre el que se desea realizar
inferencias a partir de estadsticos obtenidos de la muestra, que en
este caso se denominan estimadores.
Por convencin, los parmetros poblacionales se denotan con
letras del alfabeto griego, mientras que los estimadores muestrales
se denotan con letras de nuestro alfabeto
VARIABLES
Variable es toda caracterstica o atributo
susceptible de tomar un valor y ser medido. Esta
caracterstica puede ser de las personas, objetos,
lugares o cosas.
Como su nombre lo dice, vara de acuerdo a
cada sujeto de estudio; por lo tanto, para
convertirse en variable la caracterstica debe
tener mas de dos valores.
TIPOS DE VARIABLES
CUALITATIVAS O CATEGORICAS: Si sus valores no se pueden
asociar naturalmente a un nmero (no se pueden hacer
operaciones algebraicas con ellos)
NOMINALES: Si sus valores no se pueden ordenar
Ejem.: Sexo, Grupo Sanguneo, Religin, Nacionalidad,
Fumar (S/No)
ORDINALES: Si sus valores se pueden ordenar
Ejem.: Mejora a un tratamiento, Grado de satisfaccin,
Intensidad del dolor

CUANTITATIVAS O NUMRICAS: Si sus valores son numricos (tiene


sentido hacer operaciones algebraicas con ellos)
DISCRETAS: Si toma valores enteros
Ejem.: Nmero de hijos, Nmero de cigarrillos, Numero de
cumpleaos
CONTINUAS: Si entre dos valores, son posibles infinitos valores
intermedios.
Ejem.: Altura, Presin intraocular, Dosis de medicamento
administrado, edad
ESCALAS DE MEDIDA

Escala Nominal.
Variables Cualitativas
Escala Ordinal.

Escala de Intervalos. Variables


Escala de Razn o Proporcin. Cuantitativas
ESCALAS DE MEDIDA
ESCALA NOMINAL:
Los datos se pueden agrupar en categoras que no
mantienen una relacin de orden entre si, por lo tanto no
estn definidas las operaciones lgicas (>, <, , ) sino solo las
de igualdad o diferencia.
Ejem.: color de ojos, sexo, profesin, estado civil, religin.

ESCALA ORDINAL:
Existe un cierto orden o jerarqua entre las categoras, por lo
tanto estn definidas las operaciones lgicas (>, <, , ).
Ejem.: grados militares, organigrama de una empresa,
escalafn de los profesores universitarios, grados de
disnea, estadiaje de un tumor.
ESCALAS DE MEDIDA
ESCALA DE INTERVALOS:
Valores numricos de las variables y adems de las
relaciones de orden (>, <, , ), se pueden establecer
distancias, es decir, tienen sentido las operaciones de suma
y resta. Tiene dos propiedades:
Existe una unidad de medida que se mantiene
constante para todos los valores que toma la
variable.
Existe un valor patrn u origen relativo que no
significa la ausencia de valor en la variable (El
cero es arbitrario o convencional, este no
indica la ausencia del fenmeno estudiado).
Ejem.: Temperatura, nivel de ruido, movimientos
ssmicos.
ESCALAS DE MEDIDA
ESCALA DE RAZN O PROPORCIN:
Es la ms completa y general de todas las escalas.
Se caracteriza porque los valores de la variable son nmeros
entre los cuales, adems de las relaciones de orden (>, <, ,
) y distancia (+,-), se pueden establecer mltiplos y
proporciones.
El cero de la escala de razn es real; esto quiere decir que el
valor 0 indica la ausencia del fenmeno estudiado.
Ejemplos: peso, altura, volumen, etc.
ESTADSTICA
DESCRIPTIVA
ESTADISTICA DESCRIPTIVA
Estudia las tcnicas necesarias para la organizacin,
presentacin y resumen de los datos obtenidos.

Antes de proceder a la organizacin, presentacin y resumen


de los datos obtenidos es necesario hacer la:
Critica de las respuestas,
Codificacin,
Digitacin,
Consistencia.
ORGANIZACIN DE LOS DATOS
Una vez que se ha realizado
la recoleccin de los datos,
se obtienen datos en bruto,
los cuales rara vez son
significativos sin una
organizacin y tabulacin.

N=100
ORGANIZACIN DE LOS DATOS

Forma de organizar los


datos:
Un arreglo ordenado: es la
forma ms sencilla de
organizar los datos en bruto,
consiste en colocar las
observaciones en orden
segn su magnitud:
ascendente o descendente.
Poco prctica cuando se N=100
tiene una gran cantidad de
datos.
PRESENTACIN DE LOS DATOS
Formas de presentar los datos:
Tablas estadsticas, tienen la finalidad de reducir el
volumen de los datos y observar el comportamiento
sistmico.
Tablas de frecuencia,
Tablas de contingencia.
TABLAS DE FRECUENCIA
Exponen la informacin recogida en la muestra, de
forma que no se pierda nada de informacin (o
poca).
Frecuencias absolutas: Contabilizan el nmero
de individuos de cada modalidad, expresan el
total de observaciones en cada categora.
Frecuencias relativas (porcentajes): Contabilizan
el nmero de individuos de cada modalidad,
pero se expresa en funcin del total de
observaciones en la variable.
Frecuencias acumuladas: Slo tienen sentido
para variables ordinales y numricas.
Ejem:
Tabla de frecuencia
Ejem:
Tabla de contingencia
PRESENTACIN DE LOS DATOS
Formas de presentar los datos:
Grficas estadsticos, el propsito de un grfico es
ayudar a la comprensin y comunicacin de la
evidencia aportada por los datos recogidos en el
estudio. Un grfico puede comunicar ideas complejas
con precisin, claridad y eficiencia, pero debe ser
construido de modo que:
Induzca a pensar en el contenido mas que en la apariencia,
No distorsione la informacin proporcionada por los datos,
Presente gran cantidad de informacin en poco espacio.
Favorezca la comparacin de diferentes grupos de datos o de
relaciones entre los mismos.
Ejem:
Grfico de barras
Ejem:
Grfico de sectores
Ejem:
Pictograma
PRESENTACIN DE LOS DATOS
GRFICOS PARA VARIABLES CUANTITATIVAS

Son diferentes en funcin de que las variables sean


discretas o continuas.
Diagramas barras para variables discretas
Se deja un espacio entre barras para indicar los valores
que no son posibles
Histogramas para variables continuas
El rea que hay bajo el histograma entre dos puntos
cualesquiera indica la cantidad (porcentaje o frecuencia)
de individuos en el intervalo.
Ejem:
Grfico de barras
Ejem:
Histograma
PRESENTACIN DE LOS DATOS
OTROS TIPOS DE GRFICOS ESTADSTICOS
Mapas
PRESENTACIN DE LOS DATOS
OTROS TIPOS DE GRFICOS ESTADSTICOS
Grfico de lneas
Los grficos de lneas son perfectos para mostrar
tendencias a lo largo de un perodo de tiempo.
PRESENTACIN DE LOS DATOS
OTROS TIPOS DE GRFICOS ESTADSTICOS
Grfico de cajas:
Permite resaltar datos atpicos.
No es afectado por datos extremos.
Permite responder a dos preguntas:
Alrededor de que valor se encuentran los datos?
Cmo se distribuyen los datos alrededor del valor central?
La representacin grfica incluye el valor mnimo, el valor
mximo, los percentiles 25, 50 y 75.
Ejem:
Diagrama de cajas
(Box plot)
PRESENTACIN DE LOS DATOS
OTROS TIPOS DE GRFICOS ESTADSTICOS
Grfico de dispersin
La representacin grfica ms til para describir el comportamiento
conjunto de dos variables.
Las categoras del eje horizontal son excluyentes por los que no es
conveniente unir los puntos.
PRESENTACIN DE LOS DATOS
OTROS TIPOS DE GRFICOS ESTADSTICOS
Grfico combinado de barras e intervalo de confianza
Este tipo de representacin tiene un cierto contenido de engao, ya
que la presencia de esas lneas para el intervalo de confianza marcan
solo el lmite superior, y sin embargo son igualmente probables los
valores por debajo del extremo superior de la barra.
PRESENTACIN DE LOS DATOS
OTROS TIPOS DE GRFICOS ESTADSTICOS
Grfico de intervalo de confianza
Una representacin es ms adecuada sera la de esta figura, que refleja
la caracterstica de simetra del intervalo de confianza.
Es Igualmente probable obtener valores superiores o inferiores.
MEDIDAS DE RESUMEN
MEDIDAS DE TENDENCIA CENTRAL Y
DISPERSION
Algunos conceptos previos
Algunos conceptos previos
Posicin
Dividen un conjunto ordenado de datos en grupos con
la misma cantidad de individuos.
Cuantiles (percentiles, cuartiles o deciles)

Centralizacin
Indican valores con respecto a los que los datos
parecen agruparse.
Media, mediana y moda
Algunos conceptos previos
Dispersin
Indican la mayor o menor
concentracin de los datos con
respecto a las medidas de
centralizacin.
Desviacin estndar, coeficiente de
variacin, rango, varianza.

Forma
Asimetra
Curtosis
ESTADSTICOS DE POSICIN

Se define el cuantil de orden a como un valor de la variable


por debajo del cual se encuentra una frecuencia
acumulada a.

En otras palabras, un cuantil es una medida de posicin que


permite determinar que valor de un grupo de datos es de tal
forma que slo cierto porcentaje del total de datos est por
debajo de dicho valor.

Casos particulares son los: percentiles, cuartiles, deciles y


quintiles.
ESTADSTICOS DE POSICIN
Percentil. Nos brinda informacin de como se distribuyen los
valores de los datos desde el menor hasta el mayor.
Percentil de orden k = cuantil de orden k/100
La mediana es el percentil 50.
La talla normal de un nio se encuentra entre el P5 y P95.

Cuartiles. Dividen a la muestra en 4 grupos con frecuencias


similares.
Primer cuartl = Percentil 25 = cuantl 0,25.
Segundo cuartl = Percentil 50 = cuantl 0,5 = mediana.
Tercer cuartl = Percentil 75 = cuantl 0,75.
MEDIDAS DE TENDENCIA CENTRAL

Una de las caractersticas ms importante que describe o


resume un grupo de datos es su posicin.

Los conjuntos de datos muestran una tendencia definida a


agruparse o resumirse en torno a cierto punto, por lo que para
cualquier conjunto particular de datos, es posible seleccionar
un valor tpico para describir, representar o resumir todo el
conjunto de datos.
MEDIDAS DE TENDENCIA CENTRAL
PROPIEDADES DESEABLES
Definida objetivamente a partir de los datos de la serie.
Que dependa de todas las observaciones.
De significado sencillo y fcil de entender.
De clculo rpido y fcil.
Poco sensible a las fluctuaciones del muestreo (valor parecido
al de la poblacin)
Adecuado a clculos algebraicos posteriores.
MEDIA
Es la medida de tendencia central ms comnmente
utilizada.
Se define como el valor en la distribucin respecto del cual
la suma de las desviaciones es igual a cero.
Toma en consideracin todos los valores de la distribucin
bajo estudio, por ello se afecta ante presencia de valores
extremos.
Es la medida de tendencia central ms relevante y que mayores
aplicaciones tiene en el anlisis estadstico ya que es uno de los
parmetros utilizados en la construccin de ciertos modelos
matemticos; modelos que han sido desarrollados para tomar
decisiones de carcter probabilstico.
MEDIA
La media puede ser:
Aritmtica: cuando los valores tienen la misma importancia en el
grupo de datos.
Ponderada: cuando los valores no tienen la misma importancia en el
conjunto de datos.
Geomtrica: cuando los valores dependen en el tiempo y varan de
manera no lineal.
Por ejemplo, cambios porcentuales, crecimientos anualizados de poblacin o ventas
etc.

Armnica: cuando los valores representan razones de cambio tales


como velocidades, precios por unidades etc.
MEDIA ARITMETICA
MEDIA
Se obtiene sumando todos los valores de los datos y
dividiendo el resultado entre la cantidad de datos. Si los
datos proceden de una muestra, el promedio se representa
con x. Si los datos proceden de la poblacin, se utiliza la
letra griega .

x
x
N
MEDIA
Ventajas
Siempre existe.
Es fcil de calcular.
Extrae el mximo de informacin de un conjunto de datos.

Desventajas.
Se ve seriamente afectada por valores extremos en un conjunto
de datos.
MEDIANA
La mediana se refiere al valor que divide la distribucin en
dos partes iguales, por tanto no se afecta por valores
extremos.

La interpretacin geomtrica de la mediana, es que es el


valor que divide un histograma en dos partes iguales.

Se acostumbra utilizar la mediana cuando la variable bajo


estudio tiende a mostrar marcada asimetra en su
distribucin (positiva o negativa). En tales situaciones, esta
medida es el mejor indicador de la tendencia central.
MEDIANA

PROCEDIMIENTO DE CLCULO

Paso 1. Ordenar de menor a mayor los valores xi del


conjunto de datos individuales, i = 1,2,,n.

Paso 2. Identificar si n es impar o par.


Si el nmero de datos es impar, la mediana ser un valor observable y si
el nmero de datos es par, la mediana ser el punto medio de los dos
valores centrales.
x([ n 1]) / 2)
x
x( n / 2) x( n / 21)
2
MEDIANA
Ventajas
No es muy sensible a la presencia de valores extremos.
Reduce el efecto de valores extremos para obtener un valor
representativo de centro.

Desventajas.
Implica ordenar los datos.
Insensible a la magnitud de los valores.
Sensible al tamao del conjunto de datos.
MODA
Es la medida de tendencia central ms fcil de obtener. Esto
es cierto debido a que la moda puede, encontrarse
simplemente por inspeccin ms que por clculo.

Si los datos tienen una sola moda son unimodales, si tienen 2


son bimodales y as sucesivamente.

No son comparables en su totalidad los resultados obtenidos


entre datos individuales y agrupados.
MODA
Ventajas
Cuando un valor predomina es fcil de detectar.
Permite visualizar cuando dos o ms grupos distintos aparecen en
un mismo grupo de datos. (Distribuciones bimodales, trimodales)

Desventajas.
No siempre existe
Es insensible a la presencia de valores extremos.
No provee informacin referente a la distribucin de
frecuencia de un grupo de datos.
MODA
PROCEDIMIENTO DE CLCULO.

Paso 1. Ordenar los datos en forma ascendente.


Paso 2. Identificar el o los datos con mayor frecuencia.
RELACION ENTRE MEDIA, MEDIANA Y MODA

Si la media, moda y mediana son iguales, se puede decir


que los datos se distribuyen simtricamente.
RELACION ENTRE MEDIA, MEDIANA Y MODA
Por el contrario no son iguales, se puede decir que el
polgono de frecuencias (histograma) es asimtrico, lo
que indica que lo los datos se encuentran distribuidos
con algn grado de tendencia.
Curva sesgada a la derecha o con sesgo positivo.
Curva sesgada a la izquierda o con sesgo negativo.
RELACION ENTRE MEDIA, MEDIANA Y MODA

Moda Mediana Media Media Mediana Moda


MEDIDAS DE DISPERSIN
La Dispersin hace referencia a la forma en que se dispersan
o alejan las puntuaciones de una distribucin o lista de
puntajes.

Se emplean para cuantificar la separacin de los valores de


la distribucin respecto a la media.

Si todos los valores estn cercanos al valor medio, la media


es representativa.
RANGO
Se define como la diferencia existente entre el
valor mayor y el menor de la distribucin.

Generalmente se denota con una R.


Realmente no es una medida muy significativa e
la mayora de los casos, pero indudablemente es
muy fcil de calcular.
RANGO INTERCUARTIL
Es la diferencia entre el tercer cuartl y el primero, por
tanto el 50% de los valores centrales se encuentran
incluidos dentro del rango intercuartil.
DESVIACIN
Es la diferencia que se observa entre un valor de la variable
y la media aritmtica.

No es una medida, son muchas medidas, pues cada valor


de la variable lleva asociada su correspondiente desviacin,
por lo que precisaremos una medida que resuma dicha
informacin.
DESVIACION MEDIA
Es la media de los valores absolutos de las desviaciones.

n
ni
dm ( xi x )
i 1 N

Se ve afectada por valores negativos.


VARIANZA
La varianza es la media aritmtica de los cuadrados de las
desviaciones de los valores de la variable a la media
aritmtica.
n
ni
S ( xi x )
2 2

i 1 N
Se denota como cuando se hace referencia a una
muestra, y como si se trata de una poblacin.
VARIANZA
La varianza hace uso de la propiedad de todos los
cuadrados de ser positivos para establecer una medida
unidireccional.

Este estadstico tiene el inconveniente de ser poco


significativo, pues se mide en el cuadrado de la unidad de
la variable.
DESVIACIN ESTANDAR
La varianza es difcil de interpretar porque las unidades de la
medida estn elevadas al cuadrado.
Por el contrario la desviacin tpica es un derivado de la
varianza, grficamente representa la distancia desde la
media de la distribucin normal hasta el punto de inflexin
de la curva que representa la distribucin
Este estadstico se mide en la misma unidad que la variable
por lo que se puede interpretar mejor.

n
ni
S S ( xi x )
2 2

i 1 N
MUESTREO
POBLACIN OBJETIVO
Es la coleccin de todas las posibles mediciones u
observaciones que cumplen ciertas propiedades y
entre los cuales se desea estudiar un determinado
fenmeno.
Puede ser finita o infinita.
Se debe definir claramente los sujetos cuyos
atributos sern medidos, por tanto se debe definir
en primer lugar cual ser la unidad de anlisis.
Adems se deben delimitar:
Criterios de seleccin (inclusin, exclusin, eliminacin).
Ubicacin espacio - temporal.
MUESTRA
Es un subconjunto de la poblacin seleccionado mediante
un mecanismo ms o menos explcito.
En general, rara vez se dispone de los recursos necesarios
para estudiar a toda la poblacin y, en consecuencia,
suelen emplearse muestras representativas obtenidas a partir
de estas poblaciones.
Se debe procurar que adems la muestra sea aleatoria, es
decir que el mecanismo para la obtencin de la muestra
debe garantizar que cada uno de los elementos de la
poblacin tenga una probabilidad de ser parte de la
muestra.
MUESTRAS
PROBABILISTICAS NO PROBABILISTICAS
Cada individuo tiene igual Los sujetos (personas) no
probabilidad de formar son seleccionados de
parte de la muestra. acuerdo a un esquema
aleatorio.
Probabilidad de seleccin
es conocida para cada tiles para ciertos estudios,
individuo de la poblacin. en los cuales no es
indispensable que las
Se puede evaluar la muestras sean extradas
confiabilidad de las aleatoriamente de la
conclusiones que se poblacin, sino que renan
obtengan a partir de ciertas caractersticas
muestras de este tipo. previamente especificadas.
VENTAJAS Y DESVENTAJAS DE LOS DISEOS
MUESTRALES ALEATORIOS Y NO ALEATORIOS
PRINCIPIOS BSICOS DEL
MUESTREO PROBABILISTICO
El propsito del muestreo probabilstico es obtener
observaciones (mediciones) que sean representativas de la
poblacin de inters, usando una parte de la misma, lo cual
reducir el costo y el tiempo de la investigacin y permitir
obtener informacin ms confiable.
Pero es importante tener en cuenta que el uso inadecuado
de un procedimiento de muestreo puede llevar a sesgos
(vicios) de interpretacin del resultado, por lo que, es
fundamental controlar los sesgos en el procedimiento de
seleccin, y alcanzar la mxima precisin en las mediciones.
ERRORES DE MUESTREO
Cuando se toma una decisin en base a la
informacin de una muestra siempre existe el riesgo de
cometer un error denominado error de muestreo.
No es posible eliminar este tipo de error a menos que el
tamao de la muestra sea igual a la poblacin (N=n).
Este riesgo de conclusiones erradas debido a los errores
de muestreo puede ser medido siempre que las
muestras sean probabilsticas (muestras aleatorias).
TAMAO DE LA MUESTRA
Cuando decidimos realizar una investigacin, de inmediato
surgen dos preguntas:
Cuntos individuos son necesarios para que la muestra
represente a la poblacin y se puedan realizar
inferencias vlidas?
Cul es el tamao de muestra?
Cmo se debe seleccionar los individuos que
conformarn la muestra de modo que se eviten sesgos
de seleccin?
Cul es el mtodo de seleccin?
TAMAO DE LA MUESTRA
Desde un punto de vista estadstico, el tamao de la
muestra depender de:
El grado de variabilidad de la poblacin con respecto a la
caracterstica de inters
El margen de error (error relativo) que est dispuesto a cometer
al hacer las inferencias de la muestra hacia la poblacin.
El nivel de confianza (1-alfa). Usualmente fijado en 0.95 (95%). Es
la probabilidad de no cometer el error
El tamao de la poblacin en estudio (N).
MUESTREO ALEATORIO SIMPLE (M.A.S.)
Se eligen individuos de la poblacin de estudio (marco
muestral), de manera que todos tienen la misma probabilidad
de aparecer, hasta alcanzar el tamao muestral deseado.

Se puede realizar partiendo de listas de individuos de la


poblacin, y eligiendo individuos aleatoriamente.

Normalmente su aplicacin tiene un costo bastante alto.

En general, las tcnicas de inferencia estadstica suponen


que la muestra ha sido elegida usando M.A.S., aunque en
realidad se use alguna de las que veremos a continuacin.
MUESTREO ALEATORIO SIMPLE (M.A.S.)

VENTAJAS DEL M.A.S.


Sencillez conceptual
Necesita como marco muestral slo una lista de todos
los elementos de la poblacin
Es fcil calcular las estimaciones de valores
poblacionales
Es fcil calcular las estimaciones de precisin (varianza
muestral)
MUESTREO ALEATORIO SIMPLE (M.A.S.)

DESVENTAJAS DEL MAS


Tedioso elegir todos los nmeros aleatorios si n es
grande
No utiliza informacin auxiliar sobre la poblacin
Necesita una lista completa de los elementos de la
poblacin
Puede tener baja precisin comparado con otros
mtodos
MUESTREO ALEATORIO SIMPLE (M.A.S.)

M.A.S. con reposicin M.A.S. sin reposicin


Seleccionar una unidad, Seleccionar una unidad,
Sacarla de la poblacin,
Reemplazarla en la
poblacin, Seleccionar otra unidad de las
que quedan y sacarla,
Seleccionar otra, de la
poblacin complete, Continuar hasta obtener n
unidades distintas.
Continuar hasta obtener
Cada unidad puede estar
una muestra de tamao incluida una sola vez.
n.
Es ms eficiente que el M.A.S
Se puede seleccionar la con reposicin.
misma unidad ms que
Se usa en la prctica.
una vez.
MUESTREO SISTEMTICO
Se tiene una lista de los individuos de la poblacin de estudio.
Si queremos una muestra de un tamao dado, elegimos
individuos igualmente espaciados de la lista, donde el primero
ha sido elegido al azar.
Su ventaja es que no hace falta marco muestral.
Es aplicable en la mayora de las situaciones, especialmente
con poblaciones dinmicas.
CUIDADO: Si en la lista existen periodicidades, obtendremos
una muestra sesgada.
Ejem.: Se eligi una de cada cinco casas para un estudio
de salud pblica en una ciudad donde las casas se
distribuyen en manzanas de cinco casas. Salieron con
mucha frecuencia las de las esquinas.
MUESTREO SISTEMTICO
Eficiente en poblaciones homogneas cuando el marco
muestral conserva un ordenamiento adecuado de sus
unidades.
Cuando el criterio de ordenacin de los elementos en el marco
es tal que los elementos ms parecidos tienden a estar ms
cercanos, el muestreo sistemtico suele ser ms eficiente que el
aleatorio simple, ya que recorre la poblacin de un modo ms
uniforme.
Aplicable en encuestas de pequea escala y en la seleccin
en campo.
Es equivalente al MAS cuando la ordenacin es aleatoria.
MUESTREO ESTRATIFICADO
Se aplica cuando sabemos que hay ciertos
factores (variables, subpoblaciones o estratos) que
pueden influir en el estudio y queremos asegurarnos
de tener cierta cantidad mnima de individuos de
cada tipo:
Hombres y mujeres,
Jovenes, adultos y ancianos

Se realiza entonces un M.A.S. de los individuos de


cada uno de los estratos.

Al extrapolar los resultados a la poblacin hay que


tener en cuenta el tamao relativo del estrato con
respecto al total de la poblacin.
MUESTREO ESTRATIFICADO
SUPUESTOS DEL MUESTREO ESTRATIFICADO
Homogeneidad (entre elementos de un mismo estrato).
Heterogeneidad (entre estratos).
Independencia (entre estratos al seleccionar la muestra).

NMERO DE ESTRATOS:
No se debe pensar que aumentando notablemente el
nmero de estratos se obtienen altos beneficios. En la
prctica el aumento mas all de 6 estratos produce pocas
ganancias en la reduccin de las varianzas.
Definido por criterio del investigador.
MUESTREO POR GRUPOS O CONGLOMERADOS

Se aplica cuando es difcil tener una lista de todos los


individuos que forman parte de la poblacin de estudio,
pero sin embargo sabemos que se encuentran
agrupados naturalmente en grupos.
Se realiza eligiendo varios de esos grupos al azar, y ya
elegidos algunos podemos estudiar a todos los
individuos de los grupos elegidos o bien seguir
aplicando dentro de ellos ms muestreos por grupos,
por estratos, aleatorios simples.
Al igual que en el muestreo estratificado, al extrapolar
los resultados a la poblacin hay que tener en cuenta el
tamao relativo de unos grupos con respecto a otros.
Un conglomerado es una especie de miniatura de la
poblacin
MUESTREO POR GRUPOS O CONGLOMERADOS

FORMA DE LOS CONGLOMERADOS


Segn el tamao del conglomerado, se pueden distinguir dos
formas:
Conglomerados de tamaos iguales, cuando la poblacin est
formada por conglomerados que tienen el mismo nmero de
elementos.
Conglomerados de tamaos diferentes, cuando la poblacin
est formada por conglomerados que tienen diferente nmero
de elementos.
Segn la ubicacin de sus elementos, los conglomerados tienen
dos formas:
Conglomerados Compactos, cuando estn formados por
elementos contiguos. Por ejemplo, una manzana de viviendas,
una caja de artculos, etc.
Conglomerados no compactos, cuando estn formados por
elementos no contiguos. Por ejemplo, los electores de una
mesa de sufragio. .
MUESTREO POR GRUPOS O CONGLOMERADOS

SUPUESTOS DE LA CONGLOMERACIN
Homogeneidad
Entre elementos de distintos conglomerados.
Heterogeneidad
Entre elementos del mismo conglomerado.
PRINCIPALES LEYES DE
DISTRIBUCION DE
VARIABLES ALEATORIAS
VARIABLE ALEATORIA
El resultado de un experimento aleatorio puede ser descrito en
ocasiones como una cantidad numrica.
En estos casos aparece la nocin de variable aleatoria
Funcin que asigna a cada suceso un nmero.
Hay distribuciones de variables aleatorias que aparecen con
frecuencia en las ciencias de la salud.
Experimentos dicotmicos: Distribucin de Bernoulli
Contar xitos en experimentos dicotmicos repetidos:
Binomial
Poisson (sucesos raros)
En otros experimentos o diseos de investigacin
Distribucin normal
Distribucin X2
Distribucin t de stundent
DISTRIBUCIN DE BERNOULLI
Tenemos un experimento de Bernoulli si al realizar un
experimentos slo son posibles dos resultados:
X=1 (xito, con probabilidad p)
X=0 (fracaso, con probabilidad q=1-p)

Lanzar una moneda y que salga cara.


p=1/2
Elegir una persona de la poblacin y que est enfermo.
p=1/1000 = prevalencia de la enfermedad
Aplicar un tratamiento a un enfermo y que ste se cure.
p=95%, probabilidad de que el individuo se cure

Como se aprecia, en experimentos donde el resultado


es dicotmico, la variable queda perfectamente
determinada conociendo el parmetro p.
DISTRIBUCIN BINOMIAL
Si se repite un nmero fijo de veces, n, un experimento de
Bernoulli con parmetro p, el nmero de xitos sigue una
distribucin binomial de parmetros (n,p).

Lanzar una moneda 10 veces y contar las caras.


Bin(n=10, p=1/2)

Lanzar una moneda 100 veces y contar las caras.


Bin(n=100, p=1/2)
Difcil hacer clculos con esas cantidades. El modelo normal ser ms adecuado.

El nmero de personas que enfermar (en una poblacin de 500.000


personas) de una enfermedad que desarrolla una de cada 2000
personas.
Bin(n=500 000, p=1/2000)
DISTRIBUCIN DE POISSON
Tambin se denomina de sucesos raros.
Se obtiene como aproximacin de una distribucin binomial con la
misma media, para n grande (n>30) y p pequeo (p<0,1).
Queda caracterizada por un nico parmetro (que es a su vez su
media y varianza.)
Funcin de probabilidad:

k
P[ X k ] e , k 0,1,2,...
k!
DISTRIBUCIN CHI CUADRADO

Tiene un slo parmetro


denominado grados de
libertad.

La funcin de densidad es
asimtrica positiva. Slo tienen
densidad los valores positivos.

La funcin de densidad se
hace ms simtrica incluso casi
gausiana cuando aumenta el
nmero de grados de libertad.

Normalmente consideraremos
anmalos aquellos valores de
la variable de la cola de la
derecha.
DISTRIBUCIN T DE STUDENT
Tiene un parmetro denominado grados de libertad.
Cuando aumentan los grados de libertad, ms se acerca a
N(0,1).
Es simtrica con respecto al cero.
Se consideran valores anmalos los que se alejan de cero
(positivos o negativos).
DISTRIBUCIN NORMAL
Est caracterizada por dos parmetros: La media, , y la
desviacin tpica, .
Su funcin de densidad es:

1 x
2

1
2
f ( x) e
2
Est definida por los valores de sus parmetros, una media igual
a 0 y una desviacin estndar igual a 1. [N(0,1)]
Es simtrica con respecto a la media.
En ella coinciden los valores de la media, mediana y moda.
Es asinttica.
El rea total bajo la curva es igual a 1.
TEOREMA DEL LIMITE CENTRAL
Lo que dice el teorema del limite central es que si se seleccionan
muestras aleatorias del mismo tamao (n) de una poblacin de
tamao N, la distribucin de las medias de todas las muestras
posibles se aproxima a la distribucin normal.

Cuanto ms grande el tamao de muestra, la distribucin de las


medias de las muestras se aproxima ms a una distribucin
normal.

Si la distribucin de la variable es asimtrica, el tamao de muestra


deber ser ms grande.
Se recomienda que el tamao de la muestra sea por lo menos de
n=25 a n=30 para que el teorema del lmite central se verifique.
TEOREMA DE LMITE CENTRAL

Los grficos muestran como a medida que el tamao de muestra


aumenta de 20 a 500 la distribucin de la media muestral se aproxima
a una distribucin normal.
PRUEBA DE
HIPOTESIS
HIPTESIS ESTADSTICAS
La hiptesis estadstica es la transformacin de las
hiptesis de investigacin en smbolos matemticos
(parmetros).
Hiptesis estadstica: Proposicin o afirmacin en
relacin a uno ms parmetros estadsticos.
Prueba de hiptesis: Procedimiento de toma de
decisiones con respecto a la hiptesis.
Otros nombres que se utilizan para denominar este
procedimiento son: Contraste de hiptesis, dcima de
hiptesis, test de hiptesis
PRUEBA DE HIPOTESIS
El problema que enfrenta el decisor es:
RECHAZAR O NO RECHAZAR LA HIPOTESIS NULA

Mediante la evidencia proporcionada por la muestra


observada, el investigador busca rechazar o negar la
hiptesis nula. En el caso de que lo consiga, concluir
que la muestra provee evidencia significativa para
rechazar la hiptesis nula y optar por la hiptesis
alternativa.
PRUEBA DE HIPOTESIS
Hiptesis nula (H0). Se formula como una negacin de lo que
el investigador quiere probar.

Hiptesis alternativa (H1). Considera todas las alternativas


posibles a la hiptesis nula (generalmente, esta es la
hiptesis del investigador).
REGLAS PARA DEFINIR HIPTESIS
Las hiptesis estadsticas se formulan en relacin a
parmetros poblacionales, jams en relacin a estadsticas.
La hiptesis nula siempre contiene relaciones del tipo =,
>, o <.
La conclusin a la que el investigador espera llegar como
resultado de la prueba de hiptesis, se coloca como
alternativa (H1).
La hiptesis nula es la que se somete a comprobacin.
Las hiptesis se formulan antes de extraer la muestra (nunca
basndose en ella).
Las hiptesis nula y alternativa son complementarias.
PRUEBA DE HIPOTESIS
TOMA DE DECISIONES
PRUEBA DE HIPOTESIS

El Error Tipo I, es el mas peligroso. Dado que la Ho se construye para ser


negada.

Probabilidad (cometer Error Tipo I) = comnmente fijado en 5%


Probabilidad (cometer Error Tipo II) = comnmente fijado en 20%

Complemento del Error Tipo I = 1 : Nivel de Confianza.


Complemento del Error Tipo II = 1 : Potencia
NIVEL DE SIGNIFICACIN FIJADO ()
(Probabilidad de falsos positivos)

Esta asociado con la probabilidad de cometer el


error de rechazar una hiptesis nula verdadera.
Este valor es fijado al calcular el tamao de la
muestra.
Usualmente, este valor se fija en 5% o 1%.
El nivel de significacin es el complemento del
nivel de confianza (1- ).
POTENCIA (1- )
(Especificidad del test estadstico)

La potencia de una prueba estadstica es la probabilidad de


rechazar la hiptesis nula cuando es falsa, es decir, de tomar
la decisin correcta.
Es conocida tambin como especificidad de la prueba
estadstica.
Se utiliza junto con el nivel de significacin para calcular
tamaos de muestra.
Convencionalmente se fija en 80% y es de utilidad para
calcular el tamao de muestras en algunos estudios.
PASOS A SEGUIR PARA PROBAR HIPTESIS
Formular las hiptesis : Nula (Ho) y Alternativa (H1)
H0 unilateral o de una cola (relacin de > o < )
H0 bilateral o de dos colas (relacin de igualdad)
Reconocer el tipo de variables en estudio (numricas o
categricas)
Reconocer el tipo de relacin establecido en la hiptesis nula
Tomar en cuenta el nivel de significacin (), el cual fue fijado al
calcular el tamao de muestra.
Elegir la estadstica de prueba (test estadstico).
Calcular la estadstica de prueba y el valor p
Tomar la decisin
Interpretar el resultado y concluir.
NIVEL DE SIGNFICACIN CALCULADO
(Valor P)

Es un nivel de significacin calculado a partir de la


estadstica de prueba.
A diferencia del nivel de significacin , que es
obtenido en las tablas estadsticas, este nivel de
significacin es calculado a partir de los datos de
la muestra.
Es reportado por los programas computacionales
como el SPSS con la denominacin sig.
Es mencionado en los artculos cientficos como
valor p o simplemente p
REGLA DE DECISIN BASADA EN EL valor p

Cuando se realizan prueba de hiptesis estadsticas se debe


tomar la decisin de rechazar o no rechazar la hiptesis
nula, con este fin se compara el nivel de significacin fijado
al calcular el tamao de muestra () y el nivel de
significacin calculado a partir de la muestra calculada.
Si el valor p es menor al nivel de significacin, rechazar Ho.
p < Rechaza la Ho

Si el valor p es mayor o igual que el nivel de significacin, se


concluye que la muestra no provee evidencia significativa
para rechazar la hiptesis nula (Ho).
p > No rechaza la Ho
REGLA DE DECISIN
REGLA DE DECISIN
ANLISIS
BIVARIADO
ANLISIS BIVARIADO
Cuando el objetivo de una investigacin es determinar la
relacin entre dos o ms variables.
Se pueden determinar dos tipos de relaciones:
Asociacin o independencia
Causalidad
Esto conduce a definir las variables como:
Variables independientes o explicativas
Variables dependientes o respuestas
Variables concomitantes, intervinientes, confusoras,
marcadores de riesgo.
Entre las mas comunes tenemos el OR, RR, Chi cuadrado.
ANALISIS BIVARIADO
ANLSIS BIVARIADO
ANLISIS DE CORRELACIN
El anlisis de correlacin tiene por objeto describir la posible
asociacin entre dos variables, ambas medidas en escala
de intervalo o de razn.
El anlisis comienza construyendo un grfico de dispersin
que relaciona las dos variables.
Luego, se evalua el tipo de relacin entre las dos variables.
Si la relacin que se observa en el grfico es lineal, entonces
se puede utilizar el coeficiente de correlacin lineal de
Pearson para evaluar el grado y la direccin de la
asociacin.
Si la relacin no es lineal, entonces se debe elegir otro
mtodo para evaluar la relacin. Por ejemplo se puede
buscar una funcin que represente la relacin no lineal y
ajustar el modelo de regresin.
ANLISIS DE CORRELACIN
ANLISIS DE CORRELACIN
COEFICIENTE DE CORRELACIN LINEAL DE PEARSON
Mide la relacin lineal entres dos variables numricas.
Varia entre valores de -1 a 1.
OJO: La existencia de correlacin entre dos variables no
implica causalidad. La causalidad es un juicio de valor que
requiere mas informacin terica.
ANLISIS DE CORRELACIN

COEFICIENTE DE CORRELACIN DE LOS RANGOS DE SPEARMAN


Se utiliza cuando las dos variables son ordinales, esto es, en
lugar de considerar el valor se ordenan las observaciones de
acuerdo a su numero de orden en relacin al grupo de
observaciones.
Se recomienda su uso cuando los datos presentan valores
extremos (atpicos) ya que dichos valores afectan mucho el
coeficiente de correlacin lineal de Pearson.
Sus valores varan entre -1 a 1, y su interpretacin es del
mismo modo.
ANLISIS DE
REGRESIN LNEAL
MODELO
Se denomina modelo al resultado del proceso de generar
una representacin abstracta, conceptual, grfica, visual,
fsica o matemtica de fenmenos, sistemas o procesos a fin
de analizar, explorar, describir, explicar, simular, controlar y
predecir esos fenmenos o procesos.

El modelado, o modelizacin, es una tcnica cognitiva que


consiste en crear una representacin ideal de un objeto real
mediante un conjunto de simplificaciones y abstracciones,
cuya validez se pretende constatar.

La validacin del modelo se lleva a cabo comparando las


implicaciones predichas por el mismo con observaciones
hechas en la realidad.
MODELO
En otras palabras, se trata crear un modelo irreal o
ideal que refleja ciertos aspectos de un objeto real,
como al crear una escultura o una pintura.

Un modelo es por tanto una simplificacin de la


realidad que recoge aquellos aspectos de relevancia
para las intenciones del modelador. Se modela para
comprender mejor o explicar mejor un proceso o unas
observaciones.

Se considera que una parte esencial de toda


actividad cientfica es la creacin de modelos.
MODELOS ESTADSTICOS
Los modelos estadsticos se utilizan en general en el marco
de un proceso deductivo. Se trata de explicar la variabilidad
de un fenmeno particular tratando de encontrar y
comprender los componentes de esta variabilidad.

El mtodo de anlisis consiste en elaborar un cierto nmero


de hiptesis sobre los factores que explican la variabilidad
del fenmeno en estudio y estas hiptesis son verificadas a
partir de los datos observados
MODELOS ESTADSTICOS
El modelo ms conocido para explicar la variacin de un
fenmeno medido a mediante una variable es el modelo de
regresin lineal mltiple el cual se utiliza cuando tanto la
variable de inters (respuesta) y los posibles factores
(variables independientes) que influyen sobre su variacin
son cuantitativas.

La teora estadstica desarrollada para ajustar estos modelos


se extiende posteriormente para los modelos de regresin
logstica, regresin poisson y de manera mas general a una
familia de modelos de regresin conocidos como modelos
lineales generalizados. (MLG)
MODELOS ESTADSTICOS
El anlisis estadstico de datos comienza cuando se elige el
modelo que represente la relacin entre las variables
(indicadores) involucrados en la investigacin. La
formulacin de este modelo depender principalmente de :
Los objetivos de la investigacin,
Tipo de variables (cuantitativas o cualitativas), tanto
de la respuesta como de las variables independientes,
Tipo de relacin entre las variables (lineal o no lineal),
Cumplimiento de los supuestos matemticos que lleva
consigo cada uno de los modelos
Bagaje de conocimientos que tenga el investigador
sobre los diferentes modelos estadsticos.
MODELOS ESTADSTICOS
FORMULACIN DEL MODELO
El anlisis de regresin involucra dos tipos de variables :
Una variable dependiente (variable respuesta,
variable endgena)
Una o ms variables independientes (variables
regresoras, variables explicativas, factores, variables
exgenas).
Tanto la variable dependiente como las independientes
pueden haber sido medidas en escalas nominal, ordinal, de
intervalo/razn.
MODELOS ESTADSTICOS
FORMULACIN DEL MODELO
El conjunto de variables independientes se combinan
linealmente y dan lugar a una funcin denominada predictor
lineal :

0 1 X1 ... k X k
Donde, 0 , 1,..., k son constantes y constituyen los
parmetros del modelo de regresin; y X1, X2, , XK, son las
variables explicativas del modelo.

Esta combinacin de constantes (parmetros) y variables


explicativas se denomina predictor lineal y ser la misma
tanto para el modelo de regresin lineal como para el
modelo de regresin logstica, poisson y para el modelo de
Cox.
MODELOS ESTADSTICOS
FORMULACIN DEL MODELO
Una variable observada (Y) en una poblacin de individuos
puede ser explicada a partir del predictor lineal mediante la
ecuacin:

Y
O de manera equivalente:

Y 0 1 X1 ... k X k
Donde :
es un error aleatorio que incluye variables
explicativas que no han sido consideradas en el
modelo y efectos puramente aleatorios.
MODELOS ESTADSTICOS
FORMULACIN DEL MODELO
El error () del modelo es una variable aleatoria no observable,
por lo que slo podemos establecer algunos supuestos que
debe cumplir para que el modelo de regresin lineal sea vlido:
a) La media de los errores es igual a cero: E() =0.
b) La varianza de los errores es 2 constante : V() = 2
c) Los errores no estn correlacionados (La covarianza
de los errores es igual a cero)
d) Los errores () se distribuyen de acuerdo a una
normal con media cero y varianza 2, esto es:
N(0, 2)
La condiciones a) y d) implican que el error no contiene
informacin que ayude a explicar la respuesta.
MODELOS ESTADSTICOS
FORMULACIN DEL MODELO
Un requisito para poder utilizar el modelo lineal general es
que la variable dependiente debe ser numrica.
Las variables independientes (v. explicativas, factores),
pueden ser:
Todas categricas (nominal, ordinal) en cuyo caso el
modelo se denominar Modelo de rango
incompleto o modelo de anlisis de varianza.
Todas numricas (intervalo o razn) , en cuyo caso el
modelo se denominar modelo de rango completo
o Modelo de anlisis de regresin.
En la prctica podra ocurrir que algunas variables
independientes sean numricas y otras categricas, por lo
que tendremos que encontrar mtodos para realizar el
anlisis de regresin incluyendo ambos tipos de variables.
MODELOS ESTADSTICOS
ESTIMACIN DE PARMETROS
En el contexto del anlisis de regresin se supone que las
variables independientes X1,X2,...,Xk, son fijadas y por tanto
conocidas antes de observar la respuesta y el error aleatorio
es inobservable.
En consecuencia, la variable respuesta, Y, es aleatoria pero
observable a partir del conocimiento de las variables
independientes y de mantener controlado el error aleatorio.
Pero el modelo tiene un conjunto de constantes
(parmetros) desconocidos 0,1,...,k, adems de 2 que
debern ser estimados.
Nuestro objetivo ahora, es estimar (o ajustar) el modelo de
regresin para eso usamos los datos observados y estimamos
los parmetros del modelo.
MODELOS ESTADSTICOS
ESTIMACIN DE PARMETROS
Una vez formulado el modelo de regresin, el siguiente paso
es la obtencin de datos para estimar los parmetros o, 1,
, k y la varianza del error aleatorio ( 2 ).
Los parmetros del modelo se estiman usando un de los dos
mtodos siguientes.
Mtodo de mnimos cuadrados
Mtodo de mxima verosimilitud.
La estimacin puede ser puntual o por intervalos.
MODELOS ESTADSTICOS
ESTIMACIN DE PARMETROS
Mnimos cuadrados ordinarios. Es el mtodo ms utilizado
para la estimacin de parmetros, su objetivo es encontrar
el conjunto de parmetros que haga mnima la distancia
euclidiana entre las observaciones y el modelo elegido. Este
mtodo no requiere que la distribucin de la variable
respuesta ( o el error) sea conocida.
Mxima verosimilitud. Este mtodo busca maximizar la
verosimilitud de que el modelo elegido haya generado los
datos observados. Este mtodo requiere que la distribucin
de probabilidad de la variable respuesta sea conocida.
Mtodos bayesianos. Utilizan informacin a priori sobre el
comportamiento de la variable respuesta y estiman los
parmetros utilizando esta informacin.
MODELOS ESTADSTICOS
BONDAD DE AJUSTE
Se necesita evaluar qu tan bueno es el ajuste entre la lnea
de regresin y los datos de la muestral, para ello nos valemos
del coeficiente de determinacin (r2).
El coeficiente de determinacin, es un estadstico usado en
el contexto de un modelo estadstico cuyo principal
propsito es predecir futuros resultados o probar una
hiptesis.
El coeficiente determina la calidad del modelo para replicar
los resultados, y la proporcin de variacin de los resultados
que puede explicarse por el modelo.
El R adquiere valores entre 0 y 1.
En el caso de la Regresin lineal simple el R es el cuadrado
del coeficiente de correlacin de Pearson.
MODELOS ESTADSTICOS
EVALUACIN DEL MODELO AJUSTADO.
Una vez ajustado el modelo el siguiente paso es evaluar si el
modelo representa la realidad y esto se hace mediante la
evaluacin de la bondad del ajuste y de la adecuacin del
modelo.
MODELO DE REGRESIN LINEAL
Cuando el conocimiento de una variable determina
totalmente el valor de otra, tenemos el caso extremo de
dependencia, entonces diremos que existe una relacin
exacta o funcional entre estas variables.
En el caso opuesto, si el conocimiento de una de ellas no
aporta informacin sobre el valor de la otra, diremos
entonces que ambas variables son independientes.
Las relaciones que observamos entre variables biolgicas,
sociales, fsicas o econmicas se caracterizan por que el
valor de una o ms variables permite predecir en mayor o
menor grado (probabilidad) el valor de una variable de
respuesta: diremos entonces que, existe una relacin
estadstica o estocstica entre ellas.
Los modelos de regresin estudian la construccin de
modelos explicativos para este tipo de relaciones.
MODELO DE REGRESIN LINEAL
EJEMPLO
Se quiere evaluar el peso de los recin nacidos de una
poblacin X, para ello se sabe que el peso del recin
nacido depende prioritariamente del tiempo de gestacin.
Para ello, se selecciona una muestra de aleatoria simple de
32 registros de nacimiento y se registra: el peso del recin
nacido (Kgs.) y el nmero de semanas de gestacin.

Semanas de
Peso al Nacer
gestacin


MODELO DE REGRESIN LINEAL
EJEMPLO
Se haba sealado que el modelo de regresin lineal estaba
dado por:

Y 0 1 X1 2 X2 ... k Xk

Donde,
Y es la variable dependiente,
X1,X2,...,Xk son las variables independientes
0, 1,..., k son constantes desconocidas (parmetros
del modelo de regresin),
es el error aleatorio.
MODELO DE REGRESIN LINEAL
EJEMPLO
Pare el ejemplo se tienen un estudio donde la variable
dependiente es el peso del recin nacido y la
independiente el numero de semanas de gestacin.
Las 32 mediciones del muestreo aleatorio simple, son las
siguientes:

Caso Peso al nacer Periodo de


gestacin
1 2940 38
2 3130 38
3 2420 36
:::: ::: ::::
31 2740 38
32 2841 36
MODELO DE REGRESIN LINEAL
EJEMPLO
Es sugerente, hacer un diagrama de dispersin para evaluar
grficamente si las variables estn correlacionadas.
3600

3400

3200

3000

2800
Peso del recin nacido

2600

2400

2200
33 34 35 36 37 38 39 40 41 42 43

Semanas de gestacin
MODELO DE REGRESIN LINEAL
EJEMPLO: FORMULACIN DEL MODELO
El modelo de regresin lineal es dado por la expresin:

Peso del recin nacido 0 1(Semanas de gestacin)

Tras correr los datos, en el aplicativo:


Coeficiente de correlacin (r)
Coeficiente de determinacin (r2)

Prueba de hiptesis para 1

1 = 0

1 0
MODELO DE REGRESIN LINEAL
EJEMPLO
El modelo ajustado es :

Peso estimado 2643, 215 146,33(Semanas de gestacin)


Observar que el trmino error aleatorio solo aparece en el
modelo formulado pero ya no est en el modelo ajustado.
El intercepto (constante) no tiene una interpretacin.
El coeficiente asociado al nmero de semanas indica
el incremento del peso como efecto del incremento
en el nmero de semanas de gestacin.
MODELO DE REGRESIN LINEAL
EJEMPLO
A partir del modelo ajustado se puede estimar el peso de un
recin nacido si se conoce el nmero de semanas de
gestacin. Por ejemplo si el tiempo de gestacin es de 36
semanas cunto ser su peso estimado?

Peso RNestimado = -2643,215 +146,333 * 38 = 2917,439

El peso estimado de un recin nacido con 36 semanas de


gestacin es 2917,439 gr.
MODELO DE REGRESIN LOGSTICA
El anlisis de regresin lineal se utiliza para modelar la relacin
causal entre una variable respuesta continua y un conjunto de
variables explicativas continuas, las cuales se relacionan
linealmente con la respuesta.
Pero a menudo ocurre que, la variable respuesta (variable
dependiente, efecto, etc.) no es continua sino ms bien
categrica y toma slo dos (binaria) o ms (multinomial)
posibles valores.
Es importante entender que el objetivo de un anlisis usando los
modelos de regresin, en general, es el mismo que cuando se
usa cualquier otra tcnica de construccin de modelos usada
en estadstica, esto es:
Encontrar el mejor ajuste y el ms parsimonioso,
pero que a la vez, sea un modelo biolgicamente
razonable para explicar la relacin entre un efecto
(variable respuesta) y un conjunto de factores(variables
explicativas ).
MODELO DE REGRESIN LOGSTICA
El modelo de regresin logstica simple, tiene la siguiente
forma:
e0 1X
E Y / X x ( x )
1 e0 1X

Este modelo constituye un mayor acercamiento a la


realidad biolgica, pues, tiene ms sentido pensar que la
influencia de un factor de riesgo sobre la probabilidad de
tener una enfermedad se asemeja ms a una curva de tipo
sigmoidea que a una recta.
MODELO DE REGRESIN LOGSITCA
1

0,8
Prevalencia de EC

0,6

0,4

0,2

0
20-29 30-34 35-39 40-44 45-49 50-54 55-59 60-69

Grupo de edad

Observar que la relacin entre la prevalencia de EC y la


edad no es lineal, sino ms bien presenta la forma de una
curva en forma de S (curva sigmoidea).
MODELO DE REGRESIN LOGSTICA
VARIABLES EXPLICATIVAS NUMRICAS
Cuando una variable explicativa es numrica se puede incorporar
en el modelo tal cual.
Ejemplo: Nmero de cigarros que fuma y nivel de
colesterol en mg/dl

VARIABLES EXPLICATIVAS CATEGRICAS


Cuando una variable explicativa es categrica se transforma
definiendo variables artificiales.
Por ejemplo, en el modelo de prediccin de enfermedad
coronaria, se desea introducir las variables explicativas :
MODELO DE REGRESIN LOGSTICA
Cuando una variable explicativa es categrica con ms de
dos categoras se transforma definiendo variables artificiales.
Si el nmero de categoras es L se fija una de ellas como
referencia y se define L-1 variables artificiales
Ejemplo : Masa corporal (peso/talla2) medido con tres
categoras (L=3).
Normal

Masa corporal= Sobrepeso
Obesidad

Se fijar como referencia la categora normal y se


construirn 2 variables artificiales
1 Sobrepeso 1 Obesidad
X1 X2
0 Normal 0 Normal
MODELO DE REGRESIN LOGSTICA
MODELO DE REGRESIN LOGSTICA MLTIPLE
El modelo de regresin logstica puede extenderse para k variables
explicativas Xk y se denomina modelo de regresin logstica
mltiple.
e0 1x1 ... k xk
E (Y / X 1 x1 ,.... X k xk ) ( X )
1 e0 1x1 ... k xk
El modelo supone que :
a)Las observaciones de la variable respuesta (Yi) : i=1,2,,n)
son independientes entre si.
b)La distribucin de la respuesta es YiB(i) ; para i=1,2,...,n
(Bernoulli)
c)Las variables explicativas (X1, X2,,XK) son independientes
entre si.
d)V(Yi) = i(1- i); i=1,2,...,n (Varianzas no son constantes).
MODELO DE REGRESIN LOGSTICA
Siguiendo la lgica del modelo de regresin lineal, la
relacin entre el predictor y la respuesta debe ser lineal, por
lo que se necesita una transformacin que permita expresar
el modelo como una relacin lineal entre los dos miembros
de la igualdad.
Se propone una transformacin denominada,
transformacin logit .

(X )
logit( ( X )) ln 0 1 x1 ... k xk
1 ( X )

Esta transformacin consiste en dividir la proporcin de


xitos, (x), que puede ser una prevalencia, entre uno
menos la proporcin de xitos, 1- (x) y aplicarle el logaritmo
a este cociente.
REGRESIN LOGSTICA
INTERPRETACIN DE LOS COEFICIENTES ESTIMADOS
Los coeficientes del modelo no tienen una interpretacin
directa
Para facilitar la interpretacin de los coeficientes del modelo
consideremos un modelo con una sola variable explicativa
numrica:
El valor estimado para una edad x ser :

( x)
ln i ( x) o 1 x Ventaja (Odds) para x
1 ( x)
El valor ajustado para una edad x +1 valor de ser :
( x 1)
ln i ( xi ) o 1 ( x 1) Ventaja (Odds) para x+1
1 ( x 1)
REGRESIN LOGSTICA
INTERPRETACIN DE LOS COEFICIENTES ESTIMADOS
La diferencia de ventajas (odds)

( x 1) ( x) ln(Ventaja( x 1) ln(Ventaja( x) 1

Por propiedades de los logaritmos se tiene:


Ventaja( x 1)
ln 1
Ventaja( x)
Aplicando el antilogaritmo

Ventaja( x 1) Odds( x 1) 1
OREstimado e
Ventaja( x) Odds( x)
El OR ajustado se puede interpretar como el incremento en
la chance de tener el evento dado que un individuo tiene
un valor de la variable x+1 comparado con la chance de un
individuo que tiene un valor x.
MODELO DE REGRESIN LOGSITCA
EJEMPLO (Asociacin entre la enfermedad cardiovascular y la edad)
Situacin 1. La variable edad como variable cuantitativa
continua
Variables en la ecuacin

B Sig. Exp(B)
Paso
a edad ,111 ,000 1,117
1 Constante -5,309 ,000 ,005
a. Variable(s) introducida(s ) en el paso 1: edad.

El modelo ajustado es: ( x)


ln 0 1 x 5.309 0.111 edad
1 ( x)
La ecuacin del modelo de regresin logstica es:

5.309 0.111 edad


e
( x) 5.309 0.111 edad
1 e
MODELO DE REGRESIN LOGSITCA
EJEMPLO (Asociacin entre la enfermedad cardiovascular y la edad)
Situacin 1. La variable edad como variable cuantitativa continua
La ecuacin ajustada es:

e5.3090.111 Edad
( x)
1 e5.3090.111 Edad
Calculemos la razn de ventajas para la edad x=21 con respecto a x=20
aos

Ventaja( x 1) Odds(21)
OREstimado e0.111(21 20) e0.111(1) 1.117
Ventaja( x) Odds(20)
El OR estimado indica que una persona con 21 aos de edad tiene 1.117
veces ms chance (posibilidad o ventaja) de presentar enfermedad
coronaria comparado con otra persona con 20 aos de edad.
Tambin se puede decir que por cada ao adicional en la edad de las
personas , el riesgo estimado de tener enfermedad coronaria es 1.117
ms.
MODELO DE REGRESIN LOGSITCA
EJEMPLO (Asociacin entre la enfermedad cardiovascular y la edad)
Situacin 2. La variable edad como variable cualitativa
Supongamos que las edades han sido agrupadas en menor de 40 y
40 a ms.
1 40 a ms
Edad
0 Menor de 40
La ecuacin ajustada considerando la edad agrupada es:
e1.6421.995 Edad
( x)
1 e1.6421.995 Edad
Calculamos la razn de ventajas para la edad x+1 con respecto a
la edad x

Ventaja(40 a ms) Odds(40 a ms)


OREstimado e1.995 7.353
Ventaja(Menor de 40) Odds(Menor de 40)
MODELO DE REGRESIN LOGSITCA
EJEMPLO (Asociacin entre la enfermedad cardiovascular y la edad)
Situacin 2. La variable edad como variable cualitativa
El OR se puede interpretar como el incremento en la chance de
tener ECV para un individuo de 40 a ms aos, comparado con un
individuo de menos de 40 aos.
BANCO DE PREGUNTAS
De entre todas las siguientes, cul le parece una variable
cuantitativa discreta?:
A. Glucemia basal en poblacin general.
B. Sexo.
C. Nmero de camas hospitalarias libres.
D. Color de pelo.
E. Respuesta a tratamiento analgsico en un grupo de
personas con dolor lumbar crnico inespecfico.
Al medir la presin arterial se clasifica al paciente como
normotenso, hipertenso o hipotenso. En este caso, se emplea una
escala de medicin:
A. Nominal.
B. De intervalo.
C. De razn.
D. Cuantitativa.
E. Ordinal.
En relacin con los tipos de variable estadstica, seale la
afirmacin correcta:
A. El estado civil es una variable cuantitativa discreta
B. La raza es una variable dicotmica
C. El pronstico de una enfermedad se mide con una escala
nominal
D. El nmero de camas hospitalarias es una variable ordinal
E. La temperatura es una variable cuantitativa
Se est realizando un estudio para conocer el efecto de un
nuevo analgsico. La variable principal de respuesta es una
escala de dolor con los siguientes valores: 1 (no dolor), 2 (dolor
leve), 3 (dolor moderado) y 4 (dolor intenso). De qu tipo de
variable se trata?
A. Variable dicotmica
B. Variable continua
C. Variable discreta
D. Variable ordinal
E. Variable cuantitativa
El ndice de Apgar utiliza una escala de medicin:
A. De razn
B. Nominal
C. De intervalo
D. Ordinal
E. Cuantitativa
Es una variable cuantitativa discreta:
A. Albmina srica
B. Color del cabello.
C. Pronstico de una enfermedad (leve, menos grave, grave).
D. Pulsaciones por minuto.
E. Presin arterial (normal, anormal).
Qu variable de las enunciadas NO puede ser presentada en
una escala de medida ordinal?
A. Tabaquismo
B. Dolor
C. Clase social
D. Va de administracin de un frmaco
E. Glucemia basal
La mayora de las variables biolgicas que se conocen siguen
una distribucin:
A. Binomial
B. Biolgica
C. De Gauss
D. De Poisson
E. Ninguna de las anteriores
Cuando tenemos un conjunto de datos agrupados y ordenados y
la variable en estudio es discontinua o discreta, la mejor forma
de representar grficamente los datos es:
A. Grfico de barras
B. Histograma
C. Ojiva
D. Polgono de frecuencia
E. Tendencias
Se quiere graficar un conjunto de datos cuantitativos continuos,
trabajados en una escala de razn. Qu tipo de grfico sera
ms adecuado?
A. Grfico de barras
B. Grfico circular
C. Histograma
D. Pictograma
E. Grfico semilogartmico
Cul de las siguientes afirmaciones es FALSA?:
A. La media es una medida de tendencia central que se afecta
poco por los valores extremos.
B. El valor de la mediana se corresponde con el percentil 50.
C. La mediana es una medida de tendencia central que se
afecta poco por los valores extremos.
D. La moda no suele resultar de gran utilidad cuando
manejamos variables continuas.
E. El percentil 25 se corresponde con el primer cuartil.
Cuando la muestra es asimtrica, el mejor estadstico de
centralizacin que puede usarse es:
A. Media aritmtica
B. Moda
C. Mediana
D. Rango
E. Varianza
Al consultar la distribucin del peso en una muestra de sujetos
adultos, se aprecia que el percentil 25 corresponde a 65 Kg.
Cul de las siguientes afirmaciones es CORRECTA?:
A. El 25% de los sujetos de la muestra pesan aproximadamente
65 Kg.
B. El 25% de los sujetos de la muestra tienen un peso superior a
65 Kg.
C. Para poder interpretar este valor, es necesario conocer la
desviacin estndar de la distribucin.
D. Para poder interpretar este valor, es necesario conocer la
media de la distribucin.
E. El 25% de los sujetos de la muestra tienen un peso inferior a 65
Kg.
Uno de los siguientes estadsticos NO es de dispersin:
A. Desviacin estndar.
B. Desviacin media.
C. Cuartil.
D. Rango intercuartlico.
E. Coeficiente de variacin.
Qu medida de variabilidad no depende de las unidades de
medida?
A. Amplitud
B. Recorrido intercuartlico
C. Coeficiente de variacin
D. Desviacin estndar
E. Desviacin media
Cul es el nmero por el que se debe multiplicar la desviacin
estndar para construir un intervalo centrado en la media que
contenga el 99% de la muestra?
A. 1,98
B. 2,0
C. 2,6
D. 3,2
E. 3,6
En un estudio transversal sobre una muestra de sujetos
representativos de una comunidad, se ha observado una
prevalencia de HTA del 20% (intervalo de confianza del 95%: 15-
25%). Cul de las siguientes afirmaciones es CIERTA:
A. Se tiene un 95% de confianza de que entre un 15% y un 25%
de los sujetos de la muestra son hipertensos.
B. La prevalencia de HTA en la comunidad es del 20%.
C. Se tiene un 95% de confianza de que el intervalo 15-25%
incluye el verdadero valor de la prevalencia de HTA en dicha
comunidad.
D. El nmero de sujetos estudiados es insuficiente para estimar
la prevalencia de HTA en dicha comunidad.
E. Es ms probable que la prevalencia de HTA en dicha
comunidad sea 25% que 15%.
Cul de las siguientes afirmaciones sobre el error estndar de la
media es CORRECTA?:
A. Es la amplitud del intervalo de confianza.
B. Se incrementa a medida que aumenta el tamao de la
muestra.
C. Equivale a la desviacin estndar de la distribucin de la
variable en la poblacin de referencia.
D. Mide la dispersin que presentaran las medias de infinitas
muestras de un mismo tamao que podran obtenerse ante
una hipottica repeticin del experimento.
E. No depende de la variabilidad observada en la muestra.
A qu denominamos intervalo de confianza al 95%?:
A. Una zona de la distribucin donde con un 95% de
posibilidades se encontrar el parmetro poblacional.
B. Una zona de la distribucin donde con un 95% de
posibilidades se encontrara el estimador muestral.
C. Una zona de la distribucin donde solo hay un 5% de
posibilidades de encontrar el estimador muestral.
D. Una zona de la distribucin donde solo hay un 5% de
posibilidades de encontrar al parmetro poblacional.
E. Ninguna de las anteriores es correcta.
En un estudio se compara la eficacia de dos tratamientos; se
observa que la diferencia entre ellos es del 25% (intervalo de
confianza del 95%: 20-30%). Cul de las siguientes afirmaciones
es correcta?
A. La verdadera diferencia entre la eficacia de ambos
tratamientos est entre el 20% y el 30%
B. La diferencia observada es estadsticamente significativa
(p<0,05)
C. Se ha estudiado un nmero insuficiente de sujetos
D. Para saber si el resultado tiene relevancia clnica debe
conocerse el grado de significacin estadstica
E. El resultado carece de relevancia clnica, ya que no se ha
utilizado un grupo placebo
Al tratar una artritis psorisica con azatioprina, mejora el 60% de
los pacientes; la 6-mercaptopurina mejora a un 55%. La
diferencia entre ambos tratamientos es significativa (p<0,05), lo
cual se debe interpretar como una de las siguientes opciones:
A. Con azatioprina mejorarn el 60% de tus pacientes.
B. La azatioprina es en un 95% mejor que la 6-mercaptopurina.
C. El nivel de significacin es del 1%.
D. Hay diferencias entre los dos tratamientos, con una
probabilidad de que esta afirmacin sea equivocada menor
al 5 %.
E. No se puede concluir nada.
Cul de las siguientes afirmaciones es FALSA?:
A. El trmino poblacin diana hace referencia al conjunto de
individuos accesibles para la realizacin del estudio.
B. Un estadstico resume los valores muestrales de una variable.
C. Los estadsticos se utilizan como estimadores de los
parmetros poblacionales.
D. Las muestras obtenidas de forma no aleatoria pueden
producir estimadores sesgados.
E. Una encuesta tipo Likert se aplica para variables medidas en
escala ordinal.
En un estudio sobre el estado nutricional de los nios de 7 aos
en cierta comunidad, se seleccionan aleatoriamente 10 escuelas
y se toman datos sobre todos los nios de esta edad en cada
escuela. El muestreo llevado a cabo se denomina:
A. Muestreo sistemtico
B. Muestreo consecutivo
C. Muestreo aleatorio simple
D. Muestreo por conglomerados
E. Muestreo estratificado
El tamao muestral en los estudios de cohortes influye en:
A. Magnitud del efecto y precisin.
B. Fuerza de asociacin y precisin.
C. Precisin y riesgo relativo.
D. Precisin y significacin estadstica.
E. Riesgo relativo y significacin estadstica.
Se desea estimar la prevalencia de una enfermedad que se
sospecha tiene un comportamiento estacional. Para obtener una
muestra representativa se debe optar por el muestreo:
A. Estratificado
B. Aleatorio simple con restitucin
C. Aleatorio simple sin restitucin
D. Sistemtico
E. Por conglomerado
En un estudio sobre una muestra de 200 sujetos hipertensos, se
informa que la presin arterial diastlica (PAD) mediana
observada es de 100 mmHg, Cul es el significado de esta
afirmacin?:
A. La media aritmtica de las cifras de PAD de los 200 sujetos
es de 100 mmHg.
B. La mitad de los sujetos de la muestra tienen cifras inferiores a
100 mmHg.
C. Todos los sujetos de la muestra tienen cifras de PAD iguales
o superiores a 100 mmHg.
D. La cifra de PAD que se ha observado en un mayor nmero
de sujetos es 100 mmHg.
E. El 95% de los sujetos de la muestra tienen cifras de PAD
superiores a 100 mmHg.
El ndice de Kurtosis:
A. Mide la simetra de la curva.
B. Mide la modalidad de la curva.
C. Es la desviacin estndar dividida entre la media y
multiplicada por 100.
D. Mide el grado de apuntamiento.
E. Mide si la media coincide con la mediana.
Se compara la colesterinemia de una muestra de sujetos, antes y
despus de una intervencin teraputica. Se observa un
descenso medio de 25 mg/mL, con una desviacin estndar de 5
mg/mL. Cul de las siguientes afirmaciones es CORRECTA?:
A. La colesterinemia ha disminuido entre 15 y 35 mg/mL en
aproximadamente el 95% de sujetos.
B. La colesterinemia ha disminuido entre 20 y 30 mg/mL en
aproximadamente el 95% de los sujetos.
C. Existe un 95% de confianza de que el verdadero descenso
medio de la colesterolemia se site entre 15 y 35 mg/mL.
D. Todos los sujetos han disminuido la colesterolemia entre 15 y
35 mg/mL.
E. Todos los sujetos han disminuido la colesterolemia entre 20 y
30 mg/mL.
Seale la afirmacin FALSA:
A. La distribucin normal es simtrica respecto a la media.
B. En la distribucin normal para obtener el 99% de los
individuos se debe multiplicar la media por 2,6.
C. La distribucin binomial constituye un diagrama de barras
discontinuo.
D. La distribucin de Poisson constituye un caso particular de
la ley binomial.
E. La distribucin normal tiene forma de campana.
Cul de las siguientes afirmaciones respecto a la probabilidad
es FALSA?:
A. Es siempre un nmero no negativo igual o inferior a 1.
B. La probabilidad de la unin de dos sucesos mutuamente
excluyentes es siempre la suma de probabilidades de cada
suceso.
C. La probabilidad de unin de un suceso con su
complementario es 1.
D. La probabilidad de la interseccin de dos sucesos es siempre
el producto de las probabilidades de cada suceso.
E. La suma de las probabilidades de dos sucesos puede ser
superior a 1.
Se sabe que el 50% de la poblacin fuma y que el 10% que fuma
y es hipertensa Cul es la probabilidad de que un fumador sea
hipertenso?:
A. 15%
B. 80%
C. 40%
D. 20%
E. 25%
Se llama probabilidad condicionada a:
A. La probabilidad de un suceso conocido previamente.
B. La condicin que debe cumplir un suceso.
C. La probabilidad que ocurra un suceso habiendo ocurrido
otro.
D. La probabilidad de que ocurra un suceso u otro.
E. El teorema de Bayes restringido.
Si la probabilidad de ser hipertenso en una poblacin es 0,2 y la
de ser diabtico 0,05; y la de ser hipertenso y diabtico 0,01. la
probabilidad de ser hipertenso o diabtico, pero no ambos es:
A. 0,26
B. 0,25
C. 0,24
D. 0,23
E. 0,22
Sabemos que la enfermedad X causa la muerte al 20% de los
afectados en el primer ao. Si tenemos dos pacientes con esa
enfermedad, cul es la probabilidad de que mueran ambos en
el primer ao?
A. 2%
B. 4%
C. 10%
D. 40%
E. 52%
Una enfermedad produce la muerte al 40% de los pacientes
cada ao. Cul es la probabilidad de sobrevivir 3 aos?
A. 40,2%
B. 34%
C. 24,5%
D. 21,6%
E. 14%
En caso de infarto agudo de miocardio, la probabilidad de morir
en las primeras 24 horas del infarto es de 0,3. Entre los que
sobreviven las primeras 24 horas, la probabilidad de morir antes
de la primera semana es de 0,10. Cul es la probabilidad de
sobrevivir la primera semana despus de haber tenido un infarto
de miocardio?
A. 0,60
B. 0,63
C. 0,66
D. 0,70
E. No se puede calcular con los datos aportados
Un investigador pretende determinar si existe una asociacin
entre las cifras de PA diastlica (medida en mmHg) y los niveles
de colesterol (medidos en mg/mL). Para ello, ha realizado estas
mediciones a 230 voluntarios. Qu prueba estadstica es la MS
apropiada pare examinar esta asociacin?:
A. Regresin logstica.
B. Prueba de la t de Student.
C. Prueba de Chi cuadrado.
D. Correlacin de Pearson.
E. Prueba de Fisher.
Al calcular el coeficiente de correlacin de Pearson entre la talla
y el peso de una muestra de 100 personas se halla que este es de
0,80. La interpretacin correcta de este cociente es:
A. Por cada cm. que aumenta la talla, el peso aumenta en 0,8
Kg
B. Por cada 0,8 Kg que aumenta el peso, la talla aumenta en 1
cm.
C. El 80% de la variacin del peso se debe a la variacin de la
talla
D. El 64% de la variacin del peso se debe a la variacin de la
talla
E. El 64% de la variacin de la talla se debe al peso
Un estudio analiza la relacin entre la PA sistlica (PAS) y la edad
en una muestra de mujeres adultas. Los autores presentan los
resultados como la siguiente ecuacin de regresin lineal: PAS =
81,5 + 1,2 x edad. Cul de las siguientes afirmaciones acerca de
este anlisis es FALSA?
A. La edad se ha utilizado como variable independiente
B. La pendiente de la recta es de 1,2 mmHg/ao de edad
C. El valor 81,5 corresponde a la media de PAS en la muestra de
mujeres
D. Por cada ao ms de edad de las mujeres de la muestra, su
PAS se incrementa en 1,2 mmHg de promedio
E. Se ha asumido que la relacin entre la edad y la PAS es lineal
En un estudio se ha observado una correlacin entre las cifras de
colesterol ligado a lipoprotenas de baja densidad y la
reduccin del dimetro de las arterias coronarias
estadsticamente significativa (r = 0,34; p < 0,01). Puede
concluirse que:
A. Existe una fuerte correlacin entre ambas variables, ya que p
< 0,01
B. Existe una correlacin dbil entre ambas variables, ya que r =
0,34
C. Si se hubiera estudiado un nmero de sujetos ms elevado, se
hubiera obtenido una mayor correlacin
D. No existe correlacin entre ambas variables, ya que el valor
del coeficiente de correlacin es inferior a 0,5
E. Probablemente se trata de un artefacto, ya que el valor del
coeficiente de correlacin es inferior a 0,5
El coeficiente de correlacin de Pearson (r):
A. Vara de -1 a 0.
B. Tiene el mismo signo que la varianza de la cual procede.
C. No sirve para estudiar la relacin lineal entre dos variables
cuantitativas.
D. Si se eleva al cuadrado, es el coeficiente de determinacin.
E. Todas son ciertas.
Un coeficiente de correlacin positivo indica:
A. Una buena Correlacin.
B. Al aumentar una variable aumenta la otra.
C. Al disminuir una variable disminuye la otra.
D. Al aumentar una variable disminuye la otra.
E. B y C son correctas.
Cuando en un contraste de hiptesis NO se rechaza la hiptesis
nula, cul de las siguientes afirmaciones es correcta?
A. Se ha demostrado que la hiptesis nula es verdadera
B. Se ha demostrado que la hiptesis nula es falsa
C. Se ha demostrado que la hiptesis alternativa es verdadera
D. Se ha demostrado que la hiptesis alternativa es falsa
E. No se ha demostrado nada
La probabilidad de equivocarse cuando se rechaza la hiptesis
nula:
Es alfa
Es el nivel de significacin
La fija el investigador
Como mximo se usa un nivel 0,05
Todas son ciertas
Si se comparan dos tratamientos mediante una prueba
estadstica, se est cometiendo un error tipo II o beta cuando:
A. Se concluye que existe diferencia, pero en realidad no existe
B. Se concluye que un tratamiento es mejor, pero en realidad es
peor
C. Se concluye que un tratamiento es mejor, pero en realidad
son iguales
D. Se concluye que no existe diferencia, pero en realidad s
existe
E. Se concluye que un tratamiento es peor, pero en realidad es
mejor
PRUEBA DE HIPOTESIS

El Error Tipo I, es el mas peligroso. Dado que la Ho se construye para ser


negada.

Probabilidad (cometer Error Tipo I) = comnmente fijado en 5%


Probabilidad (cometer Error Tipo II) = comnmente fijado en 20%

Complemento del Error Tipo I = 1 : Nivel de Confianza.


Complemento del Error Tipo II = 1 : Potencia
Con respecto a la prueba de la hiptesis, se comete el error tipo I
cuando:
A. Se aplica una prueba estadstica inadecuada
B. La hiptesis nula es falsa y la prueba estadstica se acepta
C. La hiptesis nula es falsa y la prueba estadstica se rechaza
D. La hiptesis nula es verdadera y la prueba estadstica se
acepta
E. La hiptesis nula es verdadera y la prueba estadstica se
rechaza
La potencia de una prueba est dada por:
A. Un intervalo de confianza con 1% de error
B. La probabilidad de no cometer un error tipo II
C. Un nivel de significacin igual a 0,01
D. Un valor Z menor de 1,96
E. La probabilidad de cometer un error tipo II
Un contraste de hiptesis:
A. Es un tipo de estadstica descriptiva
B. La hiptesis nula plantea la existencia de diferencias.
C. La hiptesis alternativa plantea la no diferencia.
D. La hiptesis nula y la alternativa pueden no ser excluyentes.
E. Se puede saber la probabilidad de equivocarse en la
afirmacin
Las pruebas no paramtricas:
A. nicamente se utilizan para comparar distribuciones de
variables continuas.
B. Requieren la comprobacin del requisito de normalidad.
C. Originan unos valores de error alfa similares a los que se
calculan mediante pruebas paramtricas.
D. Deben utilizarse siempre que manejemos muestras de gran
tamao.
E. No realizan asunciones sobre el tipo de distribucin de la
variable
Uno de los siguientes NO es un test no paramtrico:
A. U de Mann-Whitney
B. Test de Kruskal-Wallis
C. Test de Wilcoxon
D. ANOVA
E. Coeficiente de correlacin de Spearman
El test estadstico que permite probar diferencias entre dos
medias en muestra pequeas es:
Chi cuadrado.
t de Student.
Correlacin.
Anlisis de varianza.
Regresin.
Se denominan datos pareados:
A. Los que se obtienen de nuestras homogneas
B. Los que se obtienen a la vez en un mismo individuo
C. Los que se obtienen a la vez en dos individuos
D. Los que se obtienen en un mismo individuo antes y despus
de una intervencin
E. Ninguna de las anteriores
Cul es la prueba de significacin estadstica que permite
analizar los estudios de investigacin con datos categorizables,
que comparan dos o ms grupos independientes medidos en
escalas nominales?
A. La prueba Z de la curva normal de la diferencia entre dos
medias
B. La prueba de aproximacin a la binomial
C. La prueba de Chi cuadrado
D. La prueba t de Student de la diferencia de dos medias
E. La prueba t de Student de la diferencia directa
El chi cuadrado es una prueba de significacin estadstica:
A. Paramtrica.
B. No paramtrica.
C. Usada para muestras no independientes.
D. Usada para determinar si la diferencia de dos medias es
significativa.
E. Que sirve para medir el error estndar.
El test no paramtrico que permite estudiar la relacin entre dos
variables cuantitativas es:
A. Coeficiente de correlacin de Spearman
B. Coeficiente de correlacin de Pearson
C. Test de Wilcoxon
D. ANOVA
E. A y B son ciertas
En un estudio se comparan tres pautas teraputicas en pacientes
dislipidmicos, midiendo su eficacia como la reduccin
observada en las cifras de colesterol a los 6 meses de
tratamiento. Qu prueba estadstica le parece ms adecuada
para comparar las tres pautas?
A. Anlisis de la varianza
B. t de Student para datos independientes
C. Coeficiente de correlacin
D. Chi-cuadrado
E. Correlacin de Spearman
Con qu test no paramtrico podemos estudiar la asociacin
entre una variable cuantitativa y una cualitativa de dos
categoras?
A. Test de Chi-cuadrado
B. U de Mann-Whitney
C. Coeficiente de correlacin de Spearman
D. Test de Kruskal-Wallis
E. Test de la t de Student
En la prueba de hiptesis, el investigador comete un error tipo II o
beta cuando:
A. No establece el nivel de significancia.
B. No rechaza la hiptesis nula, siendo falsa.
C. Rechaza la hiptesis alterna, siendo falsa.
D. Rechaza la hiptesis alterna, siendo verdadera.
E. Rechaza la hiptesis nula, siendo verdadera
En cul de los siguientes estudios se aplicara una prueba para
datos independientes?
A. Se compara el efecto de dos medicamentos sobre la
evolucin de lesiones existentes en los pliegues interdigitales
de los pies. Cada paciente recibe un tratamiento distinto en
cada pie.
B. Se compara el efecto hipotensor de dos medicamentos. Los
enfermos reciben secuencialmente los dos medicamentos.
C. Se compara el efecto hipolipemiante de dos medicamentos.
Un grupo de pacientes recibe el medicamento A y otro
grupo, el medicamento B. Se evala la diferencia entre la
colesterolemia antes de iniciar el tratamiento y la existente
tras un mes de tratamiento.
D. Se compara el efecto sobre el glaucoma de dos
medicamentos. Los pacientes reciben un medicamento
distinto en cada ojo.
E. Se quiere evaluar si un medicamento tiene algn efecto
hipotensor. Para ello se compara la tensin sistlica antes de
tomar el medicamento con la que presenta una hora
despus de haberlo recibido.
Cmo se denomina la tasa calculada a partir del nmero de
nios de edad superior a 28 das y menores de 1 ao, que
mueren en un ao por cada mil recin nacidos vivos?:
A. Mortalidad neonatal
B. Morbilidad neonatal
C. Morbilidad postneonatal
D. Mortalidad postneonatal
E. Mortalidad infantil
El denominador de la tasa de mortalidad materna para un
periodo de tiempo y rea determinada es:
A. Poblacin total
B. Mujeres embarazadas
C. Mujeres de 15-49 aos
D. Poblacin femenina total
E. Recin nacidos vivos totales
La expectativa de vida al nacer en el Per actualmente es de:
A. 60,2 aos
B. 74,6 aos
C. 65,0 aos
D. 63,4 aos
E. 68,8 aos
El primer paso para contar con una estrategia de bsqueda de
informacin es:
A. Conocer las bases bibliogrficas disponibles.
B. Establecer las fuentes de recuperacin de artculos.
C. Conocer el funcionamiento de los repositorios de
informacin.
D. Tener experiencia en el uso de PubMed
E. Definir especficamente del objetivo de la bsqueda.
En Epidemiologa, Cules son fuentes de informacin primaria?:
A. Observacin, registros HIS, grupos focales
B. Grupos focales, historias clnicas, registros HIS
C. Reportes de necropsias, grupos focales, observacin
D. Encuestas, observacin, grupos focales
E. Censo poblacional, grupos focales, registros HIS
Con relacin a las encuestas epidemiolgicas, marque lo
incorrecto:
A. Pueden clasificarse en funcin del periodo del tiempo
B. Los elementos que integran la encuesta son el cuestionario y
la base de datos
C. Se diferencia de una entrevista en que el cuestionario no est
estructurado
D. Las respuestas al cuestionario no necesariamente tiene que
codificarse
E. Una vez diseado el cuestionario, tiene que ser validado
Con relacin al ENDES, marque lo incorrecto:
A. Es una investigacin estadstica especializada ejecutada por
el INEI.
B. Desde el 2010 recibe informacin de enfermedades no
trasmisibles.
C. El mtodo de recoleccin es a travs de entrevista, llamada
telefnica o correo .
D. Es fundamental para el diseo y orientacin de las polticas y
programas de poblacin.
E. Actualmente, se lleva a cabo mediante la metodologa de
ENDES Continua.
Los componentes de la descripcin epidemiolgica son:
A. Tasa de mortalidad y morbilidad.
B. Tasa de incidencia y prevalencia.
C. Tiempo, espacio y persona.
D. Prevalencia, incidencia y mortalidad.
E. Tasa, razn y proporcin.
Se conoce como factor de riesgo a:
A. Una metodologa para encontrar grupos poblacionales en
peligro.
B. La caracterstica asociada con una probabilidad
incrementada de experimentar un dao.
C. El factor causal de las enfermedades.
D. El factor asociado que tienen las personas para morir.
E. El factor no causal de morir o enfermar.
La Epidemiologa representa un instrumento de investigacin de
la asistencia mdica que tiene importancia para:
A. La explicacin de la situacin de salud como primer objetivo
B. Asignacin de recursos
C. Descripcin de la atencin medica
D. Experimentacin de la atencin mdica
E. Descripcin de tendencias y perspectivas
Con relacin a la estandarizacin de tasas, es FALSO que:
A. Es necesario estandarizar las tasas para comparar
poblaciones con distinta estructura del factor de estudio en las
mismas.
B. En la estandarizacin directa se aplican, a una poblacin
de referencia, las tasas especficas, por estrato, de la
poblacin de estudio.
C. En la estandarizacin indirecta se aplican, a la poblacin
de estudio, las tasas especficas de la poblacin de
referencia.
D. Es arbitraria la poblacin de referencia que se use en la
estandarizacin.
E. Para analizar fenmenos raros de una poblacin es mejor
aplicar la estandarizacin directa.
La medida muertes fetales/1000 RN vivos es una:
A. Tasa.
B. Proporcin.
C. Razn.
D. Producto.
E. Porcentaje sobre 1000.
Una tasa es:
A. La probabilidad de aparicin de un fenmeno.
B. El nmero de sucesos ocurridos en relacin a las
posibilidades de ocurrencia de ste.
C. El nmero de sucesos ocurridos por cada 100 veces la
posibilidad de ocurrencia de ste.
D. La probabilidad de aparicin de un suceso por unidad de
tiempo.
E. La relacin existente entre el nmero de sucesos ocurridos
de un fenmeno y el nmero de sucesos ocurridos de otro
fenmeno.
Cul de las siguientes proposiciones es correcta?:
A. Una tasa siempre es una razn
B. Un ejemplo de razn es el riesgo relativo
C. El riesgo atribuible es una fraccin cuyo denominador incluye
al numerador
D. Un porcentaje siempre es una tasa
E. En una proporcin el numerador contiene al denominador
La disminucin de la prevalencia de una enfermedad puede ser
debida a las siguientes causas, EXCEPTO:
A. Tratamiento curativo adecuado.
B. Alta mortalidad por esa patologa.
C. Eliminacin de los factores de riesgo o la accin para
retardar el papel de dichos factores.
D. Estmulo a los factores protectores para esa patologa.
E. Aumento de la incidencia por cualquier razn.
Si en un estudio aparecen 45 casos nuevos de una enfermedad
entre los 1000 individuos que iniciaron Cul de las siguientes
afirmaciones es CORRECTA?:
A. La prevalencia es de 45 por 1000
B. La incidencia es de 45 por 1000
C. El riesgo relativo es del 45 por 1000
D. El riesgo atribuible es del 45 por 1000
E. La fraccin etiolgica del riesgo es del 45 por 1000
Son indicadores para medir la relacin entre variables
independientes y dependientes, EXCEPTO:
A. Riesgo relativo.
B. Tasa de Prevalencia.
C. Fraccin atribuible.
D. Odds ratio.
E. Riesgo atribuible.
En qu circunstancia el OR se aproxima al valor del RR?:
A. Cuando la prevalencia de uso de factor de estudio es
elevada
B. Cuando se trata de una enfermedad poco frecuente.
C. Cuando se trata de una enfermedad crnica.
D. Cuando el diseo del estudio es experimental.
E. Cuando se trata de una enfermedad aguda.
En un estudio para comprobar la relacin entre el consumo de
tabaco y el cncer de vejiga, se sigui durante un ao a 1.000
personas, de las cuales 500 fumaban, y otras 500 no; de las 50
personas que padecieron cncer de vejiga durante este tiempo,
45 fumaban. Cul es el riesgo individual de enfermar entre los
expuestos al tabaquismo?:
A. 0,09.
B. 0,10.
C. 0,01.
D. 1,00.
E. 1,11.
La medicin del riesgo relativo:
A. Se efecta directamente en estudios de casos y controles
B. Se efecta en estudios de cohortes
C. Se efecta directamente en estudios trasversales
D. Se calcula con prevalencia de expuestos
E. Se calcula con prevalencia de no expuestos
El posible impacto sanitario de un programa especfico de
prevencin puede medirse mediante:
A. El riesgo relativo.
B. El riesgo atribuible.
C. La tasa de incidencia.
D. La tasa de prevalencia.
E. La tasa de ataque.
La tasa de incidencia de leucemia, en poblacin expuesta a
radiacin ionizante es de 4 en mil y la poblacin no expuesta es
de 0,5 en mil. Cul es el riesgo atribuible al factor de
exposicin?:
A. 8,0
B. 4,5
C. 3,5
D. 4,0
E. 0,5
Un estudio observacional en el que se comparan 110 individuos
con cncer de senos paranasales con 220 individuos sin la
enfermedad, corresponde a un estudio:
A. Longitudinal.
B. Caso-Control.
C. Cohortes concurrente.
D. Transversal.
E. Cohortes no concurrente.
Los estudios de casos y controles se caracterizan porque:
A. Permiten establecer una relacin causa efecto.
B. Conforman los grupos de comparacin a partir del efecto.
C. Presentan menos sesgos que los estudios de cohortes.
D. Permiten calcular el riesgo relativo.
E. Controlan a los sujetos expuestos al factor de riesgo.
Respecto a los estudios de Cohortes, seale su mayor VENTAJA:
A. Permiten estimar el riesgo absoluto.
B. Se aplica en enfermedades raras.
C. Son tiles en enfermedades frecuentes.
D. El costo operativo es bajo.
E. Son tiles en enfermedades infrecuentes
Con el objeto de disminuir el nmero de accidentes
automovilsticos por alcohol en Lima, se realiza una campaa de
informacin por TV, y despus se compara el nmero de
accidentes en Lima con el nmero de accidentes en otra ciudad
en la que no se hizo la campaa, el tipo de estudio realizado es:
A. Caso control.
B. Cohortes.
C. Ensayo de campo.
D. Ensayo clnico no aleatorio.
E. Ensayo comunitario de intervencin.
En un estudio sobre las causas del cancer gstrico, los pacientes
con esta enfermedad se compararon con personas que no
presentaban esta enfermedad pero de similar edad, sexo, lugar
de residencia y clase social. La frecuencia de consumo de caf
se compar entonces en ambos grupos. Qu tipo de estudio fue
este?
Retrospectivo
Histrico prospectivo
Prospectivo
Estudio clnico
Ensayo clnico
La utilidad clnica de una prueba diagnstica de elevada
sensibilidad est en un resultado:
A. Positivo confirma la existencia de una enfermedad.
B. Negativo no es de utilidad diagnstica.
C. Negativo concluye la posibilidad de que la enfermedad
exista.
D. Negativo ser vlido en funcin de la especificidad de la
prueba.
E. Positivo descarta la posibilidad de usar otras pruebas.
En las pruebas diagnsticas, cuando AUMENTA la prevalencia,
entonces el valor predictivo positivo disminuye.
B. Aumenta la sensibilidad.
C. Disminuye la especificidad.
D. El valor predictivo positivo aumenta.
E. El valor predictivo negativo aumenta.
La medida de validez de una prueba diagnstica que evala la
probabilidad de que el paciente tenga la enfermedad con un
resultado positivo de la prueba evaluada, se denomina:
A. Eficacia diagnstica.
B. Especificidad.
C. Sensibilidad.
D. Valor predictivo negativo.
E. Valor predictivo positivo.
La especificidad de una prueba se expresa como:
A. Capacidad de captar verdaderos enfermos
B. Capacidad de captar verdaderos sanos
C. Capacidad de captar a falsos negativos
D. Capacidad de captar a falsos positivos
E. Capacidad de captar el verdadero valor predictivo
Cul de las siguientes afirmaciones sobre los sesgos que se
pueden cometer en un estudio es FALSA?:
A. La asignacin aleatoria distribuye de forma similar las
caractersticas de los sujetos en los grupos de estudio.
B. Las tcnicas de enmascaramiento previenen los sesgos de
informacin.
C. Cuanto mayor sea el tamao de la muestra, menor es la
probabilidad de cometer un sesgo de seleccin.
D. Las tcnicas de anlisis multivariante no permiten controlar
los sesgos de informacin.
E. Las tcnicas de anlisis multivariante no permiten controlar
los sesgos de seleccin.
Es un error sistemtico:
A. Los sesgos de seleccin.
B. Los sesgos de informacin.
C. Los sesgos de seguimiento.
D. Los factores de confusin.
E. Todas son ciertas.
Con relacin a los errores que pudieran invalidar los resultados
de un estudio es INCORRECTO:
A. El error sistemtico siempre es controlable en la fase de
anlisis.
B. El error aleatorio, puede minimizarse aumentando el
tamao de la muestra.
C. El sesgo de confusin puede controlarse en la fase de
anlisis.
D. El sesgo de seleccin es el que aparece al asignar
incorrectamente a los individuos a los grupos de
comparacin.
E. Un sesgo de clasificacin aparece cuando los mtodos de
medicin son distintos en uno y otro grupo de estudio.
Se est diseando un estudio caso control en el que se intenta
evaluar la relacin entre un frmaco X y hepatoxicidad. En ese
estudio Ud. recoge casos que ingresan en los hospitales de su
especialidad con hepatitis medicamentosa, y por cada caso
incluido busca dos controles de edad, sexo y raza similares.
Cul es el objetivo de utilizar controles de estas caractersticas?:
A. Evitar sesgos de seleccin de controles
B. Evitar la existencia de colinealidad entre las distintas variables
analizadas
C. Evitar factores de confusin
D. Evitar sesgos de mala clasificacin no diferencial
E. Evitar sesgos de mala clasificacin diferencial
Cul de los siguientes elementos no afecta la validez interna de
un estudio?
Seleccin de una muestra no representativa de la poblacin
general
Sesgo de informacin
Utilizacin de grupos no comparables
Factor de confusin
Sesgo de memoria

Das könnte Ihnen auch gefallen