Sie sind auf Seite 1von 25

34567800975432346780986545

67890098765679009876545678
90087543457899876545678900
98765434567890098765456789
MANUAL BSICO
00986754345678900986543234
STATA

56789009876543456789009875
INICIACI N A LA INVESTIGACI N

43234578900987643234567900
SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS

98765432356789098765672339
48578903294878293002394876
73829030948574382900394875
60987612345098623456098098
76235234766780987456985789
87897236465456876345984569
84598645983458763498345873
87656983494568712653235989
09864568753546764568764hjkl
MANUAL BA SIC STATA

INDICE

I. DESCRIPCIN DEL STATA pg. 02


II. BASE DE DATOS pg. 03
III. DO FILE / LOG FILE pg. 05
IV. DESCRIPCIN DE VARIABLES pg. 07
V. ETIQUETAR VARIABLES pg. 08
VI. ANLISIS UNIVARIADO pg. 10
Variables categricas
Variables cuantitativas
NORMALIDAD
VII. ANLISIS BIVARIADO pg. 13
Categrica Categrica
Categrica Cuantitativa
Cuantitativa Cuantitativa
Medidas de Asociacin: OR RP RR HR
VIII. ANLISIS MULTIVARIADO pg. 20

I. Descripcin del STATA 11.0

DEFINICIN:

Stata es un paquete de software estadstico creado en 1985 por StataCorp. Es utilizado


principalmente por instituciones acadmicas y empresariales dedicadas a la investigacin,
especialmente en economa, sociologa, ciencias polticas, biomedicina epidemiologa.

BARRA DE MENU

TABLA DE
COMANDOS
EFECTUADOS

TABLA DE VARIABLES
SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 1

TABLA DE TABLA DE
COMANDOS RESULTADOS
MANUAL BA SIC STATA

BARRA DE
HERRAMIENTAS

BARRA DE MENU: Se encuentran los menus de file, edit, data, etc.

BARRA DE HERRAMIENTAS: Se encuentran las herramientas de Log file, do file, etc.

TABLA DE COMANDOS EFECTUADOS: Se encuentra la lista de todos los comandos efectuados.

TABLA DE VARIABLES: Se encuentran las variables de la base con sus etiquetas, tipo y formato.

TABLA DE COMANDOS: Tabla donde se digitan los comandos a efectuarse.

TABLA DE RESULTADOS: Se encuentran los resultados de los comandos efectuados.

II. Base de datos:


- La base debe estar bien organizada, completa y sin errores.
- Se recomienda usar previamente el programa Microsoft Excel para completar corregir la
- base de datos del trabajo.
- Hacer una copia de la base de datos original, esto es importante porque te ayuda a corregir
si hubiese un error, modificar variables, recordar algn dato que se haya modificado, etc.
- En la base no debe usarse comas decimales, el programa STATA solo reconoce puntos
decimales.

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 2


MANUAL BA SIC STATA

- Se sugiere agregar la columna ID para enumerar cada encuesta. Esto es de mucha ayuda,
por ejemplo en caso de faltar algn dato se consulta al nmero de encuesta.

- Filtrar la base y comprobar que todos los datos estn completos.

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 3


MANUAL BA SIC STATA

Datos completos y sin


vacos.

- En la base Excel las variables deben estar en maysculas o al menos una de las letras. Esto
permite al programa STATA generar etiquetas de las variables.
- En el programa STATA utilizar el comando edit, se ejecutar un editor de variables. En el
editor de variables pegar la base del Excel. Al hacerlo saldr la siguiente tabla:

Dar click en la segunda opcin

Lo que significa que tomar a la primera fila como nombres de las variables.

- Para editar la base usar siempre el comando edit, y verificar que todas las variables

estn completas y no hay errores.


- Si observamos una columna de color rojo significa que en esa columna existen letras,

comas, palabras, etc. Es decir, tiene errores.

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 4


MANUAL BA SIC STATA

- Si observamos que en uno de los datos hay un punto ., significa que ese dato est vaco y

STATA lo toma como datos MISSING o datos perdidos.


III. Do file / Log file: Permiten guardar comandos y acciones en STATA.

Log file: til para guardar todas las acciones hechas en STATA, por ejemplo: comandos,
modificacin de variables, resultados, etc.

Antes de empezar a utilizar los comandos en STATA es necesario utilizar la herramienta


Log file, la cual se encuentra en la barra de herramientas.

Guardar el archivo Log file, este se guardar en formato *.smcl

Al finalizar el anlisis, hacer click en el cono Log file de la barra de herramientas.


Aparecer una ventana:

Hacer click en la segunda opcin y luego OK

Al abrir el archivo *.smcl en el STATA, se ver todas las


acciones hechas desde el momento en que se inici el Log file hasta donde se guard.

Do file: til para guardar la lista de comandos utilizados en STATA

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 5


MANUAL BA SIC STATA

Hacer click en el cono New Do-file editor

Se abrir la ventana de
edicin de Do file. Copiar de la TABLA DE COMANDOS EFECTUADOS, todos los comandos
que queremos guardar en el Do file. Luego guardar el Do file.

La herramienta de Do file es til en caso de no haber usado el Log file.


Supongamos que se hizo una nueva base de datos o se modific esta, tendramos que
volver a utilizar cada comando hecho anteriormente. La herramienta Do file permite correr
todos los comandos usados usando el cono (Execute do):

Para ello seleccionar el comando y luego Execute do y automticamente se ejecutarn


los comandos seleccionados.

IV. Etiquetar variables:


Haremos el siguiente ejemplo: La variable sexo tiene en su base 0 y 1, lo que significa
que cero es igual a masculino y uno es igual a femenino. Al hacer el comando tab sexo,
obtenemos lo siguiente:

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 6


MANUAL BA SIC STATA

Por lo tanto se necesita poner una


etiqueta para el cero y el uno.

Abrir la base con el comando edit y hacer click derecho sobre la variable y luego en
variable properties y saldr la siguiente ventana

Hacer click:

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 7


MANUAL BA SIC STATA

Luego digite 1 en value y etiquetelo en Label con el nombre de Mujer, Apply (aplicar) y
ok.

En la ventana de Variable Properties, baje la barra de Value Label y seleccione sexo. Luego

Apply (aplicar) y cierre el editor.

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 8


MANUAL BA SIC STATA

Para comprobar la etiqueta escriba el comando tab sexo, y observar los cambios en el
cero y el uno.

V. Descripcin de variables.
Antes de empezar la descripcin de las variables se debe utilizar el comando set more
off, para poder ver la lista de resultados completa.

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 9


MANUAL BA SIC STATA

El comando sum, sirve para ver la lista de todas las variables con sus datos observados,
medias, desviacin estndar, Rangos mnimos y mximos.

Tambin puedes utilizar sum varibleejemplo para ver el resumen de la variableejemplo.


El comando tab variable, te otorga una tabla de frecuencias, percentiles y porcentajes
acumulados de la variable.

De esta forma uno puede


empezar la primera tabla descriptiva en cada trabajo.
Utilizamos el comando tab variable_independiente_vertical
variable_dependiente_horizontal

Ejemplo: tab sexo fuma

Si queremos ver porcentajes en el mismo


ejemplo:
tab sexo fuma, col: Ver porcentajes en columnas

tab sex fuma, row : Ver


porcentajes en filas

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 10


MANUAL BA SIC STATA

VI. Anlisis Univariado

CATEGRICAS / NUMRICAS /
CUALITATIVAS CUANTITATIVAS

NORMAL: MEDIA
FRECUENCIAS Y DESVIACIN
ESTNDAR

NO NORMAL:
PORCENTAJES MEDIANA Y
RANGOS

6.1 Variables Categricas: Se miden en Frecuencias y Porcentajes. Para ello se utiliza el


comando tab variable. Ejemplo: tab sexo:

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 11


MANUAL BA SIC STATA

6.2 Variables Cuantitativas: Se miden de acuerdo a la Normalidad

- Si es Normal: Se mide Media y Desviacin estndar.

- Si no es Normal: Se mide Mediana y Rangos

Evaluar NORMALIDAD: Existen 4 formas para evaluar normalidad


1) Kurtosis y sesgo: Es normal cuando la kurtosis es menor a tres (03) y el sesgo est
entre (-1) y (+1). Para ver la curtosis y sesgo utilizamos el comando sum variable,
detail.
Ejemplo: sum edad, detail

Sesgo = 0.2239296
Kurtosis = 2.799769

Se concluye que la variable edad no es normal.

2) Sesgo y kurtosis: Existe otro comando llamado sktest variable, este combina el sesgo
y kurtosis obtenindose un valor P
- Si P es >0,05 = NORMAL
- Si P es <0,05 = No NORMAL

Ejemplo: sktest edad

P = 0.2780 Es NORMAL

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 12


MANUAL BA SIC STATA

3) HISTOGRAMA: Se compara la curva de normalidad con la del histograma, si son


parecidas quiere decir que es normal. Para ellos utilizamos el comando: hist variable,
norm.

Ejemplo: hist edad, norm

La curva de normalidad es similar, es posible que sea normal.

4) Shapiro wilk: Es la prueba ms utilizada y definitiva para hallar normalidad. Para ello
utilizamos el comando swilk variable obtenindose un valor P.
- Si P es >0,05 = NORMAL
- SI P es <0.05 = NO NORMAL

Ejemplo: swilk edad

P = 0.00680 Es NO NORMAL

NOTA: La media, desviacin estndar, mediana y rangos se obtienen a partir del comando sum
variable, detail

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 13


MANUAL BA SIC STATA

Ejemplo:

Media = 47.04215 Desviacin estndar = 15.51631

Mediana = 47 Rango = min. 18 mx. 89

VII. Anlisis Bivariado

<20% : Paramtrica : Chi2


Categrica - Categrica Valores Esperados

>20% : No Paramtrica: Exacta de Fisher

NORMAL: T de Student
Categrica - Normalidad de la
Cuantitativa cuantitativa
NO NORMAL: Suma de
rangos de
Wilcoxon o U de Manh-Whitney

Si ambas son NORMALES: CORRELACIN


Cuantitativa -
NORMALIDAD
Cuantitativa
Si al menos una es NO NORMAL:
SPEARMAN

Depende el tipo de variables que queremos cruzar, donde se calcular un valor P, siendo
significativo si es <0,05.

A) CATEGRICA CATEGRICA: De acuerdo a los valores esperados se utilizar pruebas


paramtricas y no paramtricas
Valores esperados:

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 14


MANUAL BA SIC STATA

o Chi2 (PARAMTRICA): Se utiliza chi2 si no ms del 20% de los valores esperados es


menor e igual que cinco (05).
o Exacta de Fisher (NO PARAMTRICA): Se utiliza Fisher cuando ms del 20% de los
valores esperados son menores e igual a cinco (05).
Para ver los valores esperados se utiliza el comando tab variable_independiente
variable_dependiente , exp
Ejemplo: tab sex edo_civil, exp

Cada seccin representa el 10% del total (100%)

Los valores esperados (1.1)(0.5)(5.0)(0.9)(0.5) son menores o igual a cinco (05), esto quiere
decir que el 50% de los valores esperados son menores o igual a cinco, por lo tanto se utiliza
una la prueba No Paramtrica de Exacta de Fisher.

Chi2: Para utilizar la prueba paramtrica de Chi2 cruzaremos dos variables en una tabla y
seguido de una coma aadimos chi2.

Ejemplo: tab sex aprobo, chi2

El valor P es de 0.042 y es menor que 0.05, esto quiere decir que es significativo. En el ejemplo
se interpreta que existe diferencia estadsticamente significativa entre aprobar y el sexo.

OJO: no sabemos cul es esa diferencia estadsticamente significativo; es decir, no se puede


afirmar si ser varn o mujer te permite aprobar o desaprobar.

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 15


MANUAL BA SIC STATA

Exacta de Fisher: Para utilizar la prueba NO paramtrica de Exacta de Fisher cruzaremos


dos variables en una tabla y seguido de una coma aadimos exact.

Ejemplo: tab sex aprobo, exact

El valor P es de 0.044 y es menor que 0.05, esto quiere decir que es significativo y se interpreta
igual que chi2.

NOTA: Se recomienda usar tablas de 2 x 2 para poder facilitar el anlisis estadstico.

B) CATEGRICA CUANTITATIVA: Para evaluar se necesita saber la NORMALIDAD de la


variable cuantitativa.
- Si es normal, se utilizar la prueba de T-student
- Si no es normal, se utilizar la prueba de Suma de Rangos de Wilcoxon o tambin llamada
U de Mann-Whitney
T-student: Utilizamos el comando ttest var_cuant, by(var_categ)
Ejemplo: ttest edad, by(aprobo)

El
valor P es 0.1644 y es mayor que 0.05, esto quiere decir que es NO significativo.

Suma de rangos de Wilcoxon o U de Mann-Whitney: Utilizamos el comando ranksum


var_cuant, by(var_categ)
Ejemplo: ranksum edad, by(aprobo)

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 16


MANUAL BA SIC STATA

El valor P es 0.0675 y es mayor que 0.05, esto quiere decir que es NO significativo.

C) CUANTITATIVA CUANTITATIVA: Para evaluar se necesita saber la NORMALIDAD de ambas


variables:
- Si ambas son normales: Utilizar correlacin
- Si almenos una es NO normal: Utilizar Spearman
Correlacin: Utilizaremos el comando pwcorr var_cuant1 var_cuant2, sig

Ejemplo: pwcorr nota edad, sig

El valor p es 0.1164 y es mayor que 0.05, esto quiere decir que es NO significativo.

NOTA: El signo del dato 0.0415, indica si la correlacin es positiva o negativa. En el ejemplo es
positivo y quiere decir que a mayor edad mayor nota. Si fuese negativo: a mayor edad menor
nota.

Spearman: Utilizaremos el comando


spearman var_cuant1 var_cuant2
Ejemplo: spearman nota edad

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 17


MANUAL BA SIC STATA

El valor P es 0.0474 y es menor que


0.05, esto quiere decir que es significativo

NOTA: Las pruebas chi2, exacta de ficher, t-student, U de mann-whitney, correlacin y


spearman solor sirven para calcular el valor P y ver si hay asociacin, pero no explica cul es
esa asociacin (si es mayor o menor, si es factor de riesgo o protector, etc). Para ello se utiliza
valores de asociacin o estadsticos de asociacin: RP, OR, OR, RR, HR.

D) Medidas de Asociacin:
RP: Razn de prevalencias: Estudios Transversales Analticos
OR: Odds Ratio o razn de momios: Estudios de Casos y Controles
RR: Razn de riesgos o riesgo relativo o razn de incidencia: Estudios Cohorte y
Experimentales
HR: Hassar ratio: Estudios en un punto en el tiempo, Longitudinales.

Para las medidas de asociacin se utiliza el mismo comando para todos, y se interpreta de
acuerdo al tipo de estudio.

- El estadstico que utilizaremos va de acuerdo a la variable principal, la dependiente.

Ejemplo

La variable principal es: aprob (si / no), la cual es categrica.

Se puede aplicar REGRESIN LOGSTICA O MODELOS LINEALES GENERALIZADOS (GML). Ambas


son las ms utilizadas para medir asociacin.

REGRESIN LOGSTICA: Se utiliza si la variable de inters es menor del 10%


MODELOS LINEALES GENERALIZADOS: Si la variable de inters es mayor del 10%, cuando
una frecuencia es ms del 10% (en el ejemplo, si la variable si es mayor que 10% el
resultado que de d no es el adecuado porque sobreestima el valor real).

tab aprobo:

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 18


MANUAL BA SIC STATA

La variable de inters (SI)


representa el 12.85%, esto es mayor que el 10% y por lo tanto se usar GML.

REGRESIN LOGSTICA: En el ejemplo suponiendo que la variable de inters es menor


del 10%, utilizamos el comando logistic var_deinteres var

logistic aprobo sex:

El Odds Ratio obtenido es de 1.370235 y se puede interpretar de tres formas:

Mujeres: 1 Hombres: 0 Si aprob: 1 No aprob: 0

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 19


MANUAL BA SIC STATA

Primera: Las mujeres tienen 1,37 mayor prevalencia de haber aprobado a comparacin de los
hombres.

Segunda: Las mujeres tienen 0,37 veces ms la prevalencia de haber aprobado a comparacin
de los hombres.

Tercera: Las mujeres tienen el 37% ms prevalencia de haber aprobado a comparacin de los
hombres.

Modelos Lineales Generalizados (GLM): Para entender GLM diremos que la regresin
logstica es como un individuo y el GLM es como una familia de regresiones logsticas.
En otras palabras, GLM es una familia especializada para hacer logstica/estadstica. Las
familias son:

FAMILIA GAUSSIAN: Se usa cuando las variables principales son numricas.

FAMILIA INVERSE GAUSSIAN: Se usa cuando las variables principales son nmero inversos.

FAMILIA BINOMIAL /BERNOLLI: Se usa cuando las variables principales son categricas.

FAMILIA POISSON: Se usa cuando la variable principal es categrica pero se utiliza en casos raros.

Las familias ms utilizadas son Binomial y Poisson.

Familia Binomial: Utilizamos el comando:

glm var_dependiente/categorica var_por_analisar, fam(binomial) link(log) eform nolog

El efor nolog, sirvepara evitar ver logaritmos.

Ejemplo:

glm aprobo sex, fam(binomial) link(log) eform nolog

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 20


MANUAL BA SIC STATA

Se interpreta igual a la regresin logstica.

Familia Poisson: Utilizamos el comando:

glm var_dependiente/categorica var_por_analisar, fam(poisson) link(log) eform nolog

Ejemplo:

glm aprobo sex, fam(poisson) link(log) eform nolog

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 21


MANUAL BA SIC STATA

Se interpreta igual a la regresin logstica.

NOTA: Cuando la variable por analizar tiene ms de dos categoras, por ejemplo la variable
estado civil tiene las categoras: soltero (0), casado (1), viudo (2) y divorciado (3). Siendo la
variable de inters aprob, para ello se utiliza se utiliza el comando:

xi:glm var_dependiente/categorica i.var_por_analisar, fam(binomial) link(log) eform nolog

Colocar antes de todo el comando xi y antes de la variable de varias categoras i.

Ejemplo: xi:glm aprob i.edo_civil, fam(binomial) link(log) eform nolog

El estado civil tiene


cuatro categoras y en anlisis lo compara contra el 0 (soltero).

NOTA:

Comando robust: Sirve para ajustar la muestra cuando la poblacin es muy grande.

Comando cluster: Sirve para ajustar el resultado en caso se haya obtenido la muestra de
diferentes sub_muestras. Por ejemplo si se encuest a nueve universidades diferentes.

glm aprobo ros_auxilios, fam(binomial) link(log) eform nolog robust cluster(univ)

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 22


MANUAL BA SIC STATA

VIII. Anlisis Multivariado:


Primero se toma a las variables que resultaron significativas en el anlisis bivariado.
Por ejemplo: Semestre (semestre), llevar el curso de primero auxilios (ros_auxilios),
llevar el curso de inyectables (inyectables) y llevar el curso de RCP previamente
(rcp_previo).
Segundo se aplica el comando:

glm aprobo semestre ros_auxilios inyectables rcp_previo, fam(binomial) link(log) eform


nolog robust cluster(univ)

SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 23


MANUAL BA SIC STATA

Se obtendrn los OR de cada variable y cada una se interpreta.

Ejemplo: Los que recibieron el curso de RCP previamente tienen 3,08 mayor prevalencia de
haber aprobado a comparacin de los que no recibieron el curso de RCP, ajustado al semestre,
recibir el curso de primero auxilios, recibir el curso de inyectables y por cluster de universidad.

GRACIAS
PIURA
SCIEDAD CIENTIFICA DE ESTUDIANTES DE MEDICINA VERITAS P gin 24