Beruflich Dokumente
Kultur Dokumente
Contents
1. El investigador crea base de datos donde variables se usan para explicar el objetivo de la
investigacin:
Como se identifican los problemas en la calidad y cantidad de datos?
Que problemas ha observado en su base de datos?
Existe relacin entre variables?
Como se explica el tipo de relacin?
Por qu es importante explicar la relacin de variables?
Si existe relacin entre variables, que tipo de variables se pueden identificar?
Son todas las variables importantes para explicar una variable dependiente?
2. Cuando dos variables estn relacionadas se dice que las variables estn correlacionadas. Por lo tanto
discutir:
Cul es el concepto de correlacin?
Existe dependencia entre variables cuando se analiza correlacin?
Usando su base de datos, explicar el concepto de correlacin entre dos variables
3. Existe un tema adicional en el anlisis de correlacin que llama tendencia que es la forma en que
dos variables se mueven conjuntamente
Usando su base de datos, explique la tendencia de dos variables
4. Cuando se habla de correlacin normalmente se habla de tendencia la cual puede ser positiva o
negativa, lineal o no lineal
5. Si usted puede cuantificar el poder de asociacin y la direccin de la relacin, usted est en la
posicin de predecir una variable usando el conocimiento de la otra variable
Usando su base de datos, explique un ejemplo que permita visualizar estos conceptos
2
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS
6. Por razones estadsticas: el proceso que se usa para estimar el poder la asociacin se llama
Anlisis de Correlacin; pero otro proceso estrechamente relacionado que se usa para predecir
una variable usando otra variable se llama Anlisis de Regresin
7. Analytics usa frecuentemente tcnicas basadas en correlacin y regresin.
8. La tcnica tradicional de regresin no es la mejor alternativa para explicar la dependencia entre
ciertas variables que son de inters en el campo de analytics
9. Se puede usar la tcnica de regresin lineal para el caso que la variable respuesta (dependiente)
toma valores dicotmicos (0, 1; resistente, susceptible; parmetro presente o ausente; etc.)?. En
este caso la regresin lineal no se puede usar por que no se cumplen con suposiciones bsicas del
anlisis de regresin
10. Para estos casos Analytics usa otra tcnica de regresin llamada Regresin Logstica. Regresin
Logstica requiere sofisticados procesos y suposiciones estadsticas
11. OBJETIVO: Revisar conceptos relacionados al anlisis de datos, uso de tcnicas de regresin,
suposiciones bsicas para el anlisis de variables, y aplicacin de tcnicas a los proyectos de
investigacin
1. Suponer que usted ha obtenido datos de 2 variables que representan inters en el objetivo de su
investigacin
2. Para evaluar la relacin entre 2 variables es muy importante crear un grfico para mostrar
visualmente la relacin
3. Excel permite fcilmente crear grficos y es una de los software ms populares.
4. Practica: Crear grafico para explicar la relacin entre 2 variables:
Usar Excel Capitulo 2 Figura 2.1
Seleccionar columnas A y B incluyendo solamente los datos
Click Insert
Click Scatter
Click Scatter Only Markers
Finalizar grafico incluyendo ttulos, nombre de variables, y tendencia
5. Figura 2.1 describe una positiva y moderada relacin entre las variables produccin y venta. Notar
que algunos puntos estn distantes de la tendencia y debe analizarse la razn de este resultado
6. Se considera moderada por que se observa cierta variabilidad. Diferente respuesta se observa si la
venta es ms contante. Como ejemplo de mejor relacin observar la Figura 2.2. Notar que en este
caso, la Figura 2.2 muestra los datos ms cerca de la lnea de respuesta. La Figura 2.3 muestra el
caso en que no hay relacin entre las variables. Los valores del coeficiente de correlacin van de -1 a
1. -1 significa perfecta correlacin negativa; 0 significa no correlacin; 1 significa perfecta
correlacin positiva.
7. CONCLUSION: Se han usado palabras como moderada, mejor para describir la relacin.
Analytics sugiere minimizar la subjetividad y maximizar la cuantificacin de los resultados y sobre
3
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS
todo la interpretacin de los mismos. El proceso standard para cuantificar la relacin entre dos
variables requiere estimar el Coeficiente de Correlacin de Pearson.
8. Coeficiente de Correlacin de PEARSON: En la Figura 2.4 se han copiado las columnas A, B, y C en las
columnas E, F, y G. Excel denomina las columnas A C como Lista y a las columnas E G como
Tabla.
9. El coeficiente de correlacin se calcula con la frmula:
=CORREL(B2:B101,C2:C101)
=PEARSON(B2:B101,C2:C101)
10. Excel permite usar las funciones estadsticas CORREL y PEARSON
11. Como se puede cambiar de la asociacin a la dependencia (estimacin). Si el coeficiente de
correlacin es r y el coeficiente de regresin es:
= ( )
La Figura 2.5 muestra los clculos del coeficiente de regresin y permite entender como la
correlacin est relacionada con la regresin
El coeficiente de regresin se calcula con la funcin LINEST(). En la Figura 2.6:
Seleccionar las celdas E2 y F2 escribir la formula =LINEST(C2:C101,B2:B101) resultados en
E2=Coeficiente de Regresin; F2=Intercepto. Despus de escribir la formula, mantener
presionado Ctrl y Shift y luego presionar Enter para obtener los resultados
Otra forma de estimar parmetros de regresin en Figura 2.6:
Seleccionar las celdas E12:F16
Escribir la frmula: =LINEST(C2:C101,B2:B101,,TRUE)
Descripcin de los estimadores:
E12 = Coeficiente F12 = Intercepto
E13 = SE del Coeficiente F13 = SE del Intercepto
E14 = R2 F14 = SE Estimado
E15 = Razn de F F15 = Grados de Libertad del Residuo
E16 = SS de Regresin F16 = SS Residual
4
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS
1. Si la variable respuesta tiene solamente dos valores, la regresin simple no tiene aplicacin.
Ejemplo: resistencia a una enfermedad, dao de insecto, rendimiento mayor de, etc.
2. Si la variable respuesta tiene solamente dos valores, la regresin se denomina Regresin Logstica
para respuesta dicotmica
3. Comparar las suposiciones del anlisis de Regresin Simple versus Regresin Logstica: identificar
importantes diferencias
4. Suponga que se busca analizar la relacin entre el costo de produccin durante dos aos
consecutivos. Usted tiene una muestra de 20 observaciones y aplica un anlisis de regresin. Los
valores observados del costo estn en las columnas A y B de la Figura 3.1. Calcular el Valor
Predicho en la columna D. Usted puede usar Data Analysis Regression; o
=TREND(A2:A21,B2:B21) (Ctrl-Shift)-Enter
5. Crear Grafica entre Valor Predicho y Residual como se observa en Figura 3.1. Discutir resultados
6. Los valores en la columna E representan la diferencia entre los valores predichos del segundo ao y
los valores observados del mismo ao. Los valores de la columna E representan los residuales
(preferencia llamarlos residuales para evitar el concepto negativo de error).
7. Es muy conveniente analizar los residuales y uno de los anlisis ms sugeridos es comparar los
residuales con los valores predichos. Si la regresin explica la variabilidad en la variable
dependiente, la distribucin de los residuales se asemeja a una distribucin aleatoria como la
Grfica de la Figura 3.1
8. En la Figura 3.2 calcular: prediccin de clasificacin, residual, y crear Grafica. En este caso la Grafica
muestra una distribucin de residuales muy diferente la cual corresponde a una variable
dependiente dicotmica. Por qu el valor predicho de una variable dicotmica resulta en una grfica
muy diferente a la Figura 3.1?. Se explica por la forma como se calcula el valor residual:
5
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS
1. La Figura 4.1 muestra los datos colectados por un investigador representando la presencia o
ausencia de una caracterstica.
2. Cada observacin esta codificada como 0 no tiene la caracterstica, 1 si tiene la caracterstica.
Los valores se muestran en la columna A
3. Las columnas B, C, y D representan variables relacionadas a la presencia o ausencia de la
caracterstica.
4. La variable a predecir es una variable dicotmica y por lo tanto la regresin lineal simple o mltiple
no pueden usarse. Este es el caso de la aplicacin de Regresin Logstica
5. CALCULO DE LOGIT, ODDS, PROBABILITY y LOG LIKELIHOOD
En la Figura 4.2: el valor inicial de Intercept es 1; el valor inicial de los coeficientes de regresin
logstica, Beta, para VARX1, VARX2, y VARX3 es 0
El modelo queda definido por:
Logit (p) = Intercept + VarX1Beta*B8 + VarX2Beta*C8 + VarX3Beta*D8
En la Figura 4.3 se calcula:
Odds: logits se convierten a Odds usando la formula Odds = EXP(Logit)
La frmula de Odds es: Odds = P /(1 P) donde P = probabilidad; por lo tanto
6
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS
7
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS
Modelo Final
Logit (Odds) = -20.000501 + 0.091115*VARX1 + 0.126686*VARX2 + 2.584307*VARX3
8
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS
1. SAS PROGRAM
SAS PROGRAM FOR LOGISTIC REGRESSION: CLASS EXAMPLE
DATA CLASS;
INPUT VARY VARX1 VARX2 VARX3;
DATALINES;
0 79.015 50 1
0 79.897 50 1
0 82.818 47 1
0 82.210 49 1
0 87.656 42 1
0 86.013 47 1
0 85.032 49 1
0 82.914 55 1
0 86.110 51 1
0 62.224 52 2
0 86.864 52 1
0 91.353 55 1
1 71.891 49 2
0 98.812 54 1
1 98.217 55 1
0 99.678 53 1
0 86.922 44 2
0 80.151 54 2
0 107.135 53 1
0 106.304 56 1
1 85.361 57 2
0 93.090 51 2
0 93.830 53 2
1 120.087 51 1
1 95.087 55 2
1 117.836 59 1
1 101.788 47 2
1 106.250 54 2
0 105.401 56 2
1 109.552 51 2
1 108.887 58 2
1 120.134 53 2
0 129.462 46 1
1 138.012 41 2
1 133.963 48 1
1 136.386 43 2
;
RUN;
PROC PRINT DATA=CLASS;
RUN;
9
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS
2. SAS RESULTS
The LOGISTIC Procedure
Model Information
Data Set WORK.CLASS
Response Variable VARY
Number of Response Levels 2
Model binary logit
Optimization Technique Fisher's scoring
Response Profile
Ordered Total
Value VARY Frequency
11 14
20 22
Standard Wald
Chi- Pr > Chi
Parameter DF Estimate Error Square Sq Exp(Est)
Intercept 1 -20.0005 8.5956 5.4141 0.02 0
VARX1 1 0.0911 0.0326 7.8148 0.0052 1.095
VARX2 1 0.1267 0.1208 1.1002 0.2942 1.135
VARX3 1 2.5843 1.0574 5.9733 0.0145 13.254
10
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS
3. SAS PROBABILIDADES
CLASS EXAMPLE
Obs VARY VARX1 VARX2 VARX3 _LEVEL_ PROB
1 0 79.015 50 1 1 0.02018
2 0 79.897 50 1 1 0.02184
3 0 82.818 47 1 1 0.01953
4 0 82.210 49 1 1 0.02371
5 0 87.656 42 1 1 0.01617
6 0 86.013 47 1 1 0.02596
7 0 85.032 49 1 1 0.03045
8 0 82.914 55 1 1 0.05246
9 0 86.110 51 1 1 0.04273
10 0 62.224 52 2 1 0.07079
11 0 86.864 52 1 1 0.05147
12 0 91.353 55 1 1 0.10671
13 1 71.891 49 2 1 0.11166
14 0 98.812 54 1 1 0.17195
15 1 98.217 55 1 1 0.18251
16 0 99.678 53 1 1 0.16525
17 0 86.922 44 2 1 0.20787
18 0 80.151 54 2 1 0.33450
19 0 107.135 53 1 1 0.28085
20 0 106.304 56 1 1 0.34618
21 1 85.361 57 2 1 0.54162
22 0 93.090 51 2 1 0.52772
23 0 93.830 53 2 1 0.60630
24 1 120.087 51 1 1 0.49663
25 1 95.087 55 2 1 0.68991
26 1 117.836 59 1 1 0.68888
27 1 101.788 47 2 1 0.59791
28 1 106.250 54 2 1 0.84424
29 0 105.401 56 2 1 0.86601
30 1 109.552 51 2 1 0.83354
31 1 108.887 58 2 1 0.91962
32 1 120.134 53 2 1 0.94420
33 0 129.462 46 1 1 0.55164
34 1 138.012 41 2 1 0.94966
35 1 133.963 48 1 1 0.70491
36 1 136.386 43 2 1 0.95445
11
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS
DATA MANGO;
INPUT TREAT TEMP DISEASE COUNT;
DATALINES;
0 0 0 11
0 1 0 10
1 0 0 9
1 1 0 6
0 0 1 4
0 1 1 8
1 0 1 9
1 1 1 21
;
/* VARIABLE DISEASE IS THE RESPONSE VARIABLE (Y): TAKES THE VALUE 1
IF DISEASE IS "NO PRESENT" AND 0 OTHERWISE.
VARIABLE TREAT TAKES VALUE 0 = "NO TREATMNENT", 1 = TREATMENT
VARIABLE TEMP TAKES VALUE 0 = "NO TEMPERATURE", ENVIRONMENT, 1 =
REGRIGIRATION
*/
PROC LOGISTIC DATA=MANGO;
FREQ COUNT;
MODEL DISEASE(EVENT='1')=TREAT TEMP /SCALE=NONE AGGREGATE;
OUTPUT OUT=PREDICT PRED=PROB;
RUN;
PROC PRINT DATA=PREDICT;
RUN;
12
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS
2. SAS RESULTS
The LOGISTIC Procedure
Model Information
Data Set WORK.MANGO
Response Variable DISEASE
Number of Response Levels 2
Frequency Variable COUNT
Model binary logit
Optimization Technique Fisher's scoring
Number of Observations Read 8
Number of Observations Used 8
Sum of Frequencies Read 78
Sum of Frequencies Used 78
Response Profile
Ordered Total
Value DISEASE Frequency
1 0 36
2 1 42
13