Sie sind auf Seite 1von 13

ANALYTICS: CONCEPTOS BASICOS

Marco E. Nevado, Ph.D

CONTRIBUCION DE LA PRIMERA PROMOCION DE AGRONOMIA AMADOR AMICO RAMOS AL


COMMEMORAR 50 ANIVERSARIO DE EGRESADOS DE LA FACULTAD DE AGRONOMIA DE LA
UNIVERSIDAD NACIONAL DE PIURA
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

Contents

CAPITULO 1: ANALISIS DE DATOS ................................................................................................................. 2


CAPITULO 2: EVALUACION DEL COMPORTAMIENTO DE VARIABLES ........................................................... 3
CAPITULO 3: VARIABLE RESPUESTA DICOTOMICA ....................................................................................... 5
CAPITULO 4: CONCEPTOS BASICOS DE REGRESION LOGISTICA .................................................................... 6
CAPITULO 5: REGRESION LOGISTICA USANDO SAS ...................................................................................... 9
CAPITULO 6: APLICACIN DE REGRESION LOGISTICA................................................................................. 12

CAPITULO 1: ANALISIS DE DATOS

1. El investigador crea base de datos donde variables se usan para explicar el objetivo de la
investigacin:
Como se identifican los problemas en la calidad y cantidad de datos?
Que problemas ha observado en su base de datos?
Existe relacin entre variables?
Como se explica el tipo de relacin?
Por qu es importante explicar la relacin de variables?
Si existe relacin entre variables, que tipo de variables se pueden identificar?
Son todas las variables importantes para explicar una variable dependiente?
2. Cuando dos variables estn relacionadas se dice que las variables estn correlacionadas. Por lo tanto
discutir:
Cul es el concepto de correlacin?
Existe dependencia entre variables cuando se analiza correlacin?
Usando su base de datos, explicar el concepto de correlacin entre dos variables
3. Existe un tema adicional en el anlisis de correlacin que llama tendencia que es la forma en que
dos variables se mueven conjuntamente
Usando su base de datos, explique la tendencia de dos variables
4. Cuando se habla de correlacin normalmente se habla de tendencia la cual puede ser positiva o
negativa, lineal o no lineal
5. Si usted puede cuantificar el poder de asociacin y la direccin de la relacin, usted est en la
posicin de predecir una variable usando el conocimiento de la otra variable
Usando su base de datos, explique un ejemplo que permita visualizar estos conceptos

2
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

6. Por razones estadsticas: el proceso que se usa para estimar el poder la asociacin se llama
Anlisis de Correlacin; pero otro proceso estrechamente relacionado que se usa para predecir
una variable usando otra variable se llama Anlisis de Regresin
7. Analytics usa frecuentemente tcnicas basadas en correlacin y regresin.
8. La tcnica tradicional de regresin no es la mejor alternativa para explicar la dependencia entre
ciertas variables que son de inters en el campo de analytics
9. Se puede usar la tcnica de regresin lineal para el caso que la variable respuesta (dependiente)
toma valores dicotmicos (0, 1; resistente, susceptible; parmetro presente o ausente; etc.)?. En
este caso la regresin lineal no se puede usar por que no se cumplen con suposiciones bsicas del
anlisis de regresin
10. Para estos casos Analytics usa otra tcnica de regresin llamada Regresin Logstica. Regresin
Logstica requiere sofisticados procesos y suposiciones estadsticas
11. OBJETIVO: Revisar conceptos relacionados al anlisis de datos, uso de tcnicas de regresin,
suposiciones bsicas para el anlisis de variables, y aplicacin de tcnicas a los proyectos de
investigacin

CAPITULO 2: EVALUACION DEL COMPORTAMIENTO DE VARIABLES

1. Suponer que usted ha obtenido datos de 2 variables que representan inters en el objetivo de su
investigacin
2. Para evaluar la relacin entre 2 variables es muy importante crear un grfico para mostrar
visualmente la relacin
3. Excel permite fcilmente crear grficos y es una de los software ms populares.
4. Practica: Crear grafico para explicar la relacin entre 2 variables:
Usar Excel Capitulo 2 Figura 2.1
Seleccionar columnas A y B incluyendo solamente los datos
Click Insert
Click Scatter
Click Scatter Only Markers
Finalizar grafico incluyendo ttulos, nombre de variables, y tendencia
5. Figura 2.1 describe una positiva y moderada relacin entre las variables produccin y venta. Notar
que algunos puntos estn distantes de la tendencia y debe analizarse la razn de este resultado
6. Se considera moderada por que se observa cierta variabilidad. Diferente respuesta se observa si la
venta es ms contante. Como ejemplo de mejor relacin observar la Figura 2.2. Notar que en este
caso, la Figura 2.2 muestra los datos ms cerca de la lnea de respuesta. La Figura 2.3 muestra el
caso en que no hay relacin entre las variables. Los valores del coeficiente de correlacin van de -1 a
1. -1 significa perfecta correlacin negativa; 0 significa no correlacin; 1 significa perfecta
correlacin positiva.
7. CONCLUSION: Se han usado palabras como moderada, mejor para describir la relacin.
Analytics sugiere minimizar la subjetividad y maximizar la cuantificacin de los resultados y sobre

3
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

todo la interpretacin de los mismos. El proceso standard para cuantificar la relacin entre dos
variables requiere estimar el Coeficiente de Correlacin de Pearson.
8. Coeficiente de Correlacin de PEARSON: En la Figura 2.4 se han copiado las columnas A, B, y C en las
columnas E, F, y G. Excel denomina las columnas A C como Lista y a las columnas E G como
Tabla.
9. El coeficiente de correlacin se calcula con la frmula:
=CORREL(B2:B101,C2:C101)
=PEARSON(B2:B101,C2:C101)
10. Excel permite usar las funciones estadsticas CORREL y PEARSON
11. Como se puede cambiar de la asociacin a la dependencia (estimacin). Si el coeficiente de
correlacin es r y el coeficiente de regresin es:

= ( )

La Figura 2.5 muestra los clculos del coeficiente de regresin y permite entender como la
correlacin est relacionada con la regresin
El coeficiente de regresin se calcula con la funcin LINEST(). En la Figura 2.6:
Seleccionar las celdas E2 y F2 escribir la formula =LINEST(C2:C101,B2:B101) resultados en
E2=Coeficiente de Regresin; F2=Intercepto. Despus de escribir la formula, mantener
presionado Ctrl y Shift y luego presionar Enter para obtener los resultados
Otra forma de estimar parmetros de regresin en Figura 2.6:
Seleccionar las celdas E12:F16
Escribir la frmula: =LINEST(C2:C101,B2:B101,,TRUE)
Descripcin de los estimadores:
E12 = Coeficiente F12 = Intercepto
E13 = SE del Coeficiente F13 = SE del Intercepto
E14 = R2 F14 = SE Estimado
E15 = Razn de F F15 = Grados de Libertad del Residuo
E16 = SS de Regresin F16 = SS Residual

12. ANALISIS DE REGRESION


Excel ejecuta el anlisis de regresin de una manera muy simple pero efectiva y precisa de acuerdo a
los pasos siguientes:
Seleccionar Figura 2.7
En Excel click Data click Data Analysis
Seleccionar Regression click OK
Seleccionar la variable Y=Venta (C1:C101)
Seleccionar la variable X=Produccin (B1:B101)
Seleccionar Labels
Seleccionar Output Range E3
Seleccionar Residuals Residual Plot Line Fit Plots click OK
Figura 2.7 muestra los resultados del anlisis de regresin
13. INTERPRETACION DE RESULTADOS DEL ANALISIS DE REGRESION

4
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

MULTIPLE R: Este es la correlacin entre las variables independientes y la variable de inters.


Cuando la correlacin es entre dos variables el termino es R
R SQUARE: Es un concepto mayormente relacionado al anlisis de regresin y se refiere, en
trminos generales, cuanto de la variancia total se explica por la variancia de la variable
respuesta. En otros trminos, entender si el modelo efectivamente explica la variable respuesta.
ADJUSTED R SQUARE: La idea es estimar el valor de R2 en el caso de que el modelo de regresin
se aplica a diferente muestra de la misma poblacin. Este concepto se relaciona a cuan estable
es R2. La frmula de Adjusted R2 es:
Adjusted R2 = 1 (1 R2)[(N 1)(N K 1)]
Dnde: N es el nmero de observaciones y K es el nmero de variables independientes
STANDARD ERROR: Es la desviacin standard de los residuales: la diferencia entre el valor
predicho por el modelo y el valor actual de la variable dependiente. Se estima dividiendo la
Suma de Cuadrados del Error por los Grados de Libertad del mismo.
ANOVA TABLE: Descomposicin de la variancia total

CAPITULO 3: VARIABLE RESPUESTA DICOTOMICA

1. Si la variable respuesta tiene solamente dos valores, la regresin simple no tiene aplicacin.
Ejemplo: resistencia a una enfermedad, dao de insecto, rendimiento mayor de, etc.
2. Si la variable respuesta tiene solamente dos valores, la regresin se denomina Regresin Logstica
para respuesta dicotmica
3. Comparar las suposiciones del anlisis de Regresin Simple versus Regresin Logstica: identificar
importantes diferencias
4. Suponga que se busca analizar la relacin entre el costo de produccin durante dos aos
consecutivos. Usted tiene una muestra de 20 observaciones y aplica un anlisis de regresin. Los
valores observados del costo estn en las columnas A y B de la Figura 3.1. Calcular el Valor
Predicho en la columna D. Usted puede usar Data Analysis Regression; o
=TREND(A2:A21,B2:B21) (Ctrl-Shift)-Enter
5. Crear Grafica entre Valor Predicho y Residual como se observa en Figura 3.1. Discutir resultados
6. Los valores en la columna E representan la diferencia entre los valores predichos del segundo ao y
los valores observados del mismo ao. Los valores de la columna E representan los residuales
(preferencia llamarlos residuales para evitar el concepto negativo de error).
7. Es muy conveniente analizar los residuales y uno de los anlisis ms sugeridos es comparar los
residuales con los valores predichos. Si la regresin explica la variabilidad en la variable
dependiente, la distribucin de los residuales se asemeja a una distribucin aleatoria como la
Grfica de la Figura 3.1
8. En la Figura 3.2 calcular: prediccin de clasificacin, residual, y crear Grafica. En este caso la Grafica
muestra una distribucin de residuales muy diferente la cual corresponde a una variable
dependiente dicotmica. Por qu el valor predicho de una variable dicotmica resulta en una grfica
muy diferente a la Figura 3.1?. Se explica por la forma como se calcula el valor residual:

5
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

Residual = Actual Predicho


En este caso particular la variable dependiente tiene solamente dos valores: 1, 0. Entonces los
resultados son:
Residual = 1 Predicho
Residual = 0 Predicho
Los resultados se observan en la grfica de la Figura 3.2.
Para el caso de una variable dependiente dicotmica, los residuales no se distribuyen normalmente.
Por lo tanto el principio de Homocedasticidad o igual variancia no se cumple.
9. En las secciones anteriores se han revisado tres principios fundamentales cuando la variable
respuesta es dicotmica:
Los residuales no exhiben variabilidad equivalente a travs de diferentes valores de la variable
predicha
Los residuales no tienen una distribucin normal
La variable dependiente tiene un rango de valores, en teora, positivos y negativos
10. PROBABILIDADES Y ODDS
Existe una relacin muy estrecha entre probabilidad y odds cuando hay dos posibles resultados
como es el caso de la variable dictoma. Odds Ratio o simplemente Odds es la razn de dos
probabilidades complementarias. La ecuacin general de Odds es:
Odds = P/(1-P) donde P es la probabilidad del evento. Por lo tanto si se conoce el odds, la
probabilidad es:
P = Odds/(1 + Odds)

CAPITULO 4: CONCEPTOS BASICOS DE REGRESION LOGISTICA

1. La Figura 4.1 muestra los datos colectados por un investigador representando la presencia o
ausencia de una caracterstica.
2. Cada observacin esta codificada como 0 no tiene la caracterstica, 1 si tiene la caracterstica.
Los valores se muestran en la columna A
3. Las columnas B, C, y D representan variables relacionadas a la presencia o ausencia de la
caracterstica.
4. La variable a predecir es una variable dicotmica y por lo tanto la regresin lineal simple o mltiple
no pueden usarse. Este es el caso de la aplicacin de Regresin Logstica
5. CALCULO DE LOGIT, ODDS, PROBABILITY y LOG LIKELIHOOD
En la Figura 4.2: el valor inicial de Intercept es 1; el valor inicial de los coeficientes de regresin
logstica, Beta, para VARX1, VARX2, y VARX3 es 0
El modelo queda definido por:
Logit (p) = Intercept + VarX1Beta*B8 + VarX2Beta*C8 + VarX3Beta*D8
En la Figura 4.3 se calcula:
Odds: logits se convierten a Odds usando la formula Odds = EXP(Logit)
La frmula de Odds es: Odds = P /(1 P) donde P = probabilidad; por lo tanto

6
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

Probabilidad (VarY=1) = Odds /(1 + Odds)


Probabilidad (Vary 1) est dado por formula en Excel. Ver H8
Log Likelihood = LN(H8)
En la Figura 4.3 la Sum Log Likelihood es la suma de I8 hasta I43
6. OPTIMIZACION DE ESTIMADORES: USING EXCEL SOLVER
Con el formato de la Figura 4.3(1) , seleccionar la celda H2 que contiene la Sum Log Likelihood
que se trata de minimizar
Click en Excel Data
Click Solver and Analysis: ver Illustration 1
Determinar Set Objective: H2. Click el boton Max para maximizar la celda seleccionada y llevar
cerca de cero.
Click By Changing Variable Cells: Seleccionar A3:D3, estas celdas aparecen en la ventana
mencionada
Verificar que Make Unconstrained Variables Non-Negative no est seleccionado
Elegir GRG Nonlinear en Select a Solving Method
En Options y GRG Nonlinear seleccionar Central y Require Bounds on Variables. Click
OK
Click Solve
Keep Solver Solution click OK

7
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

Ilustracin 1 Solver para Optimizacin de Estimadores de Regresin Logstica

Modelo Final
Logit (Odds) = -20.000501 + 0.091115*VARX1 + 0.126686*VARX2 + 2.584307*VARX3

8
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

CAPITULO 5: REGRESION LOGISTICA USANDO SAS

1. SAS PROGRAM
SAS PROGRAM FOR LOGISTIC REGRESSION: CLASS EXAMPLE
DATA CLASS;
INPUT VARY VARX1 VARX2 VARX3;
DATALINES;
0 79.015 50 1
0 79.897 50 1
0 82.818 47 1
0 82.210 49 1
0 87.656 42 1
0 86.013 47 1
0 85.032 49 1
0 82.914 55 1
0 86.110 51 1
0 62.224 52 2
0 86.864 52 1
0 91.353 55 1
1 71.891 49 2
0 98.812 54 1
1 98.217 55 1
0 99.678 53 1
0 86.922 44 2
0 80.151 54 2
0 107.135 53 1
0 106.304 56 1
1 85.361 57 2
0 93.090 51 2
0 93.830 53 2
1 120.087 51 1
1 95.087 55 2
1 117.836 59 1
1 101.788 47 2
1 106.250 54 2
0 105.401 56 2
1 109.552 51 2
1 108.887 58 2
1 120.134 53 2
0 129.462 46 1
1 138.012 41 2
1 133.963 48 1
1 136.386 43 2
;
RUN;
PROC PRINT DATA=CLASS;
RUN;

PROC LOGISTIC DATA=CLASS DESCENDING;


MODEL VARY=VARX1 VARX2 VARX3 / EXPB RISKLIMITS;
OUTPUT OUT=PREDICT PRED=PROB;
RUN;
PROC PRINT DATA=PREDICT;
TITLE 'CLASS EXAMPLE';
RUN;

9
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

2. SAS RESULTS
The LOGISTIC Procedure

Model Information
Data Set WORK.CLASS
Response Variable VARY
Number of Response Levels 2
Model binary logit
Optimization Technique Fisher's scoring

Number of Observations Read 36


Number of Observations Used 36

Response Profile
Ordered Total
Value VARY Frequency
11 14
20 22

Model Convergence Status


Convergence criterion (GCONV=1E-8) satisfied.

Model Fit Statistics


Intercept Intercept
Only and
Criterion Covariates
AIC 50.114 36.32
SC 51.697 42.654
-2 Log L 48.114 28.32

Testing Global Null Hypothesis: BETA=0


Pr > Chi
Test Chi-Square DF Sq
Likelihood Ratio 19.7936 3 0.0002
Score 16.3532 3 0.001
Wald 9.6032 3 0.0223

Analysis of Maximum Likelihood Estimates

Standard Wald
Chi- Pr > Chi
Parameter DF Estimate Error Square Sq Exp(Est)
Intercept 1 -20.0005 8.5956 5.4141 0.02 0
VARX1 1 0.0911 0.0326 7.8148 0.0052 1.095
VARX2 1 0.1267 0.1208 1.1002 0.2942 1.135
VARX3 1 2.5843 1.0574 5.9733 0.0145 13.254

10
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

3. SAS PROBABILIDADES
CLASS EXAMPLE
Obs VARY VARX1 VARX2 VARX3 _LEVEL_ PROB
1 0 79.015 50 1 1 0.02018
2 0 79.897 50 1 1 0.02184
3 0 82.818 47 1 1 0.01953
4 0 82.210 49 1 1 0.02371
5 0 87.656 42 1 1 0.01617
6 0 86.013 47 1 1 0.02596
7 0 85.032 49 1 1 0.03045
8 0 82.914 55 1 1 0.05246
9 0 86.110 51 1 1 0.04273
10 0 62.224 52 2 1 0.07079
11 0 86.864 52 1 1 0.05147
12 0 91.353 55 1 1 0.10671
13 1 71.891 49 2 1 0.11166
14 0 98.812 54 1 1 0.17195
15 1 98.217 55 1 1 0.18251
16 0 99.678 53 1 1 0.16525
17 0 86.922 44 2 1 0.20787
18 0 80.151 54 2 1 0.33450
19 0 107.135 53 1 1 0.28085
20 0 106.304 56 1 1 0.34618
21 1 85.361 57 2 1 0.54162
22 0 93.090 51 2 1 0.52772
23 0 93.830 53 2 1 0.60630
24 1 120.087 51 1 1 0.49663
25 1 95.087 55 2 1 0.68991
26 1 117.836 59 1 1 0.68888
27 1 101.788 47 2 1 0.59791
28 1 106.250 54 2 1 0.84424
29 0 105.401 56 2 1 0.86601
30 1 109.552 51 2 1 0.83354
31 1 108.887 58 2 1 0.91962
32 1 120.134 53 2 1 0.94420
33 0 129.462 46 1 1 0.55164
34 1 138.012 41 2 1 0.94966
35 1 133.963 48 1 1 0.70491
36 1 136.386 43 2 1 0.95445

11
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

CAPITULO 6: APLICACIN DE REGRESION LOGISTICA


Ejemplo: Evaluacin de Enfermedad en Mango

1. SAS PROGRAM FOR LOGISTIC REGRESSION

DATA MANGO;
INPUT TREAT TEMP DISEASE COUNT;
DATALINES;
0 0 0 11
0 1 0 10
1 0 0 9
1 1 0 6
0 0 1 4
0 1 1 8
1 0 1 9
1 1 1 21
;
/* VARIABLE DISEASE IS THE RESPONSE VARIABLE (Y): TAKES THE VALUE 1
IF DISEASE IS "NO PRESENT" AND 0 OTHERWISE.
VARIABLE TREAT TAKES VALUE 0 = "NO TREATMNENT", 1 = TREATMENT
VARIABLE TEMP TAKES VALUE 0 = "NO TEMPERATURE", ENVIRONMENT, 1 =
REGRIGIRATION
*/
PROC LOGISTIC DATA=MANGO;
FREQ COUNT;
MODEL DISEASE(EVENT='1')=TREAT TEMP /SCALE=NONE AGGREGATE;
OUTPUT OUT=PREDICT PRED=PROB;
RUN;
PROC PRINT DATA=PREDICT;
RUN;

12
Marco E. Nevado, Ph.D.: ANALYTICS CONCEPTOS BASICOS

2. SAS RESULTS
The LOGISTIC Procedure

Model Information
Data Set WORK.MANGO
Response Variable DISEASE
Number of Response Levels 2
Frequency Variable COUNT
Model binary logit
Optimization Technique Fisher's scoring
Number of Observations Read 8
Number of Observations Used 8
Sum of Frequencies Read 78
Sum of Frequencies Used 78

Response Profile
Ordered Total
Value DISEASE Frequency
1 0 36
2 1 42

Probability modeled is DISEASE=1.


Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.

Deviance and Pearson Goodness-of-Fit Statistics


Criterion Value DF Value/DF Pr > ChiSq
Deviance 0.2141 1 0.2141 0.6436
Pearson 0.2155 1 0.2155 0.6425

Number of unique profiles: 4


Model Fit Statistics
Intercept Intercept
Only and
Criterion Covariates
AIC 109.669 101.900
SC 112.026 108.970
-2 Log L 107.669 95.900

Testing Global Null Hypothesis: BETA=0


Test Chi-Square DF Pr > ChiSq
Likelihood Ratio 11.769 2 0.003
Score 11.241 2 0.004
Wald 10.064 2 0.007

Analysis of Maximum Likelihood Estimates


Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept 1 -1.175 0.485 5.857 0.016
TREAT 1 1.277 0.498 6.575 0.010
TEMP 1 1.055 0.498 4.484 0.034

Obs TREAT TEMP DISEASE COUNT _LEVEL_ PROB


1 0 0 0 11 1 0.2360
2 0 1 0 10 1 0.4700
3 1 0 0 9 1 0.5256
4 1 1 0 6 1 0.7608
5 0 0 1 4 1 0.2360
6 0 1 1 8 1 0.4700
7 1 0 1 9 1 0.5256
8 1 1 1 21 1 0.7608

13

Das könnte Ihnen auch gefallen