Sie sind auf Seite 1von 52

ESTAD

ISTICA
Grado en CC. de la Alimentacion
Tema 1:
Analisis exploratorio de datos
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 1
Estructura del Tema 1
Tipos de variables
Distribucion de una variable
Representacion graca de la distribucion
Medidas numericas para resumir la distribuci on
Correlacion
Transformaciones: estandarizacion y transformacion
logartmica
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 2
Introduccion
Queremos estudiar una caracterstica o variable en una poblacion.
Ejemplos:
Contenido en grasa de una hamburguesa de una cierta marca
Cantidad de alb umina por litro de suero sanguneo de una persona
Longitud de los peces de una cierta especie en un lago
Marca de e-book preferida por un comprador
Porcentaje de una vitamina perdida al irradiar una fruta
A veces es imposible o demasiado caro observar la variable en toda
la poblacion (censo), as que se extrae una muestra. Llamamos
individuo o elemento a cada miembro de la poblacion o de la
muestra.
Objetivo de la Estadstica Descriptiva: Hacer una descripcion
sencilla (numerica o graca) de la informacion muestral.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 3
Poblacion: Conjunto de elementos objeto de estudio (ni nos
menores de 6 meses; personas con ndice de masa corporal superior
a 25; pi nas exportadas por la India; pepinos ecologicos producidos
en Andaluca; etc.).
Muestra: Subconjunto de la poblacion en el que se observa la
variable de interes.
Tama no muestral: Cardinal de la muestra (se suele denotar n).
Un conjunto de datos es el resultado de medir una o mas
variables en una muestra.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 4
Pregunta: Por que necesitamos de una muestra y no estudiamos
toda la poblacion (censo)?
1 En poblaciones innitas (o de tama no muy grande) es
materialmente imposible efectuar un censo.
2 Coste economico mas reducido.
3 Menor tiempo empleado.
4 En ocasiones los elementos muestreados se destruyen o
modican en el proceso. Por ejemplo, pruebas de airbag o de
armamento explosivo.
5 Precision: En muchos casos, la recogida de la informacion
muestral se puede realizar de forma mas able y controlada
que en el caso de datos de toda la poblacion.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 5
Clases importantes de variables estadsticas
Variables cualitativas
Son cualidades o atributos de los individuos. No son un n umero: no
podemos operar con sus valores.
Ejemplos:
Sexo de un individuo: hombre o mujer
Grado de reacciones secundarias a un tratamiento oncologico (alto,
medio, bajo)
Tiempo (soleado, lluvioso, parcialmente cubierto, ...) en una zona
A veces se asigna un n umero a cada una de las cualidades. Por ej.,
si la v. cualitativa es el sexo de un paciente, podemos asignar a
hombres el n umero 0 y a mujeres el n umero 1.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 6
Tenemos una muestra de tama no n: hemos observado n datos, que
agrupamos en K categoras o clases.
Ejemplo 1.1: Variable = Estado de una pieza de fruta recolectada
en una huerta
Categora= Perfecta, aceptable, pasada, verde, podrida K =
Llamamos frecuencia absoluta al n umero de frutas observados en
cada una de las categoras:
n
1
= 23, n
2
= 5, n
3
= 20, n
4
= 7, n
5
= 15 n =
La proporcion de datos observados en cada clase f
i
=
n
i
n
se
denomina frecuencia relativa. Observemos que siempre f
i
0 y
f
1
+ f
2
+ . . . + f
K
= 1.
f
1
= , f
2
= , f
3
= , f
4
= , f
5
= .
Representaciones gracas: diagrama de barras, diagrama de Pareto
y diagrama de sectores.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 7
Variables cuantitativas
Miden algo cuanticable en cada individuo. Toman valores
numericos. Las denotamos por X, Y, Z, ...
Si la variable cuantitativa solo puede tomar una cantidad nita o
numerable de valores entonces es una variable discreta.
Ejemplos: N umero de hijos de una familia, n umero de goles de un
equipo en cada partido, n umero de accesos diarios a una pagina
web.
Las variables continuas pueden tomar una cantidad innita no
numerable de valores.
Ejemplos: La estatura de una persona, el nivel de alcohol en
sangre de un individuo, el contenido en hierro de un mineral.
En la practica siempre hay un lmite de precision en el n umero de
dgitos con el que expresamos una variable continua.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 8
Descripcion graca de variables cuantitativas
Variables discretas: diagrama de barras
Ejemplo 1.2: Se realiza un examen tipo test con 5 preguntas a un
grupo de estudiantes.
N
o
respuestas
correctas
N
o
estudiantes (n
i
)
Frecuencia
relativa f
i
Frecuencia
acumulada F
i
0 3
1 11
2 9
3 20
4 5
5 2
n = 1
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 9
Respuestas
5 4 3 2 1 0
R
e
c
u
e
n
t
o
20
15
10
5
0
Pgina 1
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 10
Variables continuas: histograma
Se agrupan los datos en una serie de clases o intervalos A
1
, . . . , A
k
.
Calculamos la frecuencia absoluta n
i
de cada intervalo A
i
(n
o
de
observaciones en A
i
). Cada dato debe pertenecer a solo una clase.
Se representan los lmites de los intervalos sobre el eje de abscisas.
Luego se dibujan rectangulos cuya base es el intervalo y cuyo area
es la frecuencia absoluta de cada intervalo (n
i
).
En la practica, dadas unas observaciones, elegimos nosotros el
lmite inferior del primer intervalo y la amplitud.
Por ejemplo, se determina primero el rango de valores de los datos
(maximo - mnimo de las observaciones).
Luego se subdivide el rango en m intervalos iguales. Es habitual
tomar m

n, siendo n el n umero total de observaciones.


A veces se utiliza la frecuencia relativa f
i
en lugar de la frecuencia
absoluta n
i
. Entonces el area bajo el histograma es 1.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 11
Ejemplo 0 (contaminacion por mercurio en el pescado):
Mnimo = 0,11 Maximo = 3,60 Rango = 3,49
n = 171

n 13 Rango/

n 0, 27
CONC
4 3 2 1 0
F
r
e
c
u
e
n
c
i
a
50
40
30
20
10
0
Pgina 1
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 12
Aspectos a tener en cuenta para interpretar un histograma
Normalmente la base de todos los rectangulos es la misma por
lo que la altura es proporcional a la frecuencia.
Identicar si se han usado frecuencias absolutas o relativas.
Cuantas modas hay?
Hay alg un dato atpico en relacion al resto?
Es simetrica la distribucion?
En caso de asimetra, es asimetrica a la izquierda o a la
derecha
En torno a que valor aproximado estan centrados los datos?
Estan muy dispersos los datos en torno a este centro o muy
concentrados?
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 13
0
10
20
30
40
50
Distribucin simtrica unimodal
0
10
20
30
40
Distribucin simtrica bimodal
0
20
40
60
80
100
Distribucin asimtrica a la derecha
0
20
40
60
80
100
Distribucin asimtrica a la izquierda
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 14
La forma del histograma depende del n umero de intervalos:


1,00 2,00 3,00
CONC
0
25
50
75
R
e
c
u
e
n
t
o
1,00 2,00 3,00
CONC
10
20
30
40
50
R
e
c
u
e
n
t
o

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 15
Ejemplo 1.3 (arsenico en u nas):
En Karagas et al. (1996) se estudia el contenido en arsenico (en
p.p.m.) de las u nas de los pies como indicador de la presencia de
arsenico en el agua de bebida. La muestra esta formada por 21
libaneses que utilizaban pozos particulares (ilegales):
Edad
Sexo
(1=V, 2=M)
Uso en
bebida
Uso en
comida
As en agua As en u nas
44 2 5 5 .00087 .119
45 2 4 5 .00021 .118
44 1 5 5 0 .099
66 2 3 5 .00115 .118
37 1 2 5 0 .277
45 2 5 5 0 .358
47 1 5 5 .00013 .08
38 2 4 5 .00069 .158
41 2 3 2 .00039 .31
49 2 4 5 0 .105
72 2 5 5 0 .073
45 2 1 5 .046 .832
53 1 5 5 .0194 .517
86 2 5 5 .137 2.252
8 2 5 5 .0214 .851
32 2 5 5 .0175 .269
44 1 5 5 .0764 .433
63 2 5 5 0 .141
42 1 5 5 .0165 .275
62 1 5 5 .00012 .135
36 1 5 5 .0041 .175
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 16
Dibujar el histograma de la concentracion de arsenico en las u nas.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 17
Resumen numerico de datos cuantitativos
Medidas de centralizacion, posicion o localizacion
Informan acerca de la posicion alrededor de la cual se centran o
distribuyen los datos x
1
, . . . , x
n
(muestra aleatoria).
media muestral = x =
x
1
+ x
2
+ . . . + x
n
n
=

n
i =1
x
i
n
Ejemplo 1.3 (cont.):
Ejemplo 1.2 (cont.):
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 18
Posicion de la media en un histograma:
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 19
La mediana es el dato que ocupa el lugar central respecto a los
datos ordenados x
(1)
, x
(2)
, . . . , x
(n)
.
Si el tama no muestral es impar (n = 2m + 1), med = x
m+1
.
Ejemplo 1.3 (arsenico en u nas): Calcular la media y la mediana.
La mediana es mas robusta que la media pero hace un uso menos
eciente de la informacion contenida en los datos.
Pregunta: Cual es la relacion entre la simetra de una
distribucion y la posicion relativa entre la media y la mediana?
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 20
Si el tama no muestral es par (n = 2m), med =
x
m
+ x
m+1
2
.
Ejemplo 1.4: Contaminacion por metilmercurio (p.p.m.) en el
sushi de at un obtenido en 10 tiendas:
0,60 0,40 0,74 0,30 0,79 0,35 0,55 1,90 0,21 0,58
Calcular la media y la mediana.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 21
Medidas de dispersi on o variabilidad
Dispersion respecto a la media
La media es un valor representativo de la variable de interes en la
poblacion o en la muestra. Por tanto, es util para comparar
poblaciones o muestras entre s.
Sin embargo, lo bien o lo mal que la media represente a la muestra
depende de la dispersion de esta.
Si los datos estan agrupados cerca de la media, esta sera muy
representativa de la localizacion de los datos.
Por el contrario, si los datos estan muy dispersos, la media no
sera un buen representante de las observaciones.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 22
Ejemplo 1.5:
Nota obtenida
2 3 4 5 6 7 8 9 10
N
o
alumnos grupo A 0 0 0 40 60 0 0 0 0
N
o
alumnos grupo B 1 5 15 24 31 18 4 1 1
N
o
alumnos grupo C 6 12 14 18 24 9 3 5 9
Nota
10 9 8 7 6 5 4 3 2
F
r
e
c
u
e
n
c
i
a
60
50
40
30
20
10
0
Grupo A
Pgina 1
Nota
10 9 8 7 6 5 4 3 2
F
r
e
c
u
e
n
c
i
a
60
50
40
30
20
10
0
Grupo B
Pgina 1
Nota
10 9 8 7 6 5 4 3 2
F
r
e
c
u
e
n
c
i
a
60
50
40
30
20
10
0
Grupo C
Pgina 1
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 23
Podemos medir las discrepancias de los individuos respecto a la
media mediante las diferencias
x
1
x, x
2
x, . . . , x
n
x.
Desventaja: La suma de estas discrepancias es cero.
Por ello denimos las discrepancias de los individuos respecto a la
media como las diferencias al cuadrado
(x
1
x)
2
, (x
2
x)
2
, . . . , (x
n
x)
2
.
Cuanticamos la dispersion de la muestra x
1
, . . . , x
n
en torno a la
media mediante la varianza muestral
v
x
=
1
n
n

i =1
(x
i
x)
2
=
1
n
n

i =1
x
2
i
( x)
2
.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 24
Ejemplo 1.5 (notas en grupos A, B y C):
Ejemplo 1.4 (metilmercurio en sushi):
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 25
La cuasivarianza muestral es
s
2
=
1
n 1
n

i =1
(x
i
x)
2
=
n
n 1
v
x
.
Es lo que muchos programas estadsticos llaman varianza muestral.
Ejemplo 1.4 (metilmercurio en sushi):
Una medida mas conveniente de la dispersion es la desviacion
tpica, que se dene como la raz cuadrada de la varianza y se
expresa en las misma unidades que X y x:
Ejemplo 1.4:
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 26
Para comparar la dispersion de variables de magnitudes distintas a
veces se usa el coeciente de variacion CV =

v
x
x
. El CV no
depende de las unidades de medida de la variable X (es
adimensional). A mayor CV, menos representativa es la media x.
Ejemplo 1.3 (arsenico en u nas): Sabiendo que
21

i =1
x
i
= 0, 34186,
21

i =1
y
i
= 7, 695,
21

i =1
x
2
i
= 0, 02815,
21

i =1
y
2
i
= 7, 560,
calcular el CV del arsenico en el agua (X) y en las u nas (Y) y
comparar.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 27
Dispersion respecto a la mediana
Ordenamos las observaciones x
1
, x
2
, . . . , x
n
de menor a mayor:
x
(1)
, x
(2)
, . . . , x
(n)
.
Q
1
= Primer cuartil= La observacion x
(i )
que ocupa el lugar
n + 1
4
Q
2
= Mediana= La observacion x
(i )
que ocupa el lugar
2(n + 1)
4
Q
3
= Tercer cuartil= La observacion x
(i )
que ocupa el lugar
3(n + 1)
4
Cuando n + 1 no es m ultiplo de 4, los cuartiles se pueden calcular
por interpolacion lineal. En este caso el cuartil sera una media
ponderada de la observacion ordenada inmediatamente anterior e
inmediatamente posterior.
Pero no es la unica manera de calcular los cuartiles.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 28
Ejemplo 1.4 (metilmercurio en sushi):
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 29
De acuerdo con las anteriores deniciones, responde a las
siguientes cuestiones:
Que porcentaje de datos hay...
(a) ... entre Q
1
y Q
3
?
(b) ... a la izquierda de Q
1
?
(c) ... a la derecha de Q
3
?
(d) ... entre el mnimo y Q
3
?
Una descripcion util de un conjunto de datos viene dada por los
cinco n umeros siguientes:
Mnimo, Q
1
, Mediana, Q
3
, Maximo
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 30
El rango intercuartlico (RI) es la diferencia entre el primer y el
tercer cuartil: RI = Q
3
Q
1
.
Si separamos los datos ordenados en cuatro grupos del mismo
tama no, el RI mide la distancia entre los grupos mas extremos.
Para visualizar estas medidas de dispersion respecto a la mediana
se utiliza el diagrama de caja (box plot).
Para construir el diagrama de caja de la muestra, calculamos Q
1
,
Q
2
, Q
3
, RI y los lmites inferior y superior del diagrama
LI = La menor observacion en el intervalo
[Q
1
1,5 RI, Q
3
+ 1,5 RI]
LS = La mayor observacion en el mismo intervalo
Consideramos que un dato x
i
que se salga del intervalo [LI,LS] es
un dato atpico o outlier.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 31
Ejemplo 1.3 (arsenico en u nas):
Concentracin de As en uas
2,5
2,0
1,5
1,0
0,5
0,0
14
15
12
Pgina 1
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 32
Los diagramas de caja son especialmente utiles para comparar
varios conjuntos de datos.
Ejemplo 0 (contaminacion por mercurio en el pescado):

1,00 ,00
RIO
4,00
2,00
0,00
C
O
N
C
162
70
66

Concentracion del mercurio seg un el ro
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 33

15,00 14,00 13,00 12,00 11,00 10,00 9,00 8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 ,00
ESTACION
4,00
2,00
0,00
C
O
N
C
76
82
24
25
66
138
75
123

Concentracion de mercurio seg un la estacion
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 34
Relaciona cada histograma con su diagrama de cajas

1
0
1
2
3
4
5
6
7
0
1
2
3
4
5
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 35
El concepto de percentil o cuantil es una generalizacion del de
cuartil: Q
1
es el percentil 25 (cuantil 0.25 o 25 %), la mediana es el
percentil 50 y Q
3
es el percentil 75 (cuantil 0.75 o 75 %).
El percentil 100 p o cuantil p, con 0 < p < 1, es el punto que
deja a la izquierda una proporcion p de los individuos.
Si p n no es un n umero entero, entonces se interpola entre las
observaciones ordenadas que estan en la posicion p n y
p n +1, donde z denota el mayor entero menor o igual que z.
Ejemplo 1.3 (arsenico en u nas):
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 36
Estadstica descriptiva de dos variables (bivariante)
Ahora estamos interesados en dos variables estadsticas X e Y o
un vector bidimensional (X, Y) en cada individuo de una poblacion.
X x
1
, x
2
, . . . , x
n
Y y
1
, y
2
, . . . , y
n

(x
1
, y
1
), . . . , (x
n
, y
n
)
A partir de la informacion muestral deseamos encontrar una
relacion funcional aproximada entre Y y X: Y g(X). A g la
llamamos la funcion de regresion de Y sobre X.
Se comienza estudiando el diagrama de dispersion de Y frente a X.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 37
Ejemplo 1.6 (sabor del queso cheddar) (Moore y McCabe 1989,
Introduction to the Practice of Statistics):
A medida que el queso se a neja, se producen procesos qumicos
que determinan el sabor del producto nal. En 30 porciones de
queso cheddar curado se evaluo el sabor (Y) y se midio la
concentracion de acido lactico (X). La variable sabor resulta de la
combinacion de puntuaciones dadas por varios degustadores.
Caso 1 2 3 4 5 6 7 8 9 10
Sabor 12,3 20,9 39,0 47,9 5,6 25,9 37,3 21,9 18,1 21,0
Ac. Lactico 0,86 1,53 1,57 1,81 0,99 1,09 1,29 1,78 1,29 1,58
Caso 11 12 13 14 15 16 17 18 19 20
Sabor 34,9 57, 2 0,7 25,9 54,9 40,9 15,9 6,4 18,0 38,9
Ac. Lactico 1,68 1,90 1,06 1,30 1,52 1,74 1,16 1,49 1,63 1,99
Caso 21 22 23 24 25 26 27 28 29 30
Sabor 14,0 15,2 32,0 56,7 16,8 11,6 26,5 0,7 13,4 5,5
Ac. Lactico 1,15 1,33 1,44 2,01 1,31 1,46 1,72 1,25 1,08 1,25
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 38
cido lctico
2,2 2,0 1,8 1,6 1,4 1,2 1,0 0,8
S
a
b
o
r
60
50
40
30
20
10
0
Pgina 1
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 39
Interpretacion de un diagrama de dispersion:
Se observa alguna asociacion entre las variables?
Como es de estrecha la asociacion entre las variables?
Que forma tiene la asociacion entre variables (recta,
cuadratica, ...)?
Cual es la direccion de la asociacion entre las variables?
Hay alg un punto o coleccion de puntos que no siga el patron
general del resto?
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 40
El modelo mas sencillo es el de regresion lineal, en el que Y es
funcion lineal de X, es decir, g(x) = a + bx, recta de pendiente b
y ordenada en el origen a.
Covarianza muestral entre X e Y:
cov
x,y
=
1
n
n

i =1
(x
i
x)(y
i
y) =
1
n
n

i =1
x
i
y
i
x y
Depende de las unidades en que se midan x e y.
Ejemplo 1.6 (sabor del queso cheddar):
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 41
La recta de regresion de Y sobre X es la recta g(x) = a + bx que
minimiza el error cuadratico medio
ECM =
1
n
n

i =1
(y
i
a bx
i
)
2
.
b =
cov
x,y
v
x
a = y b x
Ejemplo 1.6 (sabor del queso cheddar):
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 42
cido lctico
2,2 2,0 1,8 1,6 1,4 1,2 1,0 0,8
S
a
b
o
r
60
50
40
30
20
10
0
Pgina 1
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 43
El coeciente de correlacion
r =
cov
x,y

v
x
v
y
mide el grado de relacion lineal entre X e Y.
Solo puede tomar valores entre -1 y 1.
No depende de las unidades (es adimensional).
Un valor de r cercano a 0 indica ausencia de relacion lineal.
3.2 3.4 3.6 3.8 4
1
0.8
0.6
0.4
0.2
0
x
y
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 44
r=1
xy
r=1
xyy
rprximoa1
xy
rprximoa1
xy
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 45
A menudo la relacion lineal g(x) = a + bx no sera la que mejor
describa la relacion entre X e Y, o simplemente no tendra sentido.
Ejemplo 1.7 (alcalinidad y mercurio en lagos): En 1990 y 1991
se tomaron muestras de percas y agua en 53 lagos de Florida para
estudiar los factores ambientales relacionados con la contaminacion
por mercurio de estos peces. Se midio, por ejemplo, la alcalinidad
del agua (mg CaCO
3
l
1
). El graco representa los valores medios
de alcalinidad frente a la concentracion media de mercurio (ppm)
para los 53 lagos.
0 20 40 60 80 100 120 140
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Alcalinidad
C
o
n
c
e
n
t
r
a
c
i

n

d
e

m
e
r
c
u
r
i
o
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 46
Ejemplo 1.7 (alcalinidad y mercurio en lagos):
Lago Alcalinidad Mercurio Lago Alcalinidad Mercurio
Alligator 5.9 1.23 Lochloosa 55.4 0.34
Annie 3.5 1.33 Louisa 3.9 0.84
Apopka 116.0 0.04 Miccasukee 5.5 0.50
Blue Cypress 39.4 0.44 Minneola 6.3 0.34
Brick 2.5 1.20 Monroe 67.0 0.28
Bryant 19.6 0.27 Newmans 28.8 0.34
Cherry 5.2 0.48 Ocean Pond 5.8 0.87
Crescent 71.4 0.19 Ocheese Pond 4.5 0.56
Deer Point 26.4 0.83 Okeechobee 119.1 0.17
Dias 4.8 0.81 Orange 25.4 0.18
Dorr 6.6 0.71 Panasokee 106.5 0.19
Down 16.5 0.50 Parker 53.0 0.04
Eaton 25.4 0.49 Placid 8.5 0.49
East Tohopekaliga 7.1 1.16 Puzzle 87.6 1.10
Farm-13 128.0 0.05 Rodman 114.0 0.16
George 83.7 0.15 Rousseau 97.5 0.10
Grin 108.5 0.19 Sampson 11.8 0.48
Harney 61.3 0.77 Shipp 66.5 0.21
Hart 6.4 1.08 Talquin 16.0 0.86
Hatchineha 31.0 0.98 Tarpon 5.0 0.52
Iamonia 7.5 0.63 Tohopekaliga 25.6 0.65
Istokpoga 17.3 0.56 Traord 81.5 0.27
Jackson 12.6 0.41 Trout 1.2 0.94
Josephine 7.0 0.73 Tsala Apopka 34.0 0.40
Kingsley 10.5 0.34 Weir 15.5 0.43
Kissimmee 30.0 0.59 Wildcat 17.3 0.25
Yale 71.8 0.27
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 47
Si modelizamos la relacion entre X e Y incorrectamente, nuestro
modelo no dara predicciones ables de valores desconocidos de Y
en funcion de valores conocidos de X.
Una solucion sencilla es transformar las variables Y y/o X
mediante una funcion no lineal (log x, x
2
, e
x
, . . . ) y calcular la
recta de regresion entre las variables transformadas.
Ejemplo 1.7 (alcalinidad y mercurio en lagos):
0 20 40 60 80 100 120 140
4
3
2
1
0
1
x
l
o
g
(
y
)
0 1 2 3 4 5
4
3
2
1
0
1
log(x)
l
o
g
(
y
)
0 0.2 0.4 0.6 0.8 1
4
3
2
1
0
1
1/x
l
o
g
(
y
)
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1/x
y
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 48
Ejemplo 1.7 (alcalinidad y mercurio en lagos):
Transformar una variable tiene efectos sobre su media, su varianza,
su simetra, ...
Mercurio
1,25 1,00 0,75 0,50 0,25 0,00
F
r
e
c
u
e
n
c
i
a
8
6
4
2
0

Media =0,53
Desviacin tpica =0,341
N =53
Pgina 1
LogMercurio
1 0 -1 -2 -3 -4
F
r
e
c
u
e
n
c
i
a
10
8
6
4
2
0

Media =-0,91
Desviacin tpica =0,839
N =53
Pgina 1
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 49
Ejemplo 1.8: Peso del cerebro (en g) en funcion del peso corporal
(en kg) para 62 especies de mamferos (Fuente: Allison &
Sacchetti 1976, Science)
0 2000 4000 6000 8000
0
1000
2000
3000
4000
5000
6000
Peso cuerpo (en kg)
P
e
s
o

c
e
r
e
b
r
o

(
e
n

g
)
Elefante africano
Elefante asitico
Humano
5 0 5 10
2
0
2
4
6
8
10
Log(Peso cuerpo)
L
o
g
(
P
e
s
o

c
e
r
e
b
r
o
)
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 50
Ejemplo 1.6 (sabor del queso cheddar): Analisis con SPSS
Varianza Desv. tp. Media Suma Mximo Mnimo Rango N
Sabor
c. Lactico
N vlido (segn lista) 30
,092 ,30349 1,4420 43,26 2,01 ,86 1,15 30
264,237 16,2554 24,533 736,0 57,2 ,7 56,5 30
Estadsticos descriptivos
Pgina 1
c. Lctico Sabor
Correlacin de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N
Correlacin de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N
Sabor
c. Lctico
30 30
,092 3,474
2,671 100,753
,000
1 ,704
**
30 30
3,474 264,237
100,753 7662,887
,000
,704
**
1
Correlaciones
**. La correlacin es significativa al nivel 0,01 (bilateral).
Pgina 1
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 51
Ejemplo 1.6 (sabor del queso cheddar): Analisis con SPSS
Regresin
Mtodo
Variables
eliminadas
Variables
introducidas
1 Introducir . Ac. Lactico
a
Modelo Modelo
Variables introducidas/eliminadas
b
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Sabor
Error tp. de la
estimacin
R cuadrado
corregida R cuadrado R
1 11,7450 ,478 ,496 ,704
a
Modelo Modelo
Resumen del modelo
a. Variables predictoras: (Constante), AcLactico
Sig. F
Media
cuadrtica gl
Suma de
cuadrados
Regresin
Residual
Total
1
29 7662,887
137,946 28 3862,489
,000
a
27,550 3800,398 1 3800,398
Modelo Modelo
ANOVA
b
a. Variables predictoras: (Constante), AcLactico
b. Variable dependiente: Sabor
Error tp. B Beta Sig. t

Coeficientes
tipificados Coeficientes no estandarizados
(Constante)
AcLactico
1
,000 5,249 ,704 7,186 37,720
,009 -2,822 10,582 -29,859
Modelo Modelo
Coeficientes
a
a. Variable dependiente: Sabor
Pgina 1
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 52

Das könnte Ihnen auch gefallen