Beruflich Dokumente
Kultur Dokumente
Escuela de Ingeniera
2.
3.
4.
5.
Tabla 1.-
Tabla 2.-
Tabla 3.-
Observaciones:
1. Aquellas variables en cuya moda aparece * son variables multimodales
con muchos valores, lo que hace poco prctico incluirlos en esta tabla.
Esto nos habla de que estamos en presencia de variables con mucha
dispersin en los datos. Sin embargo, en el anlisis de cada variable se
adjuntarn.
2. Por orden y practicidad, las tablas con los percentiles de cada variable se
adjuntan al final del informe.
Temperaturas en enero:
La media de esta variable es cercana a 33,8F; su mediana es 31F y sus
modas son 24 y 30, por lo que las temperaturas ms comunes en el mes de enero
son 24F y 30F.
En los tems de posicin podemos observar que la temperatura mnima
registrada es de 12F, mientras que la mxima fue de 67F. Haciendo un smil con
las medidas de centro, podemos inferir a priori que los datos estn distribuidos de
manera tal que presentan una leve inclinacin a las temperaturas menores a la
media, lo que es corroborado por la informacin que nos entregan los cuartiles, ya
que el cuartil 1 nos indica que el 25% de los datos toma valores iguales o menores
a 27F; el cuartil 2 indica que el 50% de los datos toma valores menores a 31F y
el cuartil 3 indica que el 75% de los datos toma valores hasta 39,5F.
Las medidas de dispersin nos indican que la varianza para las temperaturas
registradas en enero es alrededor de 103,01 y su desviacin estndar es de 10,15;
por lo que los datos de la temperatura ambiental tienden a alejarse 10,15F de la
media de la temperatura para este perodo. En tanto, el coeficiente de variacin
toma un valor aproximado de 0,3; lo que nos indica que los datos no presentan una
gran dispersin.
Por ltimo, el valor de Skewness, que es una medida de asimetra de la
muestra alrededor de la media, de los datos es 0,9659; lo que nos dice que la
muestra presenta una asimetra hacia la derecha, lo que es confirmado por el
hecho de que la media sea mayor a la mediana. Adems, la Kurtosis -medida de
achatamiento- de la muestra es 0,907; lo que nos indica que los datos presentan
un comportamiento leptocrtico, es decir, son alargados alrededor de la media.
Temperaturas en julio:
La media de las temperaturas registradas en julio es cercana a 74,4F; su
mediana es 74F y su moda es 72F, por lo que las temperaturas ms comunes en
el mes de enero son 72F.
En los tems de posicin podemos observar que la temperatura mnima
registrada es de 63F, mientras que la mxima fue de 85F. Haciendo un smil con
las medidas de centro, podemos inferir a priori que los datos estn distribuidos de
manera normal, lo que es corroborado por la informacin que nos entregan los
cuartiles, ya que el cuartil 1 nos indica que el 25% de los datos toma valores
iguales o menores a 72F; el cuartil 2 indica que el 50% de los datos toma valores
menores a 31F y el cuartil 3 indica que el 75% de los datos toma valores hasta
77F.
Las medidas de dispersin nos indican que la varianza para los datos es
alrededor de 21,18 y su desviacin estndar es de 4,6; por lo que los datos de la
temperatura ambiental tienden a alejarse 4,6F de la media de la temperatura para
este perodo. En tanto, el coeficiente de variacin toma un valor de 0,062; lo que
nos indica que los datos no presentan una gran dispersin en torno a la media.
Por ltimo, el valor de Skewness de los datos es 0,0632; lo que nos dice que
la muestra es prcticamente simtrica, lo que es confirmado por el hecho de que la
media sea casi igual a la mediana de los datos. Adems, la Kurtosis de la muestra
es -0,1578; lo que nos indica que los datos presentan un comportamiento
levemente platicrtico, es decir, son achatados.
Humedad:
La media de la humedad medida es cercana al 57,75%; su mediana es 57% y
su moda es 56%. Que estos tres valores tengan tanta cercana, nos indica a priori
que los datos toman una distribucin normal.
En los tems de posicin podemos observar que la humedad mnima
registrada es de 38%, mientras que la mxima fue de 73%. Haciendo un smil con
las medidas de centro, podemos inferir a priori que los datos estn distribuidos de
manera que hay una concentracin de datos de humedad hacia valores altos, lo
que es corroborado por la informacin que nos entregan los cuartiles, donde el
cuartil 1 nos indica que el 25% de los datos toman valores iguales o menores a
55.5%; el cuartil 2 indica que el 50% de los datos toma valores menores a 57% y el
cuartil 3 indica que el 75% de los datos toma valores hasta 60%.
Las medidas de dispersin, en tanto, nos indican que la varianza para la
muestra es de alrededor de 28,95 y su desviacin estndar es de 5,38; por lo que
los datos de la humedad ambiental tienden a alejarse 5,38% de la media. En tanto,
el coeficiente de variacin toma un valor de 0,0932; lo que nos indica que los datos
no presentan una gran dispersin en torno a la media.
Por ltimo, el valor de Skewness de los datos es 0,1959; lo que nos dice que
la muestra es prcticamente simtrica, pero con una pequea tendencia hacia la
derecha, lo que es confirmado por el hecho de que la media sea casi igual a la
mediana de los datos. Adems, la Kurtosis de la muestra es 3,6520; lo que nos
los cuartiles, donde el primer cuartil nos indica que el 25% de los datos toman
valores iguales o menores a 899,395; el segundo, que el 50% de los datos toma
valores menores a 946,19 y el tercero indica que el 75% de los datos tasa de
mortalidad toma valores de hasta 984,12.
Las medidas de dispersin, en tanto, nos indican que la varianza para la
muestra es de alrededor de 3896,423 y su desviacin estndar es de 62,42; por lo
que los datos de la humedad ambiental tienden a alejarse 62,42 de la media.
Mientras que el coeficiente de variacin toma un valor de 0,0663; lo que nos indica
que los datos no presentan una gran dispersin en torno a la media.
Por ltimo, el valor de Skewness de los datos es 0,0629; lo que nos dice que
la muestra es prcticamente simtrica, pero con una mnima tendencia hacia la
derecha, lo que es confirmado por el hecho de que la media sea casi igual a la
mediana de los datos. Sumado a esto, la Kurtosis de la muestra es -0,0495; lo que
nos indica que los datos de la tasa de mortalidad presentan un comportamiento
levemente platicrtico.
Poblacin total:
La media demogrfica es cercana 1.438.37 habitantes y su mediana es de
914.427 habitantes. Al igual que en el caso anterior, estos datos presentan
demasiadas modas, algunas de ellas se presentan a contnuacin.
nos indica que estos datos tienen una tendencia hacia la derecha, lo que es
confirmado por la informacin entregada por los cuartiles. A esto se suma la
Kurtosis de la muestra, que es 8,2747; lo que nos indica que los datos presentan
un comportamiento altamente leptocrtico.
Poblacin por hogar:
La media de las poblacin por hogar es cercana a 3,25 personas; su mediana
es 3,27 y la moda son 3,21 y 3,32 personas. Esto nos habla, a priori, de un
comportamiento relativamente simtrico en torno a la media.
En los tems de posicin podemos observar que el valor mnimo de
habitantes por hogar registrado es de 2,65; mientras que el mximo es de 3,53.
Haciendo la conexin con las medidas de centro, podemos inferir a priori que los
datos estn distribuidos de manera relativamente normal, pero contrastado con la
informacin que nos entregan los cuartiles podramos decir que hay una leve
desviacin hacia la izquierda, ya que el cuartil 1 nos indica que el 25% de los datos
toma valores iguales o menores a 3,21; el cuartil 2 indica que el 50% de los datos
toma valores menores a 3,27 y el cuartil 3 indica que el 75% de los datos toma
valores de hasta 3,36.
Las medidas de dispersin nos indican que la varianza para los datos es
alrededor de 0,0335 y su desviacin estndar es de 0,1829; por lo que los datos de
la temperatura ambiental tienden a alejarse en 0,1829 personas de la media de los
habitantes por hogar. En tanto, el coeficiente de variacin toma un valor de 0,0563;
lo que nos indica que los datos no presentan una gran dispersin en torno a la
media.
Por ltimo, el valor de Skewness de los datos es -1,6032; lo que nos dice los
datos efectivamente presentan una asimetra hacia la izquierda y corroboran la
informacin inferida de las medidas de posicin. Adems, la Kurtosis de la muestra
es 3,1184; lo que nos indica que los datos presentan un comportamiento
leptocrtico.
Ingresos medios:
La media de los ingresos medios anuales es US$33.246,661; su mediana es
US$32.452 y, al igual que casos anteriores, es una variable multimodal. A
continuacin, se presentan algunas de ellas:
un smil con las medidas de centro, podemos inferir a priori que los datos estn
distribuidos de manera relativamente normal, lo que es apoyado por la informacin
que nos entregan los cuartiles, ya que el primer cuartil nos indica que el 25% de los
datos toma valores iguales o menores a US$30.004,5; el segundo cuartil indica
que el 50% de los datos toma valores menores a US$32.452 y el tercer cuartil
indica que el 75% de los datos toma valores hasta US$35.496.
Las medidas de dispersin nos indican que la varianza para los datos es casi
de 20.008.579 y su desviacin estndar es poco mayor a 4.473; por lo que los
datos de los ingresos medios anuales tienden a alejarse US$4.473 de la media de
los ingresos. En tanto, el coeficiente de variacin toma un valor de 0,1345; lo que
nos indica que los datos presentan una leve dispersin en torno a la media.
Por ltimo, el valor de Skewness de los datos es 1,2191; lo que nos dice que
la muestra presenta asimetra hacia la derecha, lo que es confirmado por la
distribucin que muestran los cuartiles. Sumado a esto, la Kurtosis de la muestra
es 1,6983; lo que nos indica que los datos presentan un comportamiento
leptocrtico, o con una aglomeracin en torno a la media.
Niveles de hidrocarburos:
La media en los niveles de hidrocarburos es cercana al 38,5 Ppm; su
mediana es 15Ppm y la moda es de 6 Ppm. Estos valores nos indicant, a priori,
que los datos presentan una dispersion considerable.
Las medidas de posicin nos informan que la cantidad mnima de
hidrocarburos presentes en el ambiente es de 1 Ppm, mientras que el mximo es
de 648 Ppm. Haciendo un smil con las medidas de centro, podemos inferir
nuevamente que los datos estn distribuidos de manera que la distribucin es
dispersa; hecho respaldado por la informacin que nos entregan los cuartiles, en
que el cuartil 1 nos indica que el 25% de los datos toman valores iguales o
menores a 7 Ppm; el cuartil 2 indica que el 50% de los datos toma valores menores
a 15 Ppm y el cuartil 3 indica que el 75% de los datos toma valores hasta 30,5
Ppm.
Las medidas de dispersin, en tanto, nos indican que la varianza para la
muestra es de alrededor de 8581,94 y su desviacin estndar es de 92,64; por lo
que los datos de los niveles de hidrocarburos presentes en el ambiente tienden a
alejarse 92,64 Ppm de la media. A su vez, el coeficiente de variacin es 2,4078; lo
que nos indica que los datos presentan gran dispersin en torno a la media.
Finalmente, el valor de Skewness de los datos es 5,2732; que nos indica que
estos datos tienen una gran tendencia hacia valores reducidos. A esto se suma la
Kurtosis de la muestra, que es 30,0754; lo que nos indica que los datos presentan
un comportamiento altamente leptocrtico.
Niveles de xidos de nitrgeno:
La media del nivel de xido de nitrgeno presente en el aire 22,96 Ppm; la
mediana es 9 Ppm y la moda es 4 Ppm. Esto nos habla, a priori, de un
comportamiento disperse en torno a la media de la muestra.
En los tems de posicin podemos observar que el valor mnimo de este
contaminante registrado es de 1 Ppm; mientras que el mximo es de 319 Ppm.
Haciendo la conexin con las medidas de centro, podemos inferir a priori que los
datos estn distribuidos de manera dispersa y con una asimetra hacia la derecha,
ya que el primer cuartil indica que el 25% de los datos toma valores iguales o
menores a 4 Ppm; el cuartil 2 indica que el 50% de los datos toma valores menores
a 9 Ppm y el cuartil 3 indica que el 75% de los datos toma valores de hasta 24,5
Ppm.
Las medidas de dispersin nos indican que la varianza para los datos es
alrededor de 2177,69 y la desviacin estndar es de 46,67; por lo que los datos de
la temperatura ambiental tienden a alejarse en 46,67 personas de la media de el
nivel de xidos de nitrgenos presente en el aire. En tanto, el coeficiente de
variacin toma un valor de 2,0319; lo que reafirma la hiptesis de que los datos
presentan dispersin en torno a la media.
Por ltimo, el valor de Skewness de los datos es 4,8685; lo que nos dice los
datos efectivamente presentan gran asimetra hacia la derecha y corroboran la
informacin inferida de las medidas de posicin. Adems, la Kurtosis de la muestra
es 26,2062; lo que nos indica que los datos presentan un comportamiento
altamente leptocrtico.
Niveles de xidos de azufre:
La media de el nivel de este contaminante es cercana a 54,66 Ppm; la
mediana es 32 Ppm y la moda es 1 Ppm. Estos valores nos hablan de que la
muetra es bastante dispersa y relativamente uniforme en su distribucin.
En las medidas de posicin podemos observar que la concentracin mnima
es de 1 Ppm, mientras que la mxima es de 278 Ppm. Haciendo la conexin las
medidas de centro, podemos inferir nuevamente que los datos estn distribuidos
de manera dispersa, hecho respaldado por la informacin que nos entregan los
cuartiles, dado que el primer cuartil indica que el 25% de los datos toman valores
iguales o menores a 13 Ppm; el segundo, que el 50% de los datos toma valores
menores o iguales a 32 Ppm y el tercero indica que el 75% de los datos toma
valores hasta 70 Ppm. Podemos notar adems que la distribucin presenta una
asimetra hacia la derecha.
Las medidas de dispersin, en tanto, nos indican que la varianza para la
muestra es de alrededor de 4038,81 y su desviacin estndar es de 63,55; por lo
que los datos del nivel de concentracin de este contaminante tienden a
dispersarse 63,55 Ppm de la media. En tanto, el coeficiente de variacin es 1,1627;
lo que nos indica que los datos presentan dispersin en torno a la media.
Finalmente, el valor de Skewness de los datos es 1,8022; que confirma que
estos datos tienen una tendencia hacia la derecha, tesis expuesta anteriormente. A
esto se suma la Kurtosis de la muestra, que es 2,8894; lo que nos indica que los
datos presentan un comportamiento leptocrtico.
10
Punto segundo:
En esta fase del informe, se presentan los histogramas y diagramas de caja
de cada variable. En ellos, podemos ver que se materializan los resultados
mostrados en el estudio estadstico.
11
12
13
14
Punto tercero:
En este tem, se analiza la posible relacin estadstica entre la mortalidad
observada y los datos de la concentracin de los tres agentes qumicos estudiados
y medidos. Para esto, graficaremos la dependencia entre cada contaminante y la
mortalidad junto a una lnea de tendencia entre ambos, que nos dar una idea del
grado de asociacin entre las variables.
A continuacin, se presentan los grficos junto a un breve anlisis.
Resulta directo, e incluso obvio, notar que no se aprecia una relacin directa
entre la concentracin de hidrocarburos en el ambiente y la tasa de mortalidad.
Este hecho es confirmado por la pendiente de la regresin, que al ser negativa
descarta la posibilidad de una asociacin de dependencia entre las variables.
15
A diferencia de los otros dos contaminantes, en este caso podemos notar que
las variables concentracin de xidos de azufre y tasa de mortalidad s parecen
tener cierta dependencia. En el grfico podemos notar que la dispersin en torno a
la recta de regresin es mucho menor que los casos anteriores. Finalmente, la
pendiente positiva de la recta apoya la tesis de que habra evidencia suficiente
para establecer un nexo entre los niveles de este contaminante y la tasa de
mortalidad.
16
Punto cuarto:
En este apartado, resulta de inters analizar el comportamiento de las
concentraciones de los tres contaminantes en las ciudades de Ohio y New York.
Para llevar adelante este cometido, se aplicaron filtros a la base de datos
proporcionada, con la finalidad de poder hacer grficos de caja de cada variable. A
continuacin, se presentan dichas grficas, junto a la situacin del contaminante a
nivel nacional y un anlisis de la situacin.
Contaminantes en Ohio:
17
18
Nuevamente, New York tiene razones para ser optimistas frente a los niveles
de contaminacin. Si bien las medias son similares en ambos contextos, la
dispersin de los datos centrales de la muestra en New York es menor a la
nacional, al igual que los peaks de contaminacin por xidos de nitrgeno -que
alcanzan alrededor de la mitad que el nivel nacional-.
19
Punto quinto:
En este ltimo apartado del estudio estadstico de los datos, se busca ajustar
alguna de las distribuciones tericas estudiadas en clase a los datos entregados.
En particular, se busca el modelo que mejor ajuste a los datos relativos a la
poblacin por hogar.
Para esto, se ha estudiado el ajuste de seis distribuciones tericas. Ellas son:
exponencial trasladada, normal, log-normal, Weibull, logstico y log-logstico. A
continuacin, se presentan grficos de dispersin, histogramas con lnea de
densidad y salidas entregadas por el programa estadstico R para cada ajuste.
Ajuste exponencial trasladado:
Figura 32 y 33: Ajuste exponencial trasladado a los datos de poblacin por hogar.
20
Ajuste normal:
Figuras 34 y 35: Ajuste normal para los datos de poblacin por hogar.
21
Ajuste log-normal:
Figuras 36 y 37: Ajuste log-normal para los datos de poblacin por hogar.
22
Ajuste Weibull:
Figuras 38 y 39: Ajuste Weibull para los datos de poblacin por hogar.
23
Figuras 40 y 41: Ajuste logstico para los datos de poblacin por hogar.
24
Figuras 42 y 43: Ajuste log-logstico para los datos de poblacin por hogar.
25