Sie sind auf Seite 1von 9

FUNDACION UNIVERSITARIA LOS LIBERTADORES

ESTADISTICA APLICADA

ANALISIS DE CONGLOMERADOS

TUTOR: JUAN CARLOS RUBRICHE CONTRERAS

ALUMNO: LUIS FRANCISCO DE ARCE BULA

Observaciones de 24 alumnos del grado octavo de la Institución Educativa El Viajano,( Sah


agún –Córdoba, Julio de 2019) en cuanto a la incidencia de varios factores en las materi
as o asignaturas vistas por los alumnos durante el primer semestre del año 2019.
Las variables medidas en relación a las materias fueron:

Edad
Peso
Numero de hermanos
Frecuencia de pérdida
Horas dedicadas al estudio
Artefactos electrónicos usados
Nota más alta
Nota más baja
Cantidad personas con quien vives
Cantidad libros usados en promedio

DATOS INICIALES

alumnos9

Materias Edad Peso Horas est Artef elect Frec perdida Nota alta Num herm
1 Ed.Religiosa 13 40 1 0 1 4 1
2 Etica y valor 13 41 1 1 1 3 2
3 Historia 14 45 3 0 1 3 3
4 Geografia 12 39 0 0 0 4 2
5 Demografia 12 38 1 0 1 3 3
6 Dibujo 14 43 2 0 2 5 0
7 Artes plastic 15 44 4 0 2 3 1
8 Artes esce 15 46 3 1 2 4 2
9 Ed.fis y dep 13 41 1 0 2 3 0
10 Ten e inf 12 40 2 2 2 4 4
11 Agro 12 40 2 1 1 3 2
12 Conducta 16 48 3 1 0 3 3
13 Disciplina 14 45 1 0 1 5 5
14 Geometria 14 43 2 0 1 3 1
15 Estadistica 12 39 3 0 1 3 1
16 Biologia 13 40 0 1 1 3 0
17 Fisica 14 42 1 2 1 4 3
18 Quimica 15 46 2 3 2 3 3
19 Lect critica 13 41 4 2 2 3 4
20 Catedra paz 13 42 5 1 0 5 2
21 Ed sexual 12 41 3 1 2 3 1
22 Ed ambient 12 38 2 1 2 4 1
23 Matematicas 15 47 4 1 2 3 2
24 Prub saber 13 45 1 3 2 3 2
Can per viv Nota baja Can libros
1 3 1 1
2 4 2 2
3 5 1 3
4 3 2 2
5 2 1 3
6 4 2 1
7 3 2 2
8 3 2 1
9 4 1 2
10 3 2 1
11 2 1 2
12 3 2 0
13 4 1 0
14 5 2 3
15 2 1 1
16 3 1 2
17 4 2 3
18 3 2 1
19 4 1 3
20 5 2 2
21 2 1 1
22 5 2 2
23 4 1 1
24 3 2 2

MATERIAS VS VARIABLES

> View(alumnos9)
> alumnos9=as.data.frame(alumnos9)
> View(alumnos9)
> datos = alumnos9[,-c(1,12)]
> rownames(datos) = unclass(alumnos9$Materias)
> head(datos)
Edad Peso Horas est Artef elect Frec perdida Nota alta Num herm
Ed.Religiosa 13 40 1 0 1 4 1
Etica y valor 13 41 1 1 1 3 2
Historia 14 45 3 0 1 3 3
Geografia 12 39 0 0 0 4 2
Demografia 12 38 1 0 1 3 3
Dibujo 14 43 2 0 2 5 0
Can per viv Nota baja Can libros
Ed.Religiosa 3 1 1
Etica y valor 4 2 2
Historia 5 1 3
Geografia 3 2 2
Demografia 2 1 3
Dibujo 4 2 1

MATRIZ DE DISTANCIAS(algunas filas y columnas 5x5)

> # Calculamos la matriz de distancias


> distancia <- get_dist(datos, stand = TRUE, method = "euclidean")
> as.matrix(distancia)[1:5,1:5]
Ed.Religiosa Etica y valor Historia Geografia Demografia
Ed.Religiosa 0.000000 3.137807 4.377682 3.007683 3.357659
Etica y valor 3.137807 0.000000 3.556906 2.798543 3.563918
Historia 4.377682 3.556906 0.000000 5.086519 4.496884
Geografia 3.007683 2.798543 5.086519 0.000000 3.365449
Demografia 3.357659 3.563918 4.496884 3.365449 0.000000
> fviz_dist(distancia, gradient = list(low = "#00AFBB", mid = "white", high = "#FC4E07")
)

GRAFICO DE MATRIZ DE DISTANCIAS

OBSERVACIONES RELEVANTES:

Vemos en la parte inferior izquierda del grafico que existe una concentracion del color azul tenue, lo cual nos muestra que
las conglomerados(materias) por ejemplo Demografia esta cerca a Biologia,Educacion fisica,Estadistica,Agropecuarias en
cuanto a sus valores numericos (similares).Vemos ademas en la parte inferior derecha concentracion del color Naranja
tenue,los cual nos lleva a decir que existe distancia considerable entre Disciplina , Conducta en relacion a los
conglomerados Geometria,Estadistica,Educacion sexual, Agropecuarias,Quimica,Biologia,Lectura critica,Tecnologia e
informatica,Etica y valores, Historia,Geometria,Dibujo,Catedra de la paz(Disimilares)
GRAFICO DE SINGLE

(vecino mas cercano)

OBSERVACIONES RELEVANTES:

Primero que todo la grafica nos muestra la variedad de cluster que se pueden formar, lo cual nos lleva decir que los
conglomerados entre si , sus valores numericos asociados a las variables tienen cierta similitud.

Podemos observar que entre Agropecuaria y estadistica forman un cluster y su diferencia numerica es de 2,entre
Educacion sexual,Agropecuarias,Estadistica,Educacion reiligiosa,Educacion fisica forman otro cluster su distancia
numerica seria de 2,5 y un cluster mas extenso entre Bilogia,Educacion ambiental,Geografia,Historia,Geometria, Etica y
valores,Fisica,Dibujo, y Quimica su diferencia numerica sera de 3,5 entre los valores internos de las variables.
GRAFICO DE COMPLETE

(Vecino mas lejano)

OBSERVACIONES RELEVANTES:

Las distancias entre las materias (cluster) van desde 1 hasta 7. Un cluster entre conducta y Disciplina su distancia mas
lejana entre su valores internos es de 5,entre Agropecuarias y Estadistica su distancia mas lejana es de 2, otro cluster
formado por Agropecuarias,Estadistica,Educacion Religiosa y educacion fisica su distancia mas lejana es de 4. Esto nos
llevaria a rgumentar que entre los aglomerados (materias) existen valores distantes ,por lo cual podemos decir que
existen cluster disimilares.
GRAFICO DE AVERAGE

( Promedio)

OBSERVACIONES RELEVANTES:

A una distancia de 2,5 entre los promedios de los cluster se ubican la mayoria de los cluster, entre ellos Historia y
Geometria, Demografia,Educacion sexual,Agropecuaria, Estadistica
GRAFICO PARA EL METODO DE WARD

OBSEVACIONES RELEVANTES

Vemos que con el metodo de Ward nos resultan varios cluster y que las distancias entre ellos son mayores por lo cual nos
da idea de que las similutudes son menores por lo cual el numero de cluster deben ser menores.

NUMERO OPTIMO DE CLUSTER POR EL METODO DE MOJENA


De acuerdo a los dos graficos por la funcion mojena y su grafico podemos ver quel numero optimo de cluster par hacer
nuestras agrupaciones finales es de 4.

CARACTERIZACION DE LOS CLUSTER


## If you want to add the point classifications to the original data, use this
> dd <- cbind(alumnos9_1_, cluster = km.res$cluster)
> head(dd)
Materias Edad Peso Horas est Artef elect Frec perdida Nota alta Num herm Can per viv Nota baja
Ed.Religiosa Ed.Religiosa 13 40 1 0 1 4 1 3 1
Etica y valor Etica y valor 13 41 1 1 1 3 2 4 2
Historia Historia 14 45 3 0 1 3 3 5 1
Geografia Geografia 12 39 0 0 0 4 2 3 2
Demografia Demografia 12 38 1 0 1 3 3 2 1
Dibujo Dibujo 14 43 2 0 2 5 0 4 2
Can libros cluster
Ed.Religiosa 1 1
Etica y valor 2 3
Historia 3 3
Geografia 2 1
Demografia 3 1
Dibujo 1 4
> # Cluster number for each of the observations
> km.res$cluster
Ed.Religiosa Etica y valor Historia Geografia Demografia Dibujo Artes plastic Artes esce
1 3 3 1 1 4 4 4
Ed.fis y dep Ten e inf Agro Conducta Disciplina Geometria Estadistica Biologia
1 2 1 4 4 3 1 1
Fisica Quimica Lect critica Catedra paz Ed sexual Ed ambient Matematicas Prub saber
3 2 2 3 1 3 4 2
> head(km.res$cluster, 4)
Ed.Religiosa Etica y valor Historia Geografia
1 3 3 1
> # Cluster size
> km.res$size
[1] 8 4 6 6
> # Cluster means
> aggregate(alumnos9_1_, by=list(cluster=km.res$cluster), mean)
cluster Materias Edad Peso Horas est Artef elect Frec perdida Nota alta Num herm Can per viv Nota baja
1 1 NA 12.37500 39.75000 1.375000 0.3750000 1.125 3.250000 1.250000 2.625000 1.125000
2 2 NA 13.25000 43.00000 2.250000 2.5000000 2.000 3.250000 3.250000 3.250000 1.750000
3 3 NA 13.33333 41.83333 2.333333 0.8333333 1.000 3.666667 2.000000 4.666667 1.833333
4 4 NA 14.83333 45.50000 2.833333 0.5000000 1.500 3.833333 2.166667 3.500000 1.666667
Can libros
1 1.7500000
2 1.7500000
3 2.5000000
4 0.8333333

En el cluster N°1 estan los aglomerados: Geografia,Religion,Educacion fisica,Agropecuarias,Educacion


sexual,Estadistica,Biologia,Demografia. En este cluster los alumnos tienen una edad promedio de 12 años,peso promedio de 40
kilogramos, horas de estudio promedio un poco mas de una hora, no llegan a utilizar artefactos electronicos de ayuda en el estudio,
aproximadamente han perdido las materias una vez,su notas mas altas son de 3.20 puntos,tenen aproximadamente un hermano,
viven aproximadamente con 3 personas, la nota mas baja 1,25 puntos, utilizan aproximadamente 2 libros.

En el cluster N°2 estan los aglomerados: Tecnologia e informatica,Lectura critica,Pruebas saber,Quimica.En este cluster se ubican los
alumnos con edades promedios de 13 años, pesos promedio de 43 kilogramos, horas de estudio un poco mas de 2 horas, artefactos
electronicos utilizados a estudiar 3, las materias en promedio la han perdido 2 veces,la nota mas alta es de 3.25,tienen en promedio
3 hermanos,cantidad promrdio de personas que viven con ellos 3, nota mas baja 1.75 puntos, utilizan aproximadamente 2 libros.

En el clusterN° 3 estan los aglomerados: Educacion ambiental,Catedra de paz,Geometria,Fisica,Etica y valores, Historia. Los alumnos
que pertenecen a este cluster tienen una edad promedio de 13 años , peso promedio de 42 kilogramos,horas de estudio un poco mas
de 2 horas, aproximadamente usan un artefacto electronico como ayuda, han perdido las materias aproximdamente una vez,nota mas
alta en promedio para las materias 3.7, numero de hermanos 2, cantidad de personas con quien viven aproximadamente 5 y nota mas
baja aproximadamente 1.8, utilizan aproximadamente 3 libros.

En el cluster N°4 estan los aglomerados: Dibujo,Disciplina,Conducta, Artes escenicas,Matematicas y Artes placsticas.Los alumnos que
pertenecen a este grupo tienen una edad promedio de 14 años, un peso promedio de 46 kilogramos aproximadamente de didican 3
horas de estudio en promedio,aproximadamente utilizan un artefacto electronico como ayuda,aproximadamente pierden 2 veces las
materias, nota mas alta 3.8, nota mas baja 1.6, aproximadamente usan 1 libro.

Das könnte Ihnen auch gefallen