Eje 1 - Clustering

Algoritmo de Agrupaciones
Clustering (K-mens)
Resumen
El análisis de personas es una característica fundamental para el estudio de

psicólogos, ya que permite saber que tipo o nivel de enfermedad mental o
psicológica tiene dicha persona, por ejemplo, Psicópatas o esquizofrenia, sin
embargo, el método de interactuar personalmente con el paciente hace el
análisis de factores muy difícil.
Entonces en el siguiente informe se propone a desarrollar un algoritmo Clustering

(K-mens) o K medias lo cual es una rama de la inteligencia artificial sin uso de
redes neuronales para agrupar este tipo de factores utilizando una base datos de
personajes famosos con variables de sus diferentes personalidades lo cual tienen
8 variables, pero solo tomaremos 3 de ellas para que la gráfica sea en 3D.
El objetivo de la experimentación es determinar en que conjunto de personas se

encuentran, teniendo como variables: Op, co, ex, ag, ne, wordcount, categoría
donde se profundizara más adelante.
PALABRAS CLAVE: Clustering, Ezquizofrenia, Redes Neuronales.
ABSTRACT
The analysis of people is a fundamental characteristic for the study of psychologists,

the system of factors very difficult.
Then in the next report we propose to develop a grouping algorithm (K-mens) or K

means to group this type of factors based on a database of famous people with
their different personalities which has 9 categories but we will only take 3 of
them for Let the graph be in 3D.
The objective of the experimentation is to determine which set of people are, having
as variables: Op, co, ex, ag, ne, wordcount, category where it will be deepened
later.
PÁGINA 1
INTRODUCCION
K-Means es un algoritmo no supervisado de Clustering. Se utiliza cuando tenemos un
montón de datos sin etiquetar. El objetivo de este algoritmo es el de encontrar «K»
grupos (clusters) entre los datos crudos
Para la psicología este análisis de investigación es muy útil ya que al momento de

analizar una personalidad o enfermedad mental que esta ya padezca, pueda determinar
si pertenece a un grupo, por ejemplo, de psicópatas o esquizofrenia
Este informe tiene como contenido definición del algoritmo que se va utilizar, después
el procedimiento el cual yo segui, el código Python realizado en Jupyter y finalmente las
conclusiones.
PÁGINA 2
MATERIAL Y MÉTODOS
• Anconda Navigator
➢ Te permite la instalación de diferentes extensiones de desarrollo, la que

usaremos será Jupyter
• Jupyter Notebook
➢ Te permite crear ambientes donde tu puedes personalizar que versión de

Python, o algún tipo de framework utilizar
• Lenguaje de programación Python
➢ Pandas
➢ Numpy
➢ Matplotlib
➢ Seaborn
➢ Sklearn.Cluster
➢ Sklearn.Metrics
Base de datos
La base de datos que usaremos será la de famosos personajes exportada en cvs con 8
variables las cuales solo tomaremos 3 para que sea tridimensional.
Relación Personalidad
Usuarios Total 140
Variables 8
Fuente de la base de datos:
https://www.aprendemachinelearning.com
PÁGINA 3
Variables:
• usuario (el nombre en Twitter)
• «op» = Openness to experience – grado de apertura mental a nuevas experiencias,

curiosidad, arte..
• «co» = Conscientiousness – grado de orden, prolijidad, organización
• «ex» = Extraversion – grado de timidez, solitario o participación ante el grupo social
• «ag» = Agreeableness – grado de empatía con los demás, temperamento
• «ne» = Neuroticism, – grado de neuroticismo, nervioso, irritabilidad, seguridad en sí

mismo.
• Wordcount – Cantidad promedio de palabras usadas en sus tweets
• Categoria – Actividad laboral del usuario (actor, cantante, etc.)
Primero obtendremos las 5 primeras filas de la base de datos:
Con el siguiente código en Python
dataframe = pd.read_csv(r"analisis.csv")
dataframe.head()
VISUALIZACIÓN DE DATOS
Veremos gráficamente nuestros datos para tener una idea de la dispersión de los
mismos:
PÁGINA 4
En este caso seleccionamos 3 dimensiones: op, ex y ag y las cruzamos para ver si nos dan
alguna pista de su agrupación y la relación con sus categorías.
DEFINIMOS LA ENTRADA
Concretamos la estructura de datos que utilizaremos para alimentar el algoritmo. Como

se ve, sólo cargamos las columnas op, ex y ag en nuestra variable X.
X = np.array(dataframe[["op","ex","ag"]])
PÁGINA 5
y = np.array(dataframe['categoria'])
X.shape
(140,3)
OBTENER EL VALOR K
Vamos a hallar el valor de K haciendo una gráfica e intentando hallar el «punto de codo»
que comentábamos antes. Este es nuestro resultado:
EJECUTAMOS K-MEANS
Ejecutamos el algoritmo para 5 clusters y obtenemos las etiquetas y los centroids.
1 kmeans = KMeans(n_clusters=5).fit(X)
2 centroids = kmeans.cluster_centers_
3 print(centroids)
PÁGINA 6
En estas gráficas vemos que están bastante bien diferenciados los grupos. Podemos ver
cada uno de los clusters cuantos usuarios tiene
PÁGINA 7
Y podemos ver la diversidad en rubros laborales de cada uno. Por ejemplo, en el grupo
0 (rojo), vemos que hay de todas las actividades laborales, aunque predominan de
actividad 1 y 2 correspondiente a Actores y Cantantes con 11 y 15 famosos.
CONCLUSIONES
El algoritmo de K-means nos ayudará a crear clusters cuando tengamos grandes grupos
de datos sin etiquetar, cuando queramos intentar descubrir nuevas relaciones entre
features o para probar o declinar hipótesis que tengamos de nuestro negocio.
Puede haber casos en los que no existan grupos naturales, o clusters que contengan
una verdadera razón de ser. Si bien K-means siempre nos brindará «k clusters», quedará
en nuestro criterio reconocer la utilidad de los mismos o bien revisar nuestras features
y descartar las que no sirven o conseguir nuevas.
PÁGINA 8

Eje 1 - Clustering

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Eje 1 - Clustering

Hochgeladen von

Copyright:

Verfügbare Formate

Algoritmo de Agrupaciones

El análisis de personas es una característica fundamental para el estudio de

Entonces en el siguiente informe se propone a desarrollar un algoritmo Clustering

El objetivo de la experimentación es determinar en que conjunto de personas se

PALABRAS CLAVE: Clustering, Ezquizofrenia, Redes Neuronales.

The analysis of people is a fundamental characteristic for the study of psychologists,

Then in the next report we propose to develop a grouping algorithm (K-mens) or K

Para la psicología este análisis de investigación es muy útil ya que al momento de

➢ Te permite la instalación de diferentes extensiones de desarrollo, la que

➢ Te permite crear ambientes donde tu puedes personalizar que versión de

• Lenguaje de programación Python

Fuente de la base de datos:

• usuario (el nombre en Twitter)

• «op» = Openness to experience – grado de apertura mental a nuevas experiencias,

• «co» = Conscientiousness – grado de orden, prolijidad, organización

• «ex» = Extraversion – grado de timidez, solitario o participación ante el grupo social

• «ag» = Agreeableness – grado de empatía con los demás, temperamento

• «ne» = Neuroticism, – grado de neuroticismo, nervioso, irritabilidad, seguridad en sí

• Wordcount – Cantidad promedio de palabras usadas en sus tweets

• Categoria – Actividad laboral del usuario (actor, cantante, etc.)

Primero obtendremos las 5 primeras filas de la base de datos:

Con el siguiente código en Python

Concretamos la estructura de datos que utilizaremos para alimentar el algoritmo. Como

Ejecutamos el algoritmo para 5 clusters y obtenemos las etiquetas y los centroids.

Das könnte Ihnen auch gefallen