Power BI - Nivel Avanzado - V0

Power BI Nivel Avanzado
Presentadores:
José Luis Malón
Agenda
Fundamentos de Machine Learning
Explorando los Datos con R
Aprendizaje Supervisado
Power BI con R y Python

¿Qué es Machine Learning?
Sistemas de computación que se vuelven más

inteligentes con la experiencia.
“El proceso de descubrir correlaciones, patrones
y tendencias significativamente nuevas, dentro
de grandes repositorios de datos, usando
tecnologías de reconocimiento de patrones así
como técnicas estadísticas y matemáticas.”
Gartner Group
Malón, José Luis jose.malonne12@gmail.com

Inteligencia Artificial
Aprendizaje profundo Visión
Aprendizaje automático Habla

Conjunto de tecnologías que
Lenguaje
Redes neuronales
permiten la Inteligencia a una
Búsquedas máquina que simula los Conocimiento
Razonamiento
probabilístico
elementos del pensamiento Resolución de
humano problemas
etc.
etc.

IA, Machine Learning y Deep Learning
HOY: Inteligencia Artificial

• Deep Learning.
• Machine Learning.
• Procesamiento del Lenguaje
Natural.
• Visión y reconocimiento
computacional.
• Agentes autónomos,
robótica.
“What’s the Difference Between Artificial Intelligence, Machine Learning, and Deep Learning?”, Michael Copeland, 2016

Escenarios de Machine Learning

Metodologías
• Knowledge Discovery in Databases

(KDD, 1996).
• CRoss Industry Standard Process for

Data Mining (CRISP-DM, 2000).
• Team Data Science Process (TDSP).

CRISP - DM
Entendimiento Entendimiento Preparación de

Modelamiento Evaluación Despliegue
del negocio de los datos datos
Identificar Recolectar y Seleccionar y Generar modelos Evaluar los Aplicar resultados al

objetivos analizar datos limpiar datos analíticos modelos negocio

Team Data Science Process

Modelamiento
Modelamiento
• Predicción. • Identificar clúster de datos.
• Conozco las respuestas. • No conozco las respuestas.
• Entreno el modelo con las • Encontrar el valor de los
respuestas conocidas. datos.
• Verifico los resultados del
modelo con las respuestas
conocidas.
• Utilizó el modelo para
predecir nuevos datos.
Supervisado No Supervisado

Agenda

Ventajas de usar R
Top Analytics, Data Science, Machine
Learning Tools
 Es libre, no tiene ningún costo.
 Se puede usar en distintas plataformas:
Windows, Unix and MacOS.
 Tiene el soporte de una enorme
comunidad de investigadores de distintos
lugares del mundo.
 Permite personalizar el nivel del análisis.
 Nos permite realizar análisis sencillos y
complejos.
https://www.kdnuggets.com/2019/05/poll-tools-analytics-data-science-machine-learning-results.html

RStudio
Principales lenguajes de programación
ordenados por popularidad
https://www.kdnuggets.com/2019/05/poll-tools-analytics-data-science-machine-learning-results.html

Instalar un paquete

Comandos básicos
 library(): Para activar un paquete.

 ls(): Lista todos los objetos cargados en el área de trabajo.
 rm(): Remueve todos los objetos cargados en el área de trabajo.
 getwd(): Imprime la ruta del área de trabajo.
 setwd(): Establece el área de trabajo.
 save.image(): Guarda el área de trabajo en formato “.Rdata”.
 saveRDS(): Guarda objetos.
 readRDS(): Lectura de objetos.

Tipos de variables en R
 character: "treatment", "123", "A"

 numeric: 23.44, 120, Inf
 integer: 4L, 1123L
 factor: si/no, positivo/negativo
 logical: TRUE, FALSE, NA

Entender la estructura de la data
 names(): Los nombres de las columnas
 class(): Tipo de variable
 head(): 6 primeras filas de un data frame
 tail(): 6 últimas filas de un data frame
 dim(): Cantidad de filas y columnas
 str(): Estructura y pre visualización de los datos
 summary(): Resumen y primeras estadísticas de los
datos.

Visualizar y graficar la data en R
Funciones básicas de R:
 plot
 barplot
 boxplot
 pie
 hist
Librería ggplot
 ggplot(data=datos, aes(x=)) + geom_histogram()
 ggplot(data=datos, aes(x=,y=)) + geom_boxplot()
http://www.todobi.com/2018/05/las-20-mejores-librerias-para-data.html

Manipulación de datos (librería dplyr)
 La libreria dplyr La librería dplyr permite manipular y
hacer cálculos sobre un data frame mediante una
única expresión: vamos encadenando funciones con
el operador %>%.
Funciones:
 select( ): para seleccionar columnas (variables)
 filter( ): para seleccionar filas (observaciones)
 mutate( ): para crear nuevas variables
 summarise( ): para cálculos estadísticos y otras
operaciones
 group_by( ): usada conjuntamente con summarise( )
 arrange( ): para reordenar filas.
http://www.todobi.com/2018/05/las-20-mejores-librerias-para-data.html

Agenda

Modelos supervizados
• Su objetivo es la predicción.
• Se conoce la variable objetivo (Variable de salida).
• Las variables que ayudan a predecir la variable de salida
son las variables de entrada.
• Se separa el conjunto de datos en dos partes una para
entrenar el modelo y otra para evaluar el modelo.
• Utiliza el modelo para predecir nuevos datos.

Inputs Ouputs
• Género.
• Rangos de Edad.
• No Compra
• Compra
• Ingresos.
• Estado Civil.
• Entre otros ...
Modelos supervizados
• Se usa cuando el resultado • Es útil para predecir productos que
deseado es una etiqueta discreta. son continuos.
• En el caso de que el modelo • La respuesta a la pregunta se
entrenado es para predecir presenta mediante una cantidad
cualquiera de las dos clases que puede determinarse de
objetivos, se le conoce como manera flexible en función de las
clasificación binaria. entradas del modelo.
• Si Tenemos que predecir más de • El valor predicho se puede usar
dos clases objetivos, se le conoce para identificar la relación lineal
como clasificación multicategoría. entre los atributos.
Clasificación Regresión

Árbol de decisión
• Funciona para variables de entrada y salida categóricas
como continuas.
• En esta técnica, dividimos la data en dos o más conjuntos
homogéneos basados en el diferenciador más significativo
en las variables de entrada.
• El árbol de decisión identifica la variable más significativa y
su valor que proporciona los mejores conjuntos
homogéneos de población.
• Todas las variables de entrada y todos los puntos de división
posibles se evalúan y se elige la que tenga mejor resultado.
• Los métodos basados en árboles potencian modelos
predictivos con alta precisión, estabilidad y facilidad de
interpretación.
• A diferencia de los modelos lineales, mapean bastante bien
las relaciones no lineales.

Ventajas que tiene el árbol de decisión
La salida del árbol de decisión es muy fácil de entender, incluso para personas con
antecedentes no analíticos, no se requiere ningún conocimiento estadístico para
leerlos e interpretarlos.
El árbol de decisión es una de las formas más rápidas para identificar las variables
más significativas.
Requiere menos limpieza de datos en comparación con algunas otras técnicas de

modelado. A su vez, no esta influenciado por los valores atípicos y faltantes en la
data.
Es considerado un método no paramétrico, esto significa que los árboles de

decisión no tienen suposiciones sobre la distribución del espacio y la estructura del
clasificador.

Árbol de decisión (partes)
Nodo Raíz
Condición
Nodos de Prueba 1 (Padre)
(hijos) Si No
Condición Condición
Si No Si No
Condición Condición Condición Condición
Si No Si No
Condición Condición Condición Condición
Nodos de decisión (hojas)

Árbol de decisión (idea intuitiva)

¿Qué es Bagging?
• Bagging quiere decir bootstrap aggregation. Introducido por Leo Breiman (Berkeley) en 1996.
• La idea es simple. Si tienes las opiniones de un comité de expertos, considéralas todas para
tomar una decisión.
• Se extraen muestras bootstrap del conjunto de datos. Para cada muestra, se obtiene un
modelo de predicción. El nuevo predictor “bagging” se construye mediante agregación.
• El objetivo es reducir la inestabilidad.

Bagging para clasificación
• Si el problema es de clasificación bagging clasificará cada nueva observación por mayoría.
Por ejemplo:
• La clase 1 recibió cuatro votos. La clase 0 un voto.

• El predictor bagging clasificará x en la clase 1.

Bagging para regresión
• Si el problema es de regresión la predicción bagging se obtiene promediando las
predicciones de todos los modelos. Por ejemplo:
• La predicción bagging será: (2+3+5+1+7)/5 = 3.6

• Cuando la variable respuesta es binaria 0/1, el bagging para regresión se reduce al criterio de
clasificar por mayoría.

Random Forest o Bosques Aleatorios (RF)
• Desarrollado por Leo Breiman (Berkeley) en 2001

• Tiene su base en:
• La predicción con CART.
• La agregación de modelos de árbol.
• Bootstrap Aggregation (Bagging).
• Comercializado por Salford Systems en la herramienta RandomForestsTM.
• Implementado por Andy Liaw y Matthew Wiener en la librería randomForest del entorno
R de programación.

Random Forest (RF)
• Cada árbol usa m diferentes

variables, aleatoriamente
escogidas del conjunto de p
variables m<p (m=mtry).

Mecanismo de Random Forest
• La aleatorización se introduce en el mecanismo de aprendizaje a través de dos vías: el
remuestreo y la aleatorización en la selección del corte en cada nodo
• Se toman B muestras bootstrap del conjunto de datos para construir B árboles sin podar. Esto
corresponde a la fase bagging y proporciona el bosque de árboles
• Para construir cada árbol del bosque, RF busca el corte en cada nodo entre un conjunto de R
variables predictoras que han sido seleccionadas al azar
• Por defecto B = 500 y R = sqrt(nº predictores).

La estimación del error con RF
• Se define la tasa de error out of bag (OOBi) de una observación xi como el error obtenido al
ser clasificada por los árboles del bosque construidos sin su intervención.
• La estimación OOB del error es el promedio de todos los OOBi para todas las observaciones
del conjunto de datos.
• La medida se puede extrapolar al problema de regresión describiéndola en términos del ECM.

Agenda

Usar un IDE de R externo con Power BI
• Con Power BI Desktop, puede usar un IDE de
R externo (entorno de desarrollo integrado)
para crear los scripts de R y después usar
esos scripts en Power BI.
• Puede poner en funcionamiento el IDE
yendo a Archivo > Opciones y
configuración > Opciones > Script de R.

Uso de R en el editor de consultas
• En el Editor de consultas, puede usar R, un lenguaje de programación usado ampliamente por
estadistas, científicos de datos y analistas de datos. Esta integración de R en el Editor de consultas
permite limpiar datos y realizar acciones avanzadas, como imputar datos, realizar predicciones y la
agrupación en clústeres.
• Para que el código de script funcione correctamente, debe tener instalada todas las librerías en el
entorno de R. Para instalar una librería, ejecute el siguiente comando en la instalación de R:
install.packages(‘nombre de la librería').

Power BI - Nivel Avanzado - V0

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Power BI - Nivel Avanzado - V0

Hochgeladen von

Copyright:

Verfügbare Formate

Power BI Nivel Avanzado

Explorando los Datos con R

Power BI con R y Python

Sistemas de computación que se vuelven más

Malón, José Luis jose.malonne12@gmail.com

Aprendizaje automático Habla

Malón, José Luis jose.malonne12@gmail.com

HOY: Inteligencia Artificial

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

• Knowledge Discovery in Databases

• CRoss Industry Standard Process for

• Team Data Science Process (TDSP).

Malón, José Luis jose.malonne12@gmail.com

Entendimiento Entendimiento Preparación de

Identificar Recolectar y Seleccionar y Generar modelos Evaluar los Aplicar resultados al

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

Explorando los Datos con R

Power BI con R y Python

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

 library(): Para activar un paquete.

Malón, José Luis jose.malonne12@gmail.com

 character: "treatment", "123", "A"

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

Explorando los Datos con R

Power BI con R y Python

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

Requiere menos limpieza de datos en comparación con algunas otras técnicas de

Es considerado un método no paramétrico, esto significa que los árboles de

Malón, José Luis jose.malonne12@gmail.com

Nodos de decisión (hojas)

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

• La clase 1 recibió cuatro votos. La clase 0 un voto.

Malón, José Luis jose.malonne12@gmail.com

• La predicción bagging será: (2+3+5+1+7)/5 = 3.6

Malón, José Luis jose.malonne12@gmail.com

• Desarrollado por Leo Breiman (Berkeley) en 2001

Malón, José Luis jose.malonne12@gmail.com

• Cada árbol usa m diferentes

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

Explorando los Datos con R

Power BI con R y Python

Malón, José Luis jose.malonne12@gmail.com

Malón, José Luis jose.malonne12@gmail.com

Das könnte Ihnen auch gefallen