Sie sind auf Seite 1von 14

Tema 2.

Ciclo de Vida de Proyectos de Ciencia de Datos  

Al terminar este tema, podrás:

 Identificar los elementos claves del ciclo de vida de un proyecto de Ciencia de Datos.

 Conocer los diferentes modelos para proyectos de Ciencia de Datos.

Pregunta
1/1 point (ungraded)
¿Por qué el análisis de datos es importante para la toma de decisiones?
A. Porque es una forma nueva y actual de enriquecerla.
B. Porque logra que este proceso pueda ser más preciso o que se dé con más anticipación.
C. Porque logra que este proceso sea más eficiente y rápido.
D. Porque los resultados provistos de este análisis coadyuda a que las decisiones sean más estratégicas.
correcto
Respuesta
Correcto:
La respuesta correcta es la B. Con el avance de las tecnologías de la información,
ahora las decisiones pueden ser más precisas o se pueden tomar con más
anticipación.

Pregunta
1/1 point (ungraded)
¿Cuáles son los tipos de analítica de datos que existen?
A. Analítica descriptiva, analítica predictiva y analítica prescriptiva.
B. Analítica automática; analítica preventiva y analítica prescriptiva.
C. Analítica descriptiva; analítica preventiva y analítica prescriptiva.
D. Analítica automática; analítica preventiva y analítica reactiva.
correcto
Respuesta
Correcto:
La respuesta correcta es la A. Actualmente la Analítica de Datos se divide en 3 tipos
de acuerdo a la información; al valor y a la dificultad para determinar el pasado, el
presente y el futuro. La Analítica Descriptiva responde a la pregunta ¿qué fue lo que
paso?; la Analítica Predictiva responde a la pregunta ¿qué puede pasar? y la Analítica
Prescriptiva responde a la pregunta ¿qué se puede hacer?
2.1 Elementos del Ciclo de Vida

Técnicas que engloban la Ciencia de Datos:

Data Mining (Análisis Descriptivo)


Aprendizaje Automático como Machine Learning (ML) (Análisis Predictivo)
Deep Learning (DL) (Análisis Prescriptivo)

Metodologías de actuación para la gestión y optimización de este ciclo de


vida
 Uno de ellos es la metodología CRISP-DM (Cross Industry Standard Process for Data Mining)
creado en 1999 por SPSS, NCR y DaimlerChrysler, el cual mantiene un proceso estándar en
seis fases que fue concebido para el desarrollo de proyectos de Data Mining en donde se busca
la recolección y análisis de grandes volúmenes de datos.

 Otro estándar utilizado para proyectos de Data Mining basado en herramientas comerciales es el
modelo SEMMA (Sample, Explore, Modify, Model, Assess) el cual se basan en el estándar
CRIPS–DM y creada por SAS Institute en 1998. Por lo general y dado que los proyectos de
Data Mining son sensibles y deficitarios de las fuentes generadoras de datos, un modelo que se
exterioriza de los proyectos de CRM hacia los proyectos de Ciencia de Datos es el modelo
Catalyst creado en 2003.
La metodología CRISP-DM (Cross Industry Standard Process) utilizada en data mining se presenta con
las siguientes fases:

1. Comprensión del negocio: En esta fase se identifican los objetivos a conseguir después de un
estudio pormenorizado del negocio, exigencias y necesidades del cliente. Crea un plan estratégico para
alcanzar dichos objetivos con unos requerimientos de fiabilidad y calidad mínimos. Se debe tener en
cuenta la regularización y normativas de ciberseguridad y privacidad de datos y sistemas informáticos.
2. Adquisición de los datos: Identificar los datos necesarios para la consecución de los objetivos.
Reconocer las fuentes de datos. Describir los tipos de datos con los que vamos a trabajar e identificar
aquellos que realmente son necesarios. Reconocer problemas en la calidad de los mismos, como por
ejemplo si existen datos repetidos, incompletos, inconsistentes, con errores, entre otros.
3. Preparación de los datos: Procesar los flujos de datos, solventar problemas de datos faltantes,
controlar las inconsistencias de los flujos de datos y realizar la limpieza y estandarización de los datos,
generación de variables, integración de diferentes conjuntos de datos, etc.
4. Modelación: Determinar qué modelo o técnica es el más apropiado para la resolución del problema
a tratar y que técnicas a aplicar de forma consistente atendiendo a los datos que tenemos, los recursos y
necesidades. Por lo general, se puede volver a la fase anterior para trabajar con los datos y tener una
entrada de los mismos, acorde a las necesidades del modelo. En esta fase se debe crear los test de
evaluación y desempeño del sistema para estudiar la calidad y fiabilidad de los resultados obtenidos
con el modelo seleccionado y los objetivos marcados.
5. Evaluación e Interpretación: Visualización y análisis de los datos obtenidos y su correspondencia
sobre los objetivos, la fiabilidad y calidad deseada. 6. Despliegue del Modelo: Se visualiza el
conocimiento y los resultados obtenidos y se muestran al cliente.
7. Operaciones: Realizar las acciones que el cliente vea pertinentes acorde a los resultados obtenidos.
Además, pasamos a una fase de seguimiento y mantenimiento del modelo acorde por ejemplo al
periodo de validez de los resultados o modelos utilizados, así como los objetivos de negocio que
pueden variar con el tiempo. Puede ocurrir que la fiabilidad de los resultados del modelo baje por lo
que se debe retomar el proyecto desde el principio
ModelOps

ModelOps se basa en la metodología Devops la cual se emplea para el desarrollo de aplicaciones,


mientras que ModelOps se centra en acelerar el proceso de creación de modelos desde su fase inicial de
laboratorio, validación y pruebas hasta su despliegue con la calidad y fiabilidad esperada acorde a los
objetivos establecidos. Por otra parte, el fuerte auge que está teniendo la Inteligencia Artificial (IA) y el
Aprendizaje Automático (Machine Learning) han hecho que las grandes compañías como Microsoft,
Google, Amazon o IBM creen un conjunto de banco de modelos y herramientas para el desarrollo de
estos proyectos de aprendizaje automático de forma ágil y basadas en tecnología en la nube. Este nuevo
conjunto de servicios, banco de modelos junto a la metodología ModelOps, permite el desarrollo y
gestión de forma ágil de este tipo de proyectos. Facilitando la democratización y acercamiento de estas
tecnologías a todos los niveles de una organización, por ejemplo, dado su alto grado de abstracción y
fácil uso.

Una de las ventajas de esta metodología es la posibilidad de gestionar y mantener versiones


distintas de un mismo modelo (entrenados con diferentes conjuntos de datos o valores distintos
de sus parámetros de configuración). Este tipo de servicios y herramientas basadas en
metodología ModelOps, por lo general, proporcionan una plataforma integrada en nube que
permite a los usuarios administrar e implementar modelos usando un flujo de trabajo
colaborativo y automatizado. Y que pueden utilizarse tanto en entornos de producción en la
empresa como en entornos de investigación. Algunos ejemplos de plataformas son los
siguientes:
1 Watson Machine Learning (WML): https://www.ibm.com/es-es/cloud/machine-learning
2 Azure Machine Learning (AML): https://azure.microsoft.com/es-es/free/machine-learning/
3 AWS Machine Learning: https://aws.amazon.com/es/machine-learning/
4 Cloud Machine Learning: https://cloud.google.com/products/ai/
En este ciclo de vida podemos observar las mismas fases que encontrábamos con la metodología CRISP-
DM como la comprensión del negocio, la adquisición de los datos o la fase de modelado, pero no de forma
iterativa. La escalabilidad y flexibilidad de esta metodología y plataforma permite trabajar en paralelo
diferentes tareas necesarias del ciclo de vida del proyecto.
Al margen de estos diferentes modelos, hay que tener en cuenta que, por un lado, en todo proyecto y más en
especial en los proyectos de Ciencia de Datos existen diferentes retrasos reiterados. Por lo general, el
trabajar con datos y fuentes casi siempre desconocidas hace crecer la incertidumbre y los riesgos asociados,
existiendo la posibilidad de retrasos por no conocer el formato real de los datos, desconocer el tipo de
fuente o simplemente no caer en que los datos no están totalmente formateados en relación con las tareas
que se ejecutan posteriormente. Esto hace que en las fases del ciclo de vida de un proyecto de Ciencia de
Datos no se pueda contemplar como algo lineal, siendo altamente iterativos y cíclicos existiendo grandes
dependencias entre el equipo de Ciencia de datos y los demás equipos involucrados en el proyecto.
2.2 Metodologías para proyectos de Ciencia de Datos

¿Cuál de las siguientes descripciones no corresponde al análisis descriptivo?


A. Análisis de fuentes pequeñas de datos, por lo regular estructuradas que presentan una situación
específica de una organización.
B. Disciplina que ayuda a comprender la realidad actual de una organización.
C. Utiliza datos históricos para entender cómo se encuentra una organización, al día de hoy.
D. Ayuda a anticipar cambios usando patrones o conductas anómalas.
correcto
Respuesta
Correcto:
La respuesta correcta es la D. El análisis descriptivo es un área de la analítica
avanzada de datos (advanced analytics) que, a través del análisis de pequeñas
fuentes de datos, por lo regular datos estructurados e históricos, ayuda a comprender
la realidad actual de una organización. Es una fotografía actual de cómo se encuentra
funcionando una organización.
Enviar
Algunos problemas tienen opciones como guardar, restablecer, sugerencias o mostrar respuesta. Estas opciones
aparecen después de oprimir el botón Enviar.
Mostrar Respuesta
Correcto (1/1 punto)
Revisión
Pregunta
1/1 point (ungraded)
¿Cuál es la diferencia entre analítica predictiva y analítica prescriptiva?
A. No hay diferencia pues ambas forman parte de la analítica de datos que es una disciplina que ayuda a
sacar el máximo provecho de los datos.
B. La analítica predictiva te indica qué fue lo que pasó, mientras que la analítica prescriptiva te indica qué
va a pasar con tu información.
C. La analítica predictiva te indica qué va a pasar, mientras que la analítica prescriptiva te indica qué pasó
con tu información.
D. La analítica predictiva responde a la pregunta: “¿Qué va a pasar probablemente en el futuro?”, y la
analítica prescriptiva responde a la pregunta: “¿Qué se puede hacer para evitarlo?”.
correcto
Respuesta
Correcto:
La respuesta correcta es la D. Mientras que la analítica predictiva responde a la
pregunta: “¿Qué va a pasar probablemente en el futuro?”. La analítica prescriptiva
responde a la pregunta: “¿Qué se puede hacer para evitarlo?”
Metodología para gestionar proyectos de ciencia de datos en la industria
de alta tecnología

Si vas a gestionar un proyecto en el cual debes analizar datos, esta lectura es para ti.

De acuerdo a Ori Cohen, científico de datos líder en New Relic, el desarrollo ágil de software se ha
apoderado de la industria de la alta tecnología. Ya sea implementado con Scrum, Kanban o Scrumban,
estos métodos fueron creados para ser flexibles y permitir cambios rápidos al trabajar en ciclos cortos. Si
bien estas implementaciones son adecuadas para el desarrollo, chocan en ciertos aspectos con la
investigación, por lo tanto, para ser ágiles en la investigación, necesitamos adaptar los valores centrales de
Agile y conciliarlos con las metodologías de investigación, es decir, crear una implementación funcional
que utilice valores e ideas ágiles pero orientados a la investigación.

¿Pero porque Ori involucra la investigación? De acuerdo a muchos expertos al momento de desarrollar
proyectos de Ciencia de Datos es indiscutible el hecho de que esta es una ciencia que está en pañales y
por lo tanto es necesario investigar pues muchos de los retos y problemas se están presentando por la
cantidad de datos que se están generando y la forma en la que ahora se necesitan tomar decisiones.
El siguiente es un método que Ori diseño y que se basa en su experiencia personal en la administración de
un equipo de investigación de ciencia de datos y como esté se ha probado con múltiples proyectos de
ciencia de datos.

Tipos de investigación

Por lo general, encontramos tres tipos de investigación:

La metodología de gestión de investigación

En la investigación, observamos las demandas del producto, asignamos características, pensamos en


posibles soluciones algorítmicas, definimos objetivos y KPI. La verdad es que no tenemos un camino claro
hacia ese objetivo, en otras palabras, no sabemos cuál es el camino exacto para completar en términos de
tareas. El desarrollo algorítmico no es meramente producción, se trata mucho más de comprender el
problema, evaluar opciones, validación, etc. En la práctica, probamos muchas hipótesis e ideas diferentes,
basadas en la intuición y la experiencia, algunas pueden ayudar, otras no.

Primero decidimos un plazo razonable para un proyecto, ya sea dos semanas, un mes o más, básicamente
el tiempo que creas que debería tomar en función de tu experiencia o estimación. Los plazos entre
diferentes proyectos no están alineados, por lo tanto, son difíciles de colocar en ciclos rígidos. Es
importante tener en cuenta que estos plazos pueden cambiar, los proyectos pueden ampliarse o finalizar
antes de lo previsto.

Se divide cada proyecto en seis etapas básicas (Figura 1), lo que permite agrupar subtareas según el
contexto. Las seis etapas básicas, que se enumeran a continuación, se pueden ver en la Figura 1 como una
tabla Jira.

Figura 1 - Las seis etapas de un proyecto de investigación aplicada o ciencia de datos

Etapas del proyecto:

1. Revisión de literatura (Literature Review)


2. Exploración de datos (Data Analysis)
3. Desarrollo de algoritmos (Algorithm Development)
4. Análisis de resultados (Result Analysis)
5. Revisión (Review)
6. Implementación (Deployment)
Usando el método de etapas, un proyecto puede ir y venir entre etapas hasta su finalización. Por ejemplo,
terminamos de escribir nuestro algoritmo y en la etapa de 'análisis de resultados' descubrimos que
necesitamos regresar y cambiar una idea central, por lo que el proyecto volverá a 'exploración de datos' y
se someterá al algoritmo y etapas de análisis de resultados una vez más.

En cada etapa, se crean tantas ideas, hipótesis o tareas, es decir, entregables. Por ejemplo, en la etapa de
"revisión de la literatura", se podrían realizar varias tareas, como buscar documentos en Google Scholar,
buscar en Github.com o intentar encontrar publicaciones relacionadas en alguna investigación preliminar.

En la etapa de 'exploración de datos', posiblemente se podría explorar la modelación de los datos, es


decir,  la selección de un tipo o todos los métodos de integración disponibles hoy en día, desde word2vec,
frase2vec, sent2vec hasta Elmo, Bert, etc. A esto se le esta empezando a conocer como la Ingeniería de
Datos.

En la etapa de 'desarrollo de algoritmos' podemos probar varios algoritmos clásicos de aprendizaje


automático, probando desde redes neuronales (CNN, LSTM, BI-GRU, redes de múltiples entradas),
algoritmos de apilamiento, algoritmos de conjuntos, etc.

En la etapa de 'análisis de resultados', podemos explorar muchas métricas como precisión ó incluso la
corrección del modelo.

En la etapa de ‘revisión’, un miembro del equipo revisa el algoritmo para determinar que se está
cumpliendo el objetivo o incluso para detectar fallas en el mismo.

Finalmente, en la 'etapa de implementación', el modelo se puede transformación en un programa


computacional o incluso en una API.

En esta metodología, no se asignan estimaciones sobre cada entregable ya que esto agrega gastos
generales de planificación, tener un plan de trabajo rígido ó incluso la interrupción en la creatividad en el
proceso de investigación, es decir, no se quiere que el plan de trabajo administre al grupo, se desea
gestionar el plan de trabajo. De acuerdo a la experiencia de Ori, él siempre busca que el equipo explore
diferentes soluciones que aparezcan y estén pensadas durante el proceso creativo y no solo tener un plan
predeterminado que sea básicamente una lista de deseos. En otras palabras, los datos, los resultados y las
ideas del proceso arrojan muchas ideas brillantes que permitirán al equipo resolver nuevos problemas en
el área de negocios.

Flujo de trabajo de la metodología basada en investigación:


Lo siguiente representa una visión general de la metodología de flujo de trabajo basada en investigación:

1. Intercambie la metodología del ciclo con plazos razonables por proyecto que se ajusten a las
expectativas, objetivos y KPIs (indicadores de desempeño) de su proyecto.

2. Reconozca que un proyecto existe en varias etapas a lo largo de su vida útil.

3. Reconozca que un proyecto puede regresar temporalmente a una etapa anterior para probar ideas
adicionales.

4. Divida cada proyecto en entregables basados en etapas.

5. Asigne un plazo suave para cada etapa.

6. Reconozca que su lista de entregables no necesita completarse en su conjunto, se pueden agregar


entregables a lo largo del proyecto, lo que influye en los plazos.

7. En cada etapa, elija los mejores resultados para completar primero, cuando esté satisfecho, pase a
la siguiente etapa en la investigación.

8. “Lavar”, “enjuagar”, y “repetir”.


Flujo de trabajo al utilizar el modelo CRISP-DM.

Das könnte Ihnen auch gefallen