Beruflich Dokumente
Kultur Dokumente
Identificar los elementos claves del ciclo de vida de un proyecto de Ciencia de Datos.
Pregunta
1/1 point (ungraded)
¿Por qué el análisis de datos es importante para la toma de decisiones?
A. Porque es una forma nueva y actual de enriquecerla.
B. Porque logra que este proceso pueda ser más preciso o que se dé con más anticipación.
C. Porque logra que este proceso sea más eficiente y rápido.
D. Porque los resultados provistos de este análisis coadyuda a que las decisiones sean más estratégicas.
correcto
Respuesta
Correcto:
La respuesta correcta es la B. Con el avance de las tecnologías de la información,
ahora las decisiones pueden ser más precisas o se pueden tomar con más
anticipación.
Pregunta
1/1 point (ungraded)
¿Cuáles son los tipos de analítica de datos que existen?
A. Analítica descriptiva, analítica predictiva y analítica prescriptiva.
B. Analítica automática; analítica preventiva y analítica prescriptiva.
C. Analítica descriptiva; analítica preventiva y analítica prescriptiva.
D. Analítica automática; analítica preventiva y analítica reactiva.
correcto
Respuesta
Correcto:
La respuesta correcta es la A. Actualmente la Analítica de Datos se divide en 3 tipos
de acuerdo a la información; al valor y a la dificultad para determinar el pasado, el
presente y el futuro. La Analítica Descriptiva responde a la pregunta ¿qué fue lo que
paso?; la Analítica Predictiva responde a la pregunta ¿qué puede pasar? y la Analítica
Prescriptiva responde a la pregunta ¿qué se puede hacer?
2.1 Elementos del Ciclo de Vida
Otro estándar utilizado para proyectos de Data Mining basado en herramientas comerciales es el
modelo SEMMA (Sample, Explore, Modify, Model, Assess) el cual se basan en el estándar
CRIPS–DM y creada por SAS Institute en 1998. Por lo general y dado que los proyectos de
Data Mining son sensibles y deficitarios de las fuentes generadoras de datos, un modelo que se
exterioriza de los proyectos de CRM hacia los proyectos de Ciencia de Datos es el modelo
Catalyst creado en 2003.
La metodología CRISP-DM (Cross Industry Standard Process) utilizada en data mining se presenta con
las siguientes fases:
1. Comprensión del negocio: En esta fase se identifican los objetivos a conseguir después de un
estudio pormenorizado del negocio, exigencias y necesidades del cliente. Crea un plan estratégico para
alcanzar dichos objetivos con unos requerimientos de fiabilidad y calidad mínimos. Se debe tener en
cuenta la regularización y normativas de ciberseguridad y privacidad de datos y sistemas informáticos.
2. Adquisición de los datos: Identificar los datos necesarios para la consecución de los objetivos.
Reconocer las fuentes de datos. Describir los tipos de datos con los que vamos a trabajar e identificar
aquellos que realmente son necesarios. Reconocer problemas en la calidad de los mismos, como por
ejemplo si existen datos repetidos, incompletos, inconsistentes, con errores, entre otros.
3. Preparación de los datos: Procesar los flujos de datos, solventar problemas de datos faltantes,
controlar las inconsistencias de los flujos de datos y realizar la limpieza y estandarización de los datos,
generación de variables, integración de diferentes conjuntos de datos, etc.
4. Modelación: Determinar qué modelo o técnica es el más apropiado para la resolución del problema
a tratar y que técnicas a aplicar de forma consistente atendiendo a los datos que tenemos, los recursos y
necesidades. Por lo general, se puede volver a la fase anterior para trabajar con los datos y tener una
entrada de los mismos, acorde a las necesidades del modelo. En esta fase se debe crear los test de
evaluación y desempeño del sistema para estudiar la calidad y fiabilidad de los resultados obtenidos
con el modelo seleccionado y los objetivos marcados.
5. Evaluación e Interpretación: Visualización y análisis de los datos obtenidos y su correspondencia
sobre los objetivos, la fiabilidad y calidad deseada. 6. Despliegue del Modelo: Se visualiza el
conocimiento y los resultados obtenidos y se muestran al cliente.
7. Operaciones: Realizar las acciones que el cliente vea pertinentes acorde a los resultados obtenidos.
Además, pasamos a una fase de seguimiento y mantenimiento del modelo acorde por ejemplo al
periodo de validez de los resultados o modelos utilizados, así como los objetivos de negocio que
pueden variar con el tiempo. Puede ocurrir que la fiabilidad de los resultados del modelo baje por lo
que se debe retomar el proyecto desde el principio
ModelOps
Si vas a gestionar un proyecto en el cual debes analizar datos, esta lectura es para ti.
De acuerdo a Ori Cohen, científico de datos líder en New Relic, el desarrollo ágil de software se ha
apoderado de la industria de la alta tecnología. Ya sea implementado con Scrum, Kanban o Scrumban,
estos métodos fueron creados para ser flexibles y permitir cambios rápidos al trabajar en ciclos cortos. Si
bien estas implementaciones son adecuadas para el desarrollo, chocan en ciertos aspectos con la
investigación, por lo tanto, para ser ágiles en la investigación, necesitamos adaptar los valores centrales de
Agile y conciliarlos con las metodologías de investigación, es decir, crear una implementación funcional
que utilice valores e ideas ágiles pero orientados a la investigación.
¿Pero porque Ori involucra la investigación? De acuerdo a muchos expertos al momento de desarrollar
proyectos de Ciencia de Datos es indiscutible el hecho de que esta es una ciencia que está en pañales y
por lo tanto es necesario investigar pues muchos de los retos y problemas se están presentando por la
cantidad de datos que se están generando y la forma en la que ahora se necesitan tomar decisiones.
El siguiente es un método que Ori diseño y que se basa en su experiencia personal en la administración de
un equipo de investigación de ciencia de datos y como esté se ha probado con múltiples proyectos de
ciencia de datos.
Tipos de investigación
Primero decidimos un plazo razonable para un proyecto, ya sea dos semanas, un mes o más, básicamente
el tiempo que creas que debería tomar en función de tu experiencia o estimación. Los plazos entre
diferentes proyectos no están alineados, por lo tanto, son difíciles de colocar en ciclos rígidos. Es
importante tener en cuenta que estos plazos pueden cambiar, los proyectos pueden ampliarse o finalizar
antes de lo previsto.
Se divide cada proyecto en seis etapas básicas (Figura 1), lo que permite agrupar subtareas según el
contexto. Las seis etapas básicas, que se enumeran a continuación, se pueden ver en la Figura 1 como una
tabla Jira.
En cada etapa, se crean tantas ideas, hipótesis o tareas, es decir, entregables. Por ejemplo, en la etapa de
"revisión de la literatura", se podrían realizar varias tareas, como buscar documentos en Google Scholar,
buscar en Github.com o intentar encontrar publicaciones relacionadas en alguna investigación preliminar.
En la etapa de 'análisis de resultados', podemos explorar muchas métricas como precisión ó incluso la
corrección del modelo.
En la etapa de ‘revisión’, un miembro del equipo revisa el algoritmo para determinar que se está
cumpliendo el objetivo o incluso para detectar fallas en el mismo.
En esta metodología, no se asignan estimaciones sobre cada entregable ya que esto agrega gastos
generales de planificación, tener un plan de trabajo rígido ó incluso la interrupción en la creatividad en el
proceso de investigación, es decir, no se quiere que el plan de trabajo administre al grupo, se desea
gestionar el plan de trabajo. De acuerdo a la experiencia de Ori, él siempre busca que el equipo explore
diferentes soluciones que aparezcan y estén pensadas durante el proceso creativo y no solo tener un plan
predeterminado que sea básicamente una lista de deseos. En otras palabras, los datos, los resultados y las
ideas del proceso arrojan muchas ideas brillantes que permitirán al equipo resolver nuevos problemas en
el área de negocios.
1. Intercambie la metodología del ciclo con plazos razonables por proyecto que se ajusten a las
expectativas, objetivos y KPIs (indicadores de desempeño) de su proyecto.
3. Reconozca que un proyecto puede regresar temporalmente a una etapa anterior para probar ideas
adicionales.
7. En cada etapa, elija los mejores resultados para completar primero, cuando esté satisfecho, pase a
la siguiente etapa en la investigación.