Beruflich Dokumente
Kultur Dokumente
Para poder llevar las mejores soluciones y propuesta de valor a nuestros mercados, es
relevante conocer algunas claves de xito al implementar una estrategia de anlisis de datos.
El proceso generar un modelo al final, usted va almacenar los datos, recuperar y disear lo
que est por venir. Pero, asegura que esa proyeccin ser correcta? El gran impacto en la
calidad de sus modelos est en la calidad de los datos. Si los modelos son buenos, la
expectativa de xito es mayor.
Mucho se habla sobre el grandes cantidades de datos, pero cuntas empresas conocemos
que tengan capacidad suficiente para administrar y manejar un alto volumen de datos
requeridos en su operacin? En muchas ocasiones no existir tal capacidad en las
organizaciones, por lo que deber prepararse en forma parcial, estructurada y ordenada.
Son necesarios diversos perfiles de profesionales que tengan expertise, tanto en tcnicas
como metodologas, respecto a los trminos de operacin y el negocio. Actualmente, hay una
sobre evaluacin de la tecnologa, pero es necesario primero reconocer y comprender las
oportunidades del Anlisis de Datos para perfeccionar el negocio y, despus, identificar la
solucin ms adecuada para el problema.
Momento de go y no go
Saber cundo ejecutar la oportunidad de Big Data, o no, es un punto crtico. En el momento en
el que se detectan varias oportunidades y se entiende bien que el Big Data es esencial, tiene
que existir un momento para reflexionar si la empresa atiende todos los requisitos
anteriormente explicados. Esto puede, muchas veces, llevar a la decisin de no ejecutar la
iniciativa que no ser exitosa.
Referencias
Bcares, B. (6 de Mayo de 2015). Silicon Week. Obtenido de Algar Tech: 6 consejos para
manejar el Big Data: http://www.siliconweek.com/cloud/algar-tech-6-consejos-para-manejar-el-
big-data-58891
Labrador, A. (06 de 05 de 2015). El filtro. Obtenido de Algar Tech recomienda cmo hacer del
Big Data una solucin exitosa para las compaas: http://www.elfiltro.co/tag/big-data/
LA ESTADISTICA PARA LA TOMA DE DECISIONES
Los datos se pueden dividir en cualitativos y cuantitativos. Los datos cualitativos son aquellos
que no representan un valor numrico, stos pueden ser nominales u ordinales. Los
nominales son los que funcionan solamente como etiquetas mientras que los ordinales son
valores que se asignan de acuerdo a un orden que contiene informacin sobre la intensidad
del atributo. Los datos cuantitativos son lo que son intrnsecamente numricos, se pueden
dividir en discreto o continuos. Los discretos representan valores enteros y con frecuencia
describen conteos mientras que los continuos se pueden producir cualquier valor en un
intervalo.
Una muestra aleatoria es una muestra muy representativa de la poblacin. Se considera que
cada elemento ha tenido la misma probabilidad de pertenecer a la muestra. Por lo que las
conclusiones basadas en una muestra aleatoria resultan confiables.
Estadstica descriptiva
Media aritmtica
Es una medida de tendencia central que resulta conveniente cuando los datos no presentan
valores atpicos o extremos ya que es muy sensible a estos. Se puede decir que representa el
centro de gravedad de los datos. La media aritmtica se calcula con la suma de los valores de
los datos de la muestra divididos entre el nmero total de datos que conforman la muestra.
Mediana
Es una medida de tendencia central y se define como el valor que divide un conjunto de datos
previamente ordenados de menor a mayor, y es el punto intermedio entre todos ellos. Esta
medida es conveniente cuando la muestra presenta datos atpicos o extremos.
Moda
En un conjunto de datos de una muestra la moda es el valor que ocurre con mayor frecuencia,
por lo que es el valor ms representativo.
Medidas de dispersin
Mientras que las medidas de tendencia central describen el comportamiento de los datos en
una muestra o conjunto de datos, las medidas de dispersin proporcionan informacin acerca
de cmo estn distribuidos o dispersos los valores con relacin a la tendencia central.
Rango
En todo conjunto de datos hay valores extremos, uno menor y otro mayor, la diferencia entre
estos se le llama rango. Esta medida de dispersin es la ms fcil de obtener, sin embargo se
usa poco debido a que es muy influenciable por la presencia de valores extremos de poca
frecuencia, lo cual conduce a apreciaciones falsas.
Varianza
Es una medida de dispersin que refleja la distancia al cuadrado de los valores en un conjunto
con el valor esperado o media.
Para calcular la varianza es necesario contar con el valor de la media. Se obtiene la diferencia
de cada valor del conjunto con la media y se eleva al cuadrado. Se suman todos los valores
obtenidos y se dividen entre el nmero de datos.
Desviacin estndar
Es la medida de dispersin ms utilizada y muy objetiva. Cuanto mayor sea su valor, mayor es
la dispersin de los datos, aunque no se puede determinar si se encuentra por encima o por
debajo de la media aritmtica.
Cuartiles
Son medidas de posicin que permiten conocer los intervalos dentro de los cuales quedan
representados proporcionalmente los elementos de un conjunto, se divide la distribucin de
frecuencias en 4 partes iguales, cada una contiene igual nmero de observaciones.
El primer cuartil corresponde el 25% y se designa con Q1. El segundo cuartil representa el
50% y coincide con la mediana. El tercer cuartil representa el 75% de las observaciones que
estn por debajo de l.
Referencias
ANALISIS DE DATOS
Una vez concluidas las etapas de coleccin y procesamiento de datos se inicia con una de las
ms importantes fases de una investigacin: el anlisis de datos. El anlisis de datos es el
precedente para la actividad de interpretacin. La interpretacin se realiza en trminos de los
resultados de la investigacin. Esta actividad consiste en establecer inferencias sobre las
relaciones entre las variables estudiadas para extraer conclusiones y recomendaciones
(Kerlinger, 1982). La interpretacin se realiza en dos etapas:
1. Interpretacin de las relaciones entre las variables y los datos que las sustentan con
fundamento en algn nivel de significancia estadstica.
2. Establecer un significado ms amplio de la investigacin, es decir, determinar el grado de
generalizacin de los resultados de la investigacin.
Analizar significa establecer categoras, ordenar, manipular y resumir los datos, (Kerlinger,
1982, p. 96). En esta etapa del proceso de investigacin se procede a racionalizar los datos
colectados a fin de explicar e interpretar las posibles relaciones que expresan las variables
estudiadas.
Organizacin de datos
Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la
distribucin de frecuencias y b) la representacin grfica.
Distribucin de frecuencias
La correlacin estadstica constituye una tcnica estadstica que nos indica si dos variables
estn relacionadas o no. Por ejemplo, considera que las variables son el ingreso familiar y el
gasto familiar. Se sabe que los aumentos de ingresos y gastos disminuyen juntos. Por lo tanto,
estn relacionados en el sentido de que el cambio en cualquier variable estar acompaado
por un cambio en la otra variable.
Si el cambio en una variable est acompaado de un cambio en la otra, entonces se dice que
las variables estn correlacionadas. Por lo tanto, podemos decir que el ingreso familiar y
gastos familiares y el precio y la demanda estn correlacionados.
La correlacin puede decir algo acerca de la relacin entre las variables. Se utiliza para
entender si la relacin es positiva o negativa y la fuerza de la relacin.
En general, r> 0 indica una relacin positiva y r <0 indica una relacin negativa, mientras que r
= 0 indica que no hay relacin (o que las variables son independientes y no estn
relacionadas). Aqu, r = 1,0 describe una correlacin positiva perfecta y r = -1,0 describe una
correlacin negativa perfecta.
Correlacin nula: No existe ninguna relacin entre las variables. Se dice que ambas son
independientes.
Correlacin lineal: Existe una relacin lineal negativa si al aumentar los valores de la variable
independiente disminuyen los valores de la variable dependiente y relacin lineal positiva si
al aumentar los valores de la variable independiente aumentan los valores de la variable
dependiente.
Correlacin no lineal: Existe una relacin entre las variables pero no es lineal.
Por serie de tiempo nos referimos a datos estadsticos que se recopilan, observan o registran
en intervalos de tiempo regulares (diario, semanal, semestral, anual, entre otros). El trmino
serie de tiempo se aplica por ejemplo a datos registrados en forma peridica que muestran,
por ejemplo, las ventas anuales totales de almacenes, el valor trimestral total de contratos de
construccin otorgados, el valor trimestral del PIB.
1. Tendencia secular: La tendencia secular o tendencia a largo plazo de una serie es por lo
comn el resultado de factores a largo plazo. En trminos intuitivos, la tendencia de una serie
de tiempo caracteriza el patrn gradual y consistente de las variaciones de la propia serie,
que se consideran consecuencias de fuerzas persistentes que afectan el crecimiento o la
reduccin de la misma, tales como: cambios en la poblacin, en las caractersticas
demogrficas de la misma, cambios en los ingresos, en la salud, en el nivel de educacin y
tecnologa. Las tendencias a largo plazo se ajustan a diversos esquemas. Algunas se
mueven continuamente haca arriba, otras declinan, y otras ms permanecen igual en un
cierto perodo o intervalo de tiempo.
2. Variacin estacional: El componente de la serie de tiempo que representa la variabilidad en
los datos debida a influencias de las estaciones, se llama componente estacional. Esta
variacin corresponde a los movimientos de la serie que recurren ao tras ao en los mismos
meses (o en los mismos trimestres) del ao poco ms o menos con la misma intensidad. Por
ejemplo: Un fabricante de albercas inflables espera poca actividad de ventas durante los
meses de otoo e invierno y tiene ventas mximas en los de primavera y verano, mientras
que los fabricantes de equipo para la nieve y ropa de abrigo esperan un comportamiento
anual opuesto al del fabricante de albercas.
3. Variacin cclica: Con frecuencia las series de tiempo presentan secuencias alternas de
puntos abajo y arriba de la lnea de tendencia que duran ms de un ao, esta variacin se
mantiene despus de que se han eliminado las variaciones o tendencias estacional e
irregular. Un ejemplo de este tipo de variacin son los ciclos comerciales cuyos perodos
recurrentes dependen de la prosperidad, recesin, depresin y recuperacin, las cuales no
dependen de factores como el clima o las costumbres sociales.
4. Variacin Irregular: Esta se debe a factores a corto plazo, imprevisibles y no recurrentes
que afectan a la serie de tiempo. Como este componente explica la variabilidad aleatoria de
la serie, es impredecible, es decir, no se puede esperar predecir su impacto sobre la serie de
tiempo. Existen dos tipos de variacin irregular: a) Las variaciones que son provocadas por
acontecimientos especiales, fcilmente identificables, como las elecciones, inundaciones,
huelgas, terremotos. b) Variaciones aleatorias o por casualidad, cuyas causas no se pueden
sealar en forma exacta, pero que tienden a equilibrarse a la larga.
Referencias
METODOLOGIAS DE PRONOSTICOS
Este algoritmo se complementa con una etapa ms de verificacin o contraste del pronstico.
Esta etapa se lleva a cabo cuando la incertidumbre sobre la ocurrencia del evento objeto del
pronstico desaparece. En esas condiciones, el resultado del evento se compara con el
pronstico y de esa comparacin se pueden sugerir modificaciones al procedimiento de
produccin de los pronsticos.
Promedio mvil
Un promedio mvil se construye sustituyendo cada valor de una serie por la media obtenida
con esa observacin y algunos de los valores inmediatamente anteriores y posteriores. Se
considerar el promedio mvil a partir de las tres observaciones ms recientes. En este caso
se utilizar la siguiente ecuacin:
Promedios mviles ponderados
El estimado de la tendencia:
El anlisis de regresin es una tcnica estadstica para investigar la relacin funcional entre
dos o ms variables, ajustando algn modelo matemtico. La regresin lineal simple utiliza
una sola variable de regresin y el caso ms sencillo es el modelo de lnea recta. Supngase
que se tiene un conjunto de n pares de observaciones (xi,yi), se busca encontrar una recta
que describa de la mejor manera cada uno de esos pares observados.
Se considera que la variable X es la variable independiente o regresiva y se mide sin error,
mientras que Y es la variable respuesta para cada valor especfico xi de X.
Grfico de barras
Se suelen usar para ver la evolucin en el tiempo de una magnitud concreta o comparar
magnitudes de varias categoras.
Vertical: las distintas categoras estn situadas en el eje horizontal y las barras de frecuencias
crecen verticalmente.
Horizontal: las categoras se sitan en el eje vertical y las barras crecen horizontalmente.
Suelen usarse cuando hay muchas categoras o sus nombres son demasiado largos.
Tipos de grficos de barras:
Tiene orientacin horizontal y contiene dos series de datos cuyas barras de frecuencias
crecen en sentidos opuestos. Una pirmide de poblacin es un histograma bi-direccional que
muestra la estructura demogrfica de una poblacin, por sexo y edad, en un momento
determinado.
Polgono de frecuencias
Grfico de lneas
Son tiles cuando las categoras son pocas. Si el grfico tuviera muchas variables, no
aportara casi informacin y sera prcticamente incomprensible.
Grfico de dispersin
Un grfico de dispersin muestra en un eje cartesiano la relacin que existe entre dos
variables. Este grfico nos informa del grado de correlacin entre las dos variables, es decir,
nos muestra si el incremento o disminucin de los valores de una de las variables,
denominada variable independiente y que se suele representar en el eje horizontal, altera de
alguna manera los valores de la otra, denominada variable dependiente y que representa
generalmente en el eje vertical.
Cartograma
Una grfica de radar, tambin conocida como un diagrama de araa, es una herramienta muy
til para mostrar visualmente los gaps entre el estado actual y el estado ideal.
Una grfica de radar se utiliza para presentar visualmente los gaps existentes entre el estado
actual y el estado ideal, captar las diferentes percepciones de todos los miembros del equipo
con respecto al desempeo del equipo o de la organizacin, mostrar los cambios en las
fortalezas o debilidades del equipo o de la organizacin y presentar claramente las categoras
importantes de desempeo.
Referencias
INFOGRAFIAS
Diagrama de burbujas
Puede utilizar un grfico de burbujas en lugar de un grfico de dispersin si los datos tienen
tres series de datos que contienen un conjunto de valores. Los tamaos de las burbujas se
determinan por los valores de la tercera serie de datos.
Pictogramas
Se utiliza un dibujo que representa la variable estadstica y sta se repite tantas veces como
haga falta (frecuencia absoluta).
El dibujo utilizado vara de tamao dependiendo de su frecuencia; a mayor frecuencia mayor
es el dibujo.
Heat map
Es una representacin grfica de datos donde cada fraccin de una matriz es representada
por un color, cada cdigo de color representa un valor tomado por una variable.
Grfica de rea
Un grfico de rea evala las contribuciones a un total a lo largo del tiempo. Los grficos de
rea muestran mltiples series de tiempo apilados en el eje-y. Cada lnea en el grfico es la
suma acumulada para que se pueda apreciar la contribucin de cada serie y cmo cambia su
composicin a lo largo del tiempo.
Refinamiento de datos
Gente de negocios que no pueden encontrar informacin relevante en sus bases de datos y
recurren a las personas de tecnologas de informacin para que les provean los datos para los
proyectos de anlisis.
Referencias