Sie sind auf Seite 1von 31

BIG DATA

Para poder llevar las mejores soluciones y propuesta de valor a nuestros mercados, es
relevante conocer algunas claves de xito al implementar una estrategia de anlisis de datos.

Calidad en los datos

El proceso generar un modelo al final, usted va almacenar los datos, recuperar y disear lo
que est por venir. Pero, asegura que esa proyeccin ser correcta? El gran impacto en la
calidad de sus modelos est en la calidad de los datos. Si los modelos son buenos, la
expectativa de xito es mayor.

Tener todos los datos necesarios

Si tuviramos, hipotticamente hablando, toda la informacin sobre un urna de sorteos


pblicos: el aire que circula dentro de ella, todos los movimientos posibles de las balotas, el
peso exacto de cada una de ellas, el tiempo exacto en el cual el aire golpea dentro de la urna,
podramos entonces predecir los nmeros sorteados. Sin embargo, esto no es posible, pues
no contamos con esos datos. Con los datos desestructurados y estructurados que nuestra
empresa dispone ocurre generalnente lo mismo.

Infraestructura para el alto volumen de procesamiento

Mucho se habla sobre el grandes cantidades de datos, pero cuntas empresas conocemos
que tengan capacidad suficiente para administrar y manejar un alto volumen de datos
requeridos en su operacin? En muchas ocasiones no existir tal capacidad en las
organizaciones, por lo que deber prepararse en forma parcial, estructurada y ordenada.

Profesionales adecuados a la oportunidad

Son necesarios diversos perfiles de profesionales que tengan expertise, tanto en tcnicas
como metodologas, respecto a los trminos de operacin y el negocio. Actualmente, hay una
sobre evaluacin de la tecnologa, pero es necesario primero reconocer y comprender las
oportunidades del Anlisis de Datos para perfeccionar el negocio y, despus, identificar la
solucin ms adecuada para el problema.

Confidencialidad de los datos


Dependiendo del sector de actuacin de la empresa, la confidencialidad de los datos es un
punto inalterable. En estos casos, la disponibilidad de los datos ser reducida y ser necesario
trabajar con otras oportunidades para usar grandes cantidades de datos. Una empresa de
telecomunicaciones, por ejemplo, no puede simplemente utilizar los datos de trfico o de
acceso de sus clientes, venderlos o usarlos con fin de obtener insights de negocios.

Momento de go y no go

Saber cundo ejecutar la oportunidad de Big Data, o no, es un punto crtico. En el momento en
el que se detectan varias oportunidades y se entiende bien que el Big Data es esencial, tiene
que existir un momento para reflexionar si la empresa atiende todos los requisitos
anteriormente explicados. Esto puede, muchas veces, llevar a la decisin de no ejecutar la
iniciativa que no ser exitosa.

Referencias

Bcares, B. (6 de Mayo de 2015). Silicon Week. Obtenido de Algar Tech: 6 consejos para
manejar el Big Data: http://www.siliconweek.com/cloud/algar-tech-6-consejos-para-manejar-el-
big-data-58891

Labrador, A. (06 de 05 de 2015). El filtro. Obtenido de Algar Tech recomienda cmo hacer del
Big Data una solucin exitosa para las compaas: http://www.elfiltro.co/tag/big-data/
LA ESTADISTICA PARA LA TOMA DE DECISIONES

Con frecuencia estamos interesados en obtener razonamientos vlidos respecto a datos de un


grupo grande de personas u objetos, pero nuestra capacidad humana para analizar al mismo
tiempo grandes cantidades de datos es limitada, por lo cual se utilizan las herramientas
estadsticas.

La expresin estadstica puede considerarse como la coleccin de datos numricos, resultado


de observaciones clasificadas y ordenadas segn un determinado criterio, siendo los datos
valores particulares de una variable.

Los datos se pueden dividir en cualitativos y cuantitativos. Los datos cualitativos son aquellos
que no representan un valor numrico, stos pueden ser nominales u ordinales. Los
nominales son los que funcionan solamente como etiquetas mientras que los ordinales son
valores que se asignan de acuerdo a un orden que contiene informacin sobre la intensidad
del atributo. Los datos cuantitativos son lo que son intrnsecamente numricos, se pueden
dividir en discreto o continuos. Los discretos representan valores enteros y con frecuencia
describen conteos mientras que los continuos se pueden producir cualquier valor en un
intervalo.

En el desarrollo de los mtodos estadsticos la poblacin se define como el conjunto de


sucesos, personas, objetos, etc. Que le interesan a la persona que hace el estudio. La
poblacin segn el tamao puede ser finita o infinita. El concepto de infinita solo existe en
teora, ya que en la prctica no encontraremos aplicacin a poblaciones de elementos infinitos
como, por ejemplo, las estrellas de universo. Sin embargo, en la estadstica matemtica las
poblaciones con un nmero suficientemente grande de elementos son tratados como si fueran
infinitos.

Cuando la poblacin o conjunto es muy grande, se hace difcil la observacin de los


caracteres a estudiar en cada uno de los elementos, debido al enorme costo que tendra la
observacin de toda la poblacin y debido tambin al enorme trabajo y tiempo necesarios para
llevar a cabo una observacin exhaustiva de cada uno. Estos trabajos, inconvenientes,
pueden ser superados mediante la eleccin de una muestra lo suficientemente representativa
de la poblacin. Una muestra se puede definir como un subconjunto de la poblacin a la que
se tiene acceso y se pueden hacer observaciones.

Una muestra aleatoria es una muestra muy representativa de la poblacin. Se considera que
cada elemento ha tenido la misma probabilidad de pertenecer a la muestra. Por lo que las
conclusiones basadas en una muestra aleatoria resultan confiables.
Estadstica descriptiva

La estadstica descriptiva es el conjunto de mtodos y tcnicas que se usan para recolectar,


organizar y presentar en forma de tablas y grficas, informacin numrica; incluyendo el
clculo de medidas estadsticas de tendencia centralidad y dispersin.

Medidas de tendencia central

Media aritmtica

Es una medida de tendencia central que resulta conveniente cuando los datos no presentan
valores atpicos o extremos ya que es muy sensible a estos. Se puede decir que representa el
centro de gravedad de los datos. La media aritmtica se calcula con la suma de los valores de
los datos de la muestra divididos entre el nmero total de datos que conforman la muestra.

Mediana

Es una medida de tendencia central y se define como el valor que divide un conjunto de datos
previamente ordenados de menor a mayor, y es el punto intermedio entre todos ellos. Esta
medida es conveniente cuando la muestra presenta datos atpicos o extremos.

Se calcula ordenando los datos de menor a mayor. Si el nmero N de datos es impar,


entonces hay un nmero intermedio que es el que representa la mediana. En el caso de que el
nmero N de datos sea par, entonces hay dos datos intermedios, por lo que se calcula la
media entre ellos.

Moda

En un conjunto de datos de una muestra la moda es el valor que ocurre con mayor frecuencia,
por lo que es el valor ms representativo.

Medidas de dispersin
Mientras que las medidas de tendencia central describen el comportamiento de los datos en
una muestra o conjunto de datos, las medidas de dispersin proporcionan informacin acerca
de cmo estn distribuidos o dispersos los valores con relacin a la tendencia central.

Rango

En todo conjunto de datos hay valores extremos, uno menor y otro mayor, la diferencia entre
estos se le llama rango. Esta medida de dispersin es la ms fcil de obtener, sin embargo se
usa poco debido a que es muy influenciable por la presencia de valores extremos de poca
frecuencia, lo cual conduce a apreciaciones falsas.

Varianza

Es una medida de dispersin que refleja la distancia al cuadrado de los valores en un conjunto
con el valor esperado o media.

Para calcular la varianza es necesario contar con el valor de la media. Se obtiene la diferencia
de cada valor del conjunto con la media y se eleva al cuadrado. Se suman todos los valores
obtenidos y se dividen entre el nmero de datos.

Desviacin estndar

Es la medida de dispersin ms utilizada y muy objetiva. Cuanto mayor sea su valor, mayor es
la dispersin de los datos, aunque no se puede determinar si se encuentra por encima o por
debajo de la media aritmtica.

Se calcula obteniendo la raz cuadrada de la varianza.

Cuartiles

Son medidas de posicin que permiten conocer los intervalos dentro de los cuales quedan
representados proporcionalmente los elementos de un conjunto, se divide la distribucin de
frecuencias en 4 partes iguales, cada una contiene igual nmero de observaciones.
El primer cuartil corresponde el 25% y se designa con Q1. El segundo cuartil representa el
50% y coincide con la mediana. El tercer cuartil representa el 75% de las observaciones que
estn por debajo de l.

Referencias

Fuenlabrada, S. (2004). Probabilidad y Estadstica. Mxico: McGrawHill.

Ramrez, M. M. (s.f.). Departamento de Estadstica y Centro de Estadstica


Aplicada. Recuperado de ITAM http://allman.rhon.itam.mx/~mendoza/EyP.pdf

Salinas, H. (2012). Universidad de Atacama. Recuperado de


http://www.mat.uda.cl/hsalinas/cursos/2010/eyp2/clase1.pdf

ANALISIS DE DATOS

Una vez concluidas las etapas de coleccin y procesamiento de datos se inicia con una de las
ms importantes fases de una investigacin: el anlisis de datos. El anlisis de datos es el
precedente para la actividad de interpretacin. La interpretacin se realiza en trminos de los
resultados de la investigacin. Esta actividad consiste en establecer inferencias sobre las
relaciones entre las variables estudiadas para extraer conclusiones y recomendaciones
(Kerlinger, 1982). La interpretacin se realiza en dos etapas:

1. Interpretacin de las relaciones entre las variables y los datos que las sustentan con
fundamento en algn nivel de significancia estadstica.
2. Establecer un significado ms amplio de la investigacin, es decir, determinar el grado de
generalizacin de los resultados de la investigacin.

El propsito es, entonces, describir el comportamiento de una variable a partir de la


informacin correspondiente, contenida en un banco de datos. As, la informacin est
formada por los datos que se encuentran en una columna del banco y la principal
caracterstica de esos datos es su variabilidad.

Analizar significa establecer categoras, ordenar, manipular y resumir los datos, (Kerlinger,
1982, p. 96). En esta etapa del proceso de investigacin se procede a racionalizar los datos
colectados a fin de explicar e interpretar las posibles relaciones que expresan las variables
estudiadas.

Organizacin de datos

Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la
distribucin de frecuencias y b) la representacin grfica.
Distribucin de frecuencias

Comnmente llamada tabla de frecuencias, se utiliza para hacer la presentacin de datos


provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante
la divisin en clases y registro de la cantidad de observaciones correspondientes a cada clase.
Lo anterior facilita la realizacin de un mejor anlisis e interpretacin de las caractersticas que
describen y que no son evidentes en el conjunto de datos brutos o sin procesar. Una
distribucin de frecuencias constituye una tabla en el mbito de investigacin.

La distribucin de frecuencias puede ser simple o agrupada. La distribucin de frecuencias


simple es una tabla que se construye con base en los siguientes datos: clase o variable
(valores numricos) en orden descendente o ascendente, tabulaciones o marcas de recuento
y frecuencia.
La distribucin de frecuencia agrupada se utiliza cuando el nmero de variables es
muy grande o la variable es continua, para este caso se definen clases. En las
clases se agrupan valores en intervalos de la misma amplitud y se calcula la
frecuencia correspondiente.

Interpretacin de las relaciones entre las variables

Correlacin entre variables

La correlacin estadstica constituye una tcnica estadstica que nos indica si dos variables
estn relacionadas o no. Por ejemplo, considera que las variables son el ingreso familiar y el
gasto familiar. Se sabe que los aumentos de ingresos y gastos disminuyen juntos. Por lo tanto,
estn relacionados en el sentido de que el cambio en cualquier variable estar acompaado
por un cambio en la otra variable.

Si el cambio en una variable est acompaado de un cambio en la otra, entonces se dice que
las variables estn correlacionadas. Por lo tanto, podemos decir que el ingreso familiar y
gastos familiares y el precio y la demanda estn correlacionados.

La correlacin puede decir algo acerca de la relacin entre las variables. Se utiliza para
entender si la relacin es positiva o negativa y la fuerza de la relacin.

La correlacin es una herramienta poderosa que brinda piezas vitales de informacin. La


correlacin estadstica es medida por lo que se denomina coeficiente de correlacin (r). Su
valor numrico vara de 1,0 a -1,0. Nos indica la fuerza de la relacin.

En general, r> 0 indica una relacin positiva y r <0 indica una relacin negativa, mientras que r
= 0 indica que no hay relacin (o que las variables son independientes y no estn
relacionadas). Aqu, r = 1,0 describe una correlacin positiva perfecta y r = -1,0 describe una
correlacin negativa perfecta.

La correlacin es solamente apropiada para examinar la relacin entre datos cuantificables


significativos (por ejemplo, la presin atmosfrica o la temperatura) en vez de datos
categricos, tales como el sexo, el color favorito, etc.

El tipo de correlacin se puede deducir segn la forma de la nube de puntos representada en


un grfico de dispersin:

Correlacin nula: No existe ninguna relacin entre las variables. Se dice que ambas son
independientes.
Correlacin lineal: Existe una relacin lineal negativa si al aumentar los valores de la variable
independiente disminuyen los valores de la variable dependiente y relacin lineal positiva si
al aumentar los valores de la variable independiente aumentan los valores de la variable
dependiente.

Correlacin no lineal: Existe una relacin entre las variables pero no es lineal.

Caractersticas de series de tiempo

Por serie de tiempo nos referimos a datos estadsticos que se recopilan, observan o registran
en intervalos de tiempo regulares (diario, semanal, semestral, anual, entre otros). El trmino
serie de tiempo se aplica por ejemplo a datos registrados en forma peridica que muestran,
por ejemplo, las ventas anuales totales de almacenes, el valor trimestral total de contratos de
construccin otorgados, el valor trimestral del PIB.

Componentes de la serie de tiempo


Existen cuatro tipos bsicos de variacin, los cuales sobrepuestos o actuando en concierto,
contribuyen a los cambios observados en un perodo de tiempo y dan a la serie su aspecto
errtico. Estas cuatro componentes son: Tendencia secular, variacin estacional, variacin
cclica y variacin irregular.

1. Tendencia secular: La tendencia secular o tendencia a largo plazo de una serie es por lo
comn el resultado de factores a largo plazo. En trminos intuitivos, la tendencia de una serie
de tiempo caracteriza el patrn gradual y consistente de las variaciones de la propia serie,
que se consideran consecuencias de fuerzas persistentes que afectan el crecimiento o la
reduccin de la misma, tales como: cambios en la poblacin, en las caractersticas
demogrficas de la misma, cambios en los ingresos, en la salud, en el nivel de educacin y
tecnologa. Las tendencias a largo plazo se ajustan a diversos esquemas. Algunas se
mueven continuamente haca arriba, otras declinan, y otras ms permanecen igual en un
cierto perodo o intervalo de tiempo.
2. Variacin estacional: El componente de la serie de tiempo que representa la variabilidad en
los datos debida a influencias de las estaciones, se llama componente estacional. Esta
variacin corresponde a los movimientos de la serie que recurren ao tras ao en los mismos
meses (o en los mismos trimestres) del ao poco ms o menos con la misma intensidad. Por
ejemplo: Un fabricante de albercas inflables espera poca actividad de ventas durante los
meses de otoo e invierno y tiene ventas mximas en los de primavera y verano, mientras
que los fabricantes de equipo para la nieve y ropa de abrigo esperan un comportamiento
anual opuesto al del fabricante de albercas.
3. Variacin cclica: Con frecuencia las series de tiempo presentan secuencias alternas de
puntos abajo y arriba de la lnea de tendencia que duran ms de un ao, esta variacin se
mantiene despus de que se han eliminado las variaciones o tendencias estacional e
irregular. Un ejemplo de este tipo de variacin son los ciclos comerciales cuyos perodos
recurrentes dependen de la prosperidad, recesin, depresin y recuperacin, las cuales no
dependen de factores como el clima o las costumbres sociales.
4. Variacin Irregular: Esta se debe a factores a corto plazo, imprevisibles y no recurrentes
que afectan a la serie de tiempo. Como este componente explica la variabilidad aleatoria de
la serie, es impredecible, es decir, no se puede esperar predecir su impacto sobre la serie de
tiempo. Existen dos tipos de variacin irregular: a) Las variaciones que son provocadas por
acontecimientos especiales, fcilmente identificables, como las elecciones, inundaciones,
huelgas, terremotos. b) Variaciones aleatorias o por casualidad, cuyas causas no se pueden
sealar en forma exacta, pero que tienden a equilibrarse a la larga.
Referencias

Baray, H. L. (2006). Introduccin a la Metodologa de la Investigacin. Juan Carlos Martnez


Coll.

Explorable.com. (02 de Mayo de 2009). La Correlacin Estadstica. Obtenido de


https://explorable.com/es/la-correlacion-estadistica

Instituto Nacional de Estadstica. (s.f.). Tipos de grficos. Obtenido de


http://www.ine.es/explica/docs/pasos_tipos_graficos.pdf

Kerlinger, F. (1983). Investigacin del Comportamiento. Tcnicas y Metodologa. Mxico:


Interamericana.

Ramrez, M. M. (s.f.). Departamento de Estadstica y Centro de Estadstica Aplicada. Obtenido


de ITAM: http://allman.rhon.itam.mx/~mendoza/EyP.pdf

Universidad de Sonora. (s.f.). Series de tiempo. Obtenido de Departamento de Matemticas:


http://www.estadistica.mat.uson.mx/Material/seriesdetiempo.pdf

METODOLOGIAS DE PRONOSTICOS

Un pronstico es una afirmacin sobre un evento cuya ocurrencia no es segura. Tpicamente,


los pronsticos se producen sobre eventos que pueden ocurrir en el futuro. En virtud de que
los eventos para los cuales se producen pronsticos no se pueden anticipar con certeza, una
caracterstica intrnseca de todo pronstico es que puede fallar.
La incertidumbre asociada a los fenmenos inciertos puede provenir de, al menos, dos fuentes
distintas: la falta de conocimiento o la falta de control. La falta de control se manifiesta a travs
de la variabilidad de los resultados observados.

Las tcnicas estadsticas de pronstico constituyen una valiosa herramienta para la


produccin de pronsticos a partir del anlisis de informacin previa, adems de que son
precisas, confiables y reproducibles.

Las tcnicas estadsticas para la produccin de pronsticos operan de acuerdo a reglas


generales que, en esencia, se pueden resumir a travs del siguiente algoritmo:

1. Se recolectan observaciones sobre el fenmeno.


2. Se describe el comportamiento de las observaciones
3. Se adoptan supuestos de carcter general sobre el comportamiento de las observaciones.
4. Se establecen supuestos sobre la relacin que guardan las observaciones futuras con las
observaciones que se han recolectado.
5. Se describen el comportamiento futuro del fenmeno. Es decir, se producen los pronsticos
cada uno de los cuales incluye una medida de su confiabilidad.

Este algoritmo se complementa con una etapa ms de verificacin o contraste del pronstico.
Esta etapa se lleva a cabo cuando la incertidumbre sobre la ocurrencia del evento objeto del
pronstico desaparece. En esas condiciones, el resultado del evento se compara con el
pronstico y de esa comparacin se pueden sugerir modificaciones al procedimiento de
produccin de los pronsticos.

Pronsticos de series de tiempo

Promedio mvil

Un promedio mvil se construye sustituyendo cada valor de una serie por la media obtenida
con esa observacin y algunos de los valores inmediatamente anteriores y posteriores. Se
considerar el promedio mvil a partir de las tres observaciones ms recientes. En este caso
se utilizar la siguiente ecuacin:
Promedios mviles ponderados

El mtodo consiste en asignar un factor de ponderacin distinto para cada dato.


Generalmente, a la observacin o dato ms reciente a partir del que se quiere hacer el
pronstico, se le asigna el mayor peso, y este peso disminuye en los valores de datos ms
antiguos.

Suavizamiento exponencial simple

El suavizamiento exponencial emplea un promedio ponderado de la serie de tiempo pasada


como pronstico; es un caso especial del mtodo de promedios mviles ponderados en el cual
slo se selecciona un peso o factor de ponderacin: el de la observacin ms reciente. En la
prctica comenzamos haciendo que F1, el primer valor de la serie de valores uniformados, sea
igual a Y1, que es el primer valor real de la serie. El modelo bsico de suavizamiento
exponencial es el siguiente:

Suavizamiento exponencial doble: Mtodo de Holt

Cuando se abordan las series de tiempo en algunos casos es identificable que el


comportamiento de un grupo de datos puede arrojar una tendencia clara e informacin que
permita anticipar movimientos futuros. Estimar una tendencia nos proporciona las
actualizaciones de nivel que mitigan los cambios ocasionales de una serie de tiempo.

El pronstico de suavizacin exponencial doble es ptimo para patrones de demanda que


presentan una tendencia, al menos localmente, y un patrn estacional constante, en el que se
pretende eliminar el impacto de los elementos irregulares histricos mediante un enfoque en
perodos de demanda reciente.

El mtodo de suavizacin exponencial doble o mtodo de Holt usa tres ecuaciones


fundamentales:

Pronstico para el periodo t:


La serie suavizada exponencialmente (primera suavizacin):

El estimado de la tendencia:

La siguiente grfica representa la aplicacin del mtodo de Holt (Quispe Llanos,


2013):
Regresin lineal

El anlisis de regresin es una tcnica estadstica para investigar la relacin funcional entre
dos o ms variables, ajustando algn modelo matemtico. La regresin lineal simple utiliza
una sola variable de regresin y el caso ms sencillo es el modelo de lnea recta. Supngase
que se tiene un conjunto de n pares de observaciones (xi,yi), se busca encontrar una recta
que describa de la mejor manera cada uno de esos pares observados.
Se considera que la variable X es la variable independiente o regresiva y se mide sin error,
mientras que Y es la variable respuesta para cada valor especfico xi de X.

Coeficiente de correlacin [R]

El coeficiente de correlacin, comnmente identificado como r o R, es una medida de


asociacin entre las variables aleatorias X y Y, cuyo valor vara entre -1 y +1.
Referencias

Alfaro, I. P. (s.f.). Universidad Nacional Autnoma de Mxico. Obtenido de Divisin de


Ciencias Bsicas: http://www.dcb.unam.mx/profesores/irene/Notas/Regresion.pdf

Ingeniera Industrial Online. (2012). REGRESIN LINEAL O MNIMOS CUADRADOS.


Obtenido de http://www.ingenieriaindustrialonline.com/herramientas-para-el-ingeniero-
industrial/pron%C3%B3stico-de-ventas/regresi%C3%B3n-lineal/

Ingeniera Industrial Online. (2012). SUAVIZACIN EXPONENCIAL DOBLE: MTODO DE


HOLT. Obtenido de http://www.ingenieriaindustrialonline.com/herramientas-para-el-ingeniero-
industrial/pron%C3%B3stico-de-ventas/suavizaci%C3%B3n-exponencial-doble/

Universidad de Sonora. (s.f.). Series de tiempo. Obtenido de Departamento de Matemticas:


http://www.estadistica.mat.uson.mx/Material/seriesdetiempo.pdf
HERRAMIENTAS GRAFICAS (TIPOS DE GRAFICAS)
A partir de la distribucin de frecuencias se procede a presentar los datos por medio de
grficas. La informacin puede describirse por medio de grficos a fin de facilitar la lectura e
interpretacin de las variables medidas. Cada vez es ms usual que informaciones numricas
se ofrezcan mediante grficos estadsticos. Esto se hace as por varias razones: ocupan
menos espacio, atraen ms la atencin, comparan fcilmente elementos entre s y permiten
asimilar ms informacin de un solo vistazo.

Grfico de barras

Se suelen usar para ver la evolucin en el tiempo de una magnitud concreta o comparar
magnitudes de varias categoras.

La orientacin del grfico puede ser:

Vertical: las distintas categoras estn situadas en el eje horizontal y las barras de frecuencias
crecen verticalmente.

Horizontal: las categoras se sitan en el eje vertical y las barras crecen horizontalmente.
Suelen usarse cuando hay muchas categoras o sus nombres son demasiado largos.
Tipos de grficos de barras:

Sencillo: Contiene una nica serie de datos.


Agrupado: Contiene varias series de datos y cada una se representa por un tipo de barra de
un mismo color o textura.
Apilado: Contiene varias series de datos. La barra se divide en segmentos de diferentes
colores o texturas y cada uno de ellos representa una serie.
Histograma

El histograma ... es una grfica de barras que permite describir el comportamiento de un


conjunto de datos en cuanto a su tendencia central, forma y dispersin, (Gutirrez, 1998,
p.79). Se usa para representar las frecuencias de una variable cuantitativa continua. En uno
de los ejes se posicionan las clases de la variable continua (los intervalos o las marcas de
clase que son los puntos medios de cada intervalo) y en el otro eje las frecuencias. No existe
separacin entre las barras.
Grfico bi-direccional

Tiene orientacin horizontal y contiene dos series de datos cuyas barras de frecuencias
crecen en sentidos opuestos. Una pirmide de poblacin es un histograma bi-direccional que
muestra la estructura demogrfica de una poblacin, por sexo y edad, en un momento
determinado.

En el eje vertical se posicionan los rangos de edades y en el horizontal los porcentajes de


poblacin. En una de las direcciones se colocan las barras que representan la distribucin (%
sobre el total de poblacin) por edad de los varones y en la otra la distribucin por edad de las
mujeres.

Polgono de frecuencias

Un mtodo ampliamente utilizado para mostrar informacin numrica de forma grfica es el


polgono de frecuencia o grfica de lnea.La construccin es similar a la del histograma pero la
diferencia radica en que para indicar la frecuencia solo se utiliza un punto sobre el punto
medio de cada intervalo. A continuacin se muestran los resultados de una prueba de
matemticas con 100 tems:

Grfico de lneas

Se suelen usar para presentar tendencias temporales. En el eje horizontal se ha de posicionar


la variable que indica las unidades de tiempo y en el vertical se introduce la escala de la
variable cuya variacin en el tiempo queremos ver. Pueden aparecer varias variables para
compararlas.
Grfico de sectores

Un grfico de sectores es una representacin circular de las frecuencias relativas de una


variable cualitativa o discreta que permite, de una manera sencilla y rpida, su comparacin.
El crculo representa la totalidad que se quiere observar (en el ejemplo, total de viajeros
hospedados en hoteles) y cada porcin, llamadas sectores, representan la proporcin de cada
categora de la variable (en el ejemplo, tipo de hotel) respecto el total. Suele expresarse en
porcentajes.

Son tiles cuando las categoras son pocas. Si el grfico tuviera muchas variables, no
aportara casi informacin y sera prcticamente incomprensible.
Grfico de dispersin

Un grfico de dispersin muestra en un eje cartesiano la relacin que existe entre dos
variables. Este grfico nos informa del grado de correlacin entre las dos variables, es decir,
nos muestra si el incremento o disminucin de los valores de una de las variables,
denominada variable independiente y que se suele representar en el eje horizontal, altera de
alguna manera los valores de la otra, denominada variable dependiente y que representa
generalmente en el eje vertical.

Cartograma

Un cartograma es un mapa en el que se presentan datos estadsticos por regiones bien


poniendo el nmero o coloreando las distintas zonas en funcin del dato que representan.
Diagrama de perfil radial

Una grfica de radar, tambin conocida como un diagrama de araa, es una herramienta muy
til para mostrar visualmente los gaps entre el estado actual y el estado ideal.

Una grfica de radar se utiliza para presentar visualmente los gaps existentes entre el estado
actual y el estado ideal, captar las diferentes percepciones de todos los miembros del equipo
con respecto al desempeo del equipo o de la organizacin, mostrar los cambios en las
fortalezas o debilidades del equipo o de la organizacin y presentar claramente las categoras
importantes de desempeo.
Referencias

Baray, H. L. (2006). Introduccin a la Metodologa de la Investigacin. Juan Carlos Martnez


Coll.

Ciencia y Tcnica Administrativa. (s.f.). Grfica de Radar (Diagrama de Araa). Obtenido de


http://www.cyta.com.ar/biblioteca/bddoc/bdlibros/herramientas_calidad/radar.htm

Instituto Nacional de Estadstica. (s.f.). Tipos de grficos. Obtenido de


http://www.ine.es/explica/docs/pasos_tipos_graficos.pdf

INFOGRAFIAS

Diagrama de burbujas

Un grfico de burbujas es una variacin de un grfico de dispersin en la que los puntos de


datos se reemplazan con burbujas y una dimensin adicional de los datos se representa en el
tamao de las burbujas. Al igual que un grfico de dispersin, un grfico de burbujas no utiliza
un eje de categoras, los ejes horizontales y verticales son los ejes de valores. Adems de los
valores de los ejes, un grfico de burbujas contiene valores de x, y y z. (tamao).

Puede utilizar un grfico de burbujas en lugar de un grfico de dispersin si los datos tienen
tres series de datos que contienen un conjunto de valores. Los tamaos de las burbujas se
determinan por los valores de la tercera serie de datos.
Pictogramas

Es un tipo de representacin que se utiliza para variables cualitativas, y que consiste en


representar los datos con dibujos alusivos a la estadstica estudiada. Los pictogramas son
muy expresivos, pero poco precisos.

Hay dos clases de pictogramas:

Se utiliza un dibujo que representa la variable estadstica y sta se repite tantas veces como
haga falta (frecuencia absoluta).
El dibujo utilizado vara de tamao dependiendo de su frecuencia; a mayor frecuencia mayor
es el dibujo.
Heat map

Es una representacin grfica de datos donde cada fraccin de una matriz es representada
por un color, cada cdigo de color representa un valor tomado por una variable.
Grfica de rea

Un grfico de rea evala las contribuciones a un total a lo largo del tiempo. Los grficos de
rea muestran mltiples series de tiempo apilados en el eje-y. Cada lnea en el grfico es la
suma acumulada para que se pueda apreciar la contribucin de cada serie y cmo cambia su
composicin a lo largo del tiempo.
Refinamiento de datos

Refinamiento de datos es la transformacin de datos en informacin relevante, procesable y


til y la preparacin de los datos para facilitar el acceso de los que la necesitan. Servicios de
refinamiento de datos ayudan a los grupos a travs de la organizacin para alinear sus
esfuerzos de datos a las tareas que aportan valor al negocio.

Quin necesita el refinamiento de datos?

Gente de negocios que no pueden encontrar informacin relevante en sus bases de datos y
recurren a las personas de tecnologas de informacin para que les provean los datos para los
proyectos de anlisis.

Desarrolladores de aplicaciones que crean aplicaciones en la nube sin integracin ni


gobernabilidad de datos, ya que no tienen un fcil acceso a datos acerca de sus servicios.

Referencias

Educacin de Personas Adultas . (s.f.). PICTOGRAMA. Obtenido de PICTOGRAMA

IBM. (2015). What is data refinement? Obtenido de http://www-


01.ibm.com/software/data/refinement/

Minitab. (s.f.). What is an area graph? Obtenido de http://support.minitab.com/en-


us/minitab/17/topic-library/basic-statistics-and-graphs/graphs/graphs-of-time-series/area-
graphs/area-graph/
Office . (s.f.). Presentar los datos en un grfico de burbuja. Obtenido de
https://support.office.com/es-cl/article/Presentar-los-datos-en-un-gr%C3%A1fico-de-burbuja-
424d7bda-93e8-4983-9b51-c766f3e330d9

Das könnte Ihnen auch gefallen