Sie sind auf Seite 1von 35

NIVELACIÓN EN ESTADISTICA

1
NIVELACIÓN EN ESTADÍSTICA

ESPECIALIZACIÓN EN FINANZAS

Dra. Viviana B. Lencina

En colaboración con Lic. Jorgelina Mena

1.Introducción

La Estadística es el estudio de cómo debe manejarse la información para


reflejar situaciones prácticas que involucran incertidumbre y cómo realizar
afirmaciones y tomar decisiones en ese contexto (Barnet,1999). Es una ciencia con
base matemática que trata acerca de la recolección, procesamiento, presentación,
análisis e interpretación de datos, con el objeto de facilitar esa toma de decisiones.

La ESTADÍSTICA se divide en dos ramas:

ESTADÍSTICA DESCRIPTIVA: Provee un conjunto de métodos para la recolección


de datos (información acerca del proceso bajo estudio), procesamiento,
resumen o caracterización (descripción de las características relevantes) de
los mismos y para la presentación la información relevante.

ESTADÍSTICA INFERENCIAL: Provee un conjunto de métodos para la generación


de modelos, afirmaciones y predicciones asociadas a los fenómenos bajo
estudio, teniendo en cuenta la aleatoriedad de las observaciones. Provee una
base matemática para la toma de decisiones referentes al fenómeno bajo
estudio basándose sólo en los resultados de una muestra.

Figura 1.1: El Método Estadístico

Datos Información Conocimiento

Estadística Inferencia
Descriptiva Estadística

La Estadística busca explicar el comportamiento de fenómenos o procesos


que ocurren bajo incertidumbre. Provee las bases para la investigación en la mayoría
de las áreas del conocimiento, desde la física hasta las ciencias sociales, desde las
ciencias de la salud hasta el control de calidad, puesto que ofrece un análisis lógico
para la toma de decisiones a partir de información incompleta.

2
Gimeno y Mateos de Cabo (2006) en su trabajo denominado Statistics and
Finance: Linving on the “Hedge”, manifiestan que la Estadística juega un papel
importante en finanzas. El desarrollo explosivo de mercados cada vez más complejos
hace que sea más difícil para los profesionales valorar correctamente los activos
financieros. El análisis estadístico se ha convertido en una herramienta poderosa para
una mejor valoración del mercado, asumiendo un papel líder en el desarrollo de
nuevos productos financieros limitando el riesgo que un inversor debe asumir.
Son numerosos los ejemplos donde la Estadística desempeña un rol
fundamental en Finanzas, a continuación se mencionan solo algunos de ellos:
 Valoración de activos financieros: donde los flujos de cajas (CF) presentes en
estos activos no se conocen de antemano. En general pueden ser tratados
como aleatorios cuando dependen de otros factores como rendimiento de la
empresa, movimientos de precios generados por el mercado, etc.
 Evolución de precios: Los precios se mueven en el tiempo, describiéndose
este comportamiento por medio de procesos aleatorios y se analizan los
retornos con teoría de series temporales. Así como el interés puede estar en
los precios, de igual manera se podrá pretender analizar evolución de tasas de
interés, tasa de cambios, capitales, etc.
Gestión de Riesgos: La composición de una cartera óptima implica decidir
entre una totalidad de inversiones sin riego a tasas bajas y otras con mejores
tasas pero con riesgos mayores. Existen métodos estadísticos para estimar con
cierta confianza, la máxima pérdida que tendría en un determinado período
una cartera determinada.

Uno de los más grandes estadísticos del siglo 20 fue John Tukey, quien hizo
aportes importantes en diferentes metodologías de la Estadística Aplicada, como
Estadística Descriptiva, Series Temporales, entre otras ramas. Él trabajó como
investigador de Bell de AT & T Laboratories, fue consultor para el gobierno de los
EEUU, corporaciones y otras organizaciones, participó en el diseño del avión espía
U-2, e inspiró (conjuntamente con Lyman Spitzer, Jr.), el Telescopio Espacial
Hubble. A él se le atribuye la siguiente frase:

“The best thing about


being a statistician “Lo mejor de ser un estadístico es que
is that you get to play in everyone’s puedes jugar en el patio trasero de
back yard”. todos”

Efectivamente, la Estadística goza de esa ubicuidad. Colabora en cualquier Ciencia,


donde se maneja información para favorecer el conocimiento acerca de algún
proceso o realidad y la toma de decisiones inteligentes, proveyendo las bases para la
investigación en la mayoría de las áreas del conocimiento, desde la física hasta las
ciencias sociales, desde las ciencias de la salud hasta el control de calidad.

3
2. Descripción de datos
En el proceso de resumir de manera inteligente la información
disponible en un conjunto datos sobre alguna característica de interés y de otros
atributos o características que pudieran estar relacionados, es fundamental aplicar las
diferentes técnicas que componen la Estadística Descriptiva. Esos datos pueden
provenir de estudios observacionales o experimentales, y deben ser resumidos y
organizados de modo que se pueda acceder a la información más relevante de la
manera más eficiente posible.

La Estadística Descriptiva provee herramientas para la construcción de tablas


y gráficos que permiten organizar, resumir y presentar de una manera efectiva la
información contenida en un gran conjunto de datos.

Cualquier característica de interés en la población o grupo bajo estudio se


denomina variable, las variables deben de ser factibles de medir en cada elemento de
la población. Por ejemplo, cuando la unidad de análisis es una persona algunas
variables de interés podrán ser sexo, edad, número de cuentas bancarias, salario, etc.;
cuando la unidad de análisis es una empresa el monto de depósitos en plazo fijos, la
inversión en bienes durables, el gasto en un determinado rubro, etc., son posibles
variables de interés. La construcción de las tablas y gráficos para describir las
diferentes variables depende del tipo de variable.

2.1 Escalas de medición


Las variables se clasifican en cualitativas o cuantitativas de acuerdo al tipo
de valores que asumen.
Una variable es Cualitativa ó de Atributos cuando sus valores describen
categorías o atributos de la unidad o individuo que se observa. Por ejemplo, nivel
socio-económico, calidad de exportador en una empresa, a favor o en contra de una
determinada política, sector de actividad económica, utilización de financiamiento
bancario, etc.
A su vez, las variables cualitativas se pueden clasificar en:
Variable cualitativa nominal: cuando no se puede establecer ningún orden
entre las categorías o atributos (Por ej.: a favor o en contra de una
determinada política, sector de actividad económica, exporta o no exporta,
utiliza o no utiliza financiamiento bancario).
Variable cualitativa ordinal: cuando las categorías o atributos pueden
ordenarse de acuerdo a la característica que presentan (Por ej.: nivel socio-
económico, con categorías bajo, medio y alto, nivel de financiamiento
bancario, con categorías nulo, escaso, medio o alto).

4
Una variable es Cuantitativa cuando asume valores numéricos. Por ejemplo
número de empleados trabajando en una empresa, ingreso familiar, tiempo hasta la
ocurrencia de algún evento, antigüedad de un activo, etc.
Por su parte, las variables cuantitativas se pueden clasificar en:
Variable cuantitativa discreta: cuando asume una cantidad numerable de
posibles valores (Por ej.: número de empleados).
Variable cuantitativa continua: cuando asume cualquier valor dentro de un
rango específico (Por ej.: ingreso familiar, tiempo hasta la ocurrencia de
algún evento, activo, pasivo, resultado de un ejercicio).

Figura 1.2 Clasificación de Variables

Variables

Cualitativas Cuantitativas

Nominal Ordinal Discreta Continua

Distinguir claramente el tipo de variable que se quiere observar es


fundamental en las diversas etapas de una investigación cuantitativa, puesto que de
ello depende cómo será observada, cómo será presentada, cómo será resumida y
cómo será analizada.

2.2Tablas o distribuciones de frecuencias

Una distribución de frecuencias es la representación en forma de tabla de


toda la información que se tiene sobre una determinada variable mediante el
agrupamiento de los datos en categorías mutuamente excluyentes y exhaustivas
informando el número de observaciones en cada categoría. Por mutuamente
excluyentes y exhaustivas se entiende que cualquier observación de la variable
pertenece a una única categoría.
La forma en que se construye la tabla depende de si los datos provienen de
variables cualitativas o cuantitativas.

5
2.2.1 Datos cualitativos

Los datos cualitativos provienen de variables cualitativas e indican las clases


o atributos que ocurren en las unidades o individuos observados. La tabla de
frecuencia, en este caso, informa la frecuencia con que ocurre cada uno de los
atributos o categorías.

Tabla Nº 2.1: Distribución de los hogares de la provincia de Tucumán según


necesidades básicas insatisfechas. Año 2010
Frecuencia Frecuencia Frecuencia
NBI
Absoluta Relativa Porcentual
Con al menos una necesidad
48.907 0,133 13%
básica insatisfecha
Sin necesidades básicas
319.631 0,867 87%
insatisfechas
Total 368.538 1 100%
Fuente: INDEC, Censo (2010)

Por ejemplo, en la Tabla 2.1 se puede observar el número de hogares de la


provincia de Tucumán que tienen Necesidades Básicas Insatisfechas. Las
Necesidades Básicas Insatisfechas se definen de acuerdo con la metodología
utilizada por INDEC en "La Pobreza en la Argentina", (Serie Estudios INDEC Nº 1,
Buenos Aires, 1984), donde los hogares con Necesidades Básicas Insatisfechas son
los hogares que presentan al menos uno de los siguientes indicadores de privación:
- Hacinamiento: hogares que tuvieran más de 3 personas por cuarto.
- Vivienda: hogares que habitaran en una vivienda de tipo inconveniente
(pieza de inquilinato, vivienda precaria u otro tipo).
- Condiciones sanitarias: hogares que no tuvieran ningún tipo de retrete.
- Asistencia escolar: hogares que tuvieran algún niño en edad escolar que no
asista a la escuela.
- Capacidad de subsistencia: hogares que tuvieran 4 ó más personas por
miembro ocupado y, además, cuyo jefe tuviera baja educación.

En las tablas, la frecuencia absoluta es el número de unidades o individuos


que presentan cada categoría de la variable, mientras que la frecuencia relativa es la
proporción de unidades o individuos que la presentan, obtenida como el cociente
entre la frecuencia absoluta y el total de las observaciones, y la frecuencia porcentual
es la frecuencia relativa expresada en porcentajes (multiplicada por 100).

Cuando la variable es nominal, a veces se sugiere ordenar las categorías en


orden ascendente o descendente de las frecuencias correspondientes. En el caso de la
variable Sector Económico representada en la Tabla 2.2, no hay orden entre las
categorías, consecuentemente se las puede ordenar de manera que las frecuencias

6
estén ubicadas en forma decreciente y así es posible identificar rápidamente los
sectores que se presentan con mayor y/o menor frecuencia.

Tabla Nº 2.2: Distribución de las empresas que componen el índice


EUROSTOXX50 según sectores económicos a los que pertenecen. Marzo de 2013
Frecuencia Frecuencia
Sector
Absoluta Relativa
Bienes de consumo 14 0,28
Servicios financieros e inmobiliarios 13 0,26
Petróleo y energía 8 0,16
Materiales básicos industria y 7 0,14
construcción
Tecnología y telecomunicaciones 5 0,10
Servicios de consumo 3 0,06
Total 50
Fuente: Elaboración propia a partir de datos de Sánchez García R. (2014)

Cuando la variable es ordinal, la presentación de las clases o categorías debe


respetar su orden natural. En la Tabla 2.3, se presenta la variable financiamiento
bancario definida en Guercio et al (2017), que asume las categorías (1) Nulo, cuando
no se utiliza financiamiento bancario, (2) Escaso, cuando la empresa cubre entre un 1
y un 20% de sus necesidades con financiamiento bancario, (3) Medio, cuando cubre
entre un 21 y 40% de sus necesidades con financiamiento bancario, y (4) Alto,
cuando cubre más del 40% de sus necesidades.

Tabla Nº 2.3: Distribución de las Pymes según financiamiento bancario.


Provincia de Buenos Aires, año 2009.
Niveles de Frecuencia Frecuencia
financiamiento Absoluta Porcentual
Nulo 587 68%
Escaso 153 18%
Medio 55 6,4%
Alto 64 7,5%
Total 859 100%
Fuente: Elaboración propia a partir de datos de Guercio et al (2017)

2.2.2 Datos Cuantitativos

Los datos que se obtienen de variables cuantitativas se denominan datos


cuantitativos, y en general son el resultado de algún procedimiento de conteo o
enumeración (variable cuantitativa discreta), proceso de medición (variable

7
cuantitativa continua) o de alguna transformación matemática de datos obtenidos por
estos procedimientos (continuos o discretos dependiendo el caso).
Si el número de valores asumidos por una variable cuantitativa discreta es
relativamente bajo, para los fines de presentar la información en una tabla de
frecuencias, ésta puede ser tratada como una variable cualitativa ordinal.
Cuando el número de valores asumidos por una variable cuantitativa es muy
alto, lo que generalmente sucede cuando la variable es continua, deben definirse
intervalos de clase que abarquen todo el rango de valores posibles y la información
observada se presenta en una tabla donde se indica la frecuencia de ocurrencia de
datos dentro de cada intervalo de clase. A modo de ejemplo se presenta la Tabla 2.4.

Tabla Nº 2.4: Distribución de los activos totales en millones de


dólares de 916 firmas no financieras estadounidenses. Año Fiscal
2015.
Activos Frecuencia Frecuencia Frecuencia
(106USD) Absoluta Porcentual Acumulada
[0;4.500) 856 93 % 93%
[4.500;9.000) 33 3,6% 97,05%
[9.000;13.500) 15 1,64% 98,69%
[13.500;18.000) 4 0,44% 99,13%
[18.000;22.500) 2 0,22% 99,34%
[22.500;27.000) 2 0,22% 99,56%
[27.000;31.500) 1 0,11% 99,67%
[31.500;36.000) 1 0,11% 99,78%
[36.000;40.500) 1 0,11% 99,89%
[40.500;45.000) 0 0% 99,89%
[45.000;49.500) 1 0,11% 100,00%
Total 916 100%

Cuando se usa la notación [m;n) se entiende que la clase está compuesta por
todos los valores mayores e iguales a m y menores que n. En general, en cualquier
extremo, el corchete [ ó ] informa que el valor del extremo correspondiente está
incluido en la clase y, por otra parte, el paréntesis ( ó ) refiere que el respectivo
extremo no está incluido en la clase.
Existen situaciones donde resulta de interés el presentar el número o la
proporción de unidades que a lo sumo asumen un determinado valor. En la Tabla 2.4
la frecuencia acumulada informa la proporción de empresas con activos totales
inferiores al máximo valor de cada clase. Esa frecuencia se calcula sumando, a la
frecuencia de la clase, las frecuencias de las clases anteriores.

8
De la información provista en la Tabla 2.4, se observa que la variable activos
es asimétrica positiva, es decir, muchas empresas con activos inferiores a 4.500
millones de dólares. En este tipo de situaciones, si se pretende tener más información
de esa parte de la distribución puede recurrirse a intervalos de clases con amplitudes
diferentes o agregar clases abiertas.
En la literatura estadística se pueden encontrar algunas recomendaciones
sobre la selección del número de clases a utilizar en la construcción de las tablas de
frecuencias de datos cualitativos. Anderson y Finn (1996) consideran adecuado usar
entre 5 y 15 intervalos de clases. El número de clases no debe ser grande de manera
que muchas clases posean pocos elementos o ninguno, ni debe ser tan baja que se
pierda información sobre el comportamiento de la variable. Kotz et al. (1983)
mencionan una regla práctica de naturaleza empírica que funciona bien en general
para la determinación del número de intervalos de clases,
Número de clases 1+3,3·log(número de datos).
En general se toman clases con la misma amplitud, que puede calcularse como el
cociente entre (máximo dato-mínimo dato) y el número de clases.

Tabla Nº 2.5: Distribución de los activos totales en millones de dólares de 916


firmas no financieras estadounidenses. Año Fiscal 2015.

Activos Frecuencia Frecuencia Frecuencia Porcentual


(106USD) Absoluta Porcentual Acumulada

(0;10.000] 687 75% 75%

(10.000;20.000] 95 10,4% 85,4%

(20.000;30.000] 40 4,4% 89,7%

(30.000;40.000] 24 2,6% 92,4%

(40.000;50.000] 21 2,3% 94,7%

(50.000;60.000] 10 1,1% 95,7%

(60.000;70.000] 6 0,7% 96,4%

(70.000;80.000] 4 0,4% 96,8%

(80.000;90.000] 2 0,2% 97,1%

(90.000;100.000] 6 0,7% 97,7%

más de 100.000 21 2,3% 100,0%

Total 916 100%

Nota: La última clase agrupa empresas con activos desde U$S 101.779 millones a
U$S 492.692 millones.

9
La Tabla 2.4 fue construida siguiendo el criterio empírico antes mencionado
con clases de igual amplitud, y en virtud de la asimetría de la distribución, la primera
clase tiene el 93% de los datos y una de las últimas clases ningún. Para subsanar esa
situación se presenta la Tabla 2.5, con intervalos de clases desiguales. Esta tabla
permite apreciar con más detalle el comportamiento de los activos menores a 40.000
millones de dólares.
2.3 Representaciones gráficas
La representación de la información por medio de gráficos es una herramienta
visual que favorece la captación de la información. Así como en el caso de las tablas
de frecuencias, el tipo de gráfico a emplear depende del tipo de variable que se
quiere representar. En la Tabla 2.5 se presentan los tipos de gráficos adecuados para
cada tipo de variables.

Tabla Nº 2.5: Representaciones gráficas según el tipo de variable

Tipo de variable Representación gráfica


Diagrama Circular o Diagrama de
Variable Nominal
barras simples
Cualitativa
Ordinal Diagrama de barras simples
Diagrama de barras simples o
Discreta
Variable histograma
Cuantitativa Histograma o Polígono de
Continua
frecuencias

2.3.1 Diagrama Circular


El diagrama circular se utiliza para representar variables cualitativas
nominales, con no demasiadas categorías. Se construye de tal manera que la porción
correspondiente a un atributo o categoría sea proporcional a su frecuencia.
Gráfico Nº 2.1: Distribución de los hogares de la provincia de
Tucumán según necesidades básicas insatisfechas (N=368.538)

con
NBI
13%

sin NBI
87%

Fuente: INDEC, Censo 2010

10
Se recomienda tener particular cuidado con la utilización de este tipo de
gráfico para variables nominales con muchas categorías y también se desalienta su
utilización en 3D puesto que dificulta la identificación del orden de frecuencias entre
las diversas categorías de la variable. A modo de ejemplo se presenta el Gráfico 2.2.
Gráfico Nº 2.2: Distribución de las empresas que componen el índice
EUROSTOXX50 según sectores económicos a los que pertenecen (N=50)

Fuente: Sánchez García R. (2014)

2.3.2 Gráfico de barras simples


El gráfico de barras simples es útil para mostrar la distribución de frecuencia
de datos cualitativos o cuantitativos discretos. En el caso de variables cualitativas,
cada barra simboliza una de sus categorías, mientras que en el caso de variables
cuantitativas discretas, la barra representa cada valor posible. En situaciones donde el
número de valores posibles es grande se recomienda el uso de histogramas que se
abordará en Sec.2.3.3.
Las barras pueden ser horizontales o verticales, y la longitud o altura de las
barras es proporcional a la frecuencia de ocurrencia de cada valor o categoría. El
orden en que se presentan depende de si la variable es nominal, ordinal o discreta. Si
la variable es de tipo ordinal o discreta se debe respetar el orden natural de las
categorías o valores, en cambio si la variable es nominal se recomienda ordenar las
categorías por el orden de frecuencia (de mayor a menor o viceversa).
El eje de las frecuencias debe comenzar en cero y puede representar tanto la
frecuencia absoluta, es decir el número de unidades, como la frecuencia relativa en
porcentajes. En caso de presentar las frecuencias relativas se recomienda en el título
del gráfico informar la base sobre la cual se calcularon los porcentajes.
En el caso de representar una variable nominal resulta recomendable el
ordenar por las frecuencias de ocurrencias de sus categorías. Este tipo de argumento
conduce a lo que se conoce como la forma de Pareto de presentar la distribución, en
11
homenaje a Wilfredo Pareto. En situaciones donde se cuenta con una categoría
“Otros” se recomienda siempre colocarla al final, independientemente de su
frecuencia observada.
Gráfico Nº 2.3: Distribución de las empresas que componen el índice
EUROSTOXX50 según sectores económicos a los que pertenecen

Fuente: Elaboración propia a partir de datos de Sánchez García R. (2014)

El Gráfico 2.3 presenta la misma información que el Gráfico 2.2, siendo más
ventajoso la utilización de barras simples en virtud que este tipo de gráfico permite
rápidamente identificar el sector económico más representando en el índice
EUROSTOXX50, y las diferencias en frecuencias entre los sectores.

2.3.3 Histograma

El Histograma es útil para mostrar la distribución de frecuencia de datos


cuantitativos discretos con muchos valores o cuantitativos continuos. Su
construcción es similar a la de tablas de frecuencias, en la cual es necesaria la
construcción de intervalos de clases.
El área de las barras es proporcional a la frecuencia de cada intervalo de
clase. En caso de tener todos los intervalos la misma amplitud, la altura representa la
frecuencia. En el eje de las frecuencias se puede representar tanto la frecuencia
absoluta, como la frecuencia relativa o porcentual. En caso de presentar las
frecuencias relativas se recomienda en el título del gráfico informar la base sobre la
cual se calcularon los porcentajes.

12
Gráfico Nº 2.5: Distribución de los activos totales en millones de dólares
de 916 firmas no financieras estadounidenses. Año Fiscal 2015.

La elección del número de intervalos de clases para graficar el histograma


tiene la misma problemática que cuando se construye una tabla de frecuencias y es
de suma importancia pues la forma en que se visualiza la distribución de frecuencias
cambia (o puede cambiar) según la cantidad de clases que se utilice

Gráfico Nº 2.6: Distribución del logaritmo base 10 de los activos totales en


millones de dólares de 916 firmas no financieras estadounidenses. Año
Fiscal 2015.

13
En situaciones en que la variable activos totales es marcadamente asimétrica,
a veces resulta conveniente trabajarla transformada con el logaritmo. Esta
transformación generalmente resulta útil para obtener simetría y es de uso común en
economía cuando se describen variables relacionadas con rendimientos.
2.3.4 Polígono de frecuencias

Al igual que el histograma, el polígono de frecuencias sirve para representar


la distribución de frecuencia de una variable cuantitativa continua o discreta con
muchos valores observados.
Para construir el polígono de frecuencias se determinan los intervalos de
clases y las frecuencias de cada clase como en el caso del histograma, asignando al
punto medio de cada clase la frecuencia correspondiente.

Gráfico Nº 2.6: Distribución del logaritmo base 10 de los activos totales en


millones de dólares de 916 firmas no financieras estadounidenses. Año
Fiscal 2015.

2.4Medidas resúmenes

Las medidas resúmenes o medidas descriptivas son un conjunto de medidas o


funciones de los datos que permiten describir distintas características básicas del
conjunto completo de datos. En situaciones donde se dispone de un conjunto grande
de datos, las medidas descriptivas ayudan a simplificar la información de una manera
sensible.
Por ejemplo, en el Gráfico 2.5 se muestra la distribución de los activos
totales en millones de dólares de 916 firmas no financieras estadounidenses en el año
fiscal 2015. Las medidas descriptivas ayudarían a resumir la información de esas 916
empresas en unos cuantos valores como ser: el activo total medio, el menor y mayor

14
activo y por ejemplo también sería de interés los valores que dividen en cuatro la
distribución de activos.
Usando medidas resúmenes, unos cuantos números dan una idea global del
comportamiento de la particular variable cuantitativa que se quiera describir.
Cuando se quiere representar en tabla o gráfico una variable, la
representación depende del tipo de variables bajo estudio, de la misma manera, la
selección del tipo de medida resumen a utilizar depende de lo que se quiere describir
y de cómo se quiere hacerlo.
2.4.1 Medidas de posición central

Las medidas de posición o tendencia central son valores numéricos que


tienden a localizar la posición central de un conjunto de datos. Entre ellas se pueden
mencionar:
Media: es el promedio aritmético de los valores observados de la variable, es decir,
la suma de los valores de todas las observaciones dividida en el número total de
observaciones,
n

x1  x2  ...  xn x i
x  i 1
.
n n
Mediana: es la observación central de los valores, una vez que éstos han sido
ordenados desde el más pequeño hasta el más grande. Ella es el punto donde el
número de observaciones por encima es igual al número por debajo.
Operacionalmente, la mediana se puede calcular de la siguiente manera

 x[( n 1) / 2] si n es impar
Me  
  x[ n / 2]  x[ n / 2 1]  / 2
 si n es par

siendo x[1] , x[2] ,..., x[ n ] los datos acomodados en orden de magnitud creciente.

Moda: es el valor de las observaciones que aparece con mayor frecuencia.


La media, al ser el promedio aritmético, tiene la desventaja de verse muy
afectada por valores extremos (muy grandes o muy pequeños con relación al resto), y
la ventaja de ser simple en el cálculo y poseer muy buenas propiedades desde el
punto de vista matemático y estadístico. La media es la única medida de posición en
la que, la suma de los desvíos con relación a ella es nula.
Cuando entre los datos hay valores muy alejados del resto (datos extremos) o
cuando la distribución aparece como asimétrica (muchos datos con valores bajos y
unos cuantos con valores altos o viceversa) se recomienda el uso de la mediana como
medida de posición central pues ella no se ve afectada por valores extremadamente
grandes o extremadamente pequeños. Además, también puede ser calculada para
datos cualitativos ordinales. En distribuciones simétricas la media y la mediana
coinciden.

15
La moda puede ser calculada en cualquier tipo de variable, y no se ve
afectada por valores extremos, pero presenta la desventaja que puede no existir o
puede asumir más de un valor para un mismo conjunto de datos.
Al estudiar los activos totales descriptos en la Tabla 2.6 y presentados en el
Gráfico 2.6, se observa que el activo total medio de estas empresas en el año fiscal
2015 fue de 13.213 millones de dólares, que al menos el 50% de las empresas tenían
activos totales menores a 3.087 millones de dólares.
Cuando la variable bajo estudio es continua, con un rango amplio de valores
es poco probable tener valores que coincidan, la moda puede no resultar muy
informativa de la posición central de los datos. Como sería el caso en el estudio de
los activos totales.
De la comparación de los valores de la media y la mediana se puede apreciar
si se está en presencia de distribuciones asimétricas (Ver Figura 2.1). La media es
menor que la mediana cuando la distribución es asimétrica negativa, debido a la
influencia de unos pocos valores muy bajos. La media es mayor que la mediana en
distribuciones asimétricas positivas, debido a la influencia de valores altos.

Figura Nº2.1: Relaciones de orden entre las medidas de posición según tipo de
simetría de las distribuciones de los datos

2.4.2 Medidas de posición no central

Las medidas de posición no central se usan para la localización de un dato


específico en relación con el resto de las observaciones.
Mínimo: es valor más bajo observado de la variable.
Máximo: es el mayor valor observado de la variable.
Percentiles: Los percentiles son números que dividen en 100 partes iguales un
conjunto de datos ordenados, es decir, el percentil k es un valor, dentro del rango de
valores observados, tal que aproximadamente el k por ciento (k%) de los datos son
menores o iguales que él.
Cuartiles: Los cuartiles son números que dividen en 4 partes iguales un conjunto de
datos ordenados, es decir:
- El primer cuartil es un valor que, una vez ordenadas las observaciones, deja
por debajo de él a aproximadamente el 25% de los datos y por arriba de él al

16
75%. Operacionalmente el primer cuartil puede definirse como 𝑞1 =
𝑥 [[𝑛+1]]+1 siendo x[1] , x[2] ,..., x[ n ] el conjunto de los datos ordenados en
2
[ ]
2

magnitud creciente y los corchetes dobles indican la función parte entera. Así
𝑛+1
[[ ]]+1
2
el primer cuartil es el dato que ocupa la posición [ ] del lote de datos
2

ordenado, si es que la posición toma un valor entero. Si la posición toma un


valor terminado en ,5 el primer cuartil es el promedio de los dos datos que
ocupan la posición entera inmediata inferior a la calculada y el dato con la
posición entera inmediata superior a la calculada.
- El segundo cuartil es la mediana.
- El tercer cuartil es un valor que, una vez ordenadas las observaciones, deja
por debajo de él a aproximadamente el 75% de los datos y por arriba de él al
25%. El tercer cuarto puede calcularse de la misma forma en que se ha definido
𝑞1 pero el conjunto de datos acomodado en orden de magnitud decreciente.
En los activos totales de las empresas no financieras estadounidenses se
observó que la empresa que tenía menos activos tenía 92,79 millones de dólares, la
de mayor activos tenía 492.692 millones y se observaron activos inferiores 1.248
millones de dólares en el 25% de las empresas, y que el 25% de empresas con
mayores activos tenían al menos 9.977 millones de dólares.

Usando las medidas de posición central y no central se puede construir el


llamado resumen de cinco números, constituido por
1.- El Mínimo
2.- El Primer Cuartil q1
3.- La Mediana
4.- El tercer Cuartil q3
5.- El máximo
es posible hacer el denominado diagrama o gráfico tipo caja, que permite presentar
gráficamente y en forma reducida, la estructura de un lote de datos. Mediante él se
facilita la visión de propiedades del lote de datos, como su posición, variabilidad,
asimetría y existencia de valores alejados, que serán definidos más abajo.

17
Figura Nº2.2: Esquema para la construcción de un diagrama tipo caja

El diagrama tipo caja permite visualizar rápidamente la distribución de datos


cuantitativos. Para interpretar correctamente la información provista por este tipo de
diagrama se debe tener en cuenta que:
- La línea dentro de la caja indica la posición de la mediana.
- Los extremos de las cajas vienen determinados por el primer y el tercer
cuartil.
- Las líneas que salen de la caja indican los valores mínimo y máximo sin
incluir valores alejados o muy alejados.
- Se considera que un valor es alejados por defecto, cuando es menor que Q1-
1,5·(Q3-Q1), y que es alejado por exceso, cuando es mayor que Q3+1,5·(Q3-Q1).
- Se considera que un valor es muy alejados por defecto, cuando es menor que
Q1-3·(Q3-Q1), y que es muy alejado por exceso, cuando es mayor que Q3+3·(Q3-Q1).
En el diagrama se representan con puntos o asteriscos los valores alejados o muy
alejados.

Gráfico Nº2.8: Distribución en escala logarítimicade los activos


totales en millones de dólares de 916 firmas no financieras
estadounidenses. Año Fiscal 2015.

18
El diagrama tipo caja permite comparar diferentes lotes de datos, o diferentes
variables en la misma escala. También permite visualizar la simetría de la
distribución de los datos, cuando se analiza la posición relativa de la mediana con
respecto a los extremos y la presencia de observaciones alejadas.
2.4.3 Medidas de dispersión

Las medidas de dispersión se usan para describir el grado de variabilidad de


las observaciones.
Amplitud o Rango: es la diferencia entre el dato de mayor valor (máximo)y el de
menor valor (mínimo).
Amplitud= Máximo - Mínimo
Varianza: es el promedio simple de los cuadrados de las diferencias entre cada
observación y la media,
n

 (x  x )
i
2

var  i 1
.
n
Desvío estándar: es la raíz cuadrada positiva de la varianza,
n

 (x  x )
i
2

de  i 1
.
n
Rango intercuartil: es la diferencia entre el tercer y el primer cuartil, q3 y q1
respectivamente,
Rango Intercuartil= q3 - q1.

En el conjunto de datos sobre activos totales, el rango de los volúmenes fue


de 492.5999 millones de dólares, la varianza de 1.267.993.233milllones2 de dólares,
el desvío estándar de 35.609 millones de dólares aproximadamente y un rango
intercuartil de 8.728 millones de pesos.
La amplitud si bien es sencilla de calcular, su utilidad es limitada. La varianza
y el desvío estándar son medidas de variabilidad de las observaciones respecto de la
media, mientras que el rango intercuartil lo es respecto de la mediana. Un valor
pequeño en una medida de dispersión indica que los datos están estrechamente
agrupados alrededor de la media o mediana
La media ±2 desvíos estándar incluyen a más del 75% de las observaciones
del conjunto de datos, la media ±3 desvíos estándar incluyen a más del 89%. Si se
conoce que la característica observada se comporta de una manera aproximadamente
simétrica los intervalos incluirían el 95% y 99% respectivamente. En forma general,

19
se puede afirmar que entre la media y más o menos k veces el desvío estándar se
encuentran como mínimo el 100(1-1/k2)% de las observaciones.
Cualquiera de las medidas de dispersión antes mencionadas depende de las
unidades de medida y no sirven para comparar la variabilidad de dos poblaciones con
diferentes magnitudes. En ese caso se usan los coeficientes de variación de cada
conjunto de datos, que se calculan como cocientes entre el desvío estándar y la
media,
Coeficiente de Variación = desvío estándar / media.

Las medidas de variabilidad son tan importantes para describir una


distribución de frecuencia como las medidas de posición. Para describir
adecuadamente una distribución se debe informar una medida promedio, dar una idea
de cómo se distribuyen las observaciones a su alrededor y de cuán próximas o
dispersas están.

Para finalizar esta sección, se debe poner en evidencia que las medidas de
variabilidad son tan importantes para describir adecuadamente una distribución de
frecuencia como las medidas de posición. Como dijo Yule (1897), uno de los
estadísticos británicos más notablesde comienzos de siglo XX, el paso importante es:
… conseguir el hábito de pensar en términos de los promedios, y de la
variabilidad. Hasta que el investigador haga esto, sus conclusiones siempre
estarán expuestas a falacias. Si alguien dice que el promedio de algo vale
tanto, deberá siempre tener presente las preguntas que se podría plantear el
lector: ¿cuál será la distribución de frecuencia? ¿Cuán dispersas están las
observaciones alrededor del promedio? ¿Ellas están más dispersas en una
dirección que en otra, o están simétricamente distribuidas alrededor del
promedio? Plantearse estos interrogantes permite, no sólo reforzar el
conocimiento del lector y hacer a él más cauteloso al sacar conclusiones,
sino también, posiblemente sugiere la necesidad de hacer un trabajo
adicional.
2.4.4 Medidas descriptivas de la forma de la distribución
En varias oportunidades se ha mencionado cómo la forma de la distribución,
simétrica o no simétrica, debe ser tenida en cuenta para elegir la medida de posición
central, y consecuentemente su medida de variabilidad, al resumir la información
provista en un conjunto de datos.
Existen varias propuestas para evaluar la simetría en un conjunto de datos.
3  ( x  Me)
Coeficiente de asimetría de Karl Pearson:
de

20
1 n
 ( xi  x )3
n i 1
Coeficiente de asimetría de Fisher:
de3
1 n
n
 ( xi  x )3
ó equivalentemente i 1 3/ 2
var
q1  q3  2q2
Coeficiente de asimetría de Yule-Bowley:
q3  q1

Para cualquiera de los tres coeficientes, valores negativos indican que se está
en presencia de una distribución asimétrica negativa, valores próximos a cero serían
indicio de simetría en la distribución de los datos y valores positivos indicarían
asimetría positiva.
2.4.5 Medidas resúmenes para datos cualitativos
Las medidas de posición y variabilidad descriptas anteriormente son
específicas para variables cuantitativas. En el caso de variables cualitativas puede
resultar de interés el informar la moda, como aquella categoría que se presenta con
mayor frecuencia. De hecho, la moda es la única medida de posición central que
puede calcularse en datos nominales. Cuando se está en presencia de datos ordinales,
puede informarse también la mediana, indicando la categoría que no es superada por
al menos el 50% de los datos, y a su vez, presentan valores iguales o superiores a ella
por lo menos el 50% de los datos. En la Tabla 2.2, la categoría modal coincide con la
mediana y es el nivel nulo de financiamiento.
En general los datos cualitativos se describen a través de proporciones que
indican la frecuencia de ocurrencia de cada categoría. Una proporción expresa una
relación de tamaño entre el grupo que presenta alguna característica de interés y el
total del grupo observado. Ejemplo de proporciones son la proporción de
empresas/locales en cada sector de actividad económica, se calcula dividiendo la
cantidad de locales/empresas/establecimientos en cada sector económico en el total
de locales/empresas/establecimientos en una jurisdicción dada y momento dado, o la
tasa de desempleo que, a pesar de su denominación, es una proporción ya que es la
cantidad de desempleados sobre el total de la población activa de una determinada
jurisdicción en un instante de tiempo determinado.
Las tasas también pueden utilizarse para describir el comportamiento de una
variable categórica en un determinado período de tiempo. Puede calcularse de
manera relativa o absoluta. Las tasas absolutas registran el número de ocurrencias de
un acontecimiento en un determinado período de tiempo, y las relativas resultan de
dividir el número de acontecimientos sucedidos durante un periodo de tiempo (un
flujo) por la población existente durante ese periodo (stock). A modo de ejemplo se
pueden mencionar la tasa de abandono, que cuenta el número de clientes que
terminan su relación con una empresa en un determinado período de tiempo, la tasa

21
de creación de nuevos puestos de trabajo declarados, que cuenta la cantidad de
nuevos puestos de trabajo registrados en el sistema integrado de jubilaciones y
pensiones en una región y un período dado, relativo los puestos existentes al inicio
del período en cuestión, y la tasa de crecimiento poblacional relativo: que mide los
cambios en el tamaño de una población, de una determinada región y en un
determinado período de tiempo, con relación al tamaño de esa población.
En el cálculo de proporciones o tasas, a veces el numerador resulta ser muy
pequeño con respecto al denominador, con lo que se recurre a multiplicar el cociente
por otros múltiplos de 10 (100,1000, 10000, etc.) de tal manera que el valor se
exprese sin decimales.

3. Datos Bivariados
En el proceso de describir la información importante presente en un conjunto
de datos, frecuentemente resulta de interés el analizar el comportamiento de varias
variables conjuntamente.
Se trabaja con datos bivariados cuando el interés se centra en el
comportamiento conjunto de dos variables y se cuenta con la información de esas dos
variables para cada unidad de la población bajo estudio. A modo de ejemplo se
pueden considerar:
 las características ocupacionales de un grupo de clientes de un banco
(asalariado o cuentapropista) y el tipo de bancarización (con tarjeta de
crédito y cuenta bancaria, con tarjeta de crédito y sin cuenta bancaria, sin
tarjeta de crédito y con cuenta bancaria, o sin tarjeta de crédito y sin cuenta
bancaria),
 los activos y los costos operativos de las empresas
 la pertenencia de establecimiento/local/planta a algún parque industrial y su
facilidad de contar con insumos.
 la capacidad de satisfacer las necesidades financieras de una empresa y la
calidad de ser exportador o no.

3.1 Descripción de dos variables cualitativas

Para presentar la información que se obtiene al observar dos variables


cualitativas se puede usar una tabla de doble entrada, que se denomina así puesto
que la información de una de variables se presenta por filas y la de la otra por
columnas.

22
Figura Nº3.1: Esquema de una tabla de doble entrada para las variables X con a
niveles e Y con b niveles
Variables Y Total
filas
B1 B2 Bb
A1 n11 n12 n1b n1+
Variable X

A2 n21 n22 n2b n2+

Aa na1 na2 nab na+


Total columnas n+1 n+2 n+b n++

En forma general, una tabla de doble entrada sigue el formato que se presenta
en la Figura 3.1, donde se presenta un esquema de la forma que asumiría una tabla de
doble entrada cuando se presenta la información de las siguientes dos variables:
- X con a niveles o categorías, A1, A2 … y Aa
-Y con b niveles o categorías, B1, B2 … y Bb
donde para i=1,…, a y j=1,…,b
nij es el número de individuos que presentan la categoría i de la variable X y
la categoría j de la variable Y,
ni+ es el número de individuos que presentan la categoría i de la variable X
n+j es el número de individuos que presentan la categoría j de la variable Y,
b a
con n i    n ij y n  j   n ij .
j 1 i 1

En la Tabla 3.1 se presenta la información de 309 empresas manufactureras


que participaron en la Encuesta Productiva Industrial realizada en la Provincia de
Salta (EPIS) el año 2015. Se observa de manera conjunta la información de las
variables Actividad exportadora, con dos categorías “exporta” y “no exporta”, y
Satisfacción de financiamiento, con tres categorías “cuenta con financiamiento
necesario”, “cuenta con financiamiento parcial” y “no cuenta con financiamiento
necesario”.

23
Tabla Nº3.1: Distribución de las empresas encuestadas en la EPIS según su
actividad exportadora y satisfacción de las necesidades de financiamiento.
Estatus exportador
Satisfacción de Totales
No
financiamiento Exportadora por filas
exportadora
Cuenta con financiamiento
7 77 84
necesario
Cuenta con financiamiento
9 71 79
parcial
No cuenta con
8 137 145
financiamiento necesario
Totales por columnas 24 285 309
Fuente: Elaboración propia a partir de información de la EPIS (2015)

Como ya se explicó con relación al esquema general de la Figura 3.1, la


información que aparece en cada celda describe la cantidad de empresas que
presentan cada combinación de los atributos de satisfacción de financiamiento y
estatus exportador. Específicamente, el 77 estaría indicando la existencia de 77
empresas no exportadoras que cuentan con el financiamiento necesario. Si se
observan los totales, puede analizarse el comportamiento de cada una de las variables
individualmente.
El presentar la información en términos de porcentajes puede resultar de
utilidad cuando se quiere examinar el comportamiento de dos conjuntos de datos de
diferentes tamaños sobre las mismas variables, e incluso para trabajar con ellos a
posteriori. Existen diferentes maneras de calcular porcentajes en presencia de
información bivariada del tipo que se presenta en la Tabla 3.1, y la elección de qué
forma utilizar dependerá de los objetivos que se pretendan alcanzar con su
utilización, específicamente depende de si se quiere:
 Mostrar la distribución conjunta de dos variables.
 Mostrar asociación entre dos o más variables observadas en un mismo elemento.
 Comparar la distribución de frecuencia de una misma variable en dos o más
grupos.
Cuando se pretende mostrar la distribución conjunta de las dos variables,
puede presentarse la tabla de doble entrada con datos escritos en formas de
porcentajes respecto del número total de observaciones. La Tabla 3.2 y el Gráfico 3.1
presentan este tipo de porcentajes para los datos de la Tabla 3.1.

24
Tabla Nº3.2: Distribución porcentual de las empresas encuestadas en la EPIS según
su actividad exportadora y satisfacción de las necesidades de financiamiento.
Status exportador
Satisfacción de Totales por
No
financiamiento Exportadora filas
exportadora
Cuenta con financiamiento 2% 25% 27%
necesario
Cuenta con financiamiento 3% 23% 26%
parcial
No cuenta con 3% 44% 47%
financiamiento necesario
Totales por columnas 8% 92% 100%(n=309)
Fuente: Elaboración propia a partir de información de la EPIS (2015)

Gráfico Nº3.1: Distribución porcentual de las empresas encuestadas en la EPIS


según su actividad exportadora y satisfacción de las necesidades de
financiamiento(n=309).

No cuenta con financiamiento 44%


No exportadoras

Cuenta con financiamiento parcial 23%

Cuenta con el financiamento necesario 25%

No cuenta con financiamiento 3%


Exportadoras

Cuenta con financiamiento parcial 3%

Cuenta con el financiamento necesario 2%

0% 10% 20% 30% 40% 50%

Fuente: Elaboración propia a partir de información de la EPIS (2015)


Cuando se pretende mostrar la asociación entre dos variables, donde una de
ellas puede pensarse como factor de la otra, es decir que afecta la distribución de la
otra variable, se recomienda calcular los porcentajes en el sentido del factor,
tomando como base de los porcentajes el total de las unidades en cada nivel de la
variable que se considera factor. La Tabla 3.3 y el Gráfico 3.2 presentan la misma
información que la Tabla 3.1 considerando que el estatus exportados es un factor
para la satisfacción de financiamiento y tomando los porcentajes por columnas.

25
Tabla Nº 3.3: Distribución porcentual de la satisfacción de las necesidades de
financiamiento según su la actividad exportadora de las empresas encuestadas en
la EPIS
Estatus exportador
Satisfacción de financiamiento
Exportadora No exportadora
Cuenta con financiamiento necesario 29% 27%

Cuenta con financiamiento parcial 38% 25%

No cuenta con financiamiento necesario 33% 48%

Totales 100% (n=24) 100%(n=285)


Fuente: Elaboración propia a partir de información de la EPIS (2015)

Gráfico Nº3.2: Distribución porcentual de la satisfacción de las necesidades de


financiamiento de las empresas encuestadas en la EPIS por sector exportador o
no exportador
100%
90%
33%
80%
48%
70%
60% No cuenta con
financiamiento
50% 38% Cuenta con
40% 25% financiamiento parcial
30% Cuenta con el
financiamento necesario
20%
29% 27%
10%
0%
Exportadora No exportadora
(n=24) (n=285)

Fuente: Elaboración propia a partir de información de la EPIS (2015)

Tanto el Gráfico 3.2 como la Tabla 3.3 permiten visualizar rápidamente las
diferencias en la satisfacción de financiamiento según la actividad exportadora,
cosa que no resultaría tan sencillo usando las frecuencias absolutas en virtud de que
el grupo exportador es menor en número al no exportador.
El tipo de gráfico utilizado en el Gráfico 3.2 es particularmente adecuado
cuando se quiere evaluar la asociación entre variables categóricas y una de ellas
puede considerarse como posible factor, se denomina gráfico de barras
proporcionales, siendo que cada barra representa un nivel del factor.
Podría haber argumentos para pensar que es la satisfacción en el
financiamiento la variable que modifica la distribución de estatus exportador,
pensando, por ejemplo, que el contar con financiamiento podría aumentar la
probabilidad de exportar, o por otro lado que el no contar con financiamiento
disminuye esa probabilidad. En ese caso, se piensa a la variable satisfacción como

26
factor, y los porcentajes se tomarían como base los totales de cada fila como se
muestra en la Tabla 3.4 y en el Gráfico 3.2

Tabla Nº 3.4: Distribución porcentual del estatus exportador según necesidad de


financiamiento de las empresas encuestadas en la EPIS
Status exportador
Satisfacción de
No Totales
financiamiento Exportadora
exportadora
Cuenta con financiamiento 8% 92% 100%(n=84)
necesario
Cuenta con financiamiento 11% 90% 100%(n=79)
parcial
No cuenta con 6% 94% 100%(n=145)
financiamiento necesario
Fuente: Elaboración propia a partir de información de la EPIS (2015)

Gráfico Nº 3.3: Distribución porcentual del estatus exportar de las empresas


encuestadas en la EPIS según necesidad de financiamiento.

No cuenta con financiamiento (n=145) 6% 94%

Cuenta con financiamiento parcial (n=79) 11% 90%

Cuenta con el financiamento necesario


8% 92%
(n=84)

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%100%

Exportadora No exportadora

Fuente: Elaboración propia a partir de información de la EPIS (2015)

Cuando se quiere comparar la distribución de frecuencia de una misma


variable en dos o más grupos los porcentajes deben tomarse teniendo como base los
totales de cada grupo. Por ejemplo, en la Tabla 3.4 se presenta la distribución de las
variables Nivel de ingresos y Región geográfica de 218 países. La variable Región
geográfica puede considerarse como agrupadora; es decir, se cuenta con cuatro
grupos “América”, “Europa y Asia Central”, “Resto de Asia y el Pacífico” y
“África”, y se quiere comparar el nivel de ingresos de los países en estos cuatro
grupos.

27
Tabla Nº3.5: Distribución de los países según niveles de ingreso y región
geográfica.
Niveles de ingreso
Región
Medio- Medio- Bajo Totales
geográfica Alto
Alto Bajo por filas

América 19 20 5 1 45

Europa y Asia
36 14 8 0 58
Central
Resto de Asia y
14 11 18 3 46
el Pacífico

África 9 11 22 27 69

Totales por
78 56 53 31 218
columnas
Fuente: Elaboración propia a partir de información de World Bank list of economies (June 2017)
La variable cuya distribución se quiere comparar es el Nivel de Ingresos, que
presenta las categorías “Alto”, “Medio-Alto”, “Medio-Bajo” y “Bajo”. En esta
situación el cálculo de los porcentajes debería hacerse por filas, como se presenta en
la Tabla 3.6, y la distribución del nivel de ingreso en cada región geográfica se leerá
por filas.
Tabla Nº 3.6: Distribución porcentual del nivel de ingreso según región
geográfica.
Niveles de ingreso
Región
Medio- Medio- Bajo Totales
geográfica Alto
Alto Bajo

América 42% 44% 11% 2% 100%(n=45)

Europa y Asia 62% 24% 14% 0% 100%(n=58)


Central
Resto de Asia y 30% 24% 39% 7% 100%(n=46)
el Pacífico

África 13% 16% 32% 39% 100%(n=69)

Fuente: Elaboración propia a partir de información de World Bank list of economies (June 2017)

28
Gráfico Nº 3.4: Distribución porcentual de niveles de ingreso según región
geográfica.

El uso de porcentajes ayuda a visualizar rápidamente el comportamiento de


las variables de interés. La selección de la base del porcentaje depende de lo que se
pretende mostrar con la respectiva gráfica:
- Si lo que se quiere es mostrar la distribución conjunta de dos variables, la
base del porcentaje es el total de individuos observados.
- Si lo que se quiere es comparar la distribución de frecuencia de una misma
variable en dos o más grupos, la base de los porcentajes debe ser el total de
individuos dentro de cada grupo.
- Si lo que se quiere es mostrar asociación entre dos variables observadas en un
mismo elemento, una de las cuales puede considerarse como factor potencial
de la otra, entonces la base de los porcentajes debe ser el total de los
individuos dentro de cada nivel del factor.
Es importante resaltar que las asociaciones que se detecten en este tipo de
estudios descriptivos deben ser tomadas con cuidado. De este tipo de análisis no se
puede implicar nada acerca de la causalidad e inclusive de la asociación misma, pues
puede haber una tercera variable generando la asociación observada. En el caso
donde se estudió el estatus exportador conjuntamente con el nivel de satisfacción
financiero, puede ser que la asociación esté generada por el tamaño de las empresas,
pues empresas grandes tienden a ser exportadoras y a tener satisfechos sus
necesidades de financiación. Si es así, al analizar el comportamiento de solo dos
variables podemos estar en presencia de asociaciones espurias que desaparecen
cuando se controla por una tercera variable. Para ahondar en este tipo de situaciones
se recomienda consultar el capítulo 4 de Zeisel (1990).

29
3.2 Dos variables cuantitativas

Cuando se observan dos variables cuantitativas todavía se puede hacer uso de


tablas de doble entrada si en cada una de las variables cuantitativas se definen
intervalos de clases y consecuentemente pueden ser tratadas como variables
cualitativas. Por otro lado, existe también la posibilidad de representar gráficamente
todos los datos haciendo uso del denominado diagrama de dispersión.
Un diagrama de dispersión es un gráfico de puntos en el plano, sistema
cartesiano de dos ejes coordenados perpendiculares, donde cada eje representa los
posibles valores de una de las variables.
Gráfico Nº 3.5: Flujo de caja operativo e ingresos empresariales
correspondientes al año fiscal 2012 de 110 compañías estadounidenses

En el diagrama de dispersión presentado en el Gráfico 3.3, cada punto


representa el dato de una empresa en el año fiscal 2012. Proyectando el punto hacia
el eje x se observa sus ingresos empresariales y proyectándolo hacia el eje y su flojo
de caja operativo.
Las medidas descriptivas, de posición y de variabilidad, todavía pueden ser
utilizadas para describir el comportamiento por separado de ambas variables bajo
estudio. A éstas se suma una medida descriptiva de cuán correlacionados están los
datos. La asociación entre dos variables cuantitativas se denomina correlación. Se
dice que la correlación es positiva cuando valores altos de una de las variables en
general se presentan con valores altos de la otra, y viceversa. Formalmente, la
correlación
Se dice que la correlación es negativa cuando valores altos de una de las
variables en general se presentan con valores bajo de la otra, y viceversa, como se
muestra en la Figura N°4.1. La correlación entre dos variables puede ser lineal,
cuando los puntos se distribuyen aproximadamente alrededor de una línea recta,
cuadrática, cuando se aproximan a una parábola, o de otro tipo.

30
Figura Nº4.1: Tipos de correlación entre variables cuantitativas

Correlación Correlación Ausencia de Correlación


Positiva Negativa

El Coeficiente de Correlación Lineal de Pearson evalúa la presencia de


correlación lineal entre dos variables cuantitativas, y se calcula de la siguiente
manera:
n

 ( x  x )( y  y )
i i
r i 1
n n

 ( xi  x )2
i 1
 ( y  y)
i 1
i
2

El coeficiente de correlación de Pearson asume valores entre -1 y +1, es decir,


1  r  1 ,
y es una medida del grado de dispersión de las observaciones alrededor de una línea
recta, específicamente:
 valores próximos a -1 indican correlación lineal negativa, observaciones
próximas a una línea recta con pendiente negativa.
 valores próximos a 0 indican ausencia de correlación lineal.
 valores próximos a 1 indican correlación lineal positiva, observaciones
próximas a una línea recta con pendiente positiva.
Si todas las observaciones se encuentran sobre una línea recta, el valor de r
será 1 o -1, dependiendo de si la recta presenta pendiente positiva o negativa
respectivamente. Se puede observar también, de su fórmula de cálculo, que es
independiente de cualquier unidad usada para medir las variables. Entre las
desventajas de esta medida descriptiva se debe mencionar que se altera en forma
importante por la presencia de algún valor extremo, con lo cual no es adecuada para
describir la correlación entre dos variables asimétricas.

Es importante mencionar que de la observación de un diagrama de dispersión,


o de un coeficiente de correlación próximo a uno no se puede inferir ninguna
relación de causalidad entre las variables bajo estudio. Abundan los ejemplos de
series de datos con altas correlaciones que no tienen ningún tipo de relación, para
tener acceso a algunos de ellos se recomienda acceder al artículo de Daniel Manzano
Correlación no implica causalidad. Cualquier asociación detectada debe ser estudiada
en detalle para comprobar si la misma no es el resultado de sesgos introducidos en la
definición de la población bajo estudio, o de la presencia de alguna otra variable que

31
genera la asociación (p.ej. la temperatura al correlacionar venta de helado y venta de
protector solar).

En situaciones en que se cuenta con la información de una misma variable en


diferentes momentos del tiempo (serie de tiempo), como por ejemplo los datos
presentados en la Tabla 3.2 sobre los montos transacciones en dólares en el sistema
MEP, se puede presentar la información en un gráfico de línea. Este gráfico similar
al de dispersión, sistema cartesiano, con el eje x indicando el tiempo y el eje y los
valores asumidos por la serie, y en este caso los puntos del diagrama se unen con un
polígono haciendo referencia que se está observando la misma característica de
manera continua en el tiempo.
Tabla Nº3.2: Montos mensuales en millones de pesos de las operaciones en
dólares en el sistema de medios electrónicos de pago (MEP) de Argentina entre
enero del 2003 a diciembre de 2017
2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Ene. 1 21 683 720 1.702 1.544 1.506 1.149 1.973 1.959 1.220 2.565 1.150 2.300 13.228
Feb. 130 56 1.492 984 4.928 3.307 1.838 802 2.291 1.195 884 3.407 1.429 2.926 7.639
Mar. 2 208 3.486 910 1.975 2.005 1.864 2.122 5.222 1.405 1.186 1.505 1.738 3.718 9.320
Abr. 2 26 1.443 790 2.717 2.151 2.748 2.630 3.502 1.891 2.110 1.976 2.351 3.298 20.450
May. 203 384 2.768 1.105 3.508 2.319 1.678 1.763 3.029 2.455 1.812 1.214 1.588 4.070 8.991
Jun. 5 41 2.227 1.205 1.640 1.741 2.454 1.566 2.525 1.929 1.214 1.867 2.123 4.553 11.972
Jul. 9 81 1.164 3.645 2.630 2.974 1.559 3.412 2.402 1.000 1.268 1.219 1.617 3.173 8.147
Ago. 17 103 3.573 7.785 7.651 7.270 5.238 6.031 6.201 4.883 1.220 952 1.832 3.226 8.596
Set. 21 175 1.006 1.632 1.344 2.661 1.732 4.171 3.856 1.498 4.171 1.970 1.737 3.397 12.206
Oct. 22 59 1.095 1.546 1.244 2.763 2.009 4.150 2.979 2.744 2.483 2.270 8.057 7.065 10.754
Nov. 75 73 1.348 2.481 1.414 2.566 1.890 2.698 3.779 1.423 1.458 1.211 1.795 10.784 9.887
Dic. 47 63 1.365 2.411 2.720 3.311 3.311 2.350 2.087 1.965 1.790 1.485 2.064 6.387 10.573

Fuente: Elaboración propia a partir de datos sobre Volumen de Transacciones e Instrumentos de


Pago de la Gerencia de Estadística Monetarias del Banco Central de la República Argentina

Gráfico Nº3.4: Montos mensuales en millones de pesos de las operaciones


en dólares en el sistema MEP de Argentina entre enero del 2003 a diciembre
de 2017

25.000

20.000
millones de $

15.000

10.000

5.000

-
oct-06

oct-09

oct-12

oct-15
oct-03
jul-04

jul-07

jul-10

jul-13

jul-16
ene-03

abr-05
ene-06

abr-08

abr-11

abr-14

abr-17
ene-09

ene-12

ene-15

32
Como un primer abordaje a la descripción de una serie de tiempo, pueden
calcularse las medidas descriptivas de posición y variabilidad. Sin embargo existen
métodos específicos que se emplean para analizar tendencias, estacionalidad y otros
aspectos de una serie que serán abordados en el curso de econometría financiera.

4. Comentarios Finales
Este material intenta brindar una primera aproximación a la utilización de
Estadística en las Ciencias Económicas. Se abordaron exclusivamente temas
relacionados con Estadística Descriptiva utilizando en su mayoría ejemplos con datos
reales.
Las herramientas estadísticas aquí descriptas tienen como principal objetivo
el describir el comportamiento de un conjunto de datos disponible, sin pretender
generalizar la información a una población mayor, de la cual este conjunto de datos
pueda formar parte. Es muy importante prestar atención a ésto, pues la
generalización de los resultados a una población mayor (población bajo estudio)
depende de diferentes aspectos que no se han tenido en cuenta en este material, como
ser (i) procedimiento mediante el cual se obtuvieron estos datos (Muestreo), (ii)
características de la población bajo estudio (Distribución de probabilidad), y (iii)
propiedades de las medidas resúmenes utilizadas y de cómo éstas se relacionan con
las características de interés en la población (Inferencia).

5. Referencias Bibliográficas
Anderson T.W. y Finn J.D. (1996). The New Statistical Analysis of Data. Springer-
Verlag, New York.
Gimeno R y Mateos de Cabo R. (2006). Statistics and Finance: Living onthe
“Hedge”. Proceedings of Seventh International ConferenceonTeaching of
Statistics (ICOTS 7).Disponible en: https://iase-
web.org/documents/papers/icots7/5G2_GIME.pdf
Guercio M.B., Martínez L.B. y Vigier H. (2017) Las limitaciones al financiamiento
bancario de las Pymes de alta tecnología. Estudios Gerenciales, 33. 3-12.
Disponible en:
https://www.sciencedirect.com/science/article/pii/S0123592317300050.
Kotz, S., Johnson, N. L., & Read, C. B. (1982). Encyclopedia of Statistical Sciences.
New York: Wiley.
Sánchez García R. (2014) Análisis Descriptivo y Aplicación de la Teoría de Carteras
a los Valores del Eurostoxx 50 en el Periodo 2008-2013. Trabajo Final para la
Maestría en Banca y Finanzas de la Universidad de La Coruña. Disponible en:
http://ruc.udc.es/dspace/bitstream/handle/2183/11792/SanchezGarcia_Roberto_
TFM_2014.pdf?sequence=2.

33
Zeisel, H. (1990) Dígalo con Números, Tercera Edición. México: Fondo de Cultura
Económica.

Links a temas relacionados

1. Correlación no implica causalidad, Daniel Manzano


http://www.nextdoorpublishers.com/2016/07/correlacion-no-implica-causalidad-por-
daniel-manzano/
2. La belleza de las estadísticas TheJoy of Stats , Hans Rosling
https://www.youtube.com/watch?v=-C-hXn2RY3M

34
Contenido
1.Introducción.......................................................................................................................... 2
2. Descripción de datos ........................................................................................................... 4
2.2 Tablas o distribuciones de frecuencias .................................................................... 5
2.2.1 Datos cualitativos ................................................................................................ 6
2.2.2 Datos Cuantitativos ............................................................................................. 7
2.3 Representaciones gráficas ...................................................................................... 10
2.3.1 Diagrama Circular .............................................................................................. 10
2.3.2 Gráfico de barras simples ................................................................................. 11
2.3.3 Histograma ........................................................................................................ 12
2.3.4 Polígono de frecuencias .................................................................................... 14
2.4 Medidas resúmenes ................................................................................................ 14
2.4.1 Medidas de posición central ............................................................................. 15
2.4.2 Medidas de posición no central........................................................................ 16
2.4.3 Medidas de dispersión ...................................................................................... 19
2.4.4 Medidas descriptivas de la forma de la distribución ...................................... 20
2.4.5 Medidas resúmenes para datos cualitativos ................................................... 21
3. Datos Bivariados ............................................................................................................... 22
3.1 Descripción de dos variables cualitativas ............................................................... 22
3.2 Dos variables cuantitativas...................................................................................... 30
4. Comentarios Finales .......................................................................................................... 33
5. Referencias Bibliográficas ................................................................................................. 33
Links a temas relacionados ............................................................................................ 34

35

Das könnte Ihnen auch gefallen