Sie sind auf Seite 1von 106

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO

INSTITUTO DE CIENCIAS SOCIALES Y HUMANIDADES


Área Académica de Sociología y Demografía
Centro de Estudios de Población

ESTADISTICA DESCRIPTIVA PARA

CIENCIAS SOCIALES

ANGÉLICA E. REYNA BERNAL


Estadística Descriptiva Angélica Reyna

ESTADISTICA DESCRIPTIVA PARA

CIENCIAS SOCIALES

Angélica Elizabeth Reyna Bernal

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO


INSTITUTO DE CIENCIAS SOCIALES Y HUMANIDADES
Pachuca de Soto, Hidalgo, 2010

1
Estadística Descriptiva Angélica Reyna

Primera edición: 2010

© Angélica Elizabeth Reyna Bernal

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO


Instituto de Ciencias Sociales y Humanidades
Abasolo 600, Centro, Pachuca, Hidalgo, México. CP 42000
Correo electrónico: editor@uaeh.edu.mx
Prohibida la reproducción parcial o total de esta obra sin consentimiento escrito

ISBN: EN TRÁMITE

Impreso y hecho en México

2
Estadística Descriptiva Angélica Reyna

Universidad Autónoma del Estado de Hidalgo

Luis Gil Borja


Rector

Humberto A. Veras Godoy


Secretario General

Evaristo Luvián Torres


Subsecretario General Administrativo

Marco Antonio Alfaro Morales


Coordinador de la División de Extensión de la Cultura y los Servicios

Otilio A. Acevedo Sandoval


Coordinador de la División de Investigación y Posgrado

Adolfo Pontigo Loyola


Director del Instituto de Ciencias Sociales y Humanidades

Tomás Serrano Avilés


Jefe del Área Académica de Sociología y Demografía

Horacio Romero
Director de Ediciones y Publicaciones

3
Estadística Descriptiva Angélica Reyna

AGRADECIMIENTOS

Se agradece el apoyo brindado para la realización de esta publicación al Programa


de Mejoramiento del Profesorado de la Secretaría de Educación Pública (PROMEP -
SEP).

Asimismo agradecemos el apoyo que nos brindó la Dirección de Ediciones y


Publicaciones, especialmente el Lic. Horacio Romero.

4
Estadística Descriptiva Angélica Reyna

INDICE
Pp.

1. INVESTIGACIÓN, METODOLOGÍA Y TÉCNICAS ESTADÍSTICAS EN LAS


CIENCIAS SOCIALES ...................................................................................................... 7
1.1 El método científico y la metodología de las Ciencias Sociales .................................... 7
1.2 El papel de las técnicas en la investigación .................................................................. 10
1.3 Las técnicas estadísticas ............................................................................................. 11

2. ANÁLISIS DE DATOS: LA ESTADÍSTICA ......................................................................... 11


2.1 Antecedentes históricos de la Estadística ..................................................................... 11
Cronología .................................................................................................................... 12
2.2 Definición de Estadística .............................................................................................. 13
Objetivo de la Estadística ............................................................................................. 14
2.3 Estadística Descriptiva ................................................................................................. 15
2.4 Estadística Inferencial: Probabilidad y muestreo .......................................................... 15
2.5 Conceptos básicos de la Estadística ............................................................................ 17

3. FUENTES DE INFORMACIÓN Y NIVELES DE MEDICIÓN ................................................ 20


3.1 Fuentes de información y tipos de datos .................................................................... 20
3.2 Clasificación, jerarquización y medición .........................................................................23
3.3 Niveles de medición: nominal, ordinal, intervalar, cocientes o razones, porcentajes,
proporciones, coeficientes, incrementos, tasas .............................................................24
3.4 Estructuración de bases de datos ................................................................................. 27

4. DISTRIBUCIÓN DE FRECUENCIAS .................................................................................. 28


4.1 Distribución de frecuencias unidimensionales simples y acumuladas,
absolutas y relativas. Manejo de los datos obtenidos en la observación28
........................... 30
4.2 Representaciones gráficas ............................................................................................. 35
4.3 Medidas de distribución
.....................................................................................................
4.3.1 Medidas de tendencia central: moda, mediana, media aritmética, 35
media aritmética ponderada, cuantiles ................................................................... 38
4.3.2 Medidas de dispersión: desviación media, desviación típica, varianza ..................
4.3.3 Medidas de forma: Asimetría y curtosis por contraste al patrón de la 45
Curva Normal ......................................................................................................
4.3.4 Medidas de concentración: Curva de Lorenz, Índice de Gini, medial o 54
mediala ...............................................................................................................

58
5. NÚMEROS ÍNDICE .......................................................................................................... 59
5.1 Números índice simples: Relativos en cadena y eslabonados ................................... 64
5.2 Números índice complejos: No ponderados y ponderados ......................................... 68
5.3 Índices de precios de Laspeyres, Pashe, y Fisher .....................................................
5.4 Deflación de series estadísticas, poder de compra, cambio de periodo base, 72
empalme de índices con bases diferentes ................................................................

5
Estadística Descriptiva Angélica Reyna

6. MODELOS Y MÉTODOS BÁSICOS DE ANÁLISIS: RELACIONES ENTRE


VARIABLES ........................................................................................................................ 74
6.1 Distribuciones bidimensionales y gráficos de dispersión ................................................. 74
6.2 Relación entre variables .................................................................................................. 85
6.3 Asociación de variables entre frecuencias observadas: Análisis de tablas de
contingencia y correlación, Coeficientes de asociación Fi, Q de Yule y
coeficiente de Pearson, X2 .............................................................................................. 87
6.4 Métodos de ajuste. Regresión lineal simple .................................................................... 96

Bibliografía ............................................................................................................................... 103

6
Estadística Descriptiva Angélica Reyna

ESTADISTICA DESCRIPTIVA PARA CIENCIAS SOCIALES

1. INVESTIGACIÓN, METODOLOGÍA Y TÉCNICAS ESTADÍSTICAS EN LAS CIENCIAS


SOCIALES

1.1 El método científico y la metodología de las Ciencias Sociales

El conocimiento científico es una forma de saberes que establece relaciones entre lo


conceptual y lo empírico como resultado de la verificación. Su acumulación al momento
actual se ha conformado con los hallazgos, resultantes de la verificación en un campo de la
realidad. La ciencia comprende básicamente dos grandes categorías: a) el conocimiento
científico formal (como la matemática y la lógica, que se ocupan de objetos ideales); y b) el
conocimiento científico fáctico, que se basa en los hechos y experiencias del mundo que
nos rodea, hallazgos producto de la experiencia. Su objeto de estudio es observable,
medible, ponderable. El conocimiento científico es el cúmulo de conocimientos que el
hombre ha adquirido basado en razonamientos y comprobaciones de los fenómenos a su
alrededor, que buscan establecer causas y principios que permitan prever cómo y cuándo
estos fenómenos volverán a ocurrir.
El conocimiento científico fáctico incluye las ciencias de la naturaleza, como son la
física, química o biología, y las ciencias sociales o de lo humano, como son la antropología,
la sociología, la historia, la psicología, la pedagogía, la economía, la lingüística, entre otras.
Las ciencias sociales estudian procesos y sucesos en los que interviene el quehacer del
hombre, estudian la conducta del hombre y la sociedad humana, así como su desarrollo y
evolución.
Las disciplinas científicas han establecido una serie de procedimientos o métodos
que las llevan a establecer hallazgos reconocidos como aportes científicos. En general, esa
serie de procedimientos es conocido con el nombre de método científico. El método
científico es un procedimiento para descubrir las condiciones en que se presentan sucesos
específicos, caracterizado generalmente por ser tentativo, verificable, de razonamiento
riguroso y observación empírica.
Pardinas nos dice que el: “Método de trabajo científico es la sucesión de pasos que
debemos dar para descubrir nuevos conocimientos o, en otras palabras, para comprobar o

7
Estadística Descriptiva Angélica Reyna

disprobar hipótesis que implican o predican conductas de fenómenos, desconocidos hasta


el momento”.
El Método Científico es una serie de etapas ordenadas, en forma razonada, por
medio de las cuales los científicos realizan la investigación de los fenómenos que ocurren
en nuestro entorno, con la finalidad de demostrar nuevos principios y leyes del
conocimiento.
El método científico consiste fundamentalmente en establecer unas reglas o
procedimientos generales que aseguren una investigación científicamente significativa.
Estos pasos operativos pueden resumirse en el siguiente proceso:
• Formular correctamente un problema; descomponer el problema
• Proponer una tentativa de explicación verosímil y contrastable con la experiencia
• Derivar consecuencias de estas suposiciones
• Elegir los instrumentos metodológicos para realizar la investigación
• Someter a prueba los instrumentos elegidos
• Obtención de los datos que se buscan mediante la contrastación empírica
• Analizar e interpretar los datos recogidos
• Estimar la validez de los resultados obtenidos y determinar su ámbito de validez

Las etapas del método científico varían según el área de conocimiento en que se
use. En general, se parte de la observación, que permite la definición de un problema;
basados en los conocimiento existentes se plantean hipótesis plausibles sobre el problema
a investigar; a partir de aquí se procede a la experimentación, contrastación empírica y/o a
la reflexión, a través de las cuales se pretende la comprobación y el establecimiento de
resultados que apuntan a la conformación de principios y leyes.
En las Ciencias Sociales, el método científico adopta algunas particularidades que lo
distinguen del método de las Ciencias Naturales y que provienen de las características de
sus objetos de estudio.
Estas particularidades se refieren básicamente a la etapa de contrastación empírica.
Mientras en las Ciencias Naturales es factible la experimentación en laboratorio, en las
Ciencias Sociales existen límites éticos a la experimentación, ya que involucraría a seres
humanos y podría violar sus derechos esenciales. De ahí que en Ciencias Sociales la
contrastación empírica implique más frecuentemente la documentación de las situaciones.
Como se muestra en el esquema previo desarrollado por científicos sociales y
presentado por Bunge (1989), en el caso de las Ciencias Sociales, el proceso de
investigación estrictamente dicho parte del cúmulo de conocimientos disponibles, que
hacen que el investigador observe o detecte problemáticas o lagunas de conocimiento.

8
Estadística Descriptiva Angélica Reyna

ESQUEMA DEL PROCESO DE INVESTIGACIÓN SOCIAL

TEORÍA SOCIOLÓGICA RECOPILACIÓN ELABORACIÓN ANÁLISIS LOGROS


DE DATOS E DE
(CUERPO DE DATOS INTERPRETACIÓN INVESTIGACIÓN
CONOCIMIENTOS
DISPONIBLES)

MARCO
TEÓRICO

DISEÑO FASE
PROBLEMA DE EMPÍ-
INVESTIGACIÓN RICA

FENÓMENOS SOCIALES
CONCRETOS

Bunge, 1989.

9
Estadística Descriptiva Angélica Reyna

A partir de la definición de un marco teórico acotado es factible delimitar el problema


de investigación. Como siguiente etapa se puede identificar la elaboración de un diseño o
proyecto de investigación donde se compendie la problemática a investigar y la estrategia
metodológica y técnica, así como la planeación ejecutiva de la investigación
Un adecuado proyecto de investigación permite proceder a la fase empírica, en la
cual se entra en contacto con los fenómenos sociales concretos y de los cuales se recopila
información de diversa índole.
Las siguientes etapas de la investigación se refieren a la elaboración de dicha
información, su análisis e interpretación y el reporte de los logros de la investigación.

1.2 El papel de las técnicas en la investigación


La investigación científica, como se ha dicho, se realiza de manera sistemática. Para ello se
apoya en el desarrollo de un diseño de investigación, también llamado proyecto de
investigación, en el cual se plasma de la manera más específica posible la problemática a
estudiar y la estrategia a seguir para conocer y contrastar las hipótesis postuladas con la
realidad.
Como se señala en el siguiente esquema, propuesto por Jiménez (2001), existen
elementos básicos que conforman un proyecto o diseño de investigación:

DISEÑO
DEL PROYECTO

10
Estadística Descriptiva Angélica Reyna

El proyecto o diseño de investigación considera la selección del tema, la delimitación


del tópico y su justificación, respondiendo a las preguntas qué, cuánto, cuándo, dónde y por
qué. Considerando el objeto de estudio y las condiciones para realizar la investigación se
establecen los objetivos y alcances de la investigación (para qué y hasta dónde).
Los siguientes elementos que conforman el proyecto o diseño de la investigación
son la selección de métodos y técnicas; y la descripción de procedimientos, costos y
tiempo. Por una parte, la selección de métodos y técnicas responde al cómo o con qué
herramientas se abordará el objeto de estudio; mientras que con la descripción de
procedimientos, costos y tiempo, se especifica la manera de aplicación de los métodos y
técnicas, así como la estrategia operativa de la investigación (qué recursos, cuánto,
cuándo).

1.3 Las técnicas estadísticas


La estadística, en su forma de rama de las matemáticas aplicadas no es una ciencia, es un
conjunto de técnicas que a lo sumo pueden constituir un método de estudio. Estas técnicas
tienen aplicación en las más diversas disciplinas científicas, por lo que su aplicación a cada
una de éstas requiere, de parte del estadístico, un cierto conocimiento de la disciplina a la
que sirve, una cierta asimilación al científico que la practica. Según sea el campo en el que
se aplique, la Estadística pondrá mayor o menor énfasis en el empleo de determinado
herramental o recursos técnicos.
La estadística proporciona los elementos básicos para fundamentar:
a) Cómo planear la obtención de los datos para que de ellos se puedan extraer
conclusiones confiables;
b) Cómo analizar estos datos;
c) Qué tipo de conclusiones pueden obtenerse con los datos disponibles;
d) Cuál es la confianza que nos merecen los datos.

2. ANÁLISIS DE DATOS: LA ESTADÍSTICA


2.1 Antecedentes Históricos de la Estadística
Cuando las sociedades primitivas se organizaron y superaron el ámbito local, se vieron en
la necesidad de tener que tomar decisiones que exigían un conocimiento numérico de los

11
Estadística Descriptiva Angélica Reyna

recursos disponibles. Esta necesidad dio lugar al uso y desarrollo de las primeras técnicas
estadísticas basadas, exclusivamente, en el recuento y presentación de datos.
La Historia nos muestra que las primeras estadísticas fueron realizadas, con efectos
recaudatorios en la mayoría de los casos, por los gobernantes de las grandes civilizaciones
antiguas, para conseguir conocer el número de bienes que poseía el Estado y cómo
estaban repartidos entre la población. Del uso exclusivo de estas técnicas por el Estado
deriva el término Estadística.

Cronología
Siguiendo a Olguín Quiñónez, se pueden señalar como eventos estadísticos relevantes:
3050 a.C. Herodoto señala la realización de un recuento de las riquezas y población de
Egipto, para conocer los recursos humanos y económicos disponibles para construir las
pirámides.
2238 a.C. Chu King en el libro de Confucio señala la realización de una estadística
industrial y comercial por el emperador Yao de China.
1400 a.C. Ramsés II realizó un censo de las tierras de Egipto a fin de efectuar un nuevo
reparto.
1490 a.C. según aparece en el Pentateuco, Moisés levantó un censo para conocer el
número de guerreros que disponían las tribus de Israel.
1080 a.C. David, según aparece en el Libro de Los Reyes, vuelve a levantar un censo para
conocer qué número de guerreros disponían las tribus de Israel.
Los griegos realizaron diversos censos con fines tributarios, reparto de tierras, así como
disponibilidad de recursos y guerreros para sus campañas.
Durante la época romana se contabilizan, al menos, la realización de 69 censos con
diversos fines: tributarios, número de hombres con derecho al voto y posibilidades para
la realización de sus campañas militares.
758 Pipino el Breve realiza recopilaciones estadísticas.
762 Carlomagno recoge información estadística sobre las tierras propiedad de la Iglesia.
Siglo IX En Francia se realizan recuentos parciales de siervos.
1060 En Inglaterra, Guillermo el Conquistador hace recuentos parciales de siervos.
Siglo XIV En Inglaterra, Eduardo II hace recuentos de siervos.

12
Estadística Descriptiva Angélica Reyna

Con el nacimiento de las Naciones, la Estadística adquiere rigor científico en las técnicas de
recogida y presentación de datos que van a facilitar el análisis de las conclusiones y, por
tanto, la toma de decisiones.
1540 Sebastián Münster realizó una recopilación estadística de los recursos nacionales
alemanes, en la que se incluía la organización política de la nación alemana, así como
sus instituciones sociales, su comercio y su potencia militar. Estudios parecidos fueron
realizados durante el siglo XVI en Italia y Francia.
Siglo XVII La estadística demográfica tiene un gran auge, a fin de saber si la población se
modificaba aumentando o disminuyendo o si éste era un parámetro estático. Estos
estudios dieron lugar a la creación de los índices de natalidad y mortalidad y al posterior
desarrollo del estudio de la dinámica de la población por la Demografía.
Siglo XVII y principios del XVIII Se desarrolla la Teoría de las Probabilidades, teoría que
proporciona a la Estadística métodos de investigación que le permiten alcanzar la
categoría de ciencia. El primer tratado sobre esta teoría fue escrito por Bernouilli, en el
que dice que la regularidad que aparece en el orden social se debe a la probabilidad
más que al designio sobrenatural.
Siglo XVII Son conocidos los trabajos realizados por Pascal y Farmat sobre problemas de
juegos de azar, que tuvieron sus antecedentes en algunos matemáticos del siglo XV
como Paccioli, Cardano, Tartaglia, Kepler y Galileo.
1796-1874 Quételet aplicó la teoría de las probabilidades a las ciencias sociales,
elaborando una teoría determinista en la que las características de un hombre quedarían
determinadas por su entorno social, con lo que se podrían aplicar el principio de los
promedios, pudiéndose hablar de un hombre medio.
Siglo XIX A principios de este siglo se desarrollan dos nuevas teorías matemáticas de gran
influencia en la teoría estadística que son: la teoría de los errores de observación de
Laplace y Gauss y la teoría de los mínimos cuadrados desarrollada por los dos
anteriores y Legendre.
Siglo XIX Es a fines de este siglo cuando Sir Francis Galton desarrolla el método de la
correlación, que tiene por objeto medir la influencia relativa de los factores sobre las
variables. De este método partió el método de correlación creado por Karl Pearson.
Los progresos más recientes en el campo de la estadística se refieren al cálculo de
probabilidades basado en el principio del indeterminismo, que supone que la uniformidad
de la naturaleza debe considerarse como una serie de posibles resultados procedentes

13
Estadística Descriptiva Angélica Reyna

de cualquier causa o causas dadas, más que de un único resultado exacto y preciso en
cada caso.

2.2 Definición de Estadística


El diccionario presenta tres acepciones de la palabra Estadística:
1ª. “Censo o recuento de la población, de los recursos naturales e industriales, del tráfico o
de cualquier otra manifestación de un Estado, provincia, pueblo, clase, etc.”
2ª. “Estudio de los hechos morales o físicos del mundo que se presentan a numeración o
recuento y a comparación de las cifras a ellos referentes”.
3ª. “Ciencia que utiliza un conjunto de datos numéricos para obtener, a partir de ellos,
inferencias (deducciones) basadas en el cálculo de probabilidades”.

Estas tres acepciones de la palabra Estadística no son independientes entre sí, sino
más bien determinan tres momentos de su evolución histórica, por lo que pueden
considerarse complementarias.
La primera acepción es la concepción más antigua y la más vulgarmente conocida.
Está ligada a una necesidad, prácticamente exclusiva, de la Administración del Estado y en
su utilización ya lleva implícito, que los censos o recuentos deben ser conjuntos coherentes
de datos numéricos y que deben presentarse de una forma ordenada y sistemática.
La segunda acepción amplía el campo de la Estadística, incluyendo un estudio de
los datos obtenidos, que proporciona una medidas que permiten identificar y comparar las
diferentes estadísticas.
La tercera acepción la asociada al cálculo de probabilidades, confiriéndole el rango
de ciencia. Está asociación permite a la Estadística, crear unos modelos de estudio
capaces de obtener una predicción de comportamientos de los hechos sometidos a su
estudio.
También se le ha entendido como: El conjunto de métodos científicos, o bien,
técnicas, que facilitan el análisis e interpretación de la información obtenida en un censo o
recuento.

Objetivo de la Estadística
Los datos estadísticos se obtienen de observaciones numéricas de conjuntos que se
caracterizan por la variación que muestran sus componentes. Estos datos nos permiten el

14
Estadística Descriptiva Angélica Reyna

estudio de fenómenos que se distinguen por su variación. Es conveniente aclarar que la


estadística no comprende el estudio de toda clase de datos numéricos.
La estadística permite resumir los datos más destacados de los elementos que
componen un conjunto, logrando así aprehender más fácilmente su contenido. La
información sobre un conjunto puede ser sumamente extensa y compleja, por lo que es
conveniente sumarizar la información, reducirla, hasta que la masa caótica y desordenada
de los datos tome forma mediante la obtención de medidas estadísticas. Esto nos permite
describir sus características más sobresalientes y poner de relieve las relaciones existentes
entre sus componentes en un momento dado o en su evolución. Sin embargo, como la
información obtenida de los conjuntos es una reducción, un resumen, es posible obtener
resultados engañosos si no se les interpreta con la precaución necesaria o si no se
comprende con claridad el significado de las medidas estadísticas con sus limitaciones y
alcances.
Las medidas estadísticas nos proporcionan información sumaria de la característica
o características de un conjunto de unidades, pero no sobre una unidad del conjunto.
La estadística ha establecido que del total de nacimientos aproximadamente la mitad
son hombres, pero no podemos afirmar que en una familia debe de haber esta misma
relación que se observa para el total de nacimientos de una población.

2.3 Estadística Descriptiva


La estadística descriptiva es una de las ramas de la Estadística dedicada a analizar los
valores obtenidos en las características observadas, en cada uno de todos los elementos
de la población.
Si se ha realizado una observación exhaustiva, sin errores, conoceremos las
regularidades del comportamiento de la población, pero si no es exhaustiva, las
regularidades que conoceremos serán las de la muestra observada.
En la Estadística Descriptiva, los datos son ordenados, resumidos y clasificados
para tener una visión precisa y conjunta de las observaciones. Esto permite explorar
posibles relaciones entre las características de los elementos estudiados, viendo cuales
toman valores parecidos, cuales difieren grandemente del resto, destacando hechos de
posible interés, etc.
Para hacer un análisis de estadística descriptiva se aplican mediciones que
describan sintéticamente el comportamiento de las características de todos los elementos

15
Estadística Descriptiva Angélica Reyna

de una población, como son las medidas de tendencia central, dispersión, forma y
concentración, o bien la distribuciones de frecuencias, entre otros.

2.4 Estadística inferencial: Probabilidad y muestreo


La estadística inferencial también conocida como inductiva, tiene como función, partiendo
de los datos obtenidos de una muestra, estimar las regularidades de comportamiento de la
población. Esta rama de la Estadística comprende métodos y procedimientos para inferir a
partir de una muestra características generalizables a una población. Estos procedimientos
se basan en la predicción mediante el cálculo de probabilidades.
La estadística descriptiva y la estadística inferencial se emplean indistintamente en
estudios descriptivos y explicativos. Que un estudio se realice por censo o por muestreo no
es condición para que sea de tipo descriptivo o explicativo.
Las encuestas para estimar el número y características de los votantes son
generalmente de tipo descriptivo, no obstante que se emplean muestras y que los datos se
elaboran con base en la teoría y en las técnicas de la estadística inferencial.
No deben confundirse los términos encuesta descriptiva y estadística descriptiva.
Una encuesta puede ser de tipo descriptivo sea por muestreo o por censo y tiene por objeto
la mera descripción de un fenómeno a diferencia de las encuestas explicativas por
muestreo o por censos que tienen por objeto determinar en qué medida una serie de
factores contribuyen a configurar un fenómeno.
Es común que los cuestionarios aplicados al total de la población se llamen “censo”
y que los cuestionarios aplicados a una muestra se denominen “encuesta”.
En la estadística inferencial o matemática se distinguen dos partes fundamentales:
la teoría de la estimación y la teoría de la decisión. Todas las medidas descriptivas (por
ejemplo, media, desviación típica, coeficiente r de Pearson, coeficiene b de regresión, etc.),
constituyen cuando se calculan con datos obtenidos mediante muestras, simples
estimaciones, de aquí el nombre de teoría de estimación, de la media, la desviación típica,
el coeficiente de asociación r de Pearson, etc. de la población, con las cuales pueden o no
coincidir y que normalmente coincidirán exactamente sólo en muy pocos casos. Al estar
afectadas estas estimaciones por el error derivado de la fluctuación de las muestras en
relación a la verdadera medida de la población, no coincidirán con dicha medida verdadera
de la población, aunque no se puede descartar la posibilidad de que en algún caso raro
particular puedan ser iguales.

16
Estadística Descriptiva Angélica Reyna

La estadística no nos puede proporcionar una medida exacta de la desviación o


error que represente la medida obtenida de la muestra en relación a la medida verdadera
de la población total, porque el único medio para obtener esta medida exacta sería realizar
la encuesta a la población total con lo cual la muestra pierde todo su sentido.
Sin embargo, la Estadística sí puede proporcionar, y esto es lo que hace, un error
típico, genérico, válido para todas las muestras distintas del mismo tamaño que se podrían
obtener de la población total en relación a las medidas básicas referidas, promedios,
índices de dispersión, coeficientes de asociación y de regresión, cada una de las cuales
tiene su error distinto. Asimismo, la estadística, sirviéndose de este error muestral, faculta
para determinar, dada una medida concreta obtenida de una muestra, su intervalo de
confianza. Por éste se entiende el espacio cuantitativo formado por la medida de que se
trate, media, desviación típica, varianza, coeficientes, obtenida de una muestra, más y
menos su error muestral respectivo multiplicado por el nivel de confianza elegido, dentro del
cual debe encontrarse el verdadero valor de la población total, no con exactitud sino con el
nivel de confianza o grado de probabilidad con que se haya trabajado.
Finalmente, también podemos plantearnos los problemas de determinar, a) si un
medida estadística de las indicadas obtenida de una muestra difiere o no significativamente
en la población de un valor determinado fijado previamente, y b) si las diferencias
observadas en los valores de las medidas, medias, varianzas, etc., procedentes de dos o
más muestras representan diferencias significativas en las poblaciones de las que proceden
las muestras. Esta cuestión da lugar a la teoría de la decisión porque en ella de lo que se
trata es de decidir, mediante la aplicación de los tests de hipótesis, si se puede o no
rechazar la hipótesis nula, que niega que las diferencias observadas en las muestras
respecto a valores dados o en comparación de unas con otras, sean significativas en
relación a las poblaciones totales al ser explicables simplemente por el error o la fluctuación
de las muestras. La teoría de la decisión considera el error muestral, evaluando si el error
de la(s) muestra(s) es(son) de tal magnitud que absorbe(n) y en consecuencia anula las
diferencias observadas. Las pruebas de Hipótesis pueden ser paramétricas (referidas a
variables cuantitativas) o no paramétricas (referidas a variables cualitativas).

2.5 Conceptos básicos de la Estadística


1. Población.- Es cualquier conjunto de personas, objetos, ideas o acontecimientos,
sometido a una observación estadística. También, se conoce a este conjunto como

17
Estadística Descriptiva Angélica Reyna

Colectivo o Universo. El significado que se da en Estadística a la palabra Población es más


amplio que el usado habitualmente, referido exclusivamente a un conjunto de personas.
2. Elementos o individuos de una población.-Es cada uno de los componentes de
la población. = Unidad de análisis
3. Tamaño de la población.- Es el número de elementos de una población. Puede
ser finito o infinito.
4. Carácter (característica).- Es cada una de las propiedades, rasgos o cualidades
que poseen los elementos de una población. Los caracteres pueden ser cuantitativos o
variables y cualitativos o atributos.
5. Variable.- Es cualquier característica de una población. Para algunos, el término
variable es genérico de característica. Si es susceptible de tomar valores numéricos y
expresa magnitudes se le denomina “variable cuantitativa”. La variable aún siendo la
misma para toda la población no tiene por qué presentarse con la misma intensidad en
cada elemento. Las diversas intensidades son números que corresponden a los diferentes
valores de la variable. Si la característica no es susceptible de reflejar magnitudes
numéricas, sino sólo modalidades se le denomina “variable cualitativa”.
Las variables se clasifican en continuas o discretas según que admitan o no
valores intermedios entre dos valores consecutivos. En la práctica, la distinción entre
variable discreta y continua no es fácil, ya que todas las variables pueden ser consideradas
discretas al no permitir los instrumentos de medida pasar de un cierto límite de precisión.
6. Recorrido.-El recorrido de una variable queda determinado por la diferencia de
sus valores extremos, máximo y mínimo. También se le llama rango.
7. Dominio.- Conjunto de todos los valores posibles o todas las modalidades
posibles que puede tomar una variable.
8. Atributo.- Algunos autores usan el término para referirse a las “variables
cualitativas”. Es la característica de una población no susceptible de ser medido
numéricamente, por lo que no se expresa en magnitudes.
9. Modalidades.-Son las diferentes formas en que puede presentarse un atributo o
variable cualitativa.
10. Observación de la población.- Una vez determinada una población, no se
realiza, habitualmente, un estudio de todos los caracteres de la misma, sino que se
seleccionan los que van a ser objeto de observación. La observación de los caracteres

18
Estadística Descriptiva Angélica Reyna

implica, conocer en cada elemento, el valor que toma cada variable o la modalidad que
presenta cada atributo o variable cualitativa.
10.1. Estos datos observados, valores y modalidades, se podrán clasificar
dependiendo del tipo de medidas que se utilice para su presentación.
a) Medida nominal.- Cuando los datos obtenidos se clasifican sin que exista ninguna
relación de orden o distancia entre los mismos.
b) Medida ordinal o jerárquico.- Cuando solo es posible establecer una relación de
orden, bien de mayor a menor o viceversa.
c) Medida de intervalo.- Cuando los datos pueden clasificarse ordenándolos y, al
mismo tiempo, es posible medir una distancia entre dos medidas cualesquiera.
d) Medida de razón.- Cuando los datos se relacionan con otros usando escalas.
La observación, en el caso de una variable cuantitativa, supone obtener un valor
numérico para cada elemento. Existen varios sistemas diferentes para obtener estos
valores numéricos:
a) Aplicando una unidad de medida normalizada (litro, metro, etc.).
b) Empleando un sistema de puntuaciones, cuando no existe unidad de medida
normalizada (notas de clase).
c) Asignando un rango a cada elemento de la población (número de orden de peor a
mejor).
Los dos últimos modos de observación b) y c) son subjetivos y, por tanto, pueden
dar resultados diferentes dependiendo de la persona que realice la valoración.
10.2. Clasificación de las observaciones en función del tiempo
Observaciones transversales: Son observaciones que se realizan en un instante
determinado (o intervalo de tiempo). Observaciones temporales o longitudinales: Son las
diferentes observaciones que se realizan a lo largo del tiempo (o de intervalos de tiempo).
10.3. Clasificación de las observaciones en función de los elementos
observados
Observación exhaustiva: Cuando se hace una observación de todos los elementos
de la población. Esta observación se conoce como CENSO.
Observación parcial: Sólo se puede observar una parte de los elementos de la
población. A esta parte de la población se le denomina, dependiendo del método de
selección, Subpoblación o Muestra. Se utilizan observaciones parciales cuando los

19
Estadística Descriptiva Angélica Reyna

elementos de la población son infinitos o, en el caso de ser finitos, cuando no pueda


observarse exhaustivamente, como en los siguientes casos:
-La población es excesivamente grande.
-El tiempo que se emplearía es más largo que el disponible o el deseado.
-El costo de la observación total es superior a los recursos disponibles.
-La observación implica la destrucción de los elementos (ensayos destructivos).
a) Subpoblación: Los elementos que integran la parte seleccionada reúnen una o
más características especiales que no se presentan en los restantes elementos.
Se utiliza cuando sólo interesan los elementos de la población con una o más
características particulares.
b) Muestra: Es la parte seleccionada de una población, en la que los elementos que
la componen no tienen ninguna característica esencial que los distinga de los restantes. Se
utiliza cuando es necesario disponer de una parte representativa de la población. Una
muestra puede elegirse inspirándose en el azar, muestreo aleatorio, o realizando una
selección de acuerdo con ciertas reglas fijadas con anterioridad, muestreo no aleatorio.
Observación mixta: Unos caracteres se estudian de forma exhaustiva y otros de
forma parcial.

3. FUENTES DE INFORMACIÓN Y NIVELES DE MEDICIÓN

3.1 Fuentes de información


Las fuentes de datos estadísticos son el producto de la aplicación de diversos instrumentos
de captación de información referentes a la población de interés: personas, viviendas,
industrias, comercios, empresas, consumidores, prestadores de servicios, productos,
recursos, etc.
Las fuentes de datos pueden clasificarse de diferentes formas según el criterio
considerado. A partir de la población de referencia, las fuentes de información pueden
clasificarse en censos, si a través de un cuestionario o algún otro instrumento se recaba
información sobre el conjunto total de la población o universo; encuestas, si el cuestionario
o instrumento recaba información aplicándose a una muestra estadística o subconjunto
poblacional seleccionado aleatoriamente; y registros, si el cuestionario capta información
de un subconjunto no aleatorio de la población
Otras formas de clasificación de las fuentes de información pueden considerarse
según el momento de levantamiento del dato, la referencia temporal de la información, por

20
Estadística Descriptiva Angélica Reyna

la relación entre el generador y usuario de la fuente, por el tipo de dato que maneja, por la
materia que aborda o por la accesibilidad de la información.

TIPOS DE FUENTES DE DATOS


CRITERIO TIPO DEFINICIÓN
CENSOS
Cuestionario aplicado al conjunto total de
la población o universo.

Cuestionario aplicado a un subconjunto de


POBLACIÓN DE
ENCUESTAS la población o universo seleccionado
REFERENCIA
aleatoriamente.

Cuestionario que responde un


REGISTROS subconjunto no aleatorio de la población
que reporta voluntariamente o en
cumplimiento de una obligación específica
la ocurrencia y características de un
evento de interés.
PUNTUAL
Se recoge el dato en un momento o
MOMENTO DE
periodo corto y definido. CENSOS Y
LEVANTAMIENTO
ENCUESTAS.
DEL DATO
CONTINUA Existe la infraestructura para recoger el
dato conforme ocurran los eventos en el
tiempo. REGISTROS CONTINUOS.
Hace referencia a la situación en un
POR LA STOCK
momento en el tiempo (también se llama
REFERENCIA
transversal). CENSOS Y ENCUESTAS.
TEMPORAL DE LA
INFORMACIÓN
Hace referencia a la situación a lo largo
FLUJO
del tiempo, en periodos (también se llama
longitudinal). REGISTROS CONTINUOS
Y ENCUESTAS.
PRIMARIA
Usada y generada por el mismo individuo
POR LA RELACIÓN
o institución.
ENTRE GENERADOR
Y USUARIO DE LA
SECUNDARIA Usada por individuos o instituciones que
FUENTE
no la generaron.
CUANTITATIVA
Refleja el volumen o frecuencia del
POR EL TIPO DE
evento numéricamente.
DATO QUE
MANEJAN
CUALITATIVA Describe las características y calidad del
evento.

21
Estadística Descriptiva Angélica Reyna

CRITERIO TIPO DEFINICIÓN


ECONÓMICAS Descripción de los objetos / sujetos de
FINANCIERAS cada disciplina o campo semántico
POR LA MATERIA
MERCANTILES
QUE ABORDAN
DEMOGRÁFICAS
DE RECURSOS
ECOLÓGICAS

PÚBLICA Si el acceso es general.


POR EL ACCESO
RESTRINGIDA Si el acceso se permite sólo a ciertas
personas o dependencias

PRIVADA Si la información es propiedad de una


persona o institución privada.
Fuente: Elaborado a partir de fuentes múltiples.

Los datos contenidos en dichas fuentes pueden presentar diversas características.


Considerando quién produce y usa el dato, éstos pueden clasificarse en primarios y
secundarios. Si el dato es captado por la observación del elemento a describir o si lo
proporciona un tercero o incluso es una estimación, los datos pueden ser directos o
indirectos. Y dependiendo del grado de corrección o procesamiento de la información, los
datos pueden ser bruto, corregidos o refinados.

TIPOS DE DATOS
CRITERIO TIPO DEFINICIÓN
PRIMARIO
Si el usuario es el mismo que las
SEGÚN QUIEN PRODUCE
genera adhoc a su investigación
Y USA EL DATO
SECUNDARIO Si el usuario no las generó
SEGÚN SI ES CAPTADO DIRECTOS Datos que se consiguen de manera
POR OBSERVACIÓN DEL (OBSERVADOS) simple y sin mayores supuestos, o
ELEMENTO A DESCRIBIR que representan series de números
O SI LO PROPORCIONA absolutos.
UN TERCERO O ES UNA
ESTIMACIÓN INDIRECTOS Son tratados o indirectos los
(ESTIMADOS) obtenidos luego de operaciones de
cálculo cuya aplicación requiere de
supuestos.

22
Estadística Descriptiva Angélica Reyna

CRITERIO TIPO DEFINICIÓN

BRUTOS Se denominan datos brutos a los que


(OBSERVADOS, se presentan sin desagregaciones,
ORIGINALES) suavizamientos, ajustes o
correcciones.
SEGÚN EL GRADO DE
CORRECCIÓN O
Datos corregidos son aquellos que
PROCESAMIENTO
CORREGIDOS han sido sometidos a técnicas de
suavizamiento, de ajuste, de
corrección o de tipificación.

REFINADOS Son refinados los datos que se


presentan en una forma más
detallada y precisa, con la intención
de proporcionar una idea más exacta
de lo que se pretende analizar.
Fuente: Elaborado a partir de fuentes múltiples.

Al igual que las fuentes de información bibliográficas, las fuentes estadísticas de


información deben citarse indicando el autor o institución que genera la fuente de
información, el nombre de la fuente o instrumento, el período de referencia y lugar de
aplicación del instrumento, el formato de presentación (medio electrónico o impreso), lugar y
fecha de difusión o publicación.
Por ejemplo, el último censo de población levantado en México debe citarse como
sigue: INEGI. XII Censo General de Población y Vivienda, 2000. Estados Unidos
Mexicanos, Tabulados Estatales (impreso), México, 2001.

3.2 Clasificación, jerarquización y medición

Al hacer elaboraciones estadísticas respecto a las unidades y sus características es


necesario clasificarlas, jerarquizarlas, medirlas. Dentro de las características señaladas,
sólo es posible clasificar algunas; es decir, agruparlas de acuerdo a subclases o
subconjuntos. Por ejemplo, en relación a la característica sexo podemos determinar cuántos
son hombres y cuántas son mujeres, clasificando el conjunto, personas, en dos
subconjuntos, hombres y mujeres.
En otros casos podemos jerarquizar las unidades; es decir, clasificarlas en un orden
decreciente, o creciente; por ejemplo en las características coeficiente de inteligencia y
estrato social al que pertenecen.

23
Estadística Descriptiva Angélica Reyna

Por último algunas características pueden ser medidas en un sentido estricto, por
ejemplo: ingreso, estatura, edad, peso tiempo diario de trabajo, etcétera. Esto lo ponemos
de manifiesto para que sea claro el hecho de que los datos numéricos pueden diferir en
cuanto al tipo de “medición” que es factible aplicarles, según sea una u otra medición la que
admitan los datos; también será diferente el tipo de manipulación matemática a la que
podemos sujetarlos.

NOMINAL: nombres, etiquetas, identificadores

ORDINAL: implica que el identificador permite dar orden


NIVELES DE o jerarquía
MEDICIÓN
INTERVALAR: refiere a rangos, intervalos

COCIENTES
O RAZONES: implica el uso de parámetros de medición

La ignorancia de ello conduce a serios errores en la aplicación de los resultados


estadísticos. Por lo general se acepta la existencia de cuatro niveles de medición: nominal o
clasificatorio, ordinal, de intervalo y de cocientes o razón.

3.3 Niveles de medición: nominal, ordinal, intervalar, cocientes o razones, porcentajes,


proporciones, coeficientes, incrementos, tasas

Nivel nominal o clasificatorio


En este nivel de medición las unidades (personas, objetos, etc.) únicamente se clasifican de
acuerdo a la característica o características que se pretendan analizar. Para distinguir los
agrupamientos de unidades empleamos símbolos, letras o números. Cuando se emplean
números para distinguir los conjuntos, dichos números sólo tienen un valor simbólico y no
numérico. Ejemplos de este nivel de medición son:
Hombres: H, A, X, ♂, 1
Mujeres: M, B, Z, ♀, 2

24
Estadística Descriptiva Angélica Reyna

Nivel ordinal
En este nivel las unidades de las subclases guardan una cierta relación entre sí, esto se
pone de manifiesto cuando estamos en posibilidad de establecer la relación mayor que (>)
o menor que (<) respecto a las características de las unidades escaladas. Por ejemplo
cuando clasificamos a los miembros de una comunidad en estratos alto, medio y bajo, se
puede establecer que: alto > medio >bajo; o a la inversa: bajo < medio < alto. Si en un
concurso de oratoria se debe jerarquizar a los participantes de acuerdo con las
calificaciones de los jueces, pueden ser ordenados a partir del más al menos apto y estos
constituye una escala ordinal.
Las medidas estadísticas más comúnmente empleadas en este nivel son: mediana,
cuantilas, coeficiente ρ (rho) de Spearman, τ (tau) de Kendall, ω de Kendall.
En el nivel ordinal la distancia entre dos unidades no es conocida Por ejemplo no se
determina qué distancia existe entre un miembro del estrato medio respecto a otro del
estrato alto, pero sí se conoce su relación en cuanto al rango o jerarquía.
En el nivel ordinal los números que se asignan a las características permiten
determinar el orden o la posición jerárquica en una escala, pero no tienen significado en lo
referente a ¿cuánto? O ¿cuántas veces?, porque son cualidades no aditivas.

Nivel de intervalo
El nivel de intervalo tiene, además de las propiedades de la escala ordinal, la propiedad de
que la distancia entre dos valores es de una magnitud conocida, lo cual da a esta escala un
mayor grado de perfección. En la escala de intervalo el punto cero y la unidad de medición
son arbitrarios. La razón entre dos intervalos es siempre independiente del punto cero y de
la unidad que se emplee en la medición.
Un ejemplo ilustrativo y sencillo de escalas de intervalo lo constituyen las escalas
empleadas en la medición de la temperatura: grados centígrado, Fahrenheit y Kelvin, esta
última empleada en la ciencia física. Nos referimos a las dos primeras escalas por ser más
comunes.
Temperaturas equivalente en las dos escalas:
Grados Fahrenheit 32 50 68 86 104 122 176 212
Grados centígrados 0 10 20 30 40 50 80 100

25
Estadística Descriptiva Angélica Reyna

Las unidades de medición –grados- están determinadas por el sistema empleado


para fijar los valores de 0 y 100. Sin embargo ambas escalas contienen la misma cantidad y
el mismo tipo de información.
La razón de las diferencias entre dos intervalos son independientes de las unidades
empleadas y del punto cero, por ejemplo:

40 – 30 = 1 104 – 86 = 1
30 – 20 86 - 68

La razón entre iguales diferencias de temperatura es la misma. Las dos escalas


proporcionan la misma cantidad de información numérica, esto es así porque están
relacionadas linealmente. Esto es porque el recorrido de los intervalos en cada escala es de
la misma dimensión

Nivel de razón
Se caracteriza porque tiene un punto cero verdadero, es decir absoluto, además de poseer
las características de la escala de intervalo; esto es, las distancias entre dos valores de la
escala son conocidas en el sentido cuantitativo y su “razón” es independiente de las
unidades empleadas; en las escalas empleadas en la medición de longitudes, pesos y
masas, el punto cero es absoluto, real; por ejemplo en las unidades metro, yarda,
kilogramo, libra, metros cúbicos, puesto que un 2valor cero indica ausencia de medición;
esto es, inexistencia. En la escala de intervalo no podemos afirmar, verbigracia, que 0
grados centígrados indique ausencia de temperatura.
En la escala de razón se da una razón igual entre dos valores de escalas diferentes,
por ejemplo kilogramos y libras; la razón entre 40 y 25 kilogramos es igual a la razón entre
40 y 25 libras. Esto es, mantienen la proporcionalidad.
La escala de razón reúne todas las propiedades de las escalas nominal, ordinal y de
intervalo, además de poseer un cero absoluto; es decir, equivalencia, mayor o menor que,
razón conocida entre dos intervalos y entre dos valores de escala.
El nivel de razón, se denomina así, porque se utilizan parámetros estándares, donde
lo observado es calibrado o medido en razón del parámetro o unidad de medida.

26
Estadística Descriptiva Angélica Reyna

Rango entre los niveles de medición


Entre los cuatro niveles de medición puede establecerse un ordenamiento jerárquico de
perfección: la escala de razón posee todas las propiedades de las escalas de intervalo,
ordinal y nominal. La escala de intervalo posee las propiedades de la escala ordinal y
nominal, y la ordinal, además de su propiedad, posee la de la nominal.
El nivel nominal sólo permite identificar los objetos de acuerdo a la categoría o clase
que pertenecen. El nivel ordinal permite comparar variables en el sentido de más grandes o
menores. El nivel de intervalo y el de razón permite establecer qué tanto más grande o más
pequeña es una medición comparada con otra.
La escala de razón puede transformarse para ser manipulada por los procedimientos
empleados por las otras escalas. Por ejemplo, las estaturas es factible arreglarlas en un
orden jerárquico de mayor a menor (nivel ordinal), asimismo podríamos clasificar el conjunto
en dos, tres o más subclases, por ejemplo de estatura baja, media, alta (nivel nominal).
El proceso inverso no es factible; es decir, transformar datos de un nivel de medición
más bajo a otro mayor, cuando sólo reúne las propiedades de bajos niveles.
Es más frecuente el empleo del nivel de razón, sobre todo en aquellos que
intervengan valores monetarios, de volúmenes, de peso, longitud, edad.
Las técnicas estadísticas a emplear en el análisis y las conclusiones que puedan
obtenerse dependen en mucho del nivel de medición que sea apropiado a los datos, por
tanto antes de cualquier manipulación estadística, es conveniente dejar bien claro el nivel
de medición apropiado para efectuar los cálculos.

Razones, porcentajes, proporciones, coeficientes, incrementos, tasas

RAZÓN: Relación entre dos subconjuntos o dos conjuntos.

Hombres 600 600


Mujeres 200 600:200 = ------ = 3:1 = 3 a 1 = 300 a 100
200

COEFIENCIENTES = TASAS E INDICES

TASAS= EVENTOS OBSERVADOS (100)


POBLACIÓN QUE
PUEDE VIVIRLOS

INCREMENTOS % = F - I (100)
I

27
Estadística Descriptiva Angélica Reyna

INDICE DE EFICIENCIA = %F - % I (100)


100 - %I

3.4. Estructuración de bases de datos

Los datos obtenidos de la observación de uno o más caracteres de los elementos de una
población son, generalmente, un conjunto de datos sin orden y de volumen elevado. Para
su análisis se les debe dar un tratamiento previo, que exige una ordenación de los datos
obtenidos para cada carácter y una presentación adecuada que permita el análisis de sus
variaciones. Para que la presentación de los datos obtenidos de la observación sea
adecuada se usan tablas y gráficas estadísticas. La tabla estadística es una agrupación de
datos ordenados con arreglo a un criterio lógico; este proceso se llama tabulación.
Hay que tener en cuenta que todo proceso de reducción, y por tanto de tabulación,
implica la pérdida de parte de la información, lo cual origina un error en los cálculos que se
realicen. La existencia de este error es inevitable si se quiere disponer de una presentación
de datos manejable, pero siempre debe mantenerse dentro de márgenes controlados.
La distribución de frecuencias es una estadística basada en la reducción de datos,
mediante agrupación de los mismos considerando su repetición o frecuencia. En este tipo
de estadísticas los elementos pierden su individualidad, en beneficio de un mejor
conocimiento del comportamiento general.

Registro de datos
No caso Edad Sexo (Hombre Lugar de Lugar de residencia
o Mujer) nacimiento actual
1
2
3
4
5
6
7
8
9
Total

28
Estadística Descriptiva Angélica Reyna

4. DISTRIBUCIÓN DE FRECUENCIAS
4.1 Distribución de frecuencias unidimensionales simples y acumuladas, absolutas y
relativas
Manejo de los datos obtenidos en la observación

1. Ordenación. Se trabaja característica por característica. Los casos se ordenan según el


valor de su característica de mayor a menor magnitud o de menor a mayor magnitud.
Donde:
Cuadro 1. Cuadro 2.
No. caso Edad No. caso Sexo

Valor mínimo (min): es el valor de menor magnitud en el conjunto.


Valor máximo (max): es el valor de mayor magnitud en el conjunto.
Esta identificación sólo es válida para el conjunto que se analiza, pues en otro
conjunto estos valores pueden no ser ni mínimo ni máximo.

2. Agrupación de los valores que se repiten, frecuencias.


a) Frecuencia absoluta.- Es el número de veces que se presenta el dato de una
característica. Se representa por ni. Es el número de veces que se repite un
determinado valor de la variable o una determinada modalidad del atributo, y por tanto
representa el número de elementos de la población que tienen ese valor o modalidad.
La suma total de todas las frecuencias absolutas es el tamaño de la población de
elementos observados y se representa por N.
b) Frecuencia relativa.- Es la proporción o porcentaje que representan los casos que
tiene el mismo valor o modalidad de una variable respecto al total de elementos de la
población. La frecuencia relativa se obtiene como proporción dividiendo la frecuencia

29
Estadística Descriptiva Angélica Reyna

absoluta de un determinado dato entre la suma de las frecuencias absolutas de todos


los datos observados, o sea entre el tamaño de la población. Como porcentaje se
obtiene multiplicando por cien esa proporción. Se representa por fi.
c) Frecuencia absoluta acumulada.- Es igual a la frecuencia absoluta de un dato
determinado más la suma de las frecuencias absolutas de los datos anteriores. Se
representa por Ni. Esta frecuencia representa, cuando existe una relación de orden, el
número de elementos de la población que quedan por encima o por debajo del
elemento cuyo valor o modalidad se observa.
d) Frecuencia relativa acumulada.- La frecuencia relativa acumulada de un dato
determinado, es igual a la suma de las frecuencias relativas de todos los datos menores
o iguales a dicho valor. Se representa por Fi. Igual que las frecuencias relativas simples
se suelen presentar en porcentajes % Fi.

3. Obtención de la tabla de frecuencias de cada variable.


Frecuencia Frecuencia Frecuencia Relativa
Edad Frecuencia Absoluta Absoluta Relativa Simple Acumulada en %
Simple (ni) Acumulada (Ni) en % (%fi) (%Fi)

Particularidades del atributo o variable cualitativa.


Las variaciones de los atributos o variables cualitativas se denominan modalidades. Para
obtener frecuencias de variables cualitativas, los elementos de la población se agrupan por
modalidades.

Reglas para definir modalidades:

1. Las modalidades deben definirse con precisión, haciendo explícitos las definiciones y
criterios de clasificación.

30
Estadística Descriptiva Angélica Reyna

2. Las modalidades deben ser exhaustivas, debiéndose establecer todas las modalidades
posibles.
3. Las modalidades deben ser mutuamente excluyentes: cada caso debe pertenecer a
una sola modalidad y nada más que a una.
Cuando una variable cualitativa o atributo tiene solo dos modalidades se le llama
atributo dicotómico. Cuando tiene más de dos modalidades se le llama atributo múltiple.
Sexo Frecuencia Frecuencia Absoluta Frecuencia Frecuencia Relativa
Absoluta Simple Acumulada (Ni) Relativa Simple en Acumulada en %
(ni) % (%fi) (%Fi)
Hombres
Mujeres

4.2 Representaciones gráficas

Gráficos de frecuencias simples (absolutas o relativas)


Normalmente, se representan en el eje de abscisas los distintos valores observados de la
variable (X) y en el eje de ordenadas las frecuencias absolutas o relativas (n i ó f i).
a. En el diagrama de barras se indica mediante una línea gruesa vertical (barra) la
frecuencia correspondiente a cada valor de la variable.
b. En el polígono de frecuencias o diagrama lineal se representa por un punto cada par
de valores (Xi, ni) ó (Xi, fi) uniéndose mediante rectas cada dos puntos consecutivos.
Valores ordenados de edades de niños: 3, 4, 5, 5, 5, 6, 6, 7, 8, 9
Diagrama de Barras Polígono de frecuencias
Niños según su edad
Niños según edades
Frecuencia Frecuencia
(Niños) (Niños)
4 4

3 3

2 2

1 1

0 0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9

Edades
Edades

31
Estadística Descriptiva Angélica Reyna

Gráficos de frecuencias acumuladas (absolutas o relativas)


En el eje de las abscisas se colocan los distintos valores observados de la variable (X) y en
el eje de las ordenas se presenta la frecuencia acumulada hasta cada uno de los valores de
la variable.
a) En el diagrama de frecuencias acumuladas se indica con barras la frecuencia
acumulada correspondiente a cada valor de la variable, por lo que conforme se
incrementa el valor de la variable X, la barra será mayor a la de su izquierda,
generando una forma de escalera ascendente.
b) En el polígono de frecuencias acumuladas (o diagrama acumulado de frecuencias o
polígono acumulativo de frecuencias) se conforma una línea curva creciente.

Diagrama de frecuencias acumuladas Polígono de frecuencias acumuladas


Niños según edades en frecuencia acumulada
Frecuencia Niños según edades en frecuencia acumulada
acumulada Frecuencia
(Niños) acumulada (Niños)
12 12

10 10

8 8

6
6
4
4
2
2
0
0 1 2 3
Si los elementos observados y los valores o modalidades de las4 variables
5 6 7 8
también 9
1 2 3 4 5 6 7 8 9 Edades
son muchos, es adecuado
Edades
agrupar los datos obtenidos para su representación gráfica,
usando clases e intervalos.
Clase.- Es el grupo donde se reúnen varios valores distintos de una variable. La
frecuencia de casos en la clase será la suma de las frecuencias de cada uno de los valores
incluidos en la clase.
Intervalo.- Cada clase tiene un intervalo definido por sus límites inferior y superior,
conocidos como límites de clase (Li-n = límite inferior y Li =límite superior), donde n indica la
longitud de los intervalos.
Los intervalos, frecuentemente, acaban en un número (límite superior) que es el
mismo con el que empieza el intervalo siguiente (límite inferior). Por convenio, las
observaciones que tengan este valor se anotan en el primer intervalo.

32
Estadística Descriptiva Angélica Reyna

Valores ordenados: 1, 3, 4, 5, 5, 6, 6, 7, 8, 8, 9
Intervalos Frecuencia de Valores incluidos
De 0 a 3 = 1, 3
De 3 a 6 = 4, 5, 5, 6, 6
De 6 a 9 = 7, 8, 8, 9

Amplitud de intervalo: Es la diferencia entre el límite superior y e inferior de la


clase.

Li Li-n
Límite ___ Límite = amplitud de intervalo
Superior inferior
3 – 0 = 3
6 – 3 = 3
9 – 6 = 3

La amplitud de los intervalos puede ser constante o no, e incluso carecer de límite
superior o inferior, en este caso se le conoce como intervalos de clase abierta. Cuando
ambos límites son cerrados se representan entre paréntesis ( , ). Cuando ambos son
abiertos se representan entre corchetes [ , ]. Si un límite es abierto y otro cerrado se usará (
, ] ó [ , ).
Si los intervalos son de amplitud constante, su valor se puede obtener dividiendo el
recorrido de la variable entre el número de clases con las que se quiere presentar la
distribución.

Marca de clase.- Para poder operar matemáticamente con estas distribuciones es


preciso considerar un valor concreto de la variable en cada clase que sea representativo,
este valor se conoce como marca de clase. Normalmente se toma el valor central del
intervalo que se calcula sumando los dos límites del intervalo y dividiéndolo entre dos.
Li-n Li xi
Intervalos Límite + Límite / 2 = Marca de clase
Inferior Superior
De 0 a 3 ( 0 + 3 ) / 2 = 1.5
De 3 a 6 ( 3 + 6 ) / 2 = 4.5
De 6 a 9 ( 6 + 9 ) / 2 = 7.5

Error de agrupamiento.- La pérdida de información que se produce al agrupar los


valores de la variable y tomar como valor representativo la marca de clase, da lugar a unos

33
Estadística Descriptiva Angélica Reyna

valores distintos a los que se obtendrían si no se realizase el agrupamiento. La diferencia


entre ambos valores se denomina “error de agrupamiento”.

Valores ordenados: 1, 3, 4, 5, 5, 6, 6, 7, 8, 8, 9
Suma acumulada: 1 + 3 + 4 + 5 + 5 + 6 + 6 + 7 + 8 + 8 + 9 = 62

Li-n –Li ni xi
Intervalos Frecuencia x Marca de
clase
De 0 a 3 = 2 x 1.5 = 3.0
De 3 a 6 = 5 x 4.5 = 22.5
De 6 a 9 = 4 x 7.5 = 30.0
55.5
Error de agrupamiento: 62 – 55.5 = 6.5

Li-n –Li ni xi
Intervalos Aporte Frecuencia x Marca de Aporte
Clase estimado Error
De 0 a 3 = 4 2 x 1.5 = 3.0 1.0
De 3 a 6 = 26 5 x 4.5 = 22.5 3.5
De 6 a 9 = 32 4 x 7.5 = 30.0 2.0
55.5 6.5

Gráficos de frecuencias simples (absoluta y relativa) o Histogramas de clases


Se constituyen por tantos rectángulos como clases se consideran en una distribución.
Cuando se desea expresar la magnitud del rango de las clases, la base de cada rectángulo
será la amplitud correspondiente a cada clase. Cuando solo se busque señalar las clases,
las bases de los rectángulos pueden tener la misma dimensión. El área de cada rectángulo
debe ser igual o proporcional a la frecuencia simple del correspondiente intervalo.
Gráficos de frecuencias acumuladas (absoluta y relativa) o Polígonos acumulativos de
frecuencias de clases.

Este se obtiene uniendo mediante rectas cada par consecutivo de valores (frecuencia
absoluta-intervalo), formando una curva ascendente.
Para el diseño de los gráficos existe la “Regla de los tres cuartos de altura”: “En la
representación gráfica de las frecuencia el eje vertical debe hacerse de tal modo que la
altura del punto máximo sea aproximadamente igual a tres cuartos de la longitud del eje
horizontal.”

34
Estadística Descriptiva Angélica Reyna

México. Población 2005 por tamaño de localidad

Millones México. Población acumulada por tamaño de localidad, 2005.


70 Millones
120
60
100
50
80
40

30
60

20
40

10
20

0 0
1-2,499 2,500-4,999 5,000-9,999 10,000-14,999 15,000 y más 1-2,499 2,500-4,999 5,000-9,999 10,000-14,999 15,000 y más

Rango-tamaño de localidad Rango-tamaño de localidad

Gráficas de atributos
a. Diagrama de rectángulos: Los atributos no se expresan numéricamente sino por sus
modalidades. Para su representación gráfica se puede utilizar el mismo método que para
las variables, situando en abscisas las modalidades y en ordenadas las frecuencias. Como
las modalidades carecen de amplitud numérica, se representarán cada una de ellas por un
segmento de amplitud constante, por lo que la altura de los rectángulos corresponderá con
su frecuencia. Los rectángulos no suelen presentarse unidos, para evitar dar una idea de
continuidad en las modalidades del atributo.
b. Diagrama de sectores: se representa un círculo dividido en tantos sectores como
modalidades o valores presenta la variable. La amplitud de estos sectores es proporcional
al valor de la frecuencia correspondiente.
c. Pictogramas: Se basan en la repetición de una figura que representa la unidad de
frecuencia.
d. Cartogramas: Se usan para representar estadísticas geográficas o espaciales,
identificando color o marca con cada modalidad.
e. Diagrama de puntos: Se usa sólo el punto extremo del diagrama de barras.

35
Estadística Descriptiva Angélica Reyna

Diagrama de rectángulos Cartograma

México. Distribución porcentual de la población rural por entidad


federativa, 2030.
Porcentaje %
12.0

10.0

8.0

6.0

4.0

2.0

0.0
G P aca

ali arit
O apauz

C ali R s

rit Ci a Sala
G a ju b la

H ro

Si li scco

D hua
m onngo
l i ra
Z nal o
C aca oa
a as

ali T en oo
D fo rnlax tes

l
F e l im r
rreto

Jaas o

C Coa ia
A ui Mpeuila
Ba guanta or che

de a
ax s

ja Napya s

o o u

ra
ja sc na el o
b lg
hi r

ue a

au o

rn
hu c

c
C rac

n e

Taida

hi te

Ta Sura

am h
fo
ua u
Ve

ist
Q
Ba

4.3 Medidas de una distribución

Son medidas que, resumiendo las tablas estadísticas, permiten diferenciar una distribución
de otra, lográndose la comparación entre distribuciones de frecuencias correspondientes a
poblaciones diferentes. Estas medidas cumplen la propiedad de proporcionar una única
solución para cada distribución de frecuencias.

Medidas de posición o tendencia central


Tipos de medidas Medidas de dispersión
de una distribución Medidas de concentración
Medidas de forma

4.3.1 Medidas de tendencia central: media aritmética, mediana y moda

Permiten identificar una distribución midiendo distintas posiciones de la misma. Las


medidas que obtienen un valor medio de las observaciones se les llama medias o
promedios. Si identifican la observación que ocupa la posición central se le llama mediana.
A las medias y a la mediana que obtienen posiciones centrales se les denomina de
tendencia central, ya que suministran un valor central representativo de toda la distribución.
Entre estas medidas se suele incluir la moda que realmente busca la posición que tiene
mayor frecuencia. Otras medidas presentan posiciones intermedias como son los cuantiles.

36
Estadística Descriptiva Angélica Reyna

Moda (Mo): Es el valor más frecuente, el más común, el que se repite más veces. Si
existen varios valores de la variable con idéntica frecuencia y éstas, además, son las
mayores, se dirá que la distribución es plurimodal.
Las edades de 9 niños son: 0, 9, 3, 2, 5, 6, 8, 6, 4. ¿Cuál es la moda?
Mediana (Md): Si se ordenan todos los valores de la variable en sentido creciente o
decreciente, la mediana es el valor que ocupa el lugar central, con l que deja a cada uno de
sus lados el mismo número de observaciones. Se representa por Md. Si la serie de
números ordenados es impar será el valor que ocupa la posición central y si es par será la
media de los dos valores centrales.
Ejemplo:
Las edades de 9 niños son: 0, 9, 3, 2, 5, 6, 8, 6, 4. ¿Cuál es la mediana?
Las edades ordenadas son: 0, 2, 3, 4, 5, 6, 6, 8, 9
El valor que ocupa la posición central es el 5. Cuatro edades son inferiores y otras 4
son superiores; luego la mediana es igual a 5.
Ejemplo:
Las ventas efectuadas por los vendedores de una empresa han sido, en millones de
pesos, las siguientes: 45, 54, 62, 39, 73, 48, 53, 70, 49, 56. ¿cuál es la mediana? ¿qué
significa?
Los valores ordenados: 39, 45, 48, 49, 53, 54, 56, 62, 70, 73.
Los valores centrales son 53 y 54, entonces la mediana se encuentra entre ambos,
obteniendo por la media o promedio aritmético:
Me = 53 + 54 = 53.5
2

Media aritmética simple (X): Razón entre la suma de todos los valores de los casos
y el número de elementos del conjunto. La media aritmética indica el valor que
correspondería a cada caso si el valor total de la variable aportado por cada uno de ellos se
distribuyera equitativamente entre todos los casos. (Promedio aritmético simple)
_
X = x1 +x2+...+xn = Σ xi
N N

Ejemplo: Hallar la media aritmética de los valores 25, 15, 35, 20, 5
Media aritmética ponderada (X): Ponderar significa determinar el peso de cada
cosa. Algunas veces interesa conocer el peso o importancia que tiene cada uno de los

37
Estadística Descriptiva Angélica Reyna

valores de una variable o la marca de clase. Para ello se multiplica cada valor de la variable
o la marca de clase por su frecuencia. La media aritmética ponderada es el promedio de los
valores ponderados. La media aritmética ponderada indica el valor que correspondería a
cada caso si el valor total de la variable aportado por cada uno de ellos según su peso
específico (ponderado) se distribuyera equitativamente entre todos los casos. (Promedio
aritmético ponderado)
_
X = n1x1 +n2x2+...+nkxk = Σ n i x i = Σ n i x i
n1 + n2 +... + nk Σn i N

Ejemplo: Hallar la media aritmética de los valores ponderados por su frecuencia :

Valores (xi) Frecuencia Valor ponderado (xi


ni )
5 3 15
15 5 75
20 7 140
25 4 100
35 1 35
Totales 20 365
Media 365/20=18.25

Cuantil (Qn): Son aquellos valores de la variable que dividen a la distribución en


intervalos iguales, de forma que cada uno de ellos tenga el mismo número de
observaciones. La mediana es un cuantil que divide al número de observaciones de la
distribución en dos partes iguales.
Según el número de partes en que se quiere dividir la distribución, los valores que
establecen el corte toman un nombre diferente. Los cuantiles o cuantilas más utilizados
son:
Cuartiles: dividen en cuatro partes iguales el número de casos. Indica que bajo el
valor Q1 se ubica una primera cuarta parte de los casos ó que una cuarta parte tiene
menos de ese valor. Q2 indica que entre Q1 y Q2 se ubica una segunda cuarta parte de los
casos, Q3 indica que entre Q2 y Q3 se ubica una tercera cuarta parte de los casos, y que
sobre Q3 se ubica la última cuarta parte de los casos. Con los cuartiles se pueden
identificar los valores normales, excedentes y deficientes.

38
Estadística Descriptiva Angélica Reyna

Md
Q1 Q2 Q3

Deficientes Normales Excedentes

Quintiles: dividen en cinco partes iguales.

Deciles: dividen en diez partes iguales.

Percentiles: dividen en cien partes iguales.

Los cuantiles se pueden presentar en porcentaje, por ejemplo: los cuartiles serían
los porcentajes 25%, 50% y 75%, que dividen el total de los casos en cuatro partes. Los
percentiles serían los valores enteros del 1 al 100.

4.3.2 Medidas de dispersión: desviación media, desviación típica, varianza


Si los valores observados de la variable están muy concentrados alrededor de un promedio,
este es muy representativo; pero si aquellos valores están muy dispersos con relación a un
promedio éste es muy poco representativo.
En consecuencia, el concepto de promedio no siempre es suficiente y en numerosos
casos es necesaria otra medida que nos proporcione el grado de dispersión de los datos de
la distribución.

Medidas de dispersión absolutas (dan magnitudes en poblaciones específicas, por lo


tanto no son comparables de una población a otra).
Valor mínimo y Valor máximo
Rango
Recorrido intercuartílico
Promedio de desviaciones o Desviación media
Varianza
Desviación típica o Desviación estándar

39
Estadística Descriptiva Angélica Reyna

Medias de dispersión relativas (Se obtienen por cocientes o razones entre magnitudes de
la misma dimensión, por lo que siendo adimensionales permiten comparaciones entre
distribuciones).
Coeficiente de apertura
Recorrido relativo
Desviación cuartílica
Coeficiente de variación

Valor mínimo (min): es el valor de menor magnitud en el conjunto.


Valor máximo (max): es el valor de mayor magnitud en el conjunto.
Esta identificación sólo es válida para el conjunto que se analiza, pues en otro
conjunto estos valores pueden no ser ni mínimo ni máximo.

Rango o recorrido: Es la diferencia entre dos valores extremos de la variable, expresada


en las mismas unidades de la variables:
Max - min
Edades: 5, 5, 6, 7, 8, 8, 9, 10, 11, 11 Rango= 11 – 5 = 6 años

Recorrido intercuartílico: Es la diferencia entre el tercer y el primer cuartil. Esta medida, al


eliminar los valores extremos de la distribución da idea de la dispersión en el conjunto más
homogéneo de la distribución:

R1 = Q3 – Q1
Ejemplo: 3, 5, 6, 7, 10, 12, 15, 18
Q1 = 5 +6 / 2 = 5.5
Q2 = Mediana = 7+10 / 2 =8.5
Q3= 15 + 12 / 2 = 13.5
R1 = 13.5 – 5.5 = 8

Promedio de desviaciones o desviación media: La media aritmética tiene algunos


inconvenientes para describir una distribución de frecuencias, ya que no da idea de cómo
varían los datos y se ve muy afectada por los valores extremos (muy bajos o muy altos). Si
calculamos la media de dos poblaciones puede apreciarse lo anterior:

Población A. Edades 5, 5, 5, 5, 6, 7, 8, 8, 9, 10, 11, 11, 13, 13, 14, 14 años


_
Media = X = Σ x = 143 = 8.94
N 16

40
Estadística Descriptiva Angélica Reyna

Población B. Edades 3, 35, 1, 2, 3.7 años


_
Media = X = Σ x = 44.7 = 8.94
N 5

El promedio aritmético es igual en A y en B, 8.94 años, y sin embargo el primer


conjunto tiene edades más homogéneas que el segundo, donde la persona con 35 años
influye de manera decisiva en el promedio resultante. Dada esta sensibilidad a los valores
extremos, se requieren otras medidas que permitan determinar la magnitud de las
variaciones o diferencias de los datos con relación a la media aritmética. Podemos definir
entonces el promedio de desviaciones como la diferencia o distancia absoluta promedio
entre los valores observados y la media aritmética.
_
PD = Σ | xi X |
N

La fórmula nos señala que deben obtenerse las diferencias existentes entre cada
dato y la media aritmética del conjunto, sumar todas las diferencias y dividir dicha suma
entre el número de elementos que componen el conjunto. Como algunas diferencias
respecto a la media son positivas y otras negativas, si las sumamos el resultado será cero.
Por lo tanto, la fórmula indica con las dos barras | | que las diferencias sean absolutas,
todas positivas.

Ejemplo:

Población A. Edades 5, 5, 5, 5, 6, 7, 8, 8, 9, 10, 11, 11, 12, 13, 14, 14 años

Casos según __ __
edad X- X | X- X |
5 5 – 8.94 = -3.94 3.94
5 5 – 8.94 = -3.94 3.94
5 5 – 8.94 = -3.94 3.94
5 5 – 8.94 = -3.94 3.94
6 6 – 8.94 = -2.94 2.94
7 7 – 8.94 = -1.94 1.94
8 8 – 8.94 = -0.94 0.94
8 8 – 8.94 = -0.94 0.94
9 9 – 8.94 = 0.06 0.06
10 10 – 8.94 = 1.06 1.06

41
Estadística Descriptiva Angélica Reyna

11 11 – 8.94 = 2.06 2.06


11 11 – 8.94 = 2.06 2.06
13 12 – 8.94 = 3.06 3.06
13 13 – 8.94 = 4.06 4.06
14 14 – 8.94 = 5.06 5.06
14 14 – 8.94 = 5.06 5.06
0 45.00
_
PD = Σ | x- x | = 45.0 = 2.81
N 16

Población B. Edades 3, 35, 1, 2, 3.7 años


__ __
X- X | X- X |
Casos
1 1 – 8.94 = -7.94 7.94
2 2 – 8.94 = -6.94 6.94
3 3 – 8.94 = -5.94 5.94
3.7 3.7 – 8.94 = -5.24 5.24
35 35 – 8.94 = 26.06 26.06
0 52.12
_
PD = Σ | xi- X | = 52.12 = 10.42
N 5

Si comparamos los promedios de desviaciones con la media aritmética podemos


decir que si bien las dos poblaciones tienen igual promedio de edades, la última es
considerablemente más heterogénea que la primera.

Varianza

Si en lugar de utilizar valores absolutos para eliminar el problema del signo de las
desviaciones, se elevan éstas al cuadrado se obtiene una nueva medida de dispersión
conocida como varianza. Si se obtiene de los valores muestrales se expresa como S2, y por
la letra griega sigma al cuadrado σ 2 si lo es de los valores de la población.
La varianza se puede definir como la media aritmética de las desviaciones de los
valores obtenidos de la variable con respecto a su media aritmética elevadas al cuadrado.
_
σ2 = Σ ( xi - X ) 2
N

42
Estadística Descriptiva Angélica Reyna

Desviación estándar o típica


No obstante que el promedio de desviaciones es una medida fácil de obtener y de sencilla
interpretación, tiene el inconveniente de que no se presta a la manipulación algebraica.
Por su parte, la varianza tiene el problema que utiliza las unidades de los valores de
la variable elevados al cuadrado, lo que hace que su interpretación sea difícil. Para evitar
este problema se utiliza la desviación típica o desviación estándar.
Es más común, aunque un poco más complejo, el empleo de la desviación
estándar que se simboliza con la letra griega sigma minúscula ( σ ). Como el promedio de
desviaciones, la desviación estándar también es un promedio pero no aritmético, sino un
promedio cuadrático. Su fórmula es:
____________
___

σ = Σ (X – X ) 2
N

Aquí también se obtienen las diferencias de cada uno de los valores con respecto a su
promedio aritmético. Para evitar que la suma de estas diferencias resulte en cero, se elevan
al cuadrado, por lo que siempre serán positivas.
Población A. Edades 5, 5, 5, 5, 6, 7, 8, 8, 9, 10, 11, 11, 12, 13, 14, 14 años
___ __
X- X ( X- X ) 2
Casos
5 5 – 8.94 = -3.94 15.52
5 5 – 8.94 = -3.94 15.52
5 5 – 8.94 = -3.94 15.52
5 5 – 8.94 = -3.94 15.52
6 6 – 8.94 = -2.94 8.64
7 7 – 8.94 = -1.94 3.76
8 8 – 8.94 = -0.94 0.88
8 8 – 8.94 = -0.94 0.88
9 9 – 8.94 = 0.06 0.004
10 10 – 8.94 = 1.06 1.12
11 11 – 8.94 = 2.06 4.24
11 11 – 8.94 = 2.06 4.24
13 12 – 8.94 = 3.06 9.36
13 13 – 8.94 = 4.06 16.48
14 14 – 8.94 = 5.06 25.60
14 14 – 8.94 = 5.06 25.60
0 162.884

43
Estadística Descriptiva Angélica Reyna

Varianza: _
σ2 = Σ ( xi- X ) 2 = 162.884 = 10.18 años
N 16

Desviación estándar:
__________ ________ _____
___
2
σ = Σ (X – X ) = 162.884 = 10.18 = 3.19 años
N 16

Promedio de desviaciones _
PD = Σ | x- X | = 45.0 = 2.81 años
N 16
Población B. Edades 3, 35, 1, 2, 3.7 años

__ __
Casos X- X ( X- X ) 2
1 1 – 8.94 = -7.94 63.04
2 2 – 8.94 = -6.94 48.16
3 3 – 8.94 = -5.94 35.28
3.7 3.7 – 8.94 = -5.24 27.46
35 35 – 8.94 = 26.06 679.12
0 853.06

Varianza:
__
σ2 = Σ ( xi- X ) 2 = 853.06 = 170.61 años
N 5

Desviación estándar:
__________ ________ _____
___
2
σ = Σ (X – X ) = 853.06 = 170.61 = 13.06 años
N 5

Promedio de desviaciones:
__
PD = Σ | xi- X | = 52.12 = 10.42
N 5

44
Estadística Descriptiva Angélica Reyna

Medidas relativas de dispersión

1.- Coeficiente de apertura. Algunos autores le llaman coeficiente de disparidad. Se define


por el cociente entre los valores extremos. Representa el número de veces que el máximo
valor es mayor que el mínimo.

CA = Xn
X1

Ejemplo: Con los valores 12, 6, 7, 10, 18, 4, 3, 9, calcular el coeficiente de apertura.

CA = 18 = 6
3
2.- Recorrido relativo. Es el cociente entre el recorrido y la media aritmética. Representa el
número de veces que el recorrido contiene a la media aritmética.
RR = R
X

Ejemplo: Con los valores 12, 6, 7, 10, 18, 4, 2, 9, y la media aritmética = 8.6, calcular el
recorrido relativo. RR = 15/ 8.6 = 1.74

3.- Recorrido semi-intercuartílico. Se le llama también desviación cuartílica. Expresa la


diferencia promedio entre los valores intercuartílicos 1 y 3. Hay dos formas de calcularla:

a) RSI = Q3 - Q1 b) Q = Q3 – Q1
Q3 + Q1 2

Ejemplo: Con los datos 3, 5, 6, 7, 10, 12, 15, 18, y Q1 = 5.5 y Q3 = 13.5, calcular el recorrido
semi-intercuartílico.

a) RSI = 13.5 – 5.5 = 0.42 b) 13.5 – 5.5 = 4


13.5 + 5.5 2

4.- Coeficiente de variación de Pearson. Es el cociente entre la desviación típica y la


media. También se le conoce como coeficiente de dispersión. Cuando se comparan dos
distribuciones, sus dispersiones se pueden calcular mediante la desviación típica si sus
medias aritméticas son iguales o muy próximas. En caso contrario, se utiliza el coeficiente
de variación. A menor coeficiente de variación mayor será la representatividad de la media

45
Estadística Descriptiva Angélica Reyna

aritmética. El coeficiente de variación mide la dispersión relativa, como cociente entre la


dispersión absoluta (desviación típica) y el promedio (media aritmética). No es lo mismo una
dispersión de milímetros en mediciones de metros, que esa misma dispersión en medidas
de centímetros. Para evitar este efecto se utiliza el coeficiente de variación como medida
relativa. El coeficiente de variación se puede presentar en porcentaje, multiplicándolo por
100.
CV = S
X

Ejemplo: Con los valores 21, 35, 36, 38, 45, cuya media aritmética es 35 y su desviación
típica 7.823, calcular el coeficiente de variación.

Cv= 7.823 100 = 22.35 %


35

2º. Ejemplo: Se han estudiado tres distribuciones obteniéndose las siguientes medidas:

1ª. X1 = 20; S1 = 6 2ª. X2 = 20; S2 = 10 3ª. X3 = 30; S3 = 15

Se requiere conocer cuál de las medias aritméticas es más representativa.

Las distribuciones 1ª y 2ª tienen la misma media aritmética, por lo que la más representativa
es la 1ª en tanto su dispersión es menor (S1 = 6). Su coeficientes de variación respectivos
serán:
CV1 = 6 / 20 = 0.3 CV2 = 10 / 20 = 0.5

La representatividad es mayor cuanto menor sea el coeficiente de variación. El Coeficiente


de variación de la 3ª distribución será:

CV3 = 15 / 30 = 0.5, que es igual a la 2ª. Por lo tanto, la representatividad de la media de las
distribuciones 2ª y 3ª es la misma, pero menor que la de la 1ª.

4.3.3 Medidas de forma: Asimetría y curtosis por contraste al patrón de la Curva


Normal
Una medida de posición proporciona un valor que representa al conjunto de todos los
valores observados y el grado de representatividad de este valor se obtiene mediante una
medida de dispersión. Al reducir los valores observados a estos valores representativos, se
pierde la individualidad de los diferentes valores de la distribución. Para evitar este

46
Estadística Descriptiva Angélica Reyna

problema, se puede estudiar el número de observaciones suficientes para poder deducir la


regularidad o forma general del comportamiento de dichas observaciones.
La forma de la distribución se aprecia mejor mediante su presentación gráfica. El
diagrama de barras y el histograma permiten describir fácilmente la forma, pudiéndose ver:
si las observaciones están o no muy concentradas en pocos valores de la variable, si la
concentración se presenta en el centro o en un de sus extremos, etc. El histograma se
suele sustituir por una línea curva que ajustándose a los escalones del histograma suaviza
su forma. El área comprendida entre la curva y el eje de abscisas debe ser igual a la suma
de las áreas de todos los rectángulos del histograma, que a su vez es igual al número total
de observaciones.
Las distribuciones en forma de campana, campaniformes, son las más habituales en
la estadística práctica. Estas distribuciones se caracterizan porque el mayor número de
observaciones se agrupan en valores de la variable más o menos centrales, siendo raros
los valores extremos. Las distribuciones campaniformes pueden tener diversas formas:

Simétrica: la figura puede doblarse por su eje vertical y ambas ramas o colas de la curva
coincidirán. Si la distribución es campaniforme, simétrica y las dos colas son asíntotas del
eje de abscisas se le denomina Distribución de Gauss o de Laplace-Gauss. Esta
distribución es la más importante en Estadística y se le conoce como Distribución Normal.

47
Estadística Descriptiva Angélica Reyna

Asimétrica a la derecha o a la izquierda: según en qué lado este la cola más larga de la
curva. La asimetría a la derecha se llama positiva y a la izquierda es negativa.
Moderadamente o significativamente asimétricas: Dependiendo de la magnitud de la
asimetría, a mayor asimetría se le considera significativa.

Existen otros tipos de distribuciones menos frecuentes, como son:


Distribuciones en forma de L.
Distribuciones en forma de J.
Distribuciones en forma de U.
Multimodal: tiene varios valores con alta frecuencia o modas. Si tiene dos máximos de
concentración se le conoce como bimodal.

Distribución Normal. La curva normal tiene las siguientes características: Su


representación gráfica tiene forma de campana y es simétrica. La curva se extiende en
ambas direcciones y a medida que se acerca a los extremos tiende a unirse con el eje
horizontal (abscisa) sin llegar a tocarlo, en otras palabras es asintótica.
Los valores correspondientes a la media aritmética, mediana y modo son iguales:
(X = Md = Mo). Estos valores constituyen el punto central o de equilibrio de la curva normal.

48
Estadística Descriptiva Angélica Reyna

La curva normal es cóncava hacia abajo entre –1 y +1. Es cóncava hacia arriba a la
derecha de +1 y a la izquierda de –1.
El área total bajo la curva es igual a 1. El área a la derecha de la media es igual a
0.5 y, por simetría, a su izquierda es también de 0.5 .

La distribución de algunas características que podemos observar en la práctica, es


parecida o aproximada a una curva normal sobre todo en poblaciones no muy
heterogéneas, por ejemplo las medidas antropométricas como estatura, peso, longitud de
brazos, diámetro cefálico, torácico, etc. También puede observarse en algunas
distribuciones como promedios de calificaciones, gastos personales, coeficientes de
inteligencia. Sin embargo muchas distribuciones, sobre todo las que son propias de las
ciencias sociales, son asimétricas; cuando se observa que ciertas características se
distribuyen de acuerdo a una curva normal debe entenderse en el sentido que se asemeja o
es aproximadamente cercana a la curva normal, ya que en la práctica ninguna distribución
obedece de manera absoluta a su modelo teórico o matemático.
Las curvas aproximadamente normales de las distribuciones reales o empíricas
pueden ser de diversa magnitud o tamaño, muy grandes o muy pequeñas, más cerradas o
más abiertas, dependiendo de su promedio aritmético y de su desviación estándar.
Si representamos en una misma escala la distribución de estaturas con X= 1.67m y la
distribución de los ingresos anuales de una población homogénea con X= $ 4,500.00, la
primera curva sería bastante más pequeña que la segunda y tendríamos serias dificultades
para compararlas.

49
Estadística Descriptiva Angélica Reyna

a) Puntajes estándar
Es necesario entonces estandarizar las distribuciones normales reduciéndolas a un patrón
único, a una nueva escala comparable, transformando los datos originales a una nueva
variable conocida con el nombre de puntaje o puntuación estándar y que se simboliza con
la letra zeta minúscula, empleando la siguiente fórmula:
_
z=X–X
σ
Con ello se puede transformar cualquier valor X de la distribución en su
correspondiente puntaje zeta. Para toda distribución normal: el número de casos de la serie
se transforma a uno (N= 1), la media aritmética a cero (X = 0) y la desviación estándar a
uno (σ =1).

b) Áreas bajo la curva normal


El área total bajo la curva es igual a 1 o 100%.
La media aritmética divide en dos partes iguales o áreas iguales (0.5 o 50%) a la
distribución normal y por tanto al área bajo la curva.
El intervalo que resulta de sumar y restar una desviación estándar a la media
aritmética da 0.6826 ó 68.26% de la superficie bajo la curva, indicando el número de casos
comprendidos entre los valores resultantes; si se le suma o restan 2 veces la desviación
estándar se tiene un intervalo de 0.9544 ó 95.44% de superficie bajo la curva; y si se le
suma o restan 3 veces la desviación estándar a la media se tiene un intervalo de 0.9974 ó
99.74%, es decir:
__ __ __
X ± 1σ = 0.6826 X ± 2 σ = 0.9544 X ± 3 σ = 0.9974

Entonces, cuando una variable en una población tiene una distribución cercana a la
normal es posible determinar con cierta aproximación la proporción, el porcentaje o el
número de casos comprendidos entre dos valores especificados. Con la tabla de áreas bajo
la curva normal que indica el área de la media aritmética o z = 0 al valor z calculado, se
puede a través de una simple resta obtener cualquier área. En las gráficas se señalan
algunas áreas:

50
Estadística Descriptiva Angélica Reyna

51
Estadística Descriptiva Angélica Reyna

Momentos
Los momentos permiten obtener medidas sumarias de conjuntos de datos que por contener
información variable resulta difícil de captar en su características esenciales. Los momentos
potenciales son utilizados para el cálculo de indicadores referentes a la forma de las
distribuciones.
Momentos Naturales. Entre los momentos potenciales se encuentran los Momentos
Naturales, que se refieren de manera directa a la variable, es decir, son momentos respecto
al origen de la distribución. Si X1, X2, ..., Xn, son los valores que toma la variable X, el
momento a la potencia r de la variable se indica como:

___

Xr = Xr1 + Xr2 + Xr3 + ... + Xrn = ΣXr


N N

Momentos centrados. Cuando se toma como origen de los momentos un valor de


la distribución, se les conoce como momentos centrados: si se toma como origen a la media
aritmética, obtenemos los momentos respecto al promedio aritmético de la distribución, que
son los más empleados en estadística. El momento r respecto a la media aritmética en una
serie simple se puede indicar como:
____

m r = Σ (X – X) r
__________________________

Si r = 1, entonces m1 = 0, ya que se anulan entre sí las diferencias respecto a la


media de uno y otro signo. Cuando r = 2, entonces:
____

m 2 = Σ (X – X) 2 = σ2
_________________________

En datos agrupados en frecuencias, los momentos centrados se obtienen:


____

m r = Σf (X – X) r
__________________________

Σf donde Σf = número de casos

Ejemplos: Calcular en la siguiente distribución, los 5 primeros momentos centrados.

52
Estadística Descriptiva Angélica Reyna

EDADES DE 75 NIÑOS
___ ___ ___ ___ ___
X f fX (X-X) (X-X)
2
f(X-X)
2
f(X-X)
3
f(X-X)
4

1 2 2 -2 4 8 -16 32
2 5 10 -1 1 5 - 5 5
3 11 33 0 0 0 0 0
4 5 20 1 1 5 5 5
5 2 10 2 4 8 16 32
Suma 25 75 26 0 74
___

X = ΣfX = 75 = 3
___________ _______

Σf 25
___

m0 = Σf (X –X) 0 = Σf = 1
___________________________ _______

Σf Σf
___

m1 = Σf (X –X) 1 = 0 = 0
__________________________ _______

Σf Σf
___

m2 = Σf (X –X) 2 = 26 = 1.04 = σ2
_________________________ ______

Σf 25

Ya que en todos los casos:

m0 = 1 y m1 = 0 no se requiere calcularlos.
___

m3 = Σf (X –X) 3 = 0 = 0 (no en todos los casos)


_________________________ _______

Σf 25
____

m4 = Σf (X –X) 4 = 74 = 2.96
___________________________ _______

Σf 25

En series de clases y frecuencias el valor de X se sustituye por el valor del punto


medio en cada clase, empleándose la siguiente fórmula:
___
r
m r = Σf (Pm –X)
______________________________

Σf

53
Estadística Descriptiva Angélica Reyna

Medida de asimetría
Con las medidas de asimetría se intenta medir si las observaciones están dispuestas
simétrica o asimétricamente respecto a un valor central, generalmente la media aritmética, y
cuál es el grado de esta asimetría. La asimetría mide, interesando el signo de la asimetría
para poder identificar hacia qué extremo se prolongan los casos, estimando las
desviaciones respecto a la media usando la potencia de grado tres, que permite conservar
el signo de la desviación.
_ _
m3 = Σ (xi – X)3 ni ó m3 = Σ f (X – X)3
N Σf

Expresión en la que se deduce fácilmente que si:


m3 = 0, la forma de la distribución es simétrica.
m3 > 0, es asimétrica a la derecha o con sesgo positivo.
m3 < 0, es asimétrica a la izquierda o con sesgo negativo.

Este coeficiente m3 se le conoce como momento de tercer orden con respecto a la media.

Medida de apuntamiento o curtosis


Las medidas de apuntamiento o curtosis son aplicables a distribuciones campaniformes,
unimodales simétricas (no en U) o con una ligera asimetría. La curtosis indica la distribución
de frecuencias en la zona central, sin necesidad de dibujar la curva, midiendo la mayor o
menor concentración de la frecuencia alrededor de la media, o sea su nivel de
apuntamiento. Se toma como distribución tipo la distribución normal. Según su curtosis, las
distribuciones campaniformes pueden adoptar las siguientes configuraciones y nombres:

La distribución normal tiene la particularidad de cumplir que:


_
4
m4 = 3 S ; s =1 ; X=0

54
Estadística Descriptiva Angélica Reyna

en donde, m4 es el cuarto momento con respecto a la media y S la desviación típica.

El coeficiente de curtosis se define por la expresión:

b2 = m4
___________
4
S

Siendo S = desviación típica; m4 = cuarto momento respecto a la media aritmética o


momento central.
Como b2 para una distribución normal es igual 3 se suele utilizar un coeficiente de
apuntamiento o curtosis corregido, también conocido como coeficiente de exceso, que
viene dado por la expresión:
g 2 = m4 - 3
___________

S4

En estos coeficientes si:

g2 = 0, ó b2 = 3 La distribución es mesocúrtica, sin exceso respecto a la normal, es normal.

g2 > 0, ó b2 > 3 La distribución es leptocúrtica, con exceso respecto a la normal, es


puntigaguda.

g2 < 0, ó b2 < 3 La distribución es platicúrtica, con menor concentración en torno a la media


que la normal, es aplanada.

4.3.4 Medidas de concentración: Curva de Lorenz, Índice de Gini, medial o mediala

Σ xi ni representa la suma de los valores de la variable de todos los elementos


observados, es una frecuencia ponderada.
Las medidas de concentración proporcionan con qué grado de uniformidad se
reparte el valor Σ xi ni entre los elementos de la población. Se utilizan fundamentalmente
para variables con sentido socio-económico, como pueden ser rentas, salarios, distribución
de habitantes, etc.
Mientras las medidas de dispersión nos permiten conocer qué promedio es más
representativo, una medida de concentración nos permite conocer cómo se distribuye el
valor total obtenido Σ xi ni entre los individuos de la población.

55
Estadística Descriptiva Angélica Reyna

Curva de Lorenz
La curva de Lorenz se utiliza para conocer la concentración de la distribución mediante
porcentajes de frecuencias relativas acumuladas. Fue creada para estudiar la distribución
de la renta, pero actualmente se utiliza para medir otras variables.
La curva de Lorenz describe la relación entre la frecuencia relativa acumulada de
casos por categoría (Pi) y la frecuencia ponderada por el valor de la variable acumulada
relativa (Qi), que expresa el volumen acumulado de la variable en cada categoría en
porcentaje.
En el eje de las abscisas (X) corren los valores de la frecuencia acumulada relativa
de los casos por categoría (Pi), en tanto en el eje de las ordenadas (Y) corren los valores de
la frecuencia ponderada por el valor de la variable relativa acumulada (Qi).
Ambos valores (Pi y Qi) son porcentajes acumulados, por lo que sus valores
correspondientes a la última categoría o clase serán siempre 100, por lo que la curva estará
dentro de un cuadrado de 100 por 100.
Si cada pareja de porcentajes acumulados de Pi y Qi fuera igual mantendrían una
relación 1 a 1, definiendo una línea recta en diagonal dentro del cuadrado. En tanto las
frecuencias acumuladas de casos (Pi) y de valores (frecuencia ponderada Qi) no presentan
la misma distribución la línea que se trace estará separada de la diagonal. Si la separación
de la curva de Lorenz es poca, indicará que la concentración es mínima; en la medida que
la curva de Lorenz se separe de la diagonal expresa el incremento de la concentración.
Ejemplo:

Número de trabajadores Nómina xini


Salarios Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
Pesos por simple acumulada acumulada ponderada ponderada ponderada
día xi absoluta ni absoluta Ni relativa % Pi simple acumulada acumulada
absoluta xini absoluta Ni relativa % Qi
0-260 100 22,000 22,000 6.1
260-340 400 120,000 142,000
340-420 300 114,000 256,000
420-500 100 46,000 302,000
500-580 50 27,000 329,000
580-680 50 100 31,500 360,500 100.0
Total 1,000 360,500

56
Estadística Descriptiva Angélica Reyna

Índice de Gini

La curva de Lorenz es muy ilustrativa para representar la concentración existente, pero en


muchas ocasiones también es conveniente disponer de un valor numérico que represente la
concentración a fin de facilitar la comparación con otras distribuciones. Este valor numérico
nos lo proporciona el índice de Gini que se obtiene dividiendo el área de la superficie
limitada por la diagonal del cuadrado y la curva de concentración, entre el área del triángulo
formado por la diagonal y los ejes. Se debe tener en cuenta que pueden existir dos
distribuciones con el mismo índice de Gini y con una forma de concentración muy diferente.

El valor del índice de Gini se puede obtener por dos métodos aproximados:
a)

n-1
IG = Σ (Pi - Qi )
i =1
____________________
n-1
Σ Pi
i =1

Siendo n el número de clases o el número de distintos valores que toma la variable,


ordenados de menor a mayor. En este caso el valor del índice de Gini no puede ser
negativo y oscila entre 0 y 1. Será 0 cuando Pi = Qi, el valor total está repartido por igual.

57
Estadística Descriptiva Angélica Reyna

Será 1 cuando cualquier Qi es igual 0 a excepción del último individuo que recibirá el valor
total, concentración máxima.

Número de trabajadores Nómina xini I Gini


Salarios Frecuen- Frecuen- Frecuencia Frecuencia Frecuencia Frecuencia
Pesos cia simple cia acumulada ponderada ponderada ponderada Pi – Qi
por día xi absoluta acumulad relativa % simple acumulada acumulada
ni a absoluta Pi absoluta absoluta Ni relativa %
Ni xini Qi
0-260 100 10 22,000 22,000 3.9
260-340 400 120,000
340-420 300 114,000
420-500 100 46,000
500-580 50 27,000
580-680 50 31,500 100.0 Σ=
Total 1,000 n-1
IG=
Σ Pi= 325 360,500
i=1

b) IG= Σ Pi Qi+1 - Σ Pi+1 Qi

En este caso Pi y Qi deben presentarse en proporción a 1, y no en porcentaje.


Trabajadores Nómina
Salario Frecuencia Frecuencia ponderada xini I Gini
s Simple Acumula- Ponderada Ponderada
Pesos absoluta da simple acumulada
por día PiQi+1 Pi+1Qi
ni relativa Pi absoluta xini relativa Qi
xi
0-260 100 0.10 22,000 0.061 0.1 x 0.394=0.0394 0.5 x 0.061=0.0305
260-340 400 120,000 0.5 x 0.710= 0.8 x 0.394=
340-420 300 114,000 0.8 x 0.838= 0.9 x 0.710=
420-500 100 46,000 0.9 x 0.913= .95 x 0.838=
500-580 50 27,000 0.95 x 1.00= 1.0 x 0.913=
580-680 50 1.00 31,500 1.000 Σ= Σ=
Total 1,000 360,500 IG =

Medial o mediala
Recordando que la mediana es el valor de la variable que deja a su derecha el mismo
número de frecuencias que a su izquierda, de forma similar definiremos al medial, pero en
lugar de tratar frecuencias se tratará del producto del valor de variable por su frecuencia o
el volumen de la frecuencia ponderada.

58
Estadística Descriptiva Angélica Reyna

En el caso estudiado anteriormente de la masa salarial diremos que la medial es el


valor de la variable que deja el 50% de la masa salarial a la izquierda y a la derecha. Para
el cálculo de la medial se siguen las mismas reglas que se usaron para la mediana,
teniendo en cuenta que es en Qi (% acumulado de xi ni) donde debe buscarse la posición
del 50%.

ML = Li-1 + 50 – Qi-1 ci
ni

donde Li-1 es el límite inferior del rango en que se encuentra el 50% de la frecuencia
ponderada acumulada, Qi-1 es la frecuencia ponderada acumulada del rango anterior y ni =
% xi ni sin acumular del rango donde se ubica el 50% de la frecuencia ponderada, y ci es la
amplitud del rango.

ML = 340 + 50 – 39.4 * 80 = 366.82 pesos


31.62

5. NÚMEROS ÍNDICE

Los números índice son medidas estadísticas que se emplean frecuentemente para mostrar
los cambios que se dan en una variable, en un componente o grupos de componentes
relacionados entre sí. Como es un indicador que se desarrolló por economistas, es común
su aplicación para conocer los cambios en el costo de vida al consumidor, salarios, costo de
la alimentación, precios y cantidades de materias primas, de productos. Actualmente
también se aplica para conocer los cambios o variaciones en fenómenos sociales. Los
procedimientos que se emplean en la obtención de los números índice se basan en la
aplicación de porcentajes. Los números índice calculan las variaciones relativas de los
valores de una variable o de un grupo de variables, obtenidos en diferentes situaciones
en el espacio o en el tiempo, con respecto a uno de referencia. Estos valores relativos
permiten la comparación y, por tanto, facilitan la predicción de su evolución.
La magnitud analizada puede presentarse de una forma simple, como es el precio
de una mercancía o de una forma compleja como pueden ser los precios de un grupo de
mercancías diferentes. En función del tipo de magnitud los números índice se clasifican en
Simples y Complejos. Los números índice siempre se dan en porcentaje, por lo que

59
Estadística Descriptiva Angélica Reyna

aunque las fórmulas de los números índice suelen aparecer sin el factor 100, en general
aquí se señalará.

5.1 Números índice simples: Relativos en cadena y eslabonados

Los números índices simples o elementales nos permiten conocer los cambios que presenta
una variable, con el tiempo o en el espacio, con respecto a uno de sus valores que se toma
como término de comparación o base de referencia.
Un índice simple es el resultante de dividir el precio, cantidad o valor de un artículo,
en un periodo determinado de tiempo, entre el precio, cantidad o valor de ese mismo
artículo, en un periodo considerado como base.

It0 = Xt (100)
________

X0
Donde
It0 = indice del periodo t con respecto al periodo 0 ó base.
Xt = Valor de la magnitud en el periodo t.
X0 = Valor de la magnitud en el periodo base.

La utilización de este cociente presenta la ventaja de poder estudiar las variaciones


de la variable con independencia de la unidad utilizada, lo cual facilita la comparación entre
series con unidades distintas.

Precios relativos. Este es un ejemplo sencillo de número índice. Es el porcentaje


resultante de dividir el precio de un artículo o mercancía, en un tiempo dado, entre el precio
en otro tiempo llamado base y de multiplicar este cociente por cien.

Por ejemplo:
Precio del kg
Precio relativo = de miel en 2002 (100) = 50 (100) = 142.86 %
Precio del kg 35
de miel en 1999

60
Estadística Descriptiva Angélica Reyna

El índice 142.8% indica que el precio de la miel se incrementó en 42.8% de 1999 a


2002. También puede interpretarse así: el precio de la miel en 2002 es de 142.8 si lo
comparamos con el año de 1999 que fue igual a 100; o bien el precio de la miel en 2002 es
1.428 veces el precio que tuvo en 1999.

Simbólicamente:
Pa o Pb el precio del periodo dado o de comparación
P0 o Pa el precio del periodo base
Precio relativo = Pn = Pb
P0 Pa

Pa y Pb indican el precio de un determinado periodo que puede ser el promedio de


un año, de varios años, de un mes, de una semana, etcétera, de acuerdo con la naturaleza
del índice. En los índices de tipo económico generalmente se refiere al promedio de un año,
a fin de suavizar las variaciones en el periodo. Los números índice simples se denominan
así por estar referidos a una sola variable, en el ejemplo era el precio de un solo producto,
la miel.
En el caso de que sean varias unidades de tiempo (años) las que se consideren
como periodo base, se suman los valores correspondientes de dichas unidades y se divide
entre el número de unidades de tiempo, con lo cual se obtiene el promedio. Por ejemplo:

PRECIO PROMEDIO ANUAL POR KILOGRAMO DE CEBOLLA AL PRODUCTOR

1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
1.64 1.65 2.02 1.90 1.73 1.75 2.70 2.30 2.57 2.53

Calcular los índices de precios


a) En 2001 con base en 1992,
b) En 2001 con base en 1994,
c) En 2001 con base en 1995, 1996 y 1997.

a) Indice 2001 = P 2001 (100) = 2.53 (100) = 154.27


_______________ _____________

(1992 = 100) P 1992 1.64

b) Indice 2001 = P 2001 (100) = 2.53 (100) = 125.25


_______________ _____________

(1994 = 100) P 1994 2.02

61
Estadística Descriptiva Angélica Reyna

c) Indice 2001 = P 2001 (100) = 2.53 (100) = 2.53 (100) = 141.34


_______________ __________________________________________ ____________

(1995, 1996 y 1997) P1995,6,7 (1.9+1.73+1.75)/3 1.79

Las diferencias, algunas considerables, que se observan en los índices anteriores se


explican por la elección del año base; cuando el precio es alto en el periodo base, el índice
resultará pequeño; cuando es bajo en la base, el índice resultará elevado. Por ello la
selección del periodo base es una cuestión de gran importancia. En su elección deberán
considerarse:
a) Deberá tomarse como base un periodo “normal”, en este caso un año donde los
precios no sean “excesivamente altos o bajos”;
b) Un periodo base no muy alejado del periodo de comparación. Por ejemplo, resultaría
absurdo tomar como base el año de 1780.
Los números índice pueden tener como periodo base un tiempo posterior al del periodo
de comparación. Por ejemplo:
Indice 1992 = P 1992 (100) = 1.64 (100) = 64.82
________________ _____________

(2001 = 100) P 2001 2.53

El índice anterior indica que el precio en 1992 de la miel fue de 64.8% respecto al año
base 2001 = 100; es decir, 35.2% menor que en 2001 (100 – 64.8 = 35.2).

Números índice simples de cantidad o volumen

Es posible comparar los cambios de volúmenes y cantidades de uno a otro período.

Convencionalmente se emplea:

Qa cantidad del periodo base


Qb cantidad del periodo de comparación

Indice = Qb (100)
Qa

El periodo base también puede consistir en un promedio de varias unidades de tiempo.


Por ejemplo:

62
Estadística Descriptiva Angélica Reyna

MÉXICO. PRODUCCIÓN DE FRIJOL (MILES DE TONELADAS)


1988 1989 1990 1991 1992 1993 1994 1995 1996 1997
857 593 1287 1379 719 1288 1364 1271 1349 1508

Miles de toneladas
Indice = producidas en 1997 (100) = 1508 (100) = 117.17 %
Miles de toneladas 1287
producidas en 1990
Indice 1997 = P 2001 (100) = 1508 (100) = 1508 (100) = 133.65 %
______________ __________________________________________ _________________

(1990, 1991 y 1992) P1990,1,2 (1287+1379+719)/3 1128.3

Propiedades de los precios y cantidades relativos simples


Los números índice simples, referidos a magnitudes de una sola variable, cumplen las
siguientes propiedades.
Si Pa, Pb, Pc, .... y Qa, Qb, Qc, ...., indican los precios y cantidades relativos en los
periodos a, b, c, ...., los precios y cantidades relativos pueden indicarse de las dos maneras
siguientes:

Pb = Pa/b Qb = Qa/b
Pa Qa

Donde b indica el periodo de comparación y a el periodo considerado como base.


Las características de los números índice son:

1) Existencia. Todo número índice debe existir y ha de tener un valor finito distinto de cero.
2) Identidad. Los relativos de los precios y cantidades con relación a un mismo periodo son
siempre igual a uno. Esto es, el índice de una variable en un período con respecto a la
misma variable en el mismo periodo es igual a 1 o 100%:
Pa/a = 1 y Qa/a = 1

3) Proporcionalidad. Si todos los valores de una magnitud varían entre períodos en la


misma proporción, el índice correspondiente también deberá variar en dicha proporción. Por
ejemplo, si en un periodo dado tenemos una magnitud de una sola variable cuyo valor es xi,
el índice con respecto al periodo base será:
I = Xi
X0

Si al valor del periodo dado le aumentamos en una porción k, el valor que toma la
variable será xi (1 + k), con lo que el nuevo índice será:

63
Estadística Descriptiva Angélica Reyna

I’ = Xi (1 +k) ; o lo que es lo mismo : I’ = I (1 + k)


X0

4) Compatibilidad o reversibilidad de factores. Un índice de precios por un índice de


cantidad debe ser igual a un índice de valor. Para un índice simple es fácilmente
demostrable:
Si pi x qi = vi ; Ipi x Iqi = Ivi

Por ser Ipi0 = pi ; Iqi0 = qi ; Ivi0 = vi


______ ______ _______

p0 q0 v0
5) Inversión, tiempo inverso o reversión temporal. Indica que si dos periodos se
intercambian, los precios, las cantidades y los valores relativos son recíprocos el uno al
otro. Así, el producto de los índices de un año a con respecto a otro b, por el año b con
respecto al año a es igual a la unidad.

Pa/b Pb/a = Pb Pa = 1 ó también Pa/b = 1 .


Pa Pb Pb/a

Qa/b Qb/a = Qb Qa = 1 ó también Qa/b = 1 .


Qa Qb Qb/a

6) Circular. Es una generalización de la propiedad de inversión. Indica que si tres o más


periodos sucesivos se relacionan, comparando el último período con el primero, los precios,
cantidades y valores relativos serán igual a uno.

Pa/b Pb/c Pc/a = 1

Qa/b Qb/c Qc/a = 1

7) Cíclica o circular modificada. De las propiedades reversible y circular de los relativos se


infiere que:
Pa/b Pb/c = Pb x Pc = Pc = Pa/c
Pa Pb Pa

Relativos en cadena y eslabonados


En algunos casos interesa conocer el índice de cada año con respecto al anterior, a fin de
ver la variación relativa año a año. De esta forma, en vez de tener una base fija, se tiene
una base móvil. A estos números índices de base móvil (cálculo respecto al periodo
anterior) se les llama índices en cadena.

64
Estadística Descriptiva Angélica Reyna

Si Pa, Pb, Pc, representan los precios en intervalos sucesivos de tiempo, entonces
se pueden representar los precios relativos de cada intervalo de tiempo con respecto al que
le antecede:
Pa/b, Pb/c, Pc/d = Pb , Pc , Pd
Pa Pb Pc
Los relativos en cadena serán:

Pb (100) Pc (100) Pd (100) Pe (100)


Pa Pb Pc Pd

Los números índices en cadena nos permite conocer las variaciones relativas
interanuales (interperiodos) de los valores que ha adoptado la variable.
En virtud de la propiedad circular de los relativos, los precios relativos de un periodo
de comparación respecto a otro tomado como base, pueden expresarse en términos de
relativos o cadenas.
Pe = Pe Pd Pc Pb
Pa Pa Pb Pc Pd

Las propiedades anteriores resultan útiles cuando se desea conocer la precisión y


utilidad de un índice. Si bien los índices simples reúnen las cuatro propiedades enunciadas,
los complejos tienen una o dos propiedades a los sumo. Cuanto mayor número de
propiedades reúne un índice, resultará más indicado su empleo.

Problemas de los números índice simples

Los índices simples, que se refieren a un solo componente, aunque cumplen las
propiedades matemáticas señaladas, presentan dos problemas que deberán considerarse
en su construcción y manejo:

a) El cambio del periodo base de un índice lo modifica sustancialmente, sobre todo


cuando las magnitudes de los datos muestran cambios bruscos de uno a otro periodo. Por
tal motivo es conveniente evitar la selección de un periodo base en que los precios o
volúmenes de producción sean excesivamente altos o bajos; esto es, deberá seleccionarse
un periodo de “normalidad”. En los índices de precios es común seleccionar el promedio
anual y en ocasiones el promedio de dos o más años.

65
Estadística Descriptiva Angélica Reyna

b) El periodo base no debe estar muy distante del periodo de comparación. En los
índices de precios es común tomar un año como base y éste se utiliza en ocasiones hasta
por 20 o más años; sin embargo llega un momento en que la lejanía de los dos periodos es
tal que la comparación no resulta clara ni útil, por lo que se hace necesario el cambio del
periodo base por otro más reciente.

5.2 Números índices complejos: No ponderados y ponderados

Cuando se quiere comparar magnitudes complejas, definidas por un conjunto de variables


relacionadas entre sí, se utilizan los números índices complejos o compuesto. Los números
índice más empleados en la práctica no constituyen, como en los casos anteriores,
comparaciones de precios, cantidades o valores de un solo artículo, mercancía o bien. Por
lo general se elaboran con objeto de comparar grupos o conjuntos de artículos.
Por ejemplo, comparar producciones de cítricos en dos años diferentes: la
producción de cítricos es una magnitud compleja por estar formada por las producciones de
diversos cítricos o variables: naranjas, limones, toronjas, etc. Otro ejemplo es la
construcción de un índice del costo de vida, que requiere tomar en consideración los
precios y cantidades consumidos en el año base y en el año de comparación de un
numeroso grupo de artículos de primera necesidad: azúcar, leche, frijol, arroz, maíz, pan,
carne, jabón, zapatos, camisas, telas, gas, electricidad, transporte, alquiler de viviendas,
etc.
Cuando una magnitud está formada por varias variables, es cuando el número
índice tiene una utilidad manifiesta, no compartida con otros conceptos, por proporcionar un
valor único que aglutina todos los valores de estas variables en un tiempo o espacio
determinado, permitiendo la comparación entre diferentes magnitudes.
La construcción de un índice compuesto presenta algunos problemas de no fácil
solución y entre los más importantes, además de la selección del periodo base, están los
siguientes:
a) Definir con claridad cuál es el objeto del índice. Si se trata de un índice del costo de
la vida obrera, índice del costo de alimentación, índice del costo de la construcción,
de precios al mayoreo de artículos de primera necesidad, etc.
b) Seleccionar los componentes (artículos, mercancías) del índice. Debemos decir
cuántos y cuáles deberán se los componentes del número índice, lo cual constituye

66
Estadística Descriptiva Angélica Reyna

uno de los aspectos más importantes y por lo mismo deberá procederse con el
mayor cuidado. Lo ideal es seleccionar una cantidad suficientemente grande de
componentes, pero se debe tomar en consideración los costos de recolección y
cálculo. Por lo general deberán incluirse a los componentes más esenciales del
concepto que se pretende medir. Los artículos componentes del índice
generalmente se obtienen de muestras, por lo que se hace necesario que éstas
tengan la mayor eficacia posible.
c) Determinación de los promedios. La construcción de un índice compuesto requiere
promediar los valores del año base y del año de comparación; es decir, lo que se
compara son los promedios y no los precios, cantidades o valores solos. Una vez
que se han seleccionado los componentes debidamente, debemos considerar la
importancia que tiene cada uno de ellos en el índice.

Métodos empleados en la obtención de números índice complejos.


Se ha tratado de obtener desarrollos para índices compuestos que reúnen las propiedades
de los números índice simples, pero ninguno de los índices conocidos los satisface
plenamente, a lo más se aproximan. En la práctica dichas aproximaciones son suficientes.
Se distinguen dos tipos de índices complejos: los no ponderados, en los que no influye en
su cálculo la ponderación propia de cada variable en cada período; y los ponderados, que
están influenciados por el peso o aporte propio de cada variable en cada período.

A) Índices complejos no ponderados


Indice agregativo o aditivo. Es el más sencillo de calcular y se obtiene por:

Indice agregativo = ΣPb (100) = p1b +p2b + p3b + ...+ pnb (100)
(de precios) ΣPa p1a +p2a + p3a + ...+ pna

donde
ΣPa = suma de los precios de los artículos en el año base
ΣPb = suma de los precios de los artículos en el año de comparación.

También se le llama índice de la media agregativa simple, puesto que puede calcularse
usando la media aritmética de cada período, ya que el número de agregados debe ser igual
en ambos períodos.

67
Estadística Descriptiva Angélica Reyna

Ejemplo: Una industria ferretera comercializa tres productos, cuyos precios de venta
en 1990 y 19995 son:
PRODUCTO PRECIO 1990 PRECIO 1995
A $ 1,250 pesos/kg $ 2,025 pesos/kg
B $ 5,832 pesos/m2 $ 7,650 pesos/m2
C $ 3,600 pesos/docena $ 5,427 pesos/docena

Con el índice agregativo, calcular la variación conjunta de los precios de 1990 a


1995 de la industria ferretera.
I A = ΣPb (100) = ΣP95 (100) = 2025 +7650 + 5427 (100) = 15102 (100)= 141.38 %
ΣPa ΣP90 1250 + 5832 + 3600 10682

O bien
IA = = ΣP95 (100) = ( 2025 +7650 + 5427)/3 (100) = 5034 (100)= 141.38 %
ΣP90 (1250 + 5832 + 3600)/3 3560.7

El conjunto de precios de 1990 tuvo una variación conjunta positiva a 1995,


representando 141.38% veces el precio de 1990.
El índice agregativo o aditivo tiene dos serios inconvenientes:
a) No considera la importancia relativa de los artículos que componen el índice,
dándoles igual importancia.
b) Además no considera el tipo de unidades empleadas en la medición del artículo,
tales como litros, kilogramos, piezas, etcétera. Es sensible al cambio de unidad
empleada. Esto se debe a que se suman los precios como si fueran homogéneos,
cuando en realidad no lo son, ya que están referidos a mercancías diferentes.
En el caso de la industria ferretera, al expresar el producto C en unidades:

I A = ΣPb (100) = ΣP95 (100) = 2025 +7650 + 452.25 (100) = 10127.25 (100)= 137.19 %
ΣPa ΣP90 1250 + 5832 + 300 7382

Método del promedio simple de los relativos


Para calcular un número índice por este método se obtienen los relativos de cada
componente, se suman y se dividen entre el número de componentes (N).

Pb1 + Pb2 + Pb3 + .... + Pbn


Pa1 Pa2 Pa3 Pan (100)
N
O bien, Σ Pb

68
Estadística Descriptiva Angélica Reyna

Pa (100)
N

Ejemplo: Con los datos del ejemplo anterior sobre la industria ferretera, se puede
calcular el índice de los precios:
PRODUCTO PRECIO 1990 PRECIO 1995
A $ 1,250 pesos/kg $ 2,025 pesos/kg
B $ 5,832 pesos/m2 $ 7,650 pesos/m2
C $ 3,600 pesos/docena $ 5,427 pesos/docena

2025 + 7650 + 5427


1250 5832 3600 (100) = 1.62 + 1.31 + 1.51 (100) = 148%
3 3

Con la obtención de promedios en el método anterior, se emplea, además de la


media aritmética, la media geométrica, mediana, etc. Este método, a diferencia del anterior,
sí considera el tipo de unidades empleadas en las mediciones de artículos o mercancías;
sin embargo no toma en cuenta la importancia relativa de los mismos. En el ejemplo tienen
igual importancia los tres productos.

B) Índices complejos ponderados

A fin de incluir en la medición de los números índice la importancia diferencial de los


componentes se han desarrollados índices complejos ponderados, que consideran la
importancia relativa de cada uno de los productos dentro del conjunto, tanto en el periodo
base como en el de comparación. En economía, los números índice proporcionan los datos
numéricos de evolución de las magnitudes de precio, cantidad y valor, y permiten analizar,
sobre todo, las diversas fases del proceso de comercialización de los diferentes bienes y
servicios. Existen múltiples formas de índices, pero los más comunes son los calculados por
los procedimientos de Laspeyres, Paasche y Fisher.

5.3 Índices de precios: Índice de Laspeyres, .Paasche, y Fisher

Método de los agregados ponderados

En los índices de precios al consumidor se puede tomar como base de las ponderaciones
las cantidades de los elementos que componen el consumo.

69
Estadística Descriptiva Angélica Reyna

Índice de Laspeyres o método del año base

Es el índice más ampliamente utilizado. Para calcular el índice de Laspeyres, se usa la


siguiente fórmula:

Índice de Laspeyres = Σ Pb Qa (100)


Σ Pa Qa
Donde

Pb = precio del periodo dado o de comparación


Pa = precio del periodo base
Qa = cantidad del periodo base

Σ Pa Qa representa el valor total del conjunto de componentes del índice (artículos,


mercancías, servicios, etcétera) en el periodo base; Σ Pb Qa representa el valor total de los
componentes en el año de comparación con las mismas cantidades que en el año base. A
la Σ Pa Qa se le denomina “canasta de mercado” o “canasta básica” en virtud de que, en
los índices de precios al consumidor, los componentes del índice están constituidos por la
cantidad de satisfactores de primera necesidad que requiere una familia “típica” y los
precios correspondientes.

Por tanto, el índice de Laspeyres, puede indicarse:

Valor total de los componentes en el periodo o año de


Índice de Laspeyres = comparación en las cantidades en el periodo o año base_
Valor total de los componentes en el periodo o año base
en las cantidades fijadas en el periodo o año base

También puede definirse como la media ponderada de los índices simples de


precios en la que se utiliza como ponderación la cantidad del producto en el año base.
El índice de Laspeyres mide el costo que una “canasta de mercado” tiene en el
periodo de comparación, si ésta hubiera sido comprada en el periodo base. Considera las
mismas cantidades en el año o periodo de comparación y en el periodo base, por lo que
mide el cambio de precios sin modificar las cantidades o volúmenes del año base.

70
Estadística Descriptiva Angélica Reyna

Una variación al índice de Laspeyres es el método del año típico, que calcula la
razón entre los precios de los dos periodos, ponderados con las cantidades en un año
típico, que se elige por alguna especial significación.
Las desventajas del índice son las siguientes:
a) No toma en consideración que ciertos componentes (mercancías, artículos) cambian
su importancia –por ejemplo en el consumo- con el transcurso del tiempo.
b) Tiende a sobrestimar los cambios de precio, ya que de acuerdo a la ley de oferta y
demanda las personas tienen a comprar menos cuando los precios son altos y más
cuando los precios son bajos, especialmente tratándose de artículos que no son
absolutamente esenciales (elasticidad de la demanda), por lo que Σ Pb Qa (el costo
de las mercancías en el año de comparación) será por lo general más alto, pues las
personas comprarán mayores cantidades de las mercancías a menores precios y a
la inversa. Por esto el costo total deberá ser menor que el indicado por PbQa, ya
que la composición de la canasta cambia con el cambio de precios.

Índice de Paasche o método del año de comparación

Este índice calcula la razón entre los precios de los dos periodos, ponderados ambos con
las cantidades del año de comparación. Se calcula por:

Índice de Paasche = Σ Pb Qb (100)


Σ Pa Qb

Donde
Σ Pa Qb = valor total de los componentes en el periodo de comparación a los precios del
periodo base.
Σ Pb Qb = valor total de los componentes (mercancías) en el periodo de comparación a los
precios de este periodo.
A diferencia del índice de Laspeyres, las cantidades que se consideran en el índice
son las del año de comparación y no las del año base, por lo que el índice de Paasche mide
el costo de una “canasta de mercado” o “canasta básica” o un conjunto de artículos en el
tiempo de comparación (generalmente el actual) respecto a lo que la “canasta” actual
costara si la obtuviésemos a los precios del periodo base, lo cual equivaldría a transportar
un conjunto de mercancías actuales al pasado para valorar su precio de entonces.

71
Estadística Descriptiva Angélica Reyna

Costo total de un conjunto actual


Índice de Paasche = de mercancías a los precios de hoy
Costo total del mismo conjunto (iguales
cantidades) a los precios del año base

De acuerdo con la ley de la oferta y la demanda, el índice de Paasche tiende a ser más
bajo de lo que debiera ser. El índice de Laspeyres es considerablemente más sencillo de
calcular que el de Paasche, ya que éste requiere del empleo de nuevos factores de
ponderación en cada año que se añade y además se requiere recalcular los índices en los
años anteriores. Esto es, cuando comparamos varios años con el periodo base, las
ponderaciones del índice de Paasche son variables a lo largo del tiempo, por lo que para su
elaboración es necesario obtener información de cada periodo sobre precios y cantidades,
a diferencia del de Laspeyres que sólo necesita la información del año base y el precio del
año en estudio.

Índice ideal de Fisher

El índice ideal de Fisher da un valor intermedio entre los índices de Laspeyres y Paasche.

Como ya se indicó, el índice de Laspeyres tiende a sobrestimar el valor del índice y


el de Paasche a subestimarlo; por tal razón el índice de Fisher constituye una mejor
aproximación del verdadero índice, aunque su construcción es más compleja. Este índice
es la media geométrica de los índices de Laspeyres y de Paasche:

IF = Σ Pb Qa x Σ Pb Qb
Σ Pa Qa Σ Pa Qb

Es necesario tener en consideración que la elección de los elementos componentes y la


precisión de las observaciones son más importantes que la elección de la fórmula.
Menos frecuente, pero también alternativo a los índices de Laspeyres y Paasche, es
el índice de Marshall-Edgeworth. Este índice calcula la razón entre los precios de los dos
periodos, ponderados con la media aritmética de las cantidades del año base y del año
dado.

Índice de Marshall-Edgeworth = Σ Pb (Qa + Qb) (100)


Σ Pa (Qa + Qb)

72
Estadística Descriptiva Angélica Reyna

Índices de cantidad (índices compuestos)

Se obtienen intercambiando las cantidades Q, en lugar de los precios P, en las fórmulas de


los índices de precios. Permiten medir los cambios de cantidades tales como producción,
exportaciones, importaciones, etcétera.

En el caso de los índices de precios, los factores de ponderación son las cantidades
o volúmenes. En el caso de los índices de cantidades, los factores de ponderación son los
precios. Dado que las cantidades pueden estar indicadas en diferente tipo de unidades:
kilogramos, libras, piezas, metros lineales, metros cúbicos, metros cuadrados, etc., se
requiere del empleo de un factor de ponderación.

Índice de cantidad de Laspeyres = QL = Σ Qb Pa


Σ Qa Pa

Índice de cantidad de Paasche = QP = Σ Qb Pb


Σ Qa Pb
Índice de cantidad de Edgeworth = QE = Σ Qb (Pa + Pb)
Σ Qa (Pa + Pb)

Índice de cantidad de Fisher = QF = Σ Qb Pa x Σ Qb Pb


Σ Qa Pa Σ Qa Pb

Índice de valor

El índice de valor de un conjunto de productos en dos periodos de tiempo viene dado por:

Índice de valor = IV = Σ Qb Pb (100)


Σ Qa Pa

5.4 Deflación de series estadísticas, poder de compra, cambio de periodo base,


empalme de índices con bases diferentes

Deflación

En el caso de los ingresos, por ejemplo, es común referirse a ingresos reales y a ingresos
nominales. Debido al incremento del costo de vida o inflación, el poder de compra de la
moneda decrece. El problema consiste en precisar cuál es el ingreso real a pesar de que

73
Estadística Descriptiva Angélica Reyna

los ingresos nominales o aparentes sean mayores o menores; es decir, deflacionar o


deflactar los ingresos. En economía, el concepto de precios corrientes se refiere a series
numéricas expresadas en dinero, cuyos valores no se han corregido con las variaciones de
los precios, es decir, no son valores con un poder adquisitivo comparable. El concepto
precios constantes o valores reales se refiere a las cifras monetarias corregidas con los
movimientos de los precios mediante el empleo del índice de precios. Cuando se hacen
estos ajustes se habla de salarios reales, inversión real, etc., o bien a precios
constantes al año que sirvió de base.

Los valores reales o precios constantes se obtienen dividiendo la cantidad monetaria


nominal o a precios corrientes entre el índice de precios correspondiente y multiplicando el
cociente por 100.

Cantidad monetaria a precios constantes = pesos corrientes del año (100)


del año Índice de precios del año

Este método para deflactar es adecuado si los números índices satisfacen la


propiedad de reversibilidad. El índice más apropiado es el ideal de Fisher.

Poder de compra
Para determinar el poder de compra de la unidad monetaria, en México el peso, a lo largo
de varios periodos, se divide $1 entre el índice de precios del año, y se multiplica por 100.
En este sentido se tendría que en el año base, donde el índice de precios es igual a 100, el
poder adquisitivo de $1 es igual a $1; conforme el índice de precios sea mayor a 100, el
poder adquisitivo del peso será menor y se expresará en fracciones de peso (p.e., $0.5,
$0.10)
Poder de compra = 1 .
Número índice

Cambio de periodo base

Antes se señaló la conveniencia de que el periodo base de los números índice no esté muy
alejado del de comparación. Por ello resulta necesario cambiar el periodo base en algún
momento dado, cuando se trata de series prolongadas.

74
Estadística Descriptiva Angélica Reyna

El cambio de base puede efectuarse recalculando los números índice, pero este
procedimiento es por lo general difícil de realizar. Un método más sencillo consiste en dividir
los números índices obtenidos con base en el antiguo periodo, entre el número índice del
nuevo periodo base, siendo 100 el número índice para el nuevo periodo base.

Nuevo índice = índice antiguo del año (100)


Con cambio Índice del año con nueva base
De base

Empalme de índices con bases diferentes

Los períodos empalmados no son totalmente comparables entre sí porque sus índices se
han obtenido con diferentes variables y diferentes ponderaciones, pero no existe otro
recurso para dar continuidad al índice complejo. En consecuencia, en la utilización de los
números índice debe tenerse siempre presente que un índice no debe tomarse como una
medida exacta, sino como un indicador de la evolución de un fenómeno.

Para facilitar algunas comparaciones y realizar ciertos cálculos conviene a veces


modificar o cambiar la base de algunos índices ya calculados. En tal caso basta
simplemente con hacer igual a 100 la cifra correspondiente al tiempo que se desea tomar
como nueva base y transformar proporcionalmente la serie, a través de una regla de tres.
Entonces, debe multiplicarse la serie antigua por el factor

Índice base del nuevo año base = 100 .


Índice antiguo del nuevo año base índice antiguo del mismo año

6. MODELOS Y MÉTODOS DE ANÁLISIS MULTIVARIANTE: RELACIONES ENTRE


VARIABLES

6.1 Distribuciones bidimensionales y gráficos de dispersión


En el estudio simultáneo de dos caracteres de una población implica el uso de
distribuciones bidimensionales. Las distribuciones estadísticas bidimensionales son las que
resultan de la observación de dos caracteres cuantitativos o cualitativos de una población.

75
Estadística Descriptiva Angélica Reyna

Como en el caso de las estadísticas unidimensionales, se centra el estudio en las


variables que se representan por el par (x,y), donde x es una variable unidimensional que
toma los posibles valores x1, x2, x3, ..., xh; y donde y es otra variable que toma los posibles
valores y1, y2, y3, ..., yk. Por tanto se pueden expresar de la siguiente forma:

(xi, yj), (1 ≤ i ≤ h ), (1 ≤ j ≤ k)

Las frecuencias bidimensionales pueden ser:

- Frecuencia absoluta bidimensional (nij) : número de veces que se presenta el par de


valores (xi,yj).

- Frecuencia relativa bidimensional (fij): cociente entre la frecuencia absoluta y la


suma (N) de las frecuencias absolutas:

fij= nij = f (xi,yi)


N

Tablas bidimensionales de frecuencias

Tablas simples: cuando en columnas sucesivas van ordenados los valores de la variable x,
de la variable y, y las frecuencias absolutas, relativas y/o ponderadas, correspondientes a
los pares de valores (x,y).

Xh yk nh.
X1 y1 n11
X1 y2 n12
... ... ...
X1 yn n1n
X2 y1 n21
X2 y2 n22
.... ... ...
Xh yk nhk
Ejemplo: Escriba las frecuencias absolutas y relativas bidimensionales de la siguiente
distribución de 20 hogares, donde X = salario (bajo=1, medio=2 y alto=3) y Y= gasto

76
Estadística Descriptiva Angélica Reyna

(bajo=1, medio=2 y alto=3) : (2,1), (3,2), (1,2), (2,1), (2,2), (2,3), (3,1), (3,3), (2,3), (1,1),
(3,1), (2,2), (1,2), (2,3), (3,3), (2,1), (2,3), (1,2), (1,3), (2,2).

xi yi ni fi

N=20 1

Establecer como tabla simple, agrupando en los intervalos apropiados, los siguientes pares
de valores de variables bidimensionales observados en 40 microempresas, donde x =
número de empleados en la empresa, y Y= días en que saldaron microcréditos sin intereses
:

(15,65) (18,94) (22,70) (28,105) (21,130) (32,84) (35,96) (39,142) (47,86) (11,73) (15,100)
(24,62) (25,90) (26,121) (30,60) (33,99) (38,126) (10,80) (29,69) (26,116) (22,122) (35,74)
(37,97) (30,140) (21,81) (25,125) (27,147) (38,88) (39,119) (22,102) (28,148) (35,79)
(21,121) (24,144) (30,71) (31,72) (32,73) (33,74) (35,75) (37,77)

xi yi ni
10-20 60-90
10-20 90-120
10-20 120-150
20-30 60-90
20-30 90-120
20-30 120-150
30-40 60-90
30-40 90-120
30-40 120-150
40-50 60-90
N=

77
Estadística Descriptiva Angélica Reyna

Contando con una tercera variable se puede establecer una tabla tridimensional, o
bien, si sólo se presentan dos variables se vuelve a una tabla bidimensional. El siguiente
problema se puede resolver usando una tercera variable para obtener frecuencias
ponderadas.

Si sabemos que a las empresas de 10-20 empleados les prestaron $1,000 ; a las de
20-30 empleados les prestaron $1,500 ; a las de 30-40 les prestaron $2,000 ; y a las de 40-
50 les prestaron $2,500 ¿en qué tiempos se recuperarán los créditos y cuál será el plazo
máximo de recuperación?

xi yi ni w nw
10-20 60-90 $1,000
10-20 90-120 $1,000
10-20 120-150 $1,000
20-30 60-90 $1,500
20-30 90-120 $1,500
20-30 120-150 $1,500
30-40 60-90 $2,000
30-40 90-120 $2,000
30-40 120-150 $2,000
40-50 60-90 $2,500
N= Σ=

yi ni nw F% nw
60-90
90-120
120-150
N

Tablas de doble entrada: En las tablas de correlación los valores x1, x2, ..., xh
corresponden a todos y cada uno de los valores observados en la población o en la
muestra para la variable x, o en su caso, a las distintas marcas de clase en que se ha
dividido el recorrido de la variable; otro tanto puede decirse respecto a la variable y, y a sus
valores y1, y2, ..., yk. En las tablas de doble entrada se coloca en la primera fila los valores
de la variable x y e la primera columna por la izquierda los valores de la variable y.

78
Estadística Descriptiva Angélica Reyna

Yj y.1 y.2 ... y.k ni.


xi
x1. n11 n12 ... n1k n1.
x2. n21 n22 ... n2k n2.
... ... ... ... ... ...
xh. nh1 nh2 … nhk nh.
n.j n.1 n.2 … n.k N

En esta tabla nij determina la frecuencia conjunta del par de valores (xj, yj) y ni. Y n.j
denominan las frecuencias marginales de las variables y, x.

Tablas de contingencia: Las tablas de doble entrada se denominan tablas de contingencia


cuando la clasificación se hace atendiendo a las modalidades de dos atributos o variables
cualitativas. Ejemplo: Clasificar mediante una tabla de contingencia los centros de
enseñanza media según la modalidad de comedor (SI, NO), y de financiamiento (Privada,
concertada, pública) para los datos de la siguiente distribución:

1. Privada-comedor: 110
2. privada-no comedor : 70
3. Concertada-comedor : 15
4. concertada-no comedor : 5
5. Pública-comedor: 10
6. Pública-no comedor: 90

Comedor\Financ PRIVADA CONCERTADA PÚBLICA TOTAL


.
SI
NO
TOTAL

Tablas de correlación: Las tablas de doble se denominan tablas de correlación, cuando la


clasificación se realiza atendiendo a los valores de dos variables estadísticas (cuantitativas).
Ejercicio: pasar la siguiente tabla simple a tabla de doble entrada, donde Xi = temperatura
máxima y Yi = temperatura mínima de una ciudad inglesa durante 40 días:

79
Estadística Descriptiva Angélica Reyna

xi 3 4 5 6 6 7 7 8 10
yj 2 5 5 6 7 6 7 9 10
ni 4 6 12 4 5 4 2 1 2

Y 2 5 6 7 9 10 n i.
X
3
4
5
6
7
8
10
n.j

Pasar la siguiente tabla de doble entrada a tabla simple

Y 20 30 40
X
3 - - 1
8 3 6 3
13 7 2 2
18 1 - -

xi yi ni

80
Estadística Descriptiva Angélica Reyna

Distribuciones marginales: vienen definidas por los valores que toma la variable y las
frecuencias de los mismos, con independencia de los valores que tome la otra variable.
Son, por tanto, distribuciones de frecuencias ordinarias de x o de y. En una tabla de doble
entrada corresponden a la última columna y al último renglón.

y.j y.1 y.2 ... y.k


n.j n.1 n.2 ... n.k

xi. x1. x2. ... xh.


ni. n1. n2. ... nh.

Distribuciones condicionadas: Cuando se consideran en la tabla de correlación las


distribuciones de frecuencias determinadas por la variable xi, y cada una de las h columnas
de frecuencias encabezadas por un valor de yj, se obtienen las distribuciones de la variable
y condicionadas a cada uno de los valores de x1, x2, ..., xh.

De la misma manera se definen las distribuciones de x condicionadas a cada uno de


los valores que puede tomar la variable y.

Las distribuciones condicionadas de x a un valor cualquiera de y son de la forma:

xi/yj x1. x2. ... xh.


nij n1j n2j ... nhj = n.j

De la misma manera las distribuciones condicionadas de y para cualquier valor de x


son de la forma:

yj/xi y.1 y.2 ... x.k


nij ni1 ni2 ... njk = ni.

Ejemplo: De la siguiente distribución escribir la distribución condicionada de x para y


= 5, y la distribución condicionada de y para x = 7.

xi 3 4 5 6 6 7 7 8 10
yj 2 5 5 6 7 6 7 9 10
ni 4 6 12 4 5 4 2 1 2

81
Estadística Descriptiva Angélica Reyna

Y=5 X1 nj
4 6
5 12
n.j = 18

X=7 Yj nj
6 4
7 2
ni. = 6

Diagramas de dispersión

Los valores de una distribución estadística bidimensional son pares de números reales de la
forma (xi,yi). Si representamos estos pares en un sistema de ejes cartesianos se obtiene un
conjunto de puntos sobre el plano. A este conjunto de puntos se le llama diagrama de
dispersión o nube de puntos.

Cuando un par de valores está repetido se anota junto al punto el valor de la


frecuencia, o si ésta es pequeña se anotan tantos puntos como señala el valor de la
frecuencia.

Ejercicio: Representar mediante un diagrama de dispersión las temperaturas máximas y


mínimas de una ciudad inglesa durante cuarenta días, presentadas en la siguiente tabla:

Máx. (x) 3 4 5 6 6 7 7 8 10
Mín (y) 2 5 5 6 7 6 7 9 10
No. Días 4 6 12 4 5 4 2 1 2

82
Estadística Descriptiva Angélica Reyna

Se pueden también usar sistemas tridimensionales (x, y, z) poniendo los valores de


una variable en el eje de las x, los de la otra en el eje de las y, y las frecuencias en el eje z.

Represente la nube de puntos de la siguiente distribución, donde X representa la


edad, mientras que Y representa la valoración de un test de personalidad de 44 personas:

Y puntos 25-30 30-35 35-40 40-45 45-50 Total


X Edad
5-7 4 2 1 - - 7
7-9 3 7 1 2 - 13
9-11 - 2 11 - - 13
11-13 1 - 1 6 3 11
Total 8 11 14 8 3 44

83
Estadística Descriptiva Angélica Reyna

Cálculo de parámetros estadísticos

Medias marginales y medias condicionadas

La media marginal de x viene dada por la expresión:

x = x1.n1. + x2.n2. + ... + xh.nh. = Σ xi.ni.


N N
La media marginal de y será:

y = y.1n.1 + y.2n.2 + ... + y.kn.k = Σ y.j n.j


N N
La media de la variable y condicionada al valor xi viene dada por:
yxi = 1 Σ y.j nij = Σ y.j nij
ni. ni.
La media de la variable x condicionada al valor yi será:
xyj = 1 Σ xi. nij = Σ xi. nij
n.j n.j

Varianzas marginales de x e y
La varianza marginal de x viene dada por la expresión:
h _ h _
sx2 = Σ ni. (xi-x) 2
= 2
Σ xi ni. – x 2

i =1 i =1 _
n n
La varianza marginal de y viene dada por la expresión:
k _ k _
2 2 2 2
sy = Σ n.j (yj-y) = Σ yj n.j – y
j =1 j =1 _
n n
A la raíz cuadrada positiva de las varianzas marginales se le denomina desviación
típica marginal de x e y, y se representa por sx y sy.

84
Estadística Descriptiva Angélica Reyna

Covarianza o varianza conjunta de x e y


Es la media aritmética de los productos de las desviaciones de cada una de las variables
respecto a sus medias correspondientes.

h k _ _ h k _ _
Sxy = Σ Σ (xi – x) (yj – y) nij = Σ Σ nij xi yj - x y
i=1 j=1 i=1 j=1 _
n n
Si la covarianza es positiva indica que hay una dependencia directa entre ambas
variables. Por ejemplo: al disminuir o aumentar los valores de x, disminuyen o aumentan los
de la variable y.

Si la covarianza es nula indica que no hay dependencia entre las variables.

Si la covarianza es negativa indica que la dependencia es inversa. Por ejemplo: al


crecer los valores de x, disminuyen los de y.

Para el cálculo de los parámetros estadísticos anteriores se puede utilizar la tabla de


doble entrada o disponer los datos mediante una tabla simple.

Momentos

a) Momentos respecto al origen: el momento de orden r, s respecto al origen, para


una distribución bidimensional se define como:

h k
ars = Σ Σ xir yjs nij / n
i=1 j= 1

Los momentos de primer orden a10, y a01 serán:

h k h _
1 0
a10 = Σ Σ xi yj nij / n = Σ xini. / n = x
i = 1 j =1 i=1

h k k _
0 1
a01 = Σ Σ xi yj nij / n = Σ yjn.j / n = x
i=1 j=1 j=1

Los momentos de segundo orden a20 y a02 serán:


h k h
2 0
a20 = Σ Σ xi yj nij / n = Σ xi2ni. / n
i=1 j=1 i=1

85
Estadística Descriptiva Angélica Reyna

h k k
0 2
a02 = Σ Σ xi yj nij / n = Σ yj2n.j / n
i=1 j=1 j=1

El momento propiamente bidimensional más importante es:


h k
a11 = Σ Σ xi yj nij / n
i=1 j=1

b) Momentos respecto a las medias: El momento de orden r, s respecto a las medias


se define como:
h k _ _
r s
mrs = Σ Σ (xi – x) (yj – y) nij / n
i=1 j=1

Los momentos de primer orden serán:

h k _ _
1 0
m10 = Σ Σ (xi – x) (yj – y) nij / n = 0
i=1 j=1

de modo análogo : m01 = 0.

Los momentos de segundo orden serán:

h k _ _ h _
m20 = Σ 2 0
Σ (xi – x) (yj – y) nij / n = Σ (xi – x) ni./n = sx2 2
i=1 j=1 i=1

h k _ _ k _
m02 = Σ Σ (xi – x) (yj – y) nij / n = Σ (yi – y) n.j/n = sy2
0 2 2
i=1 j=1 j=1

El momento m11 se llama covarianza y vale:

h k _ _
m11 = Σ Σ (xi – x) (yj – y) nij / n = sxy
i=1 j=1

Relación entre los momentos:


m20 = a20 – a102

86
Estadística Descriptiva Angélica Reyna

m02 = a02 – a012


m11 = a11 – a10 a01

6.2 Relación entre las variables

Las relaciones entre las variables pueden observarse estadísticamente en un rango que va
desde la dependencia hasta la independencia, es decir, la ausencia de relación entre las
variables.
La relación más simple es aquella que se da entre dos variables. Los diferentes casos
de relación que puede haber entre dos variables son los siguientes:
a) Dependencia causal unilateral: una variable influye en la otra, pero no al contrario.
La variable que influye en la otra se llama independiente. La otra variable
dependiente. Este tipo de dependencia se expresa por la función:

y = f (x)

b) Interdependencia: La influencia entre las dos variables es recíproca. Se dice que


hay dependencia causal bilateral. Se expresa matemáticamente por:

f (x,y) = 0

Así, por ejemplo, los precios y cantidades de una cierta sustancia están en relación
directa.

c) Dependencia indirecta: Dos variables pueden mostrar una dependencia a través de


una tercera que influye sobre ellas. Por ejemplo la tasa de natalidad y el consumo
de ciertos alimentos están en relación. Pero ello no indica que ambas dependan
entre sí sino que dependen de otra tercera como es el nivel de vida.

d) Concordancia: Dos variables pueden ser independientes entre sí, pero existir entre
ellas una cierta concordancia. Un ejemplo de ello es la designación de valoraciones
en un concurso. Las designaciones hechas por una serie de personas que son entre
sí independientes, pero puede haber cierta concordancia entre las designaciones.

e) Dependencia casual: En algunos casos en que no hay vínculo entre dos variables,
hay una dependencia debida al azar que carece de significado desde el punto de
vista estadístico.

87
Estadística Descriptiva Angélica Reyna

f) Independencia estadística: Dos variables son independientes cuando no tienen


ninguna relación entre sí, es decir, los valores que tome una no influye en los que
toma la otra. Se puede expresar de la forma siguiente:

f (xi, yi) = f (xi) . f (yi)

Por tanto, la frecuencia relativa conjunta es igual al producto de las frecuencias


relativas marginales. Y las frecuencias relativas condicionadas son iguales a sus
correspondientes frecuencias relativas marginales.

En caso de independencia estadística se cumple además:

1) Las medias de y condicionadas a distintos valores de x coinciden entre sí, y a su vez


con la media marginal de y. Análogamente para las medias condicionadas de x.

2) En general, todos los momentos con respecto al origen, o a la media de y


condicionados a distintos valores de x, coinciden entre sí y con los momentos
marginales de y.

3) La covarianza es igual a cero.

Estas tres propiedades se cumplen cuando x e y tienen distribuciones


independientes, pero no implican necesariamente la recíproca.

6.3 Asociación de variables entre frecuencias observadas: X2.

Análisis de tablas de contingencia y correlación


Las tablas de frecuencias bidimensionales presentan las siguientes frecuencias absolutas y
relativas: marginales y conjuntas.

Y\X X1 X2 Total

Y1 n11 n12 N1.

Y2 n21 n22 N2.

Total N.1 N.2 N

Nota: En el óvalo están las frecuencias conjuntas, mientras en los


rectángulos las frecuencias marginales.

88
Estadística Descriptiva Angélica Reyna

La intersección de características (intersección de modalidades de varias variables)


que definen un subconjunto poblacional (celda de una tabla), puede reflejar empíricamente
un concepto. Entonces, las demás celdas de la tabla también reflejan conceptos afines o
relacionados. Asimismo, la concentración de las frecuencias en sólo algunas casillas de la
tabla también puede reflejar empíricamente la interrelación de conceptos (o gradación, o
modalidades dentro del concepto y de su concepto opuesto).
Cuando se analiza la relación entre dos variables asumiendo cierta influencia de una
sobre la otra, es una convención ampliamente aceptada que los porcentajes se calculen
sobre las frecuencias marginales de la variable independiente. Si los porcentajes por
columna son iguales en el mismo renglón, entonces la modalidad de Y se estará
comportando igual aunque X adopte diferentes valores. Esto es, aunque X varía (pasando
de X1 a X2) Y no cambia, reflejando independencia estadística. Así, la independencia
estadística se cumple si:
Y1 ∩ X1 = Y1 ∩ X2
_____________________ _____________________

X1 X2

Frecuencias observadas y teóricas


Como ya se ha visto muchas veces, los resultados obtenidos de muestras no siempre
concuerdan exactamente con los resultados teóricos esperados, según las reglas de
probabilidad. Por ejemplo, aunque consideraciones teóricas conduzcan a esperar 50
águilas y 50 soles cuando se lanza 100 veces una moneda bien hecha, es raro que se
obtengan exactamente estos resultados.
Supóngase que en una determinada muestra se observan una serie de posibles
sucesos E1, E2, E3, ...; Ek que ocurren con frecuencias n1, n2, n3, ..., nk, llamadas
frecuencias observadas y que, según las reglas de probabilidad, se espera que ocurran
con frecuencias e1, e2, e3, ..., ek llamadas frecuencias teóricas o esperadas. Las
frecuencias observadas empíricamente las nombramos aquí como n, en tanto las
frecuencias esperadas como e. Tanto en la frecuencia observada como en la esperada N
(total de casos) como las frecuencias marginales son iguales.

89
Estadística Descriptiva Angélica Reyna

Y\X X1 X2 Total

Y1 e(Y1∩X1) e(Y1∩X2) eY1

Y2 e(Y2∩X1) e(Y2∩X2) eY2

Total eX1 eX2 N

e(Y1∩X1) = (nY1) (nX1)


N

e(Y1∩X2) = (nY1) (nX2)


N

e(Y2∩X1) = (nY2) (nX1)


N

e(Y2∩X2) = (nY2) (nX2)


N

Para saber si dos variables dicotómicas son o no estadísticamente independientes


se puede recurrir a dos procedimientos. El primero consiste en comparar los porcentajes de
la tabla de contingencia, y en casi de que su diferencia sea pequeña o nula se dice que las
variables son estadísticamente independientes. El segundo procedimiento consiste en
examinar las discrepancias entre las frecuencias observadas y esperadas; en caso de que
coincidan o difieran poco se dice que no hay asociación entre X y Y.

Medición de la asociación

En el caso de que las diferencias entre los porcentajes o entre las frecuencias observadas y
esperadas fuese notoria, estaríamos frente a 2 variables que se encuentran relacionadas o
asociadas. Aquí, la asociación de variables se da si las frecuencias de la intersección de
sus modalidades (Y1X1) aparece en un número mayor de casos que el esperado si fuesen
independientes estadísticamente.

Para una asociación que comporte la propuesta teórica de concentración sobre la


diagonal principal, es útil la simple diferencia de porcentajes, donde la máxima asociación
estará dada por 100% y valores nulos (cero) en las casillas de la diagonal secundaria.

90
Estadística Descriptiva Angélica Reyna

Y \ X X1 X2 Total
Y1 100 0
Y2 0 100
Total 100 100 100

La diferencia o discrepancia D entre las dos celdas del primer renglón Y1X1 vs Y1X2,
basta para detectar la ausencia de independencia estadística (ya que el 2º renglón es
complementario al primero, basta ver el primer renglón de la tabla).

D = (Y1X1) - (Y1X2)
________________ ________________

X1 X2

Si la distribución fuera sobre la diagonal secundaria también la discrepancia sería


100%

Y \ X X1 X2 Total
Y1 0 100
Y2 100 0
Total 100 100 100

En una relación directa (concentración de los casos en la diagonal principal), la


fuerza máxima de asociación será + 100%; en una relación inversa (concentración de los
casos sobre la diagonal secundaria) la fuerza máxima será – 100%. La discrepancia D
puede asumir valores entre 100% y – 100%, con los siguientes significados:

D = + 100 : máxima relación positiva

D= 0: independencia estadística

D = - 100 : máxima relación negativa

Sin embargo, D no permite medir claramente otro tipo de relaciones entre variables
donde sólo se acepte, por ejemplo, la relación directa en una categoría y la independencia
entre las otras categorías. Esta limitación persiste aún si se estima como una frecuencia
pondera, llamada determinante. De tal manera, D y el determinante ∆ resultarían con
límites indeterminados, es decir, el rango en que corre el indicador variaría de distribución a
distribución. D sirve para identificar la ausencia de independencia estadística, es decir,
detectar la asociación entre variables, pero no permite determinar el grado de asociación
entre ellas.

91
Estadística Descriptiva Angélica Reyna

Otra forma de medición de la asociación entre variables es a partir del contraste


entre frecuencias observadas y esperadas.

Coeficiente Fi ( Φ )
Este coeficiente cierra el recorrido del determinante al intervalo ± 1, normalizándolo por la
raíz cuadrada del producto de las frecuencias marginales:

diagonal principal diagonal secundaria

Φ = n(Y1 ∩ X1) · n(Y2 ∩ X2) - n(Y1 ∩ X2) · n(Y2 ∩ X1)

n(Y1) · n(Y2) · n(X1) · n(X2)

Cuando X y Y son estadísticamente independientes, el producto de las frecuencias


conjuntas sobre la diagonal principal es igual al de la diagonal secundaria; por tanto su
discrepancia o diferencia o determinante es igual a cero, resultando Φ =0.

El recorrido de fi es: -1 ≤ Φ ≤ 1

Si Φ = 1 Valor máximo de asociación directa o positiva. Todas las


observaciones se encuentran en la diagonal principal.
Valida proposiciones donde las variables están asociadas de la
forma: Si X1  Y1 y si X2  Y2

Si Φ = 0 No hay asociación, hay independencia estadística.

Si Φ = -1 Valor máximo de asociación indirecta o negativa. Todas las


observaciones se encuentran en la diagonal secundaria.
Valida proposiciones donde las variables están asociadas de la
forma: Si X1  Y2 y si X2  Y1

Coeficiente Q de Yule

Este coeficiente de asociación aplicable a tablas de dos por dos proviene de otra opción
para cerrar el recorrido del determinante al intervalo ± 1, usando la suma del producto de la
diagonal principal más el producto de la diagonal secundaria. Si el denominador es cero

92
Estadística Descriptiva Angélica Reyna

implica que las variables son independientes, y el resultado de la división, es decir, Q será
igual a cero.

diagonal principal diagonal secundaria

Q = n(Y1 ∩ X1) · n(Y2 ∩ X2) - n(Y1 ∩ X2) · n(Y2 ∩ X1)


n(Y1 ∩ X1) · n(Y2 ∩ X2) + n(Y1 ∩ X2) · n(Y2 ∩ X1)

diagonal principal diagonal secundaria

Para que Q alcance el valor máximo basta con que una frecuencia de la diagonal
secundaria sea nula; también Q alcanza el valor mínimo de su recorrido cuando una
frecuencia de la diagonal principal es nula.

Si Q = 1 Valor máximo de asociación directa o positiva. Las observaciones


se concentran en la diagonal principal y en parte de la secundaria.
Valida proposiciones donde las variables están asociadas de la forma:
Si X1  Y1 y Si X2  Y2 ó Y1

Si X2  Y2 Si X1  Y1 ó Y2

Si Q = 0 No hay asociación, hay independencia estadística.

Si Q = -1 Valor máximo de asociación indirecta o negativa. Las observaciones


se concentran en la diagonal secundaria y en parte de la principal.
Valida proposiciones donde las variables están asociadas de la forma:
Si X1  Y2 y Si X2  Y1 ó Y2

Si X2  Y1 Si X1  Y2 ó Y1

Medida chi-cuadrado (X 2)

A menudo se desea saber si las frecuencias observadas difieren significativamente de las


frecuencias esperadas. De manera general, suele usarse la medida chi-cuadrado (X 2),
dada por:
k
X 2 2 2
= (n1 – e1) + (n2 – e2) + ... + (nk – ek) =
2
Σ (nj – ej)2 = Σ nj 2 -N
____________ ___________ __________ j=1 __________ _______

e1 e2 ek ej ej

93
Estadística Descriptiva Angélica Reyna

donde si el total de frecuencias es N, Σ nj = Σ ej = N


2
Si X = 0, las frecuencias observadas y teóricas concuerdan exactamente; mientras que si
2
X > 0, no coinciden exactamente. A valores mayor de X 2 , mayores son las discrepancias
entre las frecuencias observadas y esperadas.

Ensayos de significación

En la práctica, las frecuencias esperadas se calculan de acuerdo con una hipótesis nula H0.
2
Si bajo esta hipótesis el valor calculado de X es mayor que algún valor crítico (tal como X
2 2
0.95 o X 0.99, que son los valores críticos a los niveles de significación de 0.05 y 0.01,
respectivamente), se deduce que las frecuencias observadas difieren significativamente de
las esperadas y se rechaza la hipótesis nula H0 al nivel de significación correspondiente: las
frecuencias ej =oj, no difieren significativamente. En caso contrario, se aceptará o al menos
no se rechazará. Este procedimiento se llama ensayo o prueba de chi-cuadrado de la
hipótesis.
2
Debe advertirse que en aquellas circunstancias en que X esté muy próxima a cero
debe mirarse con cierto recelo, puesto que es raro que las frecuencias observadas
concuerden demasiado bien con las esperadas. Para examinar tales situaciones, se puede
2 2 2
determinar si el valor calculado de X es menor que X 0.05 oX 0.01, en cuyos casos se
decide que la concordancia es bastante buena a los niveles de significación de 0.05 ó 0.01,
respectivamente.

La prueba Chi-cuadrado para la bondad del ajuste

La prueba chi-cuadrado puede ser empleada para determinar de qué forma distribuciones
teóricas tales como la normal, binomial, etc., se ajustan a distribuciones empíricas, es decir,
aquellas que se obtienen de los datos censales o muestrales.

94
Estadística Descriptiva Angélica Reyna

Tablas de contingencia
Suceso E1 E2 E3 ... Ek
Frecuencia
n1 n2 n3 ... nk
observada
Frecuencia
e1 e2 e3 ... ek
esperada

La tabla anterior, en la que las frecuencias observadas ocupan una sola fila, es una
tabla de clasificación simple. Puesto que el número de columnas es k, también se llama
tabla 1 x k (léase “1 por k”). Extendiendo estas ideas se llaga a las tablas de clasificación
doble o tablas h x k, en las que las frecuencias observadas ocupan h filas y k columnas. En
otros textos de estadística también se les llama tablas r x c, es decir, tablas de frecuencias
observadas de r renglones y c columnas. Tales tablas se llaman a menudo tablas de
contingencia, de acuerdo al tipo de variable.
Correspondiéndose con cada frecuencia observada en una tabla de contingencia h x
k, hay una frecuencia teórica o esperada que se calcula bajo alguna hipótesis y según las
reglas de probabilidad, como se señaló arriba con el uso de las frecuencias marginales.
Estas frecuencias que ocupan las casillas de una tabla de contingencia se llaman también
frecuencias elementales.
Para estudiar la concordancia entre las frecuencias observadas y esperadas, se
2
calcula el estadístico X :

X2 = Σ (nj – ej)2
j _______
ej

donde la suma se extiende a todas las casillas de la tabla de contingencia, los símbolos nj y
ej representan, respectivamente, las frecuencias observadas y esperadas en la casilla j.
Esta suma contiene hk términos. La suma de todas las frecuencias observadas se denota
por N y es igual a la suma de todas las frecuencias esperadas.
Los ensayos o pruebas de significación para tablas h x k son análogos a los de las
tablas 1 x k. Las frecuencias esperadas son halladas bajo una determinada hipótesis Ho.
Una hipótesis normalmente supuesta es la de que las dos clasificaciones son
independientes entre sí. Las tablas de contingencia pueden extenderse a un número mayor
de dimensiones. Así, por ejemplo, se pueden tener tablas h x k x l donde estén presentes 3
clasificaciones.

95
Estadística Descriptiva Angélica Reyna

2
Fórmulas sencillas para el cálculo de X
2
Se puede obtener fórmulas sencillas para el cálculo de X que se basen únicamente en las
frecuencias observadas. En tablas de 2 x 2 se calcula como:

I II Totales
A a1 a2 NA
B b1 b2 NB
Totales N1 N2 N

X2 = N(a1b2 –a2b1)2 = N ∆2
(a1+b1) (a2+b2)(a1+a2)(b1+b2) N1N2NANB

donde ∆ =a1b2 –a2b1, N=a1+a2+b1+b2, N1=a1+b1, N2=a2+b2, NA=a1+a2, NB=b1+b2.

En tablas de 2 x 3 (2 renglones por 3 columnas), el cálculo simple de X 2 estará dado por:

I II III Totales
A a1 a2 a3 NA
B b1 b2 b3 NB
Totales N1 N2 N3 N

X2 = N a12 + a22 + a32 + N b12 + b22 + b32 -N


____ ____ _____ _____ ____ ____ ____ _____

NA N1 N2 N3 NB N1 N2 N3

Esta forma de estimación puede generalizarse para tablas de 2 x k, donde k > 3.

En esta fórmula se ha empleado el resultado general, válido para todas las tablas de
contingencia,

X 2 = Σ nj2 - N
ej

96
Estadística Descriptiva Angélica Reyna

Coeficiente de Contingencia

Una medida del grado de relación, asociación o dependencia de las clasificaciones en una
tabla de contingencia es dada por

C= X2
X2 +N
Que se llama coeficiente de contingencia. A mayor valor de C, mayor es el grado de
asociación. El número de filas y columnas de la tabla de contingencia determina el valor
máximo de C, que no es nunca superior a uno. Si el número de filas y columnas de una
tabla de contingencia es igual a k, el máximo valor de C viene dado por

(k –1) / k

Correlación de atributos o variables cualitativas

Las clasificaciones de una tabla de contingencia describen a menudo características


cualitativas de individuos u objetos (atributos o variables cualitativas), en las que el grado
de dependencia, asociación o relación se llama correlación de atributos. Para tablas k x k
se define

r= X 2 __
N (k-1)

como el coeficiente de correlación entre atributos o clasificaciones. Este coeficiente se


encuentra entre 0 y 1. Para tablas 2 x 2, en las que k = 2, la correlación se llama a menudo
correlación tetracórica.

6.4 Métodos de ajuste. Regresión simple

En este tema se estudia la regresión tratando de encontrar una función matemática que
relacione lo mejor posible las distintas variables de una función de manera que, conocidos
determinados valores de las variables, se puedan calcular otros con una gran aproximación.
Para realizar matemáticamente estos ajustes se requiere estudiar las distintas
posibilidades de ajuste de los valores de las variables para ver cuál es el más conveniente

97
Estadística Descriptiva Angélica Reyna

en cada caso. Existen diversos métodos de ajuste, pero los más comunes son los de
mínimos cuadrados y polinomios ortogonales.
La teoría de la correlación y regresión es muy reciente (1869) debiéndose su
descubrimiento al inglés Sir Francis Galton (1822-1917). Sus trabajos fueron posteriormente
desarrollados por el también inglés Karl Pearson (1857-1933).

Ajuste de curvas
En una distribución bidimensional (xi, yi, ni) en la que existe una relación causal entre las
variables X e Y, se procederá a estudiar dicha relación desde el punto de vista estadístico.
Esta relación causal se conoce también con el nombre de Modelo Teórico.
Para hacer dicho estudio se siguen los siguientes pasos:

1. Representamos gráficamente la distribución mediante una nube de puntos o


diagrama de dispersión.

2. Buscamos la curva que mejor se ajuste a la nube de puntos (curva


aproximante).

3. Calculamos el tipo de función matemática que determine la relación entre la


variable dependiente y la variable independiente (especificación del modelo).

4. Determinamos los parámetros que mejor identifican la función matemática de


ajuste.

Al proceso que seguimos a partir de la información obtenida en la distribución para


calcular la estructura que mejor determine la dependencia de una variable respecto de otra,
u otras, se denomina regresión.

A la ecuación de la curva buscada se la llama ecuación de regresión. Y a su


expresión gráfica se le llama curva de regresión.

Principales tipos de curvas aproximantes más utilizadas:


Línea recta ........................................................ Y = a + bX
Parábola o curva cuadrática .............................. Y = a + bX + cX2
Curva cúbica ...................................................... Y = a + bX + cX2 + dX3
Curva de grado n ............................................... Y = a + bX + cX2 + ... + nXn
Hipérbola ........................................................... Y = (a + bX) -1
Curva exponencial ............................................. Y = a · bX

98
Estadística Descriptiva Angélica Reyna

X
Curva de Gompertz ............................................ Y = a · b + g
Curva logística ................................................... Y = (a · bX + g) -1
Curva geométrica ............................................... Y = a · Xb

En las ecuaciones anteriores X e Y son las variables dependiente e independiente y


las demás letras representan valores constantes o parámetros.

Y
Y

X
X
Relación Exponencial Relación lineal directa o positiva (recta)

Y
Y

X
X
Relación lineal inversa o negativa (recta) No existe relación

X
Curva cúbica o polinomial de 3er grado

99
Estadística Descriptiva Angélica Reyna

Métodos de ajuste

Existen varios métodos para determinar la función específica que determina la dependencia
o relación entre las dos variables que estamos buscando. La utilización de estos métodos
normalizados de aproximación permiten homogeneizar resultados, de forma que, una vez
definido un método se obtendría el mismo resultado, cualquiera que fuera la persona que lo
realizara evitando así un ajuste libre que daría diferentes curvas. Los principales métodos
de ajuste de curvas son:

1. Método de mínimos cuadrados:

- de una recta

- de una parábola

2. Método de polinomios ortogonales

3. Método de los momentos

Método de mínimos cuadrados

La curva o recta seleccionada no pasa necesariamente por todos los puntos de la


distribución. Las diferencias o distancias existentes a otros puntos de la distribución que se
estudia es debido a la existencia de otras variables de menor importancia, que no se
conocen ni se estudian en ese momento y que tienen cierta influencia sobre la variable
dependiente.

Fijándonos en el gráfico siguiente observamos que para cada valor de X (variable


independiente) hay dos valores de Y (variable dependiente) correspondientes uno al valor
real dado por la distribución observada y otro al valor que corresponde a la curva de ajuste
aproximante elegida.

La diferencia, ei, entre estos dos valores y e y’ se conoce con el nombre de


desviación, error o residuo.

De igual modo se puede considerar la Y como variable independiente, y entonces


aparecen dos valore de X que denominamos x y x’, y que corresponden al valor real de la
distribución y al valor de la curva o recta seleccionada para el ajuste.

100
Estadística Descriptiva Angélica Reyna

El método llamado de mínimos cuadrados trata inicialmente de calcular los


parámetros ai de la ecuación de la curva con la hipótesis de que la suma de los residuos o
errores sea mínima. Ello presenta dos inconvenientes:

1. Los residuos pueden tener signo positivo o negativo de modo que pueden anularse
entre sí, y esconder un error importante.

2. la determinación de los parámetros no sería única, ya que habría varios conjuntos


de valores que nos darían la misma suma mínima de los residuos.

Estos inconvenientes se pueden eliminar hallando el mínimo de la suma de los


cuadrados de los residuos lo que evita el problema del signo.

Este método puede calcularse genéricamente para una curva pero dada la
utilización más frecuente de la recta, aquí revisaremos por separado los procedimientos,
aunque ambos tienen la misma estructura y la misma base de cálculo.

Recta de mínimos cuadrados

Aquí tratamos de buscar la ecuación de una recta que represente la relación lineal entre las
dos variables X e Y. Dicha recta nos da el valor de la variable dependiente en función de la

101
Estadística Descriptiva Angélica Reyna

variable independiente con el menor error posible. Ello se consigue aplicando el método de
mínimos cuadrados.

Supongamos una de las dos posibilidades: X, como variable independiente, e Y


como variable dependiente.

La ecuación de la recta tendrá la forma:

Y* = a + b Xi

Siendo Y* el valor estimado para la variable Yi que obtenemos a partir de la recta, en


función del valor de la variable Xi.

Así, en cada uno de los valores hallados de Yi* se comete un error de estimación
cuyo valor es: ei = Yi – Yi* - (a + b Xi)

Si ponemos la condición de que la suma de los cuadrados de estos errores sea


mínima nos queda:

S = (Y1 – a – bX1)2 + (Y2 – a – bX2)2 + ... + (Yn – a – bXn)2

Y derivando, respecto de ay de b, para que sea mínima, nos queda:

∂ S = 0  2 (Y1 –a bX1) (-1) + 2 (Y2 – a – bX2) (-1) + ... + 2 (Yn – a – bXn) ( –1) = 0
∂a

∂ S = 0  2 (Y1 –a bX1) (-X1) + 2 (Y2 – a – bX2) (-X2) + ... + 2 (Yn – a – bXn) ( –Xn) = 0
∂b

Una vez simplificadas, podemos escribir el sistema:

∑ Yi = a N + b ∑Xi

∑XiYi = a ∑Xi + b∑Xi2

Despejando podemos calcular los coeficientes de la recta:

a = (∑Y) (∑X2) – (∑X) (∑XY)

102
Estadística Descriptiva Angélica Reyna

N ∑X2 – (∑X)2

b = N ∑XY – (∑X) (∑Y)


N ∑x2 – (∑X)2

Si hacemos el siguiente cambio de variable:

x = X-X, y= Y-Y

los parámetros a y b quedan de la forma siguiente:

b = ∑xy ; a = 0
∑x2

Y si la primera de las ecuaciones del sistema la dividimos en ambos miembros por N,


se obtiene

∑ Y = a + b ∑X
N N

Lo que equivale a :

Y = a+bX

_ _
Es decir, que la recta de regresión pasa por el punto (X, Y), punto definido por los
valores medios que satisface a la ecuación y pertenece a ella.

Coeficiente de determinación y correlación

Si se halla la proporción entre la variación explicada por la función de regresión y la


variación total, se obtiene el coeficiente de terminación:

R2 = SRy2
Sy2

2
Donde SRy es la varianza residual obtenida después de realizar el ajuste.

103
Estadística Descriptiva Angélica Reyna

El coeficiente de determinación, por ser un cociente entre un valor parcial y el


correspondiente valor total de la varianza, tiene valores que están en el intervalo cerrado de
2
0 y 1, es decir, 0≤R ≤1

Los valores extremos del intervalo tienen la interpretación siguiente:

a) Cuando R2 = 1, significa que no hay errores o residuos y, por tanto, todas las variaciones
de Y vienen explicadas por X;

b) Si, por el contrario, R2 = 0, quiere decir que la función de regresión no explica ninguna de
las variaciones de Y, con lo que se entiende que dicha función de regresión no es
válida.

A la raíz cuadra de R2 se le denomina Coeficiente de correlación de Pearson. Se


designa con la letra r e indica el grado de variación conjunta de las dos variables, oscilando
de – 1 a +1, indicando el grado de asociación lineal entre las variables, la bondad o
fiabilidad de la predicción:

r= 1 - Sry
Sy2

104
Estadística Descriptiva Angélica Reyna

Bibliografía

- Cortés, Fernando y Rosa María Rubalcava. Métodos estadísticos aplicados a la


investigación en ciencias sociales. Análisis de asociación. El Colegio de México,
México, 1987.
- Des Raj. Teoría del Muestreo. Fondo de Cultura Económica, México, 1984.
- Des Raj. La estructura de las encuestas por muestreo. Fondo de Cultura Económica,
México, 1979.
- Díez Medrano, Juan. Métodos de análisis causal. Col. Cuadernos Metodológicos No. 3,
Centro de Investigaciones Sociológicas. Madrid, España, 1992.
- Guillén, Mauro F. Análisis de regresión múltiple. Col. Cuadernos Metodológicos No. 4,
Centro de Investigaciones Sociológicas. Madrid, España, 1992.
- Hair, Joseph F. Jr., Rolph E. Anderson, Ronald L. Tatham, William C. Black. Análisis
multivariante, Madrid, España, 1999.
- Holguín Quiñónez, Fernando. Estadística descriptiva aplicada a las Ciencias Sociales.
UNAM, México.
- Neter, John, Michael H. Kutner, Christopher J. Nachtsheim, William Wasserman. Applied
Linear Statistical Models, Boston, Mass., USA, 1996.
- Spiegel, Murray R. Teoría y problemas de Estadística. McGraw-Hill, México.
- Spiegel, Murray R. Teoría y problemas de Probabilidad y Estadística. McGraw-Hill, México.
- Yamane, Taro. Estadística, Harla, México, 1979.
- Zeisel, Hans. Dígalo con números. Fondo de Cultura Económica, México.

105

Das könnte Ihnen auch gefallen