Sie sind auf Seite 1von 24

ESTADÍSTICA DESCRIPTIVA

CARLOS ALBERTO PEÑA


ROLDÁN

ADMINISTRADOR COMERCIAL

Especialista en Gerencia de
Proyectos

3174278161

capr418@gmail.com
CONCEPTOS PRELIMINARES

ESTADÍSTICA
Es la ciencia que comprende una serie de métodos y procedimientos
destinados a la recopilación, tabulación, procesamiento, análisis e
interpretación de datos cualitativos y cuantitativos en una población. Se
divide en dos ramas: Estadística descriptiva y Estadística inferencial.
Estadística Descriptiva: Enseña a organizar, resumir datos, para presentarlo
en forma conveniente, útil y comprensible, llegando a conclusiones que
dependerán en gran medida de la selección de la técnica descriptiva
adecuada. Consiste sobre todo en la presentación de datos en forma de
tablas y gráficas. Si aplicamos las herramientas ofrecidas por la estadística
descriptiva a una muestra, solo nos limitaremos a describir los datos
encontrados en dicha muestra, no se podrá generalizar la información hacia
la población.
Estadística Inferencial: Enseña la manera de tomar decisiones de un gran
volumen de datos (población), examinando solo una pequeña parte
(muestra). Por ejemplo, a partir de una muestra representativa tomada a los
habitantes de una ciudad, se podrá inferir la votación de todos los
ciudadanos que cumplan los requisitos con un error de aproximación.
CONCEPTOS PRELIMINARES
Población (N): Es el conjunto de elementos o caracteres de los cuales se
piensa extraer información. En este sentido, no está relacionada
exclusivamente con personas. Una población podría ser mil bombillas con el
fin de determinar qué porcentaje sale defectuoso, también podría ser la
observación de un cultivo con el fin de ver el efecto de determinado
químico, etc. Para el caso del área de los recursos humanos o de la
Psicología, en la mayoría de los casos la población esta referida a personas y
más exactamente a atributos susceptibles de ser medidos como: el nivel de
estrés, la inteligencia, el peso, la estatura, la edad, el estrato, el nivelo
educativo, etc.
Muestra (n): Como no es posible usualmente aplicar un instrumento de
recolección de información a toda una población, es necesario extraer una
parte de dicha población, ese subconjunto recibe el nombre de muestra y se
representa para futuras fórmulas con la letra n.
Para que una muestra sea representativa, es decir, que la información que
arroje permita emitir juicios de toda la población debe tener elementos de
todos los sectores posibles de donde proviene.
CONCEPTOS PRELIMINARES
Por ejemplo, si deseamos conocer el tiempo dedicado a la lectura en la
ciudad de Bogotá debemos recoger información de todas las localidades, ya
que si sólo tenemos en cuenta una o dos localidades, las conclusiones dadas
a posteriori no serían representativas ni tendrían un margen de validez
respecto de toda la población, en esta caso la de Bogotá.
Carácter o variable: Es aquella magnitud o atributo que se piensa medir en
términos estadísticos. La medición se puede dar en escalas cualitativas o
cuantitativas. Las primeras reciben el nombre de variables cualitativas y las
segundas de variables cuantitativas.
Variable cualitativa: Es aquella que toma valores referidos a nombres,
palabras o atributos. Ejemplo

VARIABLE VALORES O MODALIDAD


Color Azul, verde, blanco, negro, rojo,gris,etc.
Sexo Masculino, femenino
Nacionalidad Colombiano, Peruano, Chileno, etc.
Estado Civil Soltero, casado, viudo, unión libre, etc.
CONCEPTOS PRELIMINARES
Variable cuantitativa: es aquella que toma valores referidos a números. A su
vez pueden ser discretas o continuas. Las discretas toman valores enteros
(1, 2, 3, etc.) y las continuas toman valores enteros e intermedios (1.5, 2.8,
etc.). Ejemplos:

VARIABLE VALORES O MODALIDAD


Edad (VC) 5,12, 25, 45, 60, 75, 88,etc.
Número de hijos (VD) 0,1,2,3,4……..n
Horas al día dedicada a la lectura (VC) 0, 0.5, 1, 2,3,4.5………… 24
Número de hermanos (VD) 0, 1, 2, 3, 4, 5……….n

Modalidad: “Cada una de las posibilidades o estados diferentes de una


variable estadística”
Datos: Información numérica de cada una de las modalidades de la variable.
CONCEPTOS PRELIMINARES
METODOS DESCRIPTIVOS PARA ORGANIZAR Y RESUMIR DATOS DE VARIABLES ESTADÍSTICAS.
Distribución o tablas de frecuencias. Consiste en resumir la información en un cuadro o tabla.
Una distribución de frecuencias es un método para organizar y resumir datos.
La serie de datos, se clasifican y agrupan con el fin de analizar y obtener comportamientos
generales.
Cuando se van a elaborar una tabla de frecuencia hay que observar si la variable es cualitativa o
cuantitativa.

Distribución de frecuencias para variable cualitativa. Cuando a una población hay que
observar una característica y este es un atributo, entonces la información se resume en una
tabla de frecuencias. Esta tabla tiene un título y tres columnas. El titulo debe contener:
Número del cuadro o tabla, descripción de la variable, descripción de la población y año en que
se recolecto la información. Las tres columnas deben contener: en la primera columna describir
las categorías (clases) de la variable, la segunda columna el total de individuos o elementos de
cada categoría y la tercera columna el porcentaje correspondiente a cada categoría o clase.
CONCEPTOS PRELIMINARES
EJEMPLO

Ejemplo:
Enfermedades de equinos atendidas por un veterinario
Febrero de 2018
Enfermedad No de equinos % de equinos

Entropian 100 50%


Mal de la cruz 70 35%
Brucelosis 30 15%
Total 200 100%
CONCEPTOS PRELIMINARES
Distribución de frecuencias para variable cuantitativa discreta. Cuando a una población hay
que observar una característica y este es un valor entero, entonces la información se resume en
una tabla de frecuencias. Esta tabla tiene un título y cinco columnas.
Los símbolos a utilizar por columna en una tabla de frecuencias para variables discretas son los
siguientes. Donde:
n= Tamaño de la muestra
Columna 1: Xi= Valores posibles que toma la variable (valor observado)
Columna 2: ni= Frecuencia absoluta. Es el número de veces que se repite el valor de la variable.
Columna 3: hi= Frecuencia relativa. Para obtener la frecuencia relativa hay que dividir la
frecuencia absoluta por el tamaño de la población o muestra. El cálculo de la frecuencia relativa
es: hi=ni/n.
Columna 4: Ni= Frecuencia absoluta acumulada. Como el nombre lo indica, acumula las
frecuencias absolutas hasta el grupo i-ésimo. Para la frecuencia absoluta acumulada del grupo
uno es N1=n1, para el grupo dos N2=n1+n2, para el grupo tres N3=n1+n2+n3, para el grupo
cuatro N4=n1+n2+n3+n4 y así sucesivamente.
Columna 5: Hi= Frecuencia relativa acumulada. Como el nombre lo indica, acumula las
frecuencias relativas hasta el grupo i-ésimo. . Para la frecuencia relativa acumulada del grupo
uno es H1=h1, para el grupo dos H2=h1+h2, para el grupo tres H3=h1+h2+h3, para el grupo
cuatro H4=h1+h2+h3+h4 y así sucesivamente.
CONCEPTOS PRELIMINARES
EJEMPLO

Cirugías practicadas por 50 médicos en la primera semana


de febrero de 2019
Xi ni hi Ni Hi

0 4 0.08 4 0.08
1 7 0.14 11 0.22
2 23 0.46 34 0.68
3 9 0.18 43 0.86
4 5 0.10 48 0.96
5 2 0.04 50 1
Total 50 1
CONCEPTOS PRELIMINARES
Distribución de frecuencias variable cuantitativa continua. Una distribución de
frecuencias para una variable continua se obtiene de la misma forma de la variable discreta,
excepto que la variable continua hay que formar intervalos de clase o grupos. Esta tabla tiene
un título y seis columnas.
Cuando hay que elaborar una distribución de frecuencias la pregunta es, ¿cuál es el criterio
para formar los intervalos? Para dar respuesta a la pregunta hay que tener en cuenta lo
siguiente; ¿cuantos intervalos debe tener los datos? ¿Cuál es la amplitud del intervalo?
Las respuestas a las pregunta son de la siguiente forma. No existe una regla general para el
número de intervalos y su amplitud ya que depende principalmente del número de
observaciones.
Por lo general la distribución de frecuencias debe tener al menos cinco intervalos o grupos,
pero no más de quince. Existen algunos criterios que sirven como ayuda para estas situaciones.
• Si anteriormente las variables han sido estudiada por instituciones respetables (DANE,
Ministerio de Salud, ICA, etc.), deben mantenerse los intervalos creados, para efecto de
comparación.
• Si la variable no ha sido tratada por entidades importantes hay que crearlos. El método
adecuado es utilizar la “regla de Sturges" que dice:
Para determinar el número de intervalos notado por “m” aplique la siguiente fórmula.

Donde:
m= Número de intervalos n= total de datos
CONCEPTOS PRELIMINARES
Cada intervalo debe tener una amplitud. Generalmente esta debe ser constante. La regla de
Sturges dice que para la amplitud notada por A debe aplicar la siguiente fórmula:

R= Recorrido de la variable. Es la diferencia entre el valor máximo (valor más grande) y el valor
mínimo (valor más pequeño) que toma la variable.
Para hallar el límite inferior del primer intervalo de la variable Yo

R=Valor máximo – Valor mínimo


La marca de clase Yo se obtiene aplicando la siguiente fórmula (segunda columna).

Yo= Yi+Yi+1
2
CONCEPTOS PRELIMINARES
Nota: Cuando utilice la regla de Sturges y deba aproximar el número de intervalos (m) y la
amplitud (A) debe hacerse por exceso.

Ejemplo:
Distribución de frecuencias para los salarios diarios (dólares) de 40
enfermeras.
Yi Yi+1 Yo ni hi Ni Hi

39,5 43,5 41,5 4 0.10 4 0.10


43,5 47,5 45,5 4 0.10 8 0.20
47,5 51,5 49,5 6 0.15 14 0.35
51,5 55,5 53,5 20 0.50 34 0.85
55,5 59,5 57,5 2 0.05 36 0.90
59,5 63,5 61,5 2 0.05 38 0.95
63,5 67,5 65,5 2 0.05 40 1
Total 40 1
CONCEPTOS PRELIMINARES
Gráficos. Otro método para resumir la información son los gráficos. Son representaciones
visuales que emplean símbolos, barras, polígonos y sectores, de los datos contenidos en tablas
de frecuencias. Estos gráficos tienen como objetivo presentar en forma clara la información.
Otro objetivo del gráfico es el de resaltar la información de algunas tablas de frecuencias
cuando se presentan informes. Cuando la variable es cualitativa el gráfico adecuado es el
llamado torta o circulo. Si la variable es cuantitativa discreta el gráfico adecuado es el diagrama
de línea y para la variable cuantitativa continua los gráficos adecuados son el histograma y
polígono de frecuencias.
Gráfico circular o círculo. Este tipo de diagramas consideran una figura geométrica en que la
distribución de frecuencias se reparte dentro de la figura como puede ser una dona, pastel,
círculo o anillo, en el que cada porción dentro de la figura representa la información porcentual
del total de datos.
CONCEPTOS PRELIMINARES
Diagrama de línea. Sirve para representar las frecuencias absolutas ni y relativas hi de una
variable discreta. También es conocido como diagrama de barras. En el eje horizontal señalan
los valores posibles que toma la variable y el eje vertical corresponde a las frecuencias
absolutas y relativas, formando la altura con una línea.

El histograma de frecuencias. Sirve para representar las frecuencias absolutas y relativas de


una variable continua. Esta figura son rectángulos el cual en el eje horizontal del plano
cartesiano señalan los intervalos de clases que son las bases de los rectángulos y el eje vertical
corresponde a las frecuencias absolutas y relativas, formando la altura del rectángulo.
CONCEPTOS PRELIMINARES
Polígono de frecuencias. Este tipo de gráfico tiene en cuenta cada una de las marcas de clase
(Yo) de cada intervalo. Dichas marcas de clase coinciden con los puntos medios del ancho de
cada rectángulo del diagrama de barras construido anteriormente, se marcan con un punto y
posteriormente se unen en el orden que están los intervalos.
Nota: Este gráfico se utiliza para el caso de variables cuantitativas continuas, partiendo del
histograma.
CONCEPTOS PRELIMINARES
MEDIDAS DE TENDENCIA CENTRAL Y DE LOCALIZACIÓN.
Hasta este momento la información se organizó y resumió en una tabla de frecuencias. Estos
datos pueden ser representados por un solo valor al cual tiende a agruparse la información.
Dicho valor puede ser obtenido por medio de una medida de tendencia central o de
localización que es aplicada de acuerdo a las características de la población o muestra de
estudio.
Algunas medidas de tendencia central y de localización son:- La media aritmética, la media
geométrica, la media armónica, la media cuadrática, la mediana, la moda, cuartiles, deciles y
percentiles, etc. A continuación se tratan algunas de ellas.
Medidas de tendencia central. Las medidas de tendencia central son medidas estadísticas que
pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno
al cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más
utilizadas son: media aritmética, mediana y moda.
Los procedimientos para obtener las medidas estadísticas difieren levemente dependiendo de
la forma en que se encuentren los datos. Si los datos se encuentran ordenados en una tabla
estadística diremos que se encuentran “agrupados” y si los datos no están en una tabla
hablaremos de datos “no agrupados”.
Media aritmética: Es la medida de tendencia central más sencilla y en muchos casos la más
obvia que se puede elegir. Es el simple promedio de las observaciones del grupo y se define
como la suma de todos los valores observados divididos por el número total de observaciones”.
CONCEPTOS PRELIMINARES
Mediana Me. La mediana es el valor central de la información y se define como el valor de la
variable que supera el 50% (mitad) de los datos y es superado por el otro 50% (mitad) de los
datos.
Moda Md. La moda es una medida de localización y se define como el valor de la variable que
más se repite.
Calculo de la media aritmética, mediana y moda, datos no agrupados. Cuando los datos no se
encuentran organizados en una tabla de frecuencias, se conocen como datos no agrupados.
Cálculo de la media aritmética para datos no agrupados. De acuerdo a la definición entonces,
la media aritmética se calcula aplicando la siguiente fórmula.

Cálculo de la mediana para datos no agrupados. Para calcular la mediana hay que realizar los
siguientes pasos.
• Ordene los datos de la población en forma creciente o decreciente.
• Observar si el total de la información es impar o par. Sí el número total de la información es
impar La mediana es el valor central. Sí el número total de la información es par, la mediana es
la media aritmética de los dos valores centrales.
CONCEPTOS PRELIMINARES
Cálculo de la moda para datos no agrupados. Se debe aplicar la definición: se define como el
valor de la variable que más se repite.
Calculo de la media aritmética, mediana y moda, datos agrupados. Cuando los datos se
encuentran organizados en una tabla de frecuencias, se conocen como datos agrupados.
Cálculo de la media aritmética, mediana y moda para datos agrupados variable discreta.
Media aritmética. : Cuando una variable es discreta y se encuentra agrupada en una tabla de
frecuencias. Se debe aplicar la siguiente formula: Sumatoria de los valores de la variable por las
frecuencias absolutas dividido en el total de la información (muestra).
= ∑Xi*ni
n
Mediana: Cuando una variable es discreta y se encuentra agrupada en una tabla de
frecuencias existen unos pasos para calcularla:
1.Determinar las frecuencias absolutas acumuladas.
2.Buscar la mitad de las observaciones, por medio de n/2; donde n es número total de la
información.
3.Localizar el resultado de n/2 en las frecuencias absolutas acumuladas y:
•Si no aparece en la frecuencia absoluta acumulada el valor inmediatamente superior a n/2, se
denomina Nj. Entonces la mediana es Xj.
•Si aparece, el valor igual a n/2 se denomina Nj y al inmediatamente anterior se denomina
Nj-1. Entonces la mediana es: Me= Xj-1+Xj
2
CONCEPTOS PRELIMINARES
Moda: La moda corresponde al valor de la variable con mayor frecuencia absoluta.
Cálculo de la media aritmética, mediana y moda para datos agrupados variable continúa.
Media aritmética: Cuando una variable es continua y se encuentra agrupada en una tabla de
frecuencias. Se debe aplicar la siguiente formula: Sumatoria de las marcas de clases por las
frecuencias absolutas dividido en el total de la información (muestra).
Ȳ= ∑Yo*ni
n
Mediana: Cuando una variable es continua y se encuentra agrupada en una tabla de
frecuencias existen unos pasos para calcularla:
1.Determinar las frecuencias absolutas acumuladas.
2.Buscar la mitad de las observaciones, por medio de n/2; donde n es número total de la
información.
3.Localizar el resultado de n/2 en las frecuencias absolutas acumuladas y:
•Si aparece el resultado de n/2 en las frecuencias absolutas acumuladas la mediana es el límite
superior (Yi+1) de ese intervalo.
•Si no aparece el valor de n/2 en las frecuencias absolutas acumuladas, al valor
inmediatamente superior se denomina Nj y al inmediatamente anterior se denomina Nj-1.
Entonces la mediana es:
Me= Yi+A*((n/2-Nj-1)/nj)
CONCEPTOS PRELIMINARES
Moda: Cuando los datos están agrupados en intervalos de clases para calcular la moda existe
varias fórmulas aproximadas. A continuación se trata una de ellas.
Pasos para calcular la moda:
1.Hallar la frecuencia modal y es la mayor frecuencia absoluta, denominarla nj.
2.A la frecuencia absoluta anterior de la frecuencia modal notarla por nj-1 y a la frecuencia
absoluta inmediatamente superior a la frecuencia modal notarla por nj+1. La moda es:
Md= Yi+A*((nj-nj-1)/(nj-nj-1)+(nj-nj+1))
Medidas de localización. Cuartiles, deciles y percentiles. Los cuartiles, deciles y percentiles son
medidas de localización y tienen la misma filosofía de la mediana. Como la mediana divide la
población en dos partes iguales, los cuartiles notados por Qi divide la población en cuatro
partes iguales, los deciles notados Di divide la población en diez partes iguales, los percentiles
notados Pi divide la población en cien partes iguales.
Interpretación de cuartiles: Q1= Es el valor de la variable que supera el 25% de los datos y al
mismo tiempo es superado por el 75% de los datos.
Q2= Es el valor de la variable que supera el 50% de los datos y al mismo tiempo es superado
por el 50% de los datos.
Q3= Es el valor de la variable que supera el 75% de los datos y al mismo tiempo es superado
por el 25% de los datos.
CONCEPTOS PRELIMINARES
Interpretación de los deciles: D1= Es el valor de la variable que supera el 10% de los datos y al
mismo tiempo es superado por el 90% de los datos.
D3= Es el valor de la variable que supera el 30% de los datos y al mismo tiempo es superado
por el 70% de los datos.
D5= Es el valor de la variable que supera el 50% de los datos y al mismo tiempo es superado
por el 50% de los datos.
D7= Es el valor de la variable que supera el 70% de los datos y al mismo tiempo es superado
por el 30% de los datos.
Interpretación de los percentiles: P15= Es el valor de la variable que supera el 15% de los datos
y al mismo tiempo es superado por el 85% de los datos.
P43= Es el valor de la variable que supera el 43% de los datos y al mismo tiempo es superado
por el 57% de los datos.
P72= Es el valor de la variable que supera el 72% de los datos y al mismo tiempo es superado
por el 28% de los datos.
P87= Es el valor de la variable que supera el 87% de los datos y al mismo tiempo es superado
por el 13% de los datos.
CONCEPTOS PRELIMINARES
Calculo de cuartiles, deciles y percentiles. Datos no agrupados. Cuando los datos no se
encuentran agrupados existe una formula aproximada para localizar la posición donde se
encuentran los cuartiles Qi, deciles Di y percentiles Pi son:

Qi= i(n+1)
4
Di= i(n+1)
10
Pi= i(n+1)
100
Donde: i= es el cuartil, decil o percentil que se va a calcular.
n= total de datos.

Nota: al aplicar las formulas anteriores debe tener en cuenta los siguientes criterios:
Si el valor resultante da entero, entonces el cuartil, decil o percentil se encuentra localizado en
esa posición.
Si el valor resultante da con fracción, aplicar el principio de aproximación al entero más
cercano. Entonces el cuartil, decil o percentil se encuentra localizado en esta posición.
Si el valor resultante da con una fracción y esta es 5, entonces el cuartil, decil o percentil es el
promedio aritmético de los dos valores donde se encuentra la parte entera.
CONCEPTOS PRELIMINARES
Calculo de cuartiles, deciles y percentiles para datos agrupados, variable discreta. Para
calcular los cuartiles, deciles y percentiles para variable discreta y los datos están agrupados
hay que seguir los siguientes pasos:
1. Obtener las frecuencias absolutas acumuladas.
2. Buscar in/4, in/10, in/100, donde i es el cuartil, decil o percentil que se va a calcular y n es
número total de la información.
3. Localizar el resultado de in/4, in/10, in/100, en las frecuencias absolutas acumuladas y:
• Si no aparece en la frecuencia absoluta acumulada el valor inmediatamente superior a in/4,
in/10, in/100, se denomina Nj. Entonces el cuartil, decil o percentil es Xj.
• Si aparece, el valor igual a in/4, in/10 o in/100, se denomina Nj y al inmediatamente anterior
se denomina Nj-1. Entonces el cuartil, decil o percentil es:
Qi, Di, Pi= Xj-1+Xj
2
CONCEPTOS PRELIMINARES
Calculo de cuartiles, deciles y percentiles para datos agrupados, variable continua. Para
calcular los cuartiles, deciles y percentiles hay que seguir los siguientes pasos:
1. Obtener las frecuencias absolutas acumuladas.
2. Buscar in/4, in/10, in/100, donde i es el cuartil, decil o percentil que se va a calcular y n es
número total de la información.
3. Localizar el resultado de in/4, in/10, in/100, en las frecuencias absolutas acumuladas y:
Si aparece el resultado en la frecuencia absoluta acumulada al valor inmediatamente superior a
este se denomina Nj. Entonces el cuartil, decil o percentil es el límite superior (Yi+1) donde se
encuentra el resultado de in/4, in/10, in/100.
Si no aparece el resultado en la frecuencia absoluta acumulada, el valor inmediatamente
superior a in/4, in/10 o in/100, se denomina Nj y al inmediatamente anterior se denomina Nj-1.
Entonces el cuartil, decil o percentil es:
Qi,Di,Pi= Yi+A*((in/4,in/10,in/100-Nj-1)/nj)