Sie sind auf Seite 1von 42

Curso de: Estadística

Profesor: Marcos Mendoza

Clase 1: Estadística Descriptiva

16/4/2019 Profesor: Marcos Mendoza 1


¿Para qué sirve la estadística?
 La Ciencia se ocupa en general de fenómenos
observables
 La Ciencia se desarrolla observando hechos,
formulando leyes que los explican y realizando
experimentos para validar o rechazar dichas leyes
 Los modelos que crea la ciencia son de tipo
determinísticos o aleatorio (estocástico)
 La Estadística se utiliza como tecnología al servicio de
las ciencias donde la variabilidad y la incertidumbre
forman parte de su naturaleza

16/4/2019 Profesor: Marcos Mendoza 2


Definición
La Estadística es la Ciencia de la
• Sistematización, recogida, ordenación y
presentación de los datos referentes a un fenómeno
que presenta variabilidad o incertidumbre para su
estudio metódico, con objeto de

• deducir las leyes que rigen esos fenómenos,

• y poder de esa forma hacer previsiones sobre los


mismos, tomar decisiones u obtener
conclusiones.

16/4/2019 Profesor: Marcos Mendoza 3


Algunos conceptos
 Población Objetivo: Conjunto bien definido de
elementos que son sujeto de alguna medición [1]
 Unidades de investigación: Elementos de la
población Objetivo a los que se les efectúa alguna
medición [1]
 Muestra: Subconjunto de n unidades de investigación
tomadas de la población objetivo [1]
 Observación: Cada uno de los valores incluidos en la
muestra [1]

[1] Probabilidad y Estadística, Fundamentos y Aplicaciones, Zurita Gaudencio

16/4/2019 Profesor: Marcos Mendoza 4


Parámetros y Estimadores
 Parámetro: Es una cantidad numérica calculada a
partir de los elementos de una población
 La altura media de los individuos de un país
 La idea es resumir toda la información que hay
en la población en unos pocos números
(parámetros).

 Estimador o Estadístico: Es una cantidad numérica


calculada a partir de los elementos de una muestra
 La altura media de los que estamos en este aula.
 Somos una muestra (¿representativa?) de la
población.
 Si un estadístico se usa para aproximar un
parámetro también se le suele llamar estimador.

16/4/2019 Profesor: Marcos Mendoza 5


Tipos de variables
 Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un
número (no se pueden hacer operaciones algebraicas con ellos)
 Nominales: Si sus valores no se pueden ordenar
 Género, Grupo Sanguíneo, Religión, Nacionalidad.

 Ordinales: Si sus valores se pueden ordenar


 Mejoría a un tratamiento, Grado de satisfacción.

 Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones
algebraicas con ellos)
 Discretas: Si toman valores puntuales
 Número de hijos, Número de máquinas con problemas, número de veces que falla el
suministro de energía por mes.

 Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


 Tiempo que tarda el dar mantenimiento a una máquina, Edad, tiempo de vida de un
equipo

16/4/2019 Profesor: Marcos Mendoza 6


Tabla de Frecuencias
 Para tabular datos cuantitativos se requiere conocer los
siguientes términos: Clase, marca de clase, frecuencia
absoluta, frecuencia relativa, frecuencia acumulada,
frecuencias relativa acumulada .
 Clase: Intervalos de igual longitud, que son
exhaustivos y mutuamente excluyentes.
 Marca de clase: El punto medio de cada una de las
clases
 Frecuencia absoluta: Número de observaciones que
se pueden clasificar en la clase.
16/4/2019 Profesor: Marcos Mendoza 7
(… viene) Tabla de Frecuencias
 Frecuencia Relativa: Se la obtiene dividiendo la
frecuencia de la clase i para el total de observaciones.
 Frecuencia Acumulada: Resulta de sumar la
frecuencia acumulada de la clase i-1 con la frecuencia
de la clase i.
 Frecuencia Relativa acumulada: Se la obtiene
dividiendo la frecuencia acumulada de la clase i para el
total de observaciones.

16/4/2019 Profesor: Marcos Mendoza 8


(… viene) Tabla de Frecuencias
Ordinal Clase Marca de Frecuencia Frecuencia Frecuencia Frecuencia
clase Absoluta Acumulada relativa relativa
acumulada
1 [a1,a2) (a1+a2)/2 f1 f1 f1/n f1/n
2 [a2,a3) (a2+a3)/2 f2 f1+f2 f2/n (f1+f2)/n

k [ak,ak+1) (ak+ak+1)/2 fk n f k/n 1

16/4/2019 Profesor: Marcos Mendoza 9


Tabla I
Tabla de Frecuencias
Tiempo (en horas) que tarda un proceso X
Ordinal Clase Marca de Frecuencia Frecuencia Frecuencia Frecuencia
clase Absoluta Acumulada relativa relativa
acumulada
1 [0-6) 3 2 2 0,04 0,04
2 [6-12) 9 6 8 0,12 0,16
3 [12-18) 15 8 16 0,16 0,32
4 [18-24) 21 16 32 0,32 0,64
5 [24-30) 27 10 42 0,20 0,84
6 [30-36) 33 7 49 0,14 0,98
7 [36-42) 39 1 50 0,02 1

16/4/2019 Profesor: Marcos Mendoza 10


Histograma de frecuencia relativa
 El histograma en un gráfico bidimensional en cuyo eje
de las x se encuentran las clases y en el eje de la y las
frecuencias relativas.

16/4/2019 Profesor: Marcos Mendoza 11


Gráfico I
Histograma de Frecuencias Relativas
Tiempo (en horas) que tarda un proceso X
0.35

0.3
Frecuencia Relativa

0.25

0.2

0.15

0.1

0.05

0
[0-6) [6-12) [12-18) [18-24) [24-30) [30-36) [36-42)
Tiempo (en horas)

16/4/2019 Profesor: Marcos Mendoza 12


Polígono de frecuencia relativa
 El Polígono en un gráfico bidimensional en cuyo eje de
las x se encuentran las marcas de clase y en el eje de la
y las frecuencias relativas.

16/4/2019 Profesor: Marcos Mendoza 13


Gráfico II
Polígono de Frecuencias Relativas
Tiempo (en horas) que tarda un proceso X
0.35

0.3
Frecuencia Relativa

0.25

0.2

0.15

0.1

0.05

0
0 3 9 15 21 27 44 39 45
Tiempo (en horas)

16/4/2019 Profesor: Marcos Mendoza 14


Ojiva
 Es un gráfico que presenta en el eje horizontal la
característica cuantitativa que se está investigando y en
el eje vertical la frecuencia relativa acumulada

16/4/2019 Profesor: Marcos Mendoza 15


Gráfico III
Ojiva
Tiempo (en horas) que tarda un proceso X
1
Frecuencia Relativa Acumulada

0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 10 20 30 40
Tiempo (en horas)

16/4/2019 Profesor: Marcos Mendoza 16


Algunas preguntas
 ¿Qué porcentaje de veces el proceso tarda menos de 14
horas?
 ¿Qué porcentaje de veces el proceso tarda mas de 21
horas?
 ¿Qué porcentaje de veces el proceso tarda entre 21
meses y 32 horas?
 ¿Cuál es el tiempo que tarda el proceso de tal forma
que la mitad de las veces dure menos de ese valor?
 ¿Cuál es el tiempo que tarda el proceso de tal forma
que el 25% de las veces dure menos de ese valor?
16/4/2019 Profesor: Marcos Mendoza 17
Gráfico III
Ojiva
Tiempo (en horas) que tarda un proceso X
1
Frecuencia Relativa Acumulada

0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 10 20 30 40
Tiempo (en horas)

16/4/2019 Profesor: Marcos Mendoza 18


Diferencias entre gráficos 419

 La diferencia está en si las variables a


400 375

graficar son continuas, discretas o 300

255

Recuento
215

cualitativas 200

127

 Diagramas barras para v. discretas o 100

54

característica cualitativas 24 23 17

0 1 2 3 4 5 6 7 Ocho o más

 Se deja una separación entre barras para Número de hijos

indicar los valores que no son posibles


250

200

 Histogramas para variables continuas

Recuento
150

100

50

20 40 60 80

Edad del encuestado

16/4/2019 Profesor: Marcos Mendoza 19


Estimadores
Posición
 Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
 Cuantiles, percentiles, cuartiles, deciles,...
 Centralización
 Indican valores con respecto a los que los datos parecen agruparse.
 Media, mediana y moda
 Dispersión
 Indican la mayor o menor concentración de los datos con respecto a
las medidas de centralización.
 Desviación típica, coeficiente de variación, rango, varianza
 Forma
 Asimetría
 Apuntamiento o curtosis

16/4/2019 Profesor: Marcos Mendoza 20


16/4/2019 Profesor: Marcos Mendoza 21
Simbología
 n: tamaño de la muestra
 Xi: i-ésima observación
 X(i) : i-ésima observación tal que
X(1)  X(2)  X(3)  …  X(n)

 Por ejemplo si se tienen las siguientes observaciones


3 4 5 8 7 4 1
 X1=3 X2=4 X3=5 X4=8 X5=7 X6=4 X7=1
 X(1)=1 X(2)=3 X(3)=4 X(4)=4 X(5)=5 X(6)=7 X(7)=8

16/4/2019 Profesor: Marcos Mendoza 22


Estadísticos de posición
 Se define el cuantil de orden a como un valor de la variable por debajo
del cual se encuentra una frecuencia acumulada a.
 Casos particulares son los percentiles, cuartiles, deciles

16/4/2019 Profesor: Marcos Mendoza 23


(… viene) Estadísticos de posición
 Percentil de orden i = cuantil de orden i/100
 El i% de los elementos de la muestra toman valores menores o
iguales a Pi, denominado percentil i; i=1,2, … , 99
 Cuartiles: Divide los elementos de la muestra en 4
grupos con frecuencias similares.
 Q1=Primer cuartil = Percentil 25 = Cuantil 0,25
 Q2=Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
 Q3=Tercer cuartil = Percentil 75 = cuantil 0,75
 Deciles: Divide los elementos de la muestra en 10
grupos con frecuencias similares.
 Di: i-ésimo decil

16/4/2019 Profesor: Marcos Mendoza 24


Cálculo de los estadísticos de
posición
 Definamos:
X (i.a )  X (i )  0.a( X (i  1)  X (i ))
Para i=1,2,…,n-1
Entonces el i-ésimo percentil es:
P i  X  n 1i  Para i=1,2,…,99
 
 100 

16/4/2019 Profesor: Marcos Mendoza 25


Diagramas de Cajas Diagrama de cajas de Tukey: Resumen en 5 números

 Resumen con 5 números:

0.08
 Mínimo, cuartiles y

0.06
máximo.

densidad
 Suelen dar una buena idea

0.04
de la distribución.

0.02
Mín. P25 P50 P75 Máx.

 La zona central, ‘caja’,

0.00
contiene al 50% central de
las observaciones. 40 45 50 55 60 65

Velocidad (Km/h) de 200 vehículos en ciudad


 El largo de la caja se llama
‘rango intercuartílico’ (R.I.) Diagrama de cajas de Tukey: Resumen en 5 números

 Es costumbre que ‘los


0.04

bigotes’, no lleguen hasta los


0.03

extremos, sino hasta las


densidad

observaciones que se
0.02

separan de la caja en no más


P25 P50 P75
de 1,5 R.I.
0.01

Mín. Máx.

 Más allá de esa distancia se


0.00

consideran atípica o
anómalas, y así se marcan. 80 90 100 110 120 130 140

Velocidad (Km/h) de 200 vehículos en autovía

16/4/2019 Profesor: Marcos Mendoza 26


Medidas de tendencia Central
 Media (‘mean’) Es la media aritmética (promedio) de
los datos contenidos en la muestra. Se la obtiene
sumando todas las observaciones y dividiendo para el
tamaño de la muestra.
n

X i
x i 1

n
 Mediana (‘median’) Es un valor que divide a las
observaciones ordenadas en forma ascendente en dos
grupos con el mismo número de individuos (percentil
50, segundo cuartil).
~
x  X  n 1 
 
 2 

 Moda (‘mode’) Es el/los valor/es donde la distribución


de frecuencia alcanza un máximo.
16/4/2019 Profesor: Marcos Mendoza 27
Altura mediana

16/4/2019 Profesor: Marcos Mendoza 28


Ejemplo 1
 Para el siguiente conjunto de observaciones determine
los cuartiles, P73, D3 y D7, la media, la mediana y la
moda
8 3 5 6 4 7 8 1 4 4

16/4/2019 Profesor: Marcos Mendoza 29


Datos agrupados
 Datos organizados en tabla
 Denotemos por Xi a la marca de clase, entonces:
k

 Media
x i fi
x i 1

n
 Cuantil de orden α
 i es el menor intervalo que tiene frecuencia
acumulada superior a α ·n
Variable fr. fr.  α=0,5 es mediana
ac.
L0 – L1 x1 f1 F1 a  n  Fi 1
Ca  Li 1  ( Li  Li 1 )
L1 – L2 x2 f2 F2 fi
...
Lk-1 – Lk xk fk Fk
n
16/4/2019 Profesor: Marcos Mendoza 30
Ejemplo con variable en intervalos
Peso M. frec Fr.
Clase acum
.
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 – 115 3 58
130
En el histograma se identifica “unidad de área”
con “individuo”.

Para calcular la media es necesario elegir un


punto representante del intervalo: La marca de
clase.

La media se desplaza hacia los valores extremos.


No coincide con la mediana. Es un punto donde el
histograma “estaría en equilibrio” si tuviese masa.

16/4/2019 Profesor: Marcos Mendoza 31


Ejemplo (continuación)
Peso M. Clase Fr. Fr. ac.
40 – 50 45 5 5
x
 xf
i i i

45  5  55 10    115  3
 69,3
50 – 60 55 10 15 n 58
60 – 70 65 21 36
~ 0,5  58  N i 1
70 - 80 75 11 47 X  P50  Li 1  ( Li  Li 1 )
fi
80 - 90 85 5 52
0,5  58  15 
90 - 100 95 3 55  60  (70  60)  66,6
21
100 – 130 115 3 58
58

0,75  58  N i 1 43,5  36
P75  C0, 75  Li 1  ( Li  Li 1 )  70  (80  70)  76,8
ni 11

 Moda = marca de clase de (60,70] = 65

16/4/2019 Profesor: Marcos Mendoza 32


Medidas de dispersión
 Amplitud o Rango (‘range’):

0.05
Mín. P25 P50 P75 Máx.

Diferencia entre el valor máximo X(n) y el

0.04
mínimo X(1).

0.03
Rango= X(n) - X(1) 25% 25% 25% 25%

0.02
 2,1,4,3,8,4. El rango es 8-1=7 Rango intercuartílico

0.01
 Es muy sensible a los valores extremos. Rango

0.00
150 160 170 180 190

 Rango intercuartílico (‘interquartile range’):


 Es la distancia entre primer y tercer cuartil.
 RI=Rango intercuartílico = Q3 – Q1
 Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores.
 No es tan sensible a valores extremos.

16/4/2019 Profesor: Marcos Mendoza 33


 Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al cuadrado)
de las observaciones con respecto a la media.

1
S2   i
n 1 i
( x  x ) 2

 Sus unidades son el cuadrado de las de la variable. De interpretación un poco


compleja para un principiante.

 Desviación típica (‘standard deviation’) Es la raíz cuadrada de la varianza

S S 2

16/4/2019 Profesor: Marcos Mendoza 34


Dispersión en distribuciones ‘normales’
0.05

0.05
0.04

0.04
0.03

0.03
0.02

0.02
0.01
0.01

x s x 2s
95 %
68.5 %

0.00
0.00

150 160 170 180 190

150 160 170 180 190

 Centrado en la media y a una desv. típica de distancia hay


aproximadamente el 68% de las observaciones.

 A dos desviaciones típicas tenemos el 95% (aprox.)

16/4/2019 Profesor: Marcos Mendoza 35


 Datos ‘casi normales’.
0.3

0.3
densidad

densidad
0.2

0.2
0.1

0.1
x s x 2s x s x 2s
66 % 95 % 71 % 94 %
0.0

0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
0.4

0.3
0.3
densidad

densidad

0.2
0.2

0.1
0.1

x s x s x 2s
x 2s
68 % 94 % 70 % 94 %
0.0

0.0

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

16/4/2019 Profesor: Marcos Mendoza 36


Coeficiente de variación
Es la razón entre la desviación típica y la media. S
 Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media” CV 
 También se la denomina variabilidad relativa.
x
 Es frecuente mostrarla en porcentajes
 Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad
relativa)

 Es una cantidad adimensional. Interesante para comparar la variabilidad de


diferentes variables.
 Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más
dispersión en peso que en altura.

 Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso).

16/4/2019 Profesor: Marcos Mendoza 37


Ejemplo 2
 Para el conjunto de observaciones del Ejemplo 1,
determine el rango, la varianza, la desviación estándar
y el coeficiente de variación
8 3 5 6 4 7 8 1 4 4

16/4/2019 Profesor: Marcos Mendoza 38


Asimetría o Sesgo
 Una distribución es simétrica si la
mitad izquierda de su distribución
es la imagen especular de su mitad
derecha.

 En las distribuciones simétricas


media y mediana coinciden. Si sólo
hay una moda también coincide

 La asimetría es positiva o negativa


en función de a qué lado se
encuentra la cola de la distribución.

 La media tiende a desplazarse hacia


las valores extremos (colas).

 Las discrepancias entre las medidas


de centralización son indicación de
asimetría.

16/4/2019 Profesor: Marcos Mendoza 39


Estadísticos para detectar asimetría
 Hay diferentes estadísticos que sirven para detectar asimetría.
 Basado en diferencia entre estadísticos de tendencia central.
 Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.
 Basados en desviaciones con signo al cubo con respecto a la media.
 En función del signo del estadístico diremos que la asimetría es
positiva o negativa.
 Distribución simétrica  asimetría nula.

0.20
0.5
0.20

0.4

0.15
0.15

0.3

0.10
0.10

0.2

0.05
0.05

0.1

x s x s
x s
66 % 78 %
78 %
0.00

0.00
0.0

8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14

16/4/2019 x Profesor: Marcos Mendoza x x 40


Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribución con respecto a la distribución normal o gaussiana. Es
adimensional.
Platicúrtica (aplanada): curtosis < 0
En el curso serán de especial
Mesocúrtica (como la normal): curtosis = 0 interés las mesocúrticas y
simétricas (parecidas a la normal).
Leptocúrtica (apuntada): curtosis > 0

Aplanada Apuntada como la normal Apuntada


2.0

0.8
0.3
1.5

0.6
0.2
1.0

0.4
0.1
0.5

x s
x s 0.2
68 % x s
57 %
0.0

82 %
0.0

0.0

0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3


-2 -1 0 1 2
16/4/2019 Profesor: Marcos Mendoza 41
Bibliografía
 Zurita, G. (2008) Probabilidad y Estadística:
Fundamentos y Aplicaciones; Edición Escuela Superior
Politécnica del Litoral, Instituto de Ciencias
Matemáticas, Guayaquil-Ecuador
 Barón, F., Téllez, F. (2004) Apuntes de Bioestadística;
Universidad de Málaga

16/4/2019 Profesor: Marcos Mendoza 42

Das könnte Ihnen auch gefallen