You are on page 1of 12

RESUMEN 05

DATOS Y AZAR I

Nombre : _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Curso :________________

Profesor : _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
PÁGINA 1

Estadística
Definición
Es una rama de la matemática que se encarga del estudio de una o más características
de una población mediante métodos y técnicas que se emplean en la recolección,
ordenamiento, resumen, representación, análisis e interpretación de los datos
obtenidos para predecir o concluir acerca de los fenómenos y las leyes que los rigen.
La estadística puede ser dividida en dos ramas: la estadística descriptiva y la
estadística inferencial.
 Estadística descriptiva: Realiza la recolección, descripción, síntesis y análisis de
los datos, calculando algunos parámetros que entreguen información global de
una población (medidas de posición y de variabilidad) o de un subconjunto de ella
(muestra), sin sacar conclusiones de esta última extensibles a toda la población.
 Estadística inferencial: Realiza el estudio sobre un subconjunto de la población
(muestra) para luego extender las conclusiones a toda la población.

 Población: Es un conjunto cuyos elementos poseen alguna característica común


que se quiere estudiar. Las poblaciones pueden ser finitas o infinitas.
 Muestra: Es un subconjunto representativo y aleatorio de la población.
 Variables cualitativas: Son aquellas variables que no se pueden medir
numéricamente, están relacionadas con características. Los valores que toma este
tipo de variables representan categorías o cualidades. Las variables cualitativas
pueden ser nominales u ordinales.
Variable Nominal: Son aquellas en las cuales las observaciones del
atributo de la variable son clasificadas en categorías, y no existe jerarquía
entre ellas (ej. estado civil).
Variable Ordinal: Son aquellas en las cuales existe una relación de
orden intuitivo, secuencia o jerarquía. A pesar de esto último, no es posible
hacer cálculos aritméticos entre ellos (ej. nivel educacional).
 Variables cuantitativa: Son aquellas variables en que cada observación es
resultado de una medición o un conteo y por lo tanto tiene un valor expresado por
un número real, por ejemplo: peso, temperatura, número de personas en una
sala, etc. Las variables cuantitativas pueden ser discretas o continuas:
Variable Discreta: Son resultado de un conteo, por lo tanto, toman sólo
valores enteros (ej. número de hijos).
Variable Continua: Son resultado de una medición, por lo tanto, son
susceptibles de tomar cualquier valor (ej. peso).
PÁGINA 2

Presentación de datos
2.1 Tabla de distribución de frecuencias

E s una tabla que representa el número de elementos que pertenecen a cada una de
las categorías o clases en las que se divide el conjunto de datos.

 Dato (o intervalo) (X): Información (Variable) que se estudia en estadística.


 Marca de clase (c): Se define como el promedio de los extremos de un intervalo.
 Amplitud de un intervalo : Es la diferencia entre su límite superior y su límite
inferior.
 Frecuencia (f): Número de veces que se repite un dato (también se le denomina
frecuencia absoluta).
 Frecuencia Acumulada (F): Suma de las frecuencias absolutas de todos los
valores menores o iguales al valor considerado.
 Frecuencia Relativa (fr): Es el cuociente entre la frecuencia absoluta de uno de
los valores de la variable y el total de datos. Se puede representar como fracción,
número decimal o porcentaje y se denota por fr(%).
 Frecuencia Relativa Acumulada (Fr): Es la que se obtiene sumando
ordenadamente las frecuencias relativas hasta la que ocupa la última posición. Se
puede representar en porcentaje y se denota por Fr(%).
PÁGINA 3

Medidas de Tendencia Central


L as medidas de tendencia central son indicadores que representan valores numéricos
en torno a los cuales tienden a agruparse los valores de una variable estadística.
Las medidas de tendencia central mas utilizadas son: media aritmética, mediana y
moda.

Media Aritmética  x 
Es el cuociente entre la suma de todos los datos y el número de datos. Si se tienen n
datos: x1, x2, x3,…, xn, su media aritmética es

x1 + x2 + x3 + ... + xn
x =
n

Media Aritmética para datos organizados en una tabla de


frecuencias
Si los datos son: x1, x2, x3,…, xn, y las frecuencias respectivas son f1, f2, f3,…, fn,
entonces la media aritmética es

Dato Frecuencia
x1 f1 x1 · f1 + x2 · f2 + x3 · f3 + ... + xn · fn
x2 f2 x =
f1 + f2 + f3 + ... + fn
x3 f3
⋮ ⋮
xn fn

Media Aritmética para datos agrupados en intervalos


Si las marcas de clases son: c1, c2, c3,…, cn, y las frecuencias de los intervalos
respectivos son f1, f2, f3,…, fn, entonces la media aritmética es

c1· f1  c2 · f2  c3 · f3  ...  cn· fn


x 
f1  f2  f3  ...  fn
PÁGINA 4

Moda (Mo)
Es el dato que presenta la mayor frecuencia absoluta (dato que más se repite).

Intervalo Modal
Es el intervalo que presenta la mayor frecuencia absoluta .

Cálculo de la moda en datos agrupados en intervalos

 DA 
M0  LMo   A
 DB  DA 

LM0 : Extremo inferior del intervalo modal.

DA : Diferencia entre la frecuencia del intervalo modal y el intervalo que lo antecede.


DB : Diferencia entre la frecuencia del intervalo modal y el intervalo que lo sigue.
A : Amplitud del intervalo.
PÁGINA 5

Mediana (Me)

E s el dato que ocupa la posición central de la muestra cuando estos se encuentran


ordenados en forma creciente o decreciente. Si la muestra tiene un número par de
datos, la mediana es la media aritmética de los dos términos centrales.

Cálculo de la mediana para tabla de frecuencias


 Si el número de datos es impar entonces la mediana es: Me  x n1
2

xn  xn
+1
 Si el número de datos es par, entonces la mediana es: Me  2 2

2
Cálculo de la mediana para datos agrupados en intervalos
N 
 2  Fi1 
Me  LMe  A
 fi 
 

N : Numero total de datos.

LMe : Extremo inferior del intervalo que contiene la mediana.


Fi-1 : Frecuencia acumulada hasta el intervalo anterior al que contiene la mediana.
fi : Frecuencia absoluta del intervalo que contiene la mediana.
A : Amplitud del intervalo que contiene la mediana.
PÁGINA 6

Medidas de Posición
L as medidas de posición dividen a un conjunto de datos en partes iguales y sirven
para clasificar a un individuo o elemento dentro de una determinada población o
muestra.
Las medidas de posición más utilizadas son: Cuartiles, Quintiles, Deciles y Percentiles.

Cuartiles
Los cuartiles son tres valores que dividen los datos ordenados en cuatro partes iguales.
Los cuartiles son datos bajos los cuales se acumula el 25%, 50% y el 75% de los datos
estudiados, se representan como Q1, Q2 y Q3, respectivamente.
Recorrido intercuartílico: es la diferencia positiva entre Q3 y Q1.

Quintiles
Los quintiles son cuatro valores que dividen los datos ordenados en cinco partes iguales.
Los quintiles son datos bajos los cuales se acumula el 20%, 40%, 60% y el 80% de los
datos estudiados.

Deciles
Los deciles son nueve valores que dividen los datos ordenados en diez partes iguales.
Los deciles son datos bajo los cuales se acumula el 10%, 20%, 30%, 40%, 50%, 60%,
70%, 80% y el 90% de los datos estudiados.

Percentiles
Los percentiles son los 99 valores, que dividen los datos ordenados en 100 partes
iguales.
Los percentiles son datos bajos los cuales se acumula el 1%, 2%, 3%,… y el 99% de los
datos estudiados.
PÁGINA 7

Para determinar el LUGAR en el que se ubica la medida de posición buscada, existe


una relación que depende de la medida de posición que se desea calcular

Medida Cuartil Quintil Decil Percentil


N 1 N 1 N 1 N 1
Posición PQ i PK i PD i PP i
i 4 i 5 i 10 i 100

PQ : posición del cuartil i, siendo i = 1, 2, 3


i
PK : posición del quintil i, siendo i = 1, 2, 3, 4
i
PD : posición del decil i, siendo i = 1, 2, 3, 4, 5, 6, 7, 8, 9
i
PP : posición del percentil i, siendo i = 1, 2, 3, 4,………….., 99
i

Método para determinar una medida de posición para datos no agrupados:


 Ordenar los datos en forma creciente
 Determinar el lugar que ocupa la medida de posición buscada.
 Respecto a la posición tenemos dos posibles resultados:
Número entero: el valor será el dato que ocupa ese lugar.
Número decimal: el valor será el promedio entre el dato que se encuentra a la
izquierda de la posición con el dato que se encuentra a la derecha.

Medidas de Dispersión
Rango
Rango o recorrido es la diferencia entre el mayor y el menor de los datos.

Desviación estándar o típica


 Para datos no agrupados, la desviación estándar (σ) se calcula utilizando la
siguiente fórmula:

(x1  x)2 + (x2  x)2 + ... + (xn  x)2



n

 Para datos agrupados en tablas de frecuencia se utiliza:

f1   x1  x   f2   x2  x    fn   x n  x 
2 2 2

 
f1  f2  f3   fn

Donde xi : dato
fi : frecuencia
x : media aritmética
PÁGINA 8

Varianza
Es otra medida de dispersión que corresponde al cuadrado de la desviación estándar.

 Para datos no agrupados, la varianza (σ2) se calcula utilizando la siguiente


fórmula:

 x1  x    x2  x     xn  x 
2 2 2

2 
n

 Para datos agrupados en tablas de frecuencia se utiliza:

f1   x1  x   f2   x2  x    fn   xn  x 
2 2 2
2
 
f1  f2  f3   fn

Donde xi : dato
fi : frecuencia
x : media aritmética

Propiedades de la desviación estándar () y la varianza ()


 Ambas medidas son siempre un número no negativo.
 Si cada dato se aumenta o se disminuye en una constante K la desviación
estándar y la varianza originales no cambian.
 Si cada dato de un conjunto de datos se multiplica por una constante K,
 
entonces las nuevas  y  son K ·  y K2 ·  , respectivamente.
PÁGINA 9

Representación gráfica e interpretación de gráficos


A menudo, una representación gráfica de una distribución de frecuencias nos da una
mejor idea de un estudio estadístico que un cuadro con números. Existen distintos
tipos de gráficos, algunos de los más utilizados son:

Gráfico de barras
Se utiliza para variables de tipo cualitativas y cuantitativas discretas. Consiste en una
serie de barras cuyas alturas representan la frecuencia absoluta de estos.

A
X f

Frecuencia (f)
C
Dato 1 A
Dato 2 B D
Dato 3 C B
Dato 4 D E
Dato 5 E
Dato 1 Dato 2 Dato 3 Dato 4 Dato 5 Dato (x)

Gráfico circular
El gráfico circular es utilizado en variables de tipo cualitativa y cuantitativa discreta. El
gráfico consiste en un círculo dividido en secciones proporcionales al tamaño de la
muestra y la frecuencia de los datos.
Dato 5
X f fr Dato 1
Dato 1 a a% f x° Dato 4
=
Dato 2 b b% total 360°
Dato 3 c c% f fr
=
Dato 4 d d% total 100% Dato 3 Dato 2
Dato 5 e e%

Histograma
Se utiliza para representar a los datos agrupados en intervalos. El histograma se
elabora representando a los datos en el eje horizontal y a las frecuencias en el eje
vertical. Se trazan barras cuyas bases equivalen a los intervalos de clase y cuyas
alturas corresponden a las frecuencias de clase.
d
x f b
Frecuencia

Intervalo 1 a
c
Intervalo 2 b a
Intervalo 3 c
Intervalo 4 d 1 2 3 4
Intervalos
PÁGINA 10

Polígono de frecuencias
Al igual que el histograma, este gráfico, se utiliza en datos agrupados en intervalos.
Para confeccionarlo, debemos unir con una recta a los puntos donde se intersectan la
marca clase y la frecuencia de los intervalos. Para “anclar” el polígono al eje
horizontal, debemos agregar un intervalo de frecuencia cero, antes del primer
intervalo y después del último intervalo.
Frecuencia (f)

X C f a
Intervalo 1 Clase 1 a
b
Intervalo 2 Clase 2 b
c
Intervalo 3 Clase 3 c d
Intervalo 4 Clase 4 d
Clase Clase 1 Clase 2 Clase 3 Clase 4 Clase Clase (C)

Polígono de frecuencia acumulada u ojiva


Este gráfico, se representa uniendo puntos referidos al límite superior y frecuencia
acumulada de cada intervalo. Para “anclar” la Ojiva al eje horizontal, se posiciona
en el límite inferior del primer intervalo.
F
6
D
5
C
X F
[a, b[ A 4
[b, c[ B 3
[c, d[ C 2
1
B
[d, e[ D 0
A

a b c d e X (lim.sup.)
PÁGINA 11

Gráfico de caja y bigote


El diagrama de caja es una representación gráfica basada en cuartiles, que ayuda a
ilustrar una muestra de datos. Para elaborar este gráfico, sólo se necesitan cinco
datos: el valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el valor máximo
de la muestra.

Tipos de muestra
Muestra Simétrica: Los valores intercuartílicos están igualmente dispersos.

Valor Q1 Q2 Q3 Valor
mínimo máximo

Muestra Positivamente Asimétrica: Los valores más grandes se encuentran más


dispersos que los más pequeños.

Valor Q1 Q2 Q3 Valor
mínimo máximo

Muestra Negativamente Asimétrica: Los valores más pequeños se encuentran más


dispersos que los más grandes.

Valor Q1 Q2 Q3 Valor
mínimo máximo