Beruflich Dokumente
Kultur Dokumente
Por qu
e estudiar Estadstica?
El estudio de la Estadstica permite, entre otras cosas
Aprender las reglas y metodos usados en el tratamiento de
informacion
Evaluar y cuantificar la importancia de los resultados estadsticos obtenidos
Entender mejor algunos fenomenos de interes (Sociales, Economicos, Biologicos, Educacionales, etc.)
Dar una vision mas clara acerca de la informacion proveniente de diversas fuentes.
Algunos aspectos estadsticos manejados en la informacion obtenida de la radio, la television u otro medio, influencian fuertemente a gran cantidad de personas pero a veces no proporcionan
una descripcion cabal de lo que pretenden mostrar.
Como una de las tareas de la Estadstica es el estudio de fenomenos aleatorios, esto hace muy pertinente el tratar de explicar la
manera como se comportan (Variabilidad).
Entre otras cosas la Estadstica se ocupa del manejo de la informacion que pueda ser cuantificada. Implica esto la descripcion
de conjuntos de datos y la inferencia a partir de la informacion
recolectada de un fenomeno de interes. La funcion principal de
la estadstica abarca:
Resumir
Simplificar
Comparar
Relacionar
Proyectar.
Dise
no de experimentos. Esta relacionado con la etapa de
obtencion de informacion. Permite la determinacion del tipo de datos a incluir en el estudio, la cantidad de datos.
La determinacion de cuantas unidades se deben incluir en
el estudio es crucial ya que con esto se ahorra tiempo y
dinero.
Estadstica descriptiva. Permite obtener un resumen de la
informacion contenida en los datos por medio de funciones especcas llamadas estadsticos muestrales las cuales sirven para obtener valores numericos que representan caractersticas sobresalientes que pudieran estar presentes. Tambien permite la construccion de graficos que permiten mirar
en conjunto la totalidad de los datos y detectar comportamientos interesantes de ellos.
Inferencia estadstica. Permite evaluar la informacion de
manera que se puedan obtener conclusiones generales del
fenomeno bajo estudio.
Estadstica no parametrica. Permite realizar pruebas estadsticas e implementar modelos donde no es posible asumir algunos supuestos previos.
Elementos de regresion. Sirven para explorar la posible relacion entre variables de respuesta y variables explicativas.
Niveles de medici
on y tipos de variables
Los siguientes ejemplos serviran para introducir algunas definiones importantes.
tercero (el de la lnea de produccion) genera datos que son producto de conteos. Con lo anterior, podemos ahora dar algunas
deficiones.
Variable. Es una caracterstica que vara de un objeto o individuo a otro (por ejemplo la estatura, la dureza o el tiempo de
duracion de un componente) o en el mismo individuo (por ejemplo, la presion sanguinea). En estadstica, los tipos mas comunes
de variables son Continuas, Discretas y Categoricas.
Variables continuas. Son aquellas que provienen de procesos que involucran mediciones. Por ejemplo las estaturas
de los estudiantes de primer a
no en una universidad.
Variables discretas. Son aquellas que provienen de procesos que involucran conteos. Por ejemplo el n
umero de
vehculos que llegan a un semaforo en un intervalo de tiempo.
Variables categ
oricas. Son aquellas que provienen de procesos que involucran clasifiaciones. Por ejemplo la variable
sexo o estrato socioeconomico.
Observe que la variable que se genera en un experimento de
medicion de presion sanguinea es de naturaleza diferente a la de
clasificar personas por su sexo. La primera se registra en milmetros de mercurio y ademas valores grandes dan la idea de mayor
presion sangunea mientra que la segunda se mide por medio
de valores que representan la pertenencia a una categora, por
ejemplo 1=Masculino, 2=femenino, pero el 2 no indica una categora mayor a la que representa el 1.
La diferencia en la informacion obtenida permite identificar cuatro niveles basicos de medicion que son:
Conceptos b
asicos
Un aspecto importante en Estadstica esta relacionado con a
manera como la informacion es presentada y analizada. De este
analisis previo pueden desprenderse diferentes formas de abordar la solucion a determinada pregunta de investigacion. Una
primera parte consiste en realizar un adecuado resumen de la
informacion disponible y presentarla en terminos de algunas medidas puntuales o de graficos.
Aspectos principales a tener en cuenta en la descripci
on
de un conjunto de datos
a) Resumen y descripcion de diferentes patrones en los datos
por medio de:
Presentacion de tablas y graficos.
Examinar de todas las formas posibles los graficos en
busca de caractersticas de interes.
Buscar en los datos graficados observaciones inusuales,
que se alejan del grueso de observaciones graficadas.
b) Calculo de medidas numericas.
Valores tpicos o representativos que den idea de centralidad o localizacion.
La variabilidad presente en los datos.
Descripci
on de Datos por tablas o gr
aficos
Distribuciones de frecuencia
Cuando se tiene un n
umero considerable de datos, una manera
de representarlos es a traves de un agrupamiento en clases. Si
los datos son de tipo discreto o categorico, las clases estaran determinadas por las escalas de medicion de la variable de interes.
Sinembargo, si el n
umero de valores que asume la variable es muy
grande, es necesario agrupar dichos valores en clases. En el caso
de variables continuas, es imperativo realizar un agrupamiento de los datos, considerando observaciones cercanas, en clases
o intervalos. El resultado de este agrupamiento es resumido en
una tabla, que usualmente se denomina Tabla de Frecuencias.
El procedimiento a seguir para este proceso es como sigue:
a) Encuentre el mnimo y maximo de los valores registrados.
b) Escoja un n
umero de subintervalos o clases de igual longitud, de manera que cubran el rango de los datos, sin traslaparsen (aunque es posible construir clases o intervalos de
longitudes variables). Estos intervalos son llamados Intervalos de Clase.
c) Cuente cuantas observaciones estan en cada subintervalo.
Este conteo es llamado Frecuencia de Clase.
d) Calcule, para cada clase, la frecuencia relativa. Esta se calcula como:
FR =
Frecuencia de clase
.
N
umero total de observaciones
La eleccion del n
umero de clases o intervalos, constituye un proceso de ensayo y error. Algunas propuestas empricas se han
planteado, buscando una seleccion mas o menos adecuada del
n
umero de clases. No se puede establecer que una es superior a
otra, solo pueden utilizarse como puntos de referencia.
Sturges (1926), establece que el n
umero de clases es K puede obtenerse como K = 1+3.33 log10 (n), siendo n el n
umero
de datos. Esta propuesta subestima el n
umero de intervalos.
10
Ejemplo
Se tiene informacion de un grupo de estudiantes de un curso
de primer semestre, donde se registraron, para cada sujeto, la
Estatura(en cms), Masa(en Kg), Edad (en a
nos), Estrato socioeconomico, Horas dedicadas semanalmente a estudiar (sin incluir
horas de clase), Gasto semanal(en pesos), Genero (HOMBRE o
MUJER), Tipo de colegio del cual se graduo. Los datos se muestran a continuacion:
ESTATURA MASA EDAD ESTRATO HORAS GASTO GENERO TIP_COLE
148 65 24 1 20 20000 MUJER PUBLICO
154 49 22 3 40 25000 MUJER PUBLICO
157 63 18 4 15 24000 HOMBRE PRIVADO
158 57 18 4 30 50000 MUJER PRIVADO
158 67 17 3 10 17000 MUJER PRIVADO
159 51 20 2 15 10000 MUJER PUBLICO
160 53 17 3 20 70000 MUJER PRIVADO
160 50 18 1 16 10000 MUJER PUBLICO
160 54 18 3 10 40000 MUJER PRIVADO
161 54 21 2 8 36000 MUJER PUBLICO
162 56 21 2 38 50000 MUJER PUBLICO
162 67 18 2 21 40000 MUJER PUBLICO
162 48 21 3 19 50000 HOMBRE PRIVADO
162 44 21 2 7 50000 MUJER PUBLICO
163 55 17 2 25 48000 HOMBRE PUBLICO
164 55 20 2 25 40000 HOMBRE PUBLICO
164 54 17 3 15 20000 MUJER PUBLICO
164 54 17 2 18 54000 HOMBRE PUBLICO
165 56 19 3 10 75000 MUJER PUBLICO
165 52 17 2 12 30000 MUJER PUBLICO
165 58 33 2 20 40000 HOMBRE PRIVADO
166 52 17 3 20 50000 MUJER PRIVADO
168 64 17 3 40 20000 HOMBRE PRIVADO
Para la variable Edad. Observe que esta variable aparece en una escala de
razon, pero con valores enteros. Sin agrupar la informacion se tienen los
siguientes graficos en SAS y R:
11
Frecuencia
4
5
5
4
3
1
1
F. Relativa
0.267
0.378
0.178
0.111
0.044
0.000
0.022
12
2. Se agrupa la informacion por rangos con una regla especfica.
Para la variable estatura. Usando la regla de Sturges se obtiene
K = 1 + 3.33 log10 (n) = 1 + 3.33 log10 (45) = 6.505 7 .
As, se consideran 7 clases o intervalos. La mnima Edad es de 17 a
nos y la
maxima es de 33. El rango de las estaturas es R = 16. Si se asumen intervalos
o clases de igual longitud, la amplitud para cada intervalo estara dada por:
A=
Rango
16
=
= 2.286 .
K
7
Para efectos de manejar un valor mas simple como amplitud esta es redondeada a 2.4. Con esto se tiene que el rango a sido ampliado en 0.8 a
nos.
(NR ango :7 2.4 = 16.8). La pregunta es como repartir este excedente. La
mayora de usuarios propone que se haga de manera equitativa, es decir,
restar al mnimo la misma cantidad que se le suma al maximo. La figura 3
ilustra lo que se propone.
Frecuencia
20
14
3
5
2
0
1
F. Relativa
0.444
0.311
0.067
0.111
0.044
0.000
0.022
Marca
17.8
20.2
22.6
25
27.4
29.8
32.2
13
El grafico resultante se conoce como Histograma de Frecuencias. Este se
ilustra en la figura 4. Los valores en medio de cada barra son los puntos
medios de cada intervalo de clase o Marcas de Clase.
Cuando solo se desea tener una idea grafica del comportamiento de una variable, a veces no es tan necesario intervenir tanto en la construccion de un
histograma. La mayora de software estadstico, tienen reglas muy similares
para la eleccion del n
umero de clases o intervalos. Usando el paquete R se
muestra un diagrama de barras para la variable Estrato e histogramas para
las variables Estatura, Masa y Gasto.
Dichos graficos se muestran en la figura 5.
Aunque no es una regla general una tabla de frecuencias deberia poseer las
siguientes caracteristicas:
1. UNIFORMIDAD: Clases de igual amplitud o de amplitud variable
que dependen del tipo de datos.
2. UNICIDAD:
3. COMPLETEZ:
Clases no traslapadas.
Cada dato pertenece a una y solo una clase.
14
15
hay o no datos atpicos. En la figura 6, se muestran dos tipos de boxplot.
Fig. 6: Construcci
on de un Box-Plot
Los Box-plot, para las variables Estatura, Masa, Edad y Gasto, se muestran
en la figura 7.
16
An
alisis descriptivo de un conjunto de n datos
Suponga que se tienen n datos recopilados sobre una variable y que pueden
representar los tiempos de duracion de una batera para vehculo. Estos datos
pueden ser los que aparecen a continuacion:
2.2 3.4 2.5 3.3 4.7 4.1 1.6 4.3 3.1 3.8 3.5 3.1 3.4 3.7 3.2 4.5 3.3 3.6 4.4 2.6
3.2 3.8 2.9 3.2 3.9 3.7 3.1 3.3 4.1 3.0 3.0 4.7 3.9 1.9 4.2 2.6 3.7 3.1 3.4 3.5
Medidas num
ericas en datos agrupados
Las medidas numericas descriptivas se dividen en dos: Medidas de localizaci
on y Medidas de dispersi
on. En las medidas de localizacion se circunscriben las medidas de tendencia central.
Medidas de localizaci
on y de tendencia central
Estas medidas permiten cuantificar numericamente, caractersticas de la poblacion de la cual fueron tomados los datos. Entre las mas comunes se encuentran:
17
X Agrup =
#celdas
P
mi fi
i=1
i=1
Total Frecuencias
Como ejemplo, considere los datos de las Estaturas de los estudiantes del
curso de primer semestre. Con base en la tabla de frecuencias se tiene que:
Esta
(150, 155]
(155, 160]
(160, 165]
(165, 170]
(170, 175]
(175, 180]
(180, 185]
7
P
X Agrup
=
=
=
Frec
1
3
6
10
11
12
5
F. Rel
0.0208
0.0625
0.125
0.2083
0.2292
0.25
0.1042
Frec Acu
1
4
10
20
31
43
48
F R Acum
0.0208
0.0833
0.2083
0.4166
0.6458
0.8958
1
Marca
152.5
157.5
162.5
167.5
172.5
177.5
182.5
mi fi
i=1
n
(152.5 1) + (157.5 3) + (162.5 6) + (167.5 10) + (172.5 11) + (177.5 12) + (182.5 5)
48
171.15 .
18
es aquel valor tal que al menos el 10 % de los datos son inferiores a el y
al menos el 90 % de los datos son superiores a el. Si la caracterstica de
interes esta asociada a una variable X, el percentil 100p %, para 0 < p < 1,
suele denotarse por xp . Otra manera de denotar un percentil, es a traves del
porcentaje que representa. Por ejemplo, el percentil 25, suele denotarse como
P25 .
Para calcularlo se requiere la columna de frecuencias relativas acumuladas,
que se obtiene de la tabla de frecuencias, usando la siguiente formula:
xp = L +
(p a) h
,
f
donde:
L: Lmite inferior de la clase que contiene el percentil.
n: N
umero de datos.
f : Frecuencia relativa de la clase que contiene el percentil.
a: Frecuencia relativa acumulada del intervalo anterior al del percentil.
h: Longitud de la clase del percentil.
Para identificar la clase del percentil se identifica cual clase tiene una frecuencia relativa acumulada igual o superior a p.
Ejemplo
Usando los datos de estaturas calcule el P50 .
Se observa que en la columna de frecuencias relativas acumuladas el intervalo
de clase donde esta frecuencia supera a 0.5 es el quinto intervalo, donde la
frecuencia acumulada es 0.6458, la cual excede a 0.5. Por lo tanto la clase del
percentil sera (170, 175]. Usando este intervalo se tiene que: L = 170, n =
40, f = 0.2292, a = 0.4166, p = 0.5, h = 5 . As:
P50 = 170 +
(0.5 0.4166) 5
= 171.82 .
0.2292
19
Los percentiles P25 , P50 y P75 , dividen los datos en cuatro partes porcentualmente iguales. Estos percentiles son llamados Cuartiles y se denotan Q1 , Q2
y Q3 , respectivamente.
La mediana
Su calculo se realiza
Corresponde al percentil 50. Es usualmente denotada X.
con el mismo procedimiento utilizado en la obtencion de los percentiles.
Medidas de dispersi
on
Estas medidas permiten cuantificar numericamente, que tan dispersos se encuentran los datos ya sea con respecto a la media o con respecto a las unidades
de medicion. Entre las mas comunes se encuentran:
i=1
mi X agrup
n
2
fi
Rango intercuartil
Es la diferencia entre el percentil 75 y el percentil 25. Valores grandes quiere
decir que el 50 % de los datos mas centrales se encuentran muy dispersos.
QRANGE = Q3 Q1 = P75 P25
20
Donde Q1 = P25 se denomina Primer cuartil y Q3 = P75 se denomina Tercer
cuartil. El nombre de cuartil proviene del hecho de que la unidad se divide
en cuatro partes iguales y el de percentil proviene del hecho de que la unidad
se divide en cien partes iguales.
2
Para los datos de estaturas se tiene: Sagrup
= 54, 937 , los percentiles 25
y 75 son P 25 = 166, P 75 = 177.08. El rango intercuartil es QRANGE =
177.08 166 = 11.08 .
C
alculo de medidas num
ericas para datos no
agrupados
Para el calculo de estas medidas se consideran todos y cada uno de los datos, por lo cual la perdida de informacion contenida en la muestra se reduce.
Tambien se dividen en dos: Medidas de localizaci
on y Medidas de dispersi
on. En las medidas de localizacion se circunscriben las medidas de
tendencia central.
Medidas de localizaci
on y de tendencia central
Media muestral
Se define como la suma de todos los elementos de la muestra dividido por el
tama
no de la muestra. Cuando la distribucion de la cual provienen los datos
es simetrica y no hay presencia de valores extremos, la media muestral es un
buen representante del conjunto de datos. La media no necesariamente es un
valor del conjunto de observaciones. Se denota con el smbolo X. Se calcula
con la siguiente formula,
Pn
Xi
X = i=1 , i = 1, 2, , n
n
La media representa el punto de equilibrio de los datos.
Ejemplo
(La media es sensible a valores extremos). Considere los ingresos mensuales
en pesos de 8 empleados p
ublicos:
21
500000, 750000, 600000, 550000, 700000, 550000, 550000, 600000.
Calcule el ingreso mensual medio.
Soluci
on
500000 + + 550000 + 600000
= 600000 .
8
El ingreso de los empleados muestreados esta alredeedor de los 600000 pesos.
Suponga que un nuevo empleado es adiccionado a la lista y su ingreso es de
= 755555.6 . Observe que este valor es
2000000. El ingreso promedio sera X
superior a la mayora de las cifras del conjunto de datos. Esto se debe a que
uno de los ingresos es muy grande en comparacion con los otros ingresos.
Este valor no representa en gran medida al grueso de los ingresos.
x=
Ejemplo
Se registra el n
umero de tasas de cafe consumidas por un empleado de oficina
en un perodo de 20 dias:
4
Calcule el n
umero promedio de tasas de cafe.
Soluci
on
= 82 = 4.1 . Un empleado consume en promedio alrededor de 4 tazas por
X
20
dia.
Ejemplo
Se registran las edades de 15 personas en un grupo. Estas son:
18, 20, 19, 19, 21, 22, 20, 23, 21, 24, 19, 20, 22, 21, 24 (en a
nos). Calcule la edad
promedio de las 15 personas.
Soluci
on
= 313 = 20.86 20.9 . Si resumimos
La edad promedio de este grupo es : X
15
esta informacion en una tabla de frecuencia
Edad
18 19 20 21 22 23
frecuencia 1 3 3 3 2 1
La edad promedio se puede calcular como:
n
X
= 1
X
fi X i .
n i=1
24
2
22
Es un calculo similar al caso de datos agrupados. Usando esta tabla se obtiene:
= P
X=
15
fi
En el ejemplo anterior, suponga que otra persona adicional tiene una edad
= 313+35 = 348 = 21.8 .
de 35 a
nos. El calculo de la edad promedio es: X
16
16
=
Si la edad adiccional fuera 45 a
nos, entonces X
=
Si la edad fuera 55 a
nos, entonces X
313+55
16
313+45
16
= 22.4 .
= 23 .
23
Si n p es un natural
2
,
xp =
X([[n p]]+1)
Si n p no es un natural
El smbolo [[ ]] representa la funcion Mayor Entero.
Si n es impar
X( n+1
2 )
=
.
X
X( n2 ) +X( n2 +1)
Si n es par
2
Ejemplo
Considere los ingresos mensuales en dolares de 8 empleados p
ublicos, 500,
750, 600, 550, 700, 2000, 550, 550. La muestra ordenada es 500, 550, 550,
550, 600, 700, 750, 2000. Calcule la mediana.
Soluci
on
Como n es par
=
X
X( n ) + X( n +1)
2
X(4) + X(5)
550 + 600
=
= 575 .
2
2
24
Este valor de la mediana es una medida mas representativa que X. El 50 %
de los ingresos de los empleados son inferiores o iguales a 575 dolares.
Ejemplo
Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950 . Halle el percentil 76 usando el
metodo expuesto arriba.
Soluci
on
La muestra ya esta ordenada, entonces usando el metodo anterior n (0.76) =
7.6 por lo tanto, P76 = X(8) = 800 . El 76 % de los empleados tienen ingresos
inferiores o iguales a 800 dolares.
Para el ejemplo anterior, de las edades, calcular la mediana.
Soluci
on
= X 15
La mediana se calcula como: X
( 2 +1) = X(8) . Ahora, como
18
X1
19
X2
19
X3
19
X4
20
X5
20
X6
20
X7
21
X8
21
X9
21
X10
22
X11
22
X12
23
X13
24
X14
24
X15 ,
X =
= 2
= 21 . Es decir, la mediana no se ve afectada por
2
datos muy extremos o atpicos.
Al igual que para datos agrupados, se pueden calcular los Cuartiles Q1 , Q2 , Q3
y los percentiles.
Ejemplo
Para los datos de edades, calcule el primer cuartil y el percentil 60.
Soluci
on
El primer cuartil es el percentil 25. Ahora 0.25 (15) = 3.75 . El primer cuartil
25
Q1 , debe dejar al menos 4 valores en o por debajo de el y 12 valores en o por
encima de el. As Q1 = X(4) = 19 . El 25 % de las personas tienen edades
inferiores o iguales a 19 a
nos.
El percentil 60 . (0.6) (15) = 9 . Al menos 9 valores en o por debajo de el y
6 valores en o por encima de el. En este caso dicho percentil correspondera
X +X
a P 60 = (9) 2 (10) = 21 . El 60 % de las personas tienen edades inferiores o
iguales a 21 a
nos.
Medidas de dispersi
on
La varianza
La varianza muestral mide que tanto se alejan los datos de la media. Valores
grandes de la varianza indican una gran dispersion. Se denota por S 2 . Se
calcula con la siguiente formula,
Pn
2
S =
i=1
Xi X
n1
2
.
Interpretar la varianza puede resultar un poco complicado ya que esta expresada en unidades cuadradas; por ejemplo, la varianza podra estar en minutos
cuadrados o en kilogramos cuadrados. Por esta razon se acostumbra reportar
la raz cuadrada de la varianza, que recibe el nombre de Desviacion estandar.
Si por ejemplo un investigador toma mediciones de temperatura en una region durante cierto tiempo y al final reporta: Se observo una temperatura
promedio de 28o C con una desviacion estandar de 1o C quiere decir que algunas veces la temperatura puede bajar hasta 27o C y algunas veces puede
subir hasta 29o C.
Ejemplo
Para los
datos de las edades, se tiene que:
P
(Xi 20.9)2
2
S =
= 3.4095 3.41 y S = 1.8466 1.85
15 1
Lo cual significa que la desviacion promedio en cuanto a la media es de 1.85
a
nos. En otras palabras, la mayora de los estudiantes del curso tienen edades
entre 19 y 23 a
nos.
26
El rango intercuartil
Esta medida es la diferencia entre el percentil 75 y el 25. Mide que tan
disperso esta el 50 % de los datos mas centrales. Se calcula as
RANGO INTERCUARTIL = Qrange = Q3 Q1 = P75 P25 .
Coeficiente de variaci
on
El coeficiente de variacion que se define como : C.V = XS .
Es una fraccion de la media muestral. Se usa para comparar la variabilidad
de dos o mas conjuntos de datos.
Ejemplo
Considere las siguientes medidas que se tomaron a dos poblaciones, una de
hombres de 25 a
nos y otra de ni
nos de 11 a
nos. Tales medidas son,
X adultos
Sadultos
X ni
nos
Sni
nos
=
=
=
=
66 kgs
4.5 kgs
36 kgs
4.5 kgs
C.Vadultos =