Beruflich Dokumente
Kultur Dokumente
LA ESTADSTICA DESCRIPTIVA
La estadstica descriptiva tiene como fin resumir un conjunto de datos, de forma numrica o mediante representaciones grficas, y poner de manifiesto sus caractersticas. Los datos se usan para fines comparativos, y no se usan principios de probabilidad. El inters se centra en describir el conjunto dado de datos y no se plantea el extender las conclusiones a otros datos diferentes o a una poblacin. La inferencia estadstica, por el contrario, permite realizar conclusiones o inferencias, basndose en los datos simplificados y analizados de una muestra hacia la poblacin o universo, determinando mrgenes de incertidumbre en la estimacin de los parmetros desconocidos del mismo.
LA INVESTIGACIN ESTADSTICA
El proceso de aplicacin de la estadstica implica una serie de pasos: 1. Seleccin y determinacin de la poblacin o muestra y las caractersticas contenidas que se desean estudiar. 2. Obtencin de los datos. Esta puede ser realizada mediante la observacin directa de los elementos, la aplicacin de encuestas y entrevistas, y la realizacin de experimentos. 3. Clasificacin, tabulacin y organizacin de los datos. La tabulacin implica el resumen de los datos en tablas y grficos estadsticos. 4. Anlisis descriptivo de los datos. El anlisis se complementa con la obtencin de indicadores estadsticos como las medidas: de tendencia central, dispersin, posicin y forma. 5. Anlisis inferencial de los datos. Se aplican tcnicas de tratamiento de datos que involucran elementos probabilsticos que permiten inferir conclusiones de una muestra hacia la poblacin. 6. Elaboracin de conclusiones en un informe final.
Una vez determinadas las personas que constituyen la muestra seleccionada, mediante encuestas, obtendramos los datos cuantitativos o cualitativos sobre la informacin que se analiza. Para sintetizar estos datos utilizaremos Tablas de Frecuencias, que agrupan valores y simplifican datos.
Estadstica: trata del recuento, ordenacin y clasificacin de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. (ejemplo: estudio de la intencin de voto de los habitantes de un pas) Poblacin: conjunto de todos los elementos a los que se somete a un estudio estadstico (ejemplo: todos los habitantes del pas anterior) Muestra: conjunto representativo de la poblacin de referencia. El nmero de individuos de una muestra es menor que el de la poblacin (ejemplo: personas a las que se ha preguntado a qu partido van a votar, que no son todos evidentemente)
Una vez determinadas las personas que constituyen la muestra seleccionada, mediante encuestas, obtendramos los datos cuantitativos o cualitativos sobre la informacin que se analiza. Para sintetizar estos datos utilizaremos Tablas de Frecuencias, que agrupan valores y simplifican datos. Supongamos que en la encuesta anterior una de las preguntas responda a esta variable estadstica: Cuntas horas dedicas a ver la televisin diariamente? Es una variable estadstica cuantitativa discreta Y supongamos que los resultados fueron los siguientes: 1 0 2 3 3 1 0 0 1 2 2 1 1 3 0 2 Frec. Absoluta ni 10 12 1 1 2 1 2 2 0 0 Frec. Abs. Acumulada Ni 10 22 2 0 3 1 1 0 1 0 4 1 0 2
DATOS: n de horas de TV x1 = 0 x2 = 1
Porcentaje % pi 27 % 34 %
Colegio M Inmaculada (Pola de Laviana) x3 = 2 x4 = 3 x5 = 4 9 4 1 Total = 36 31 35 36 9/36 = 0.25 4/36 = 0.11 1/36 = 0.03 Total = 1
Estadstica Descriptiva 4 ESO 31/36 = 0.84 35/36 = 0.95 36/36 = 1 25 % 11 % 3% Total = 100%
GRFICOS ESTADSTICOS
Los grficos estadsticos son representaciones visuales de los datos contenidos en tablas de frecuencias. Los grficos tienen una ventaja con respecto a las tablas de frecuencias, que permiten una fcil interpretacin de los datos, al mostrar las frecuencias mediante smbolos, barras, polgonos o sectores.
DIAGRAMA DE SECTORES
Este tipo de grficos distribuye las frecuencias relativas dentro de la figura geomtrica circular en porciones. La suma de las frecuencias relativas (1) equivale a la suma de los ngulos de cada porcin (360) y cada frecuencia proporcionalmente equivale al ngulo de la porcin correspondiente, que se calcula con una regla de tres. DATOS: n de horas de TV x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4 Frec. Relativa fi 10/36 = 0.27 12/36 = 0.34 9/36 = 0.25 4/36 = 0.11 1/36 = 0.03 Total = 1 Grados en el diagrama de sectores = fi x 360 97.2 122.4 90 39.6 10.8 Total = 360
DIAGRAMA DE BARRAS
Un grfico de columnas est formado por barras de altura proporcional a la frecuencia de cada valor. Este tipo de grficos son ms adecuados para representar las frecuencias absolutas.
DATOS: n de horas de TV x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4
POLIGONAL DE FRECUENCIAS
Es la lnea que une los puntos medios de cada columna del diagrama de barras.
79, 72, 98, 73, 87, 74, 72, 86, 94, 65, 102, 88, 58, 83, 86, 89, 73, 91, 103, 108, 72, 55, 72, 104, 75
Se localizan los valores menor y mayor de la distribucin. En este caso son 53 y 117. Se restan y se busca un nmero entero un poco mayor que la diferencia y que sea divisible por el nmero de intervalos que queramos establecer. En nuestro caso 117 54 = 63, lo redondeamos por arriba a 70 Es conveniente que el nmero de intervalos sea aproximadamente la raz cuadrada del nmero de dato totales: N intervalos = N . En nuestro ejemplo deberan ser 8, pero visto el redondeo lo mas apropiado seran 7 intervalos de amplitud 10
xi [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) [110, 120) 55 65 75 85 95 105 115
ni 8 10 16 14 10 5 2 65
Ni 8 18 34 48 58 63 65
PARMETROS ESTADSTICOS
Un parmetro estadstico es un nmero que se obtiene a partir de los datos de una distribucin estadstica. Los parmetros estadsticos sirven para sintetizar la informacin dada por una tabla o por una grfica.
6
MEDIDAS DE CENTRALIZACIN
Nos indican en torno a qu valor (centro) se distribuyen los datos. La medidas de centralizacin son:
MEDIA ARITMTICA
Equivale al clculo del promedio simple de un conjunto de datos. Media aritmtica. Resultado de dividir la suma de un conjunto de datos entre el nmero total de datos. Si la variable es X y los valores observados de esta variable son x1 , x2 , x3 , , xn , la media aritmtica x + x 2 + x 3 + + x n es: X= 1 N Si los datos estn agrupados en una tabla de frecuencias, entonces la forma de calcularlo es: x n + x 2 n 2 + x 3 n3 + + x n n n X= 1 1 N Si los datos estn agrupados en intervalos, el clculo se hace con los valores marcas de clase, aunque esto supone una clculo aproximado. Propiedades de la Media: 1. La suma de las desviaciones de todas las puntuaciones de una distribucin respecto a la media de la misma igual a cero.
2. La suma de las desviaciones de los nmeros 8, 3, 5, 12, 10 de su media aritmtica 7.6 es igual a 0: 8 7.6 + 3 7.6 + 5 7.6 + 12 7.6 + 10 7.6 = = 0. 4 4.6 2.6 + 4. 4 + 2. 4 = 0 3. Si a todos los valores de la variable se les suma un mismo nmero, la media aritmtica queda aumentada en dicho nmero. 4. Si todos los valores de la variable se multiplican por un mismo nmero la media aritmtica queda multiplicada por dicho nmero. Observaciones sobre la media aritmtica 1. La media se puede hallar slo para variables cuantitativas.
7
3. La media es muy sensible a las puntuaciones extremas. Si tenemos una distribucin con los siguientes pesos: 65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg. La media es igual a 74 kg, que es una medida de centralizacin poco representativa de la distribucin. 4. La media no se puede calcular si hay un intervalo con una amplitud indeterminada. xi [60, 63) [63, 66) [66, 69) [69, 72) [72, ) 61.5 64.5 67.5 70.5 fi 5 18 42 27 8
En este caso no es posible hallar la media porque no podemos calcular la marca de clase de ltimo intervalo. Ejemplo: DATOS: n de horas de TV x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4 Frec. Absoluta ni 10 12 9 4 1 Total = 36 Xi n i 0 10 = 0 1 12 = 12 18 12 4 Suma = 46
46 = 1.31 36
X=
MEDIANA
Me
Es el valor que ocupa el lugar central de todos los datos cuando stos estn ordenados de menor a mayor. La mediana se representa por Me. La mediana se puede hallar slo para variables cuantitativas.
8
Clculo de la mediana 1. Ordenamos los datos de menor a mayor. 2. Si la serie tiene un nmero impar de medidas la mediana es la puntuacin central de la misma. 2, 3, 4, 4, 5, 5, 5, 6, 6 Me= 5 Se calcula: Me = X N +1
2
3. Si la serie tiene un nmero par de puntuaciones la mediana es la media entre las dos puntuaciones centrales. 7, 8, 9, 10, 11, 12 Me= 9.5 XN + XN
+1
N = 36 La Mediana ocupa la posicin N/2 = 18, y como 36 es par se busca el dato de la posicin 18 y el de la posicin 19 en la columna de Ni, que coincide que son los dos el dato 1, y se 1+1 hace su media = 1 por lo tanto la 2 , Mediana es Me = 1. Esto indica que el 50% de los datos son menores o iguales que 1, y el otro 50% mayores.
MEDIANA EN DATOS AGRUPADOS Primero debemos localizar el intervalo de la Media, que es aquel donde se encuentre el dato que est en N la posicin , ese ser el INTERVALO DE LA MEDIANA O MEDIANO, y posteriormente aplicamos 2 la frmula: N N i 1 2 Me = Li + c ni
Donde: Li = Lmite inferior del intervalo N = es el nmero totral de datos c = Amplitud del intervalo Ni-1 = es la frecuencia absoluta acumulada del intervalo anterior al intervalo de la Mediana ni = es la frecuencia absoluta del intervalo de la Mediana
MODA
Mo
La moda es el valor que tiene mayor frecuencia absoluta. Se representa por Mo. Se puede hallar la moda para variables cualitativas y cuantitativas. Hallar la moda de la distribucin: 2, 3, 3, 4, 4, 4, 5, 5 Mo= 4
Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la mxima, la distribucin es bimodal o multimodal, es decir, tiene varias modas. 1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9 Ejemplo: DATOS: n de horas de TV x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4 Frec. Absoluta ni 10 12 9 4 1 Total = 36
La moda es el dato que mas se repite, por lo tanto el de mayor frecuencia absoluta, en este caso Mo = 1
Mo = Li +
Donde: Li = Lmite inferior del intervalo c = Amplitud del intervalo
D1 c D1 + D2
D1 = ni ni 1 , que es la diferencia entre la frecuencia del intervalo modal y el intervalo anterior D2 = ni ni + 1 , que es la diferencia entre la frecuencia del intervalo modal y el intervalo posterior
10
MEDIDAS DE POSICIN
Las medidas de posicin dividen un conjunto de datos en grupos con el mismo nmero de individuos. Para calcular las medidas de posicin es necesario que los datos estn ordenados de menor a mayor. La medidas de posicin son:
CUARTILES: Qk
Los cuartiles dividen la serie de datos en cuatro partes iguales. Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Es decir Q1 es el nmero que deja por debajo de su valor al 25% de los datos, y por lo tanto el 75% son nmeros mayores que l. El Q2 es un nmero por debajo del cual estn el 50% de los datos, y por tanto coincide con la mediana. Y Q3 dejara por debajo de l al 75% de los datos, y el 25% seran valores mayores que l. Ordenamos los datos de menor a mayor. Buscamos el lugar que ocupa cada cuartil mediante la expresin Qk = DATOS: n de horas de TV x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4 Frec. Absoluta ni 10 12 9 4 1 Total = 36 Frec. Abs. Acumulada Ni 10 22 31 35 36
N k con k = 1,2,3 4
Q1 ocupa la posicin en este ejemplo N k 36 1 = =9, automticamente 4 4 buscamos el dato que se encuentra en la posicin 9, y lo hacemos en la columna de la frecuencia absoluta acumulada Ni, y observamos que la posicin 9 la ocupa el 0, por lo tanto Q1 = 0. Esto significa que el 75 % de los datos son mayores que 0, y el 25 % son menores o iguales a cero.
11
N k 36 3 = = 27 , nuevamente cogemos la posicin 27, 4 4 que corresponde al dato 2, por lo tanto Q3 = 2, y eso indica que el 75 % de los encuestados ve la TV dos horas o menos.
N .k , 4
kN N k 1 4 Qk = Lk + c nk
Donde: Lk = Lmite inferior del intervalo cuartil k N = Nmero de datos Nk-1 = Frecuencia absoluta acumulada del intervalo anterior al intervalo del cuartil k. nk = Frecuencia absoluta del intervalo del cuartil k c = Amplitud del intervalo de la clase del cuartil k
DECILES: Dk
Los deciles dividen la serie de datos en diez partes iguales. D5 coincide con la mediana N k Buscamos el dato que se encuentra en el lugar Dk = con k = 1,2,...,9 , en la tabla de las 10 frecuencias acumuladas. DATOS: n de horas de TV x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4 Frec. Absoluta ni 10 12 9 4 1 Total = 36 Frec. Abs. Acumulada Ni 10 22 31 35 36
D6 ocupa la posicin N k 36 6 = = 21.6 , y buscamos el 10 10 dato que ocupa la posicin 22, que corresponde al dato 1, por lo tanto D6 = 1, que significa esto, pues que el 60% de los encuestados ve la televisin 1 hora o menos.
12
N .k , 10
kN N k 1 Dk = Lk + 10 c nk
Donde: Lk = Lmite inferior del intervalo decil k N = Nmero de datos Nk-1 = Frecuencia absoluta acumulada del intervalo anterior al intervalo del decil k. nk = Frecuencia absoluta de la clase del decil k c = Amplitud del intervalo de la clase del decil k
PERCENTILES: Pk
Los percentiles dividen la serie de datos en cien partes iguales. Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales. Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. P50 coincide con la mediana. Buscamos el dato que se encuentra en el lugar Pk = frecuencias acumuladas. DATOS: n de horas de TV x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4 Frec. Absoluta ni 10 12 9 4 1 Total = 36 Frec. Abs. Acumulada Ni 10 22 31 35 36
N k con k = 1,2,...,99 , en la tabla de las 100
P87 ocupa la posicin N k 36 87 = = 31.32 , por lo que 100 100 buscamos el dato que ocupa a posicin 31, que es el 3, por lo tanto P87 = 3, lo que significa que el 87% de los
13
N .k , con K 100
kN N k 1 Pk = Lk + 100 c nk
Donde: Lk = Lmite inferior del intervalo percentil k N = Nmero de datos Nk-1 = Frecuencia absoluta acumulada del intervalo anterior al intervalo del percentil k. nk = Frecuencia absoluta de la clase del percentil k c = Amplitud del intervalo de la clase del percentil k
MEDIDAS DE DISPERSIN
Las medidas de dispersin nos informan sobre cuanto se alejan del centro los valores de la distribucin. Las medidas de dispersin son:
RANGO O RECORRIDO:
El rango es la diferencia entre el mayor y el menor de los datos de una distribucin estadstica. DATOS: n de horas de TV x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4
Recorrido = 4 0 = 4
DESVIACIN MEDIA: D M
La desviacin media es la media aritmtica de los valores absolutos de las desviaciones respecto a la media.
x 1 x n1 + x 2 x n 2 + + x n x n n N
14
DM =
DATOS: n de horas de TV x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4
xi x ni
0 1.31 10 = 13.1 1 1.31 12 = 3.72 2 1.31 9 = 6.21 3 1.31 4 = 6.76 4 1.31 1 = 2.69
Suma = 32.48
DM =
32.48 = 0.902 36
VARIANZA: 2
La varianza es la media aritmtica del cuadrado de las desviaciones respecto a la media.
(x =
x n1 + x 2 x n 2 + + x n x n n N
DATOS: n de horas de TV x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4
(x
x ni
(0 1.31)2 10 = 17.16 (1 1.31)2 12 = 1.15 (2 1.31) 9 = 4.28 (3 1.31)2 4 = 11.42 (4 1.31)2 1 = 7.23
Suma = 41.24
2 =
41.24 = 1.14 36
2 = X 2 (X )2
X2 = 100 = 2.77 36
xi
xi ni
0 12 36 36 16 Suma = 100
15
0 1 4 9 16
DESVIACIN TPICA:
= Varianza = 2
En nuestro ejemplo = 1.14 = 1.06
EL COEFICIENTE DE VARIACIN:
C.V.
En nuestro ejemplo: 1,081 C.V . = = 0.82 1.31 El coeficiente de variacin se suele expresar en porcentajes: C .V . =
100
En nuestro ejemplo: 1,081 C.V . = 100 = 82% 1.31 El coeficiente de variacin permite comparar las dispersiones de dos distribuciones distintas, siempre que sus medias sean positivas. Se calcula para cada una de las distribuciones y los valores que se obtienen se comparan entre s. La mayor dispersin corresponder al valor del coeficiente de variacin mayor. Ejemplo Una distribucin tiene x = 140 y x = 28.28 y otra y = 150 y y = 25. Cul de las dos presenta mayor dispersin?
C.V x = 28.28 100 = 20.2% 140 24 100 = 16% 150
C.V y =
16