Sie sind auf Seite 1von 12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

Capitulo 1.1.1.

ESTADISTICA DESCRIPTIVA

Introduccin. Definicin de Estadstica, variables, Poblacin, muestreo. Qu es la Estadstica? Aunque es virtualmente imposible obtener un consenso general de la definicin de Estadstica, podemos decir que la Estadstica es el estudio de los fenmenos aleatorios. Es factible diferenciar dos definiciones: La Estadstica es comnmente considerada como una coleccin de hechos numricos expresados en trminos de una relacin resumida, y que han sido recopilados a travs de varias observaciones, o a partir de otros datos numricos. La Estadstica puede ser considerada como un mtodo para tratar datos numricos; es un instrumento que se orienta a la recoleccin, organizacin y anlisis de datos numricos o de observaciones. Deben diferenciarse dos funciones del mtodo estadstico: Tcnicas de Estadstica descriptiva y Tcnicas de Inferencia Estadstica o Estadstica inductiva. El propsito central de la Estadstica Descriptiva es presentar informacin en forma conveniente, til y comprensible. La Inferencia Estadstica, se ocupa de generalizar esta informacin, o ms especficamente, hace inferencias acerca de poblaciones a partir de las muestras extradas de estas poblaciones. La Estadstica Descriptiva son sencillas desde el punto de vista matemtico, pero a pesar de eso, son valiosas en casos donde se encuentras disponible la poblacin completa y no existe incertidumbre, o cuando se tiene a mano grandes conjuntos de datos que pueden o no considerarse como muestras aleatorias. Si un conjunto grande se considera como una muestra aleatoria de una poblacin, la estadstica descriptiva puede ir tan lejos como la distribucin general de valores, al dar una evidencia emprica y otras caractersticas de la poblacin. Esta evidencia tiene un apreciable valor puesto que afirma ciertas suposiciones que deben formularse en la aplicacin de la inferencia estadstica. Algunos trminos tiles de considerar: Variable. Caracterstica o fenmeno que puede tomar diferentes valores. As, peso, coeficiente intelectual, y sexo, son variables por cuanto pueden tomar distintos valores cuando se observan en diferentes individuos. Datos. Nmero o medidas que han sido recopilados como resultados de observaciones. Pueden ser recuentos (datos de frecuencia) tales como el nmero de individuos que prefiere a determinado candidato a Diputado, o pueden ser calificaciones como en el caso de una prueba psicolgica o educativa. Poblacin o universo. Conjunto completo de individuos, objetos, o medidas que poseen alguna caracterstica comn observable. Ej. todos los alumnos, todos los ciudadanos de un pas, etc. Muestra. Un subconjunto de la poblacin o universo. A la tcnica que nos permite construir muestras de tamao y calidad apropiada para el anlisis estadstico se le conoce como Muestro. Parmetro. Cualquier caracterstica de una poblacin que sea medible, por ejemplo el promedio de notas de alumnos. Se acostumbra a denotar los parmetros de las poblaciones usando letras griegas (Ej. , ). Cuando estos valores se calculan a partir de muestras, se considera que son estimadores de los parmetros poblacionales y se designan usando letras del alfabeto (Ej. x, s)

1/12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

Que operaciones considera la Estadstica Descriptiva, si consideramos un conjunto de observaciones: 1. Reorganizarlas y agruparlas de varias formas, para obtener una visin global de todo el conjunto de datos (Distribucin de Frecuencias). 2. Construir tablas, grficas y figuras que permitan visualizar los resultados (Tcnicas de Representacin grfica) 3. Se pueden convertir los resultados originales a forma que sean ms tiles para propsitos especficos, tales como, percentiles, y otros. 4. Podremos calcular promedios, y otras medidas para aprender algo del comportamiento especfico de sus problemas. (Medidas de Tendencia Central). 5. Empleando el promedio como punto de referencia podremos describir la dispersin de con respecto a un punto central. (Medida de dispersin). 6. Podremos obtener una relacin entre dos diferentes instrumentos de medida, usando el coeficiente de correlacin. El conocimiento de esta relacin permitir predecir el comportamiento de una variable en funcin de otra (Regresin y Correlacin) 1.2. Estadstica Descriptiva Unidimensional. Variables, Tabulacin de datos, Representacin Grfica. Medidas estadsticas Los datos obtenidos se pueden referir a caractersticas cuantitativas (variable discreta o continua) o cualitativas (atributos). Se denominan atributos a las propiedades de los fenmenos que se pueden describir cualitativamente, Ej. Profesin (ingeniero, mdico) o color de pelo (rubio, negro, trigueo). Las variables son las expresiones cuantitativas de algunas propiedades de los fenmenos (Ej. Peso, estatura, numero de hijos), en algunos casos es posible considerar a los atributos como variable 0-1, segn que la caracterstica falte o se presente en la observacin. En las variables se distingue entre discretas y continuas. Se consideran discretas, desde el punto de vista estadstico, aquellas que pueden tomar solo ciertos valores en el intervalo considerado y no admiten valores intermedios. Generalmente se trata de nmeros enteros y positivos. Ej. Una familia puede tener 0, 1, 2,... hijos, pero no algn valor intermedio. Variables continuas son aquellas que pueden tomar cualquier valor en el intervalo (peso, estatura, salarios). En la estadstica puede interesar una sola variable o atributo, se habla as de un caso unidimensional (alumnos del curso clasificados por estatura); pero tambin pueden considerarse simultneamente dos o ms variables, se trata entonces de un caso bidimensional (empleados clasificados por departamento y sueldos) o de un caso multidimensional (clasificacin de alumnos por edad, sexo y peso). Tabulacin de datos. Uno de las ideas ms bsicas es agrupar los datos, anotando el nmero de veces en que ste est presente en la muestra, esto es, su frecuencia (fi) (absoluta). Obviamente que este esquema podra ser de alguna utilidad cuando se trata de variables discretas, pero tiene la gran dificultad que se debe describir todos los valores, an cuando tenga frecuencia 0. Es por esto que es preferible agrupar las observaciones en un nmero relativamente pequeo de intervalos de clases (Ii) que no se superpongan entre s, para obtener una Distribucin de frecuencias. En esta tabla, adems de la frecuencia de clase, se agregan los siguientes elementos: o Punto medio del intervalo de clase, que es el promedio aritmtico entre los lmites superior e inferior de la clase, se llama tambin marca de clase (Xi). o Frecuencia acumulada de clase (Fi), corresponde a la acumulacin de las frecuencias desde el primer intervalo de clase, hasta la clase actual. o Frecuencia relativa de clase (hi), es el cociente de una frecuencia de clase y el nmero total de observaciones.
2/12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

o Frecuencia relativa acumulada (Hi), corresponde a la acumulacin de las frecuencias relativas de clase. Ejemplo: consideremos una muestra de 110 estudiantes de los que se dispone su CI para propsitos de anlisis. Resultados de C.I. de 110 estudiantes universitarios seleccionados al azar.
154 133 116 128 85 100 105 150 118 97 110 131 119 103 93 108 100 111 130 104 135 113 122 115 103 90 108 114 127 87 127 108 112 100 117 121 105 136 123 108 89 94 139 82 113 110 109 118 115 126 106 108 115 133 114 119 104 147 134 117 119 91 137 101 107 112 121 125 103 89 110 122 123 124 125 115 113 128 85 113 143 80 102 132 96 129 83 142 112 120 107 108 111 100 97 111 131 109 145 93 135 98 142 127 106 110 101 110 116 123

No existe una norma general que permita decidir respecto al numero de intervalos de clase que se debe considerar; por una parte, no deben ser muy pocos puesto que toda la informacin inherente a los valores originales se pierde; por otra parte, no deben ser tan pequeos que se desvirte el objetivo que se busca con la agrupacin. Parece bastante razonable confiar en la experiencia del investigador. Sin embargo, podemos considerar la frmula propuesta por Sturges para determinar el nmero de intervalos: k = 1 + 3.322 log10 n y entonces, sera conveniente considerar tambin una amplitud igual max min para cada intervalo. a= k El procedimiento para construir los intervalos, es: k = 1 + 3.322 * log intervalos.
10

110 = 1 + 3.322 * 2,0414 = 1 + 6,7815308 = 7,78, y consideraremos 8

Determinamos ahora la amplitud de cada uno de ellos, a = (154 80)/8 = 9,25 9, es posible simplemente redondear al entero ms cercano, los resultados finales no varan. Es recomendable utiliza un entero impar para mayor comodidad de las marcas de clase. Consideremos el ms bajo de los datos originales como limite inferior del primer intervalo de clases (es posible tambin partir unos puntos antes para repartir mejor los datos). Agregumosle a 1 para obtener el limite superior del primer intervalo de clase, este es : [78 - 86] (tambin es conveniente trabajar con los Lmites reales [78.5 86.5]) El lmite inferior del intervalo de clase siguiente, ser el entero consecutivo del lmite superior del intervalo de clase anterior: [87 - 95] ([86.5 95.5]). Usando este mismo procedimiento se construye el resto de los intervalos de clase.

3/12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

La Tabla de Frecuencia que se genera para el ejemplo anterior, teniendo en cuenta las consideraciones anteriores es:
Intervalo De Clase Ii 78 - 86 87 - 95 96 - 104 105 - 113 114 - 122 123 - 131 132 - 140 141 - 149 150 - 158 Lmites Reales Ir 78.5 86.5 86.5 95.5 95.5 104.5 104.5 113.5 113.5 122.5 122.5 131.5 131.5 140.5 140.5 149.5 |49.5 158.5 Marca de clase Xi 82 91 100 109 118 127 136 145 154 Frecuencia Absoluta fi 5 8 16 29 20 16 9 5 2 Frecuencia Acumulada Fi 5 13 29 58 78 94 103 108 110 Frec. Absoluta Relativa hi 0,045 0,073 0,145 0,264 0,182 0,145 0,082 0,045 0,018 FREC. Relativa Acumulada Hi 0,045 0,118 0,264 0,527 0,709 0,855 0,936 0,982 1,000

1 2 3 4 5 6 7 8 9

Representacin Grfica. El primer paso en al anlisis de datos es construir la Tabla de frecuencias. Generalmente el paso siguiente consiste en elaborar grficos que proporcionan visualmente un resumen de la informacin que interesa destacar y recordar. En un buen grfico se pueden apreciar la tendencia, variaciones, y anomalas del fenmeno representado. compararlos con otras si uno lo desea. Escala de variables nominales. Para este tipo de variables se puede construir un grfico de barras como el de la figura.
N m e ro d e A lu m n o s p o r F a c u lta d
3000 2500

N alumnos

2000 1500 1000 500 0 In g e n ie ra E d u ca c i n A g ro n o m a M e d icin a F a c u lta d

Este tipo de grfico tambin sirve para variables de tipo ordinal. Para cada categora se traza una barra vertical en que la altura de la barra representa el nmero de miembros de esa clase; de esta forma, el rea total de todas las barras es N.

4/12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

Escala de variables ordinales. En este caso los valores implican un ordenamiento que es expresable en trminos algebraicos de desigualdades (mayor que, menor que). Tal como se mencion es posible usar el tipo de grfico descrito anteriormente. Para ambos tipos de variables, si el nmero de elementos observados no es muy grande, podemos usar en grfico Tipo Circular (torta).
N alumnos por Facultades

26%

33%

Ingeniera Educacin Agronoma Medicina

14% 27%

Escala de variables de intervalos. o Histograma. Podemos usar como punto representativo de la clase, la Marca de clase Xi, y se considera la frecuencia absoluta di para graficar (podemos usar la frecuencia absoluta relativa, esto produce solo un cambio de escala.

Histograma
30 25 frecuencia 20 15 10 5 0 83 90 97 104 111 118 125 132 139 146 Marca de clase

Polgono de Frecuencias. podemos transformar el Histograma en otra forma muy empleada llamada Polgono de Frecuencias mediante la unin de los puntos medios de las barras (Marcas de Clase) con segmentos de rectas. Naturalmente no es necesario construir el histograma antes de elaborar el polgono de frecuencias.

5/12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

Polgono de Frecuencias
30 25 Frecuencia 20 15 10 5 0 83 90 97 104 111 118 125 132 139 146 Marca de clase

Cuantles. Se define un cuantl como el valor bajo el cual se encuentra una determinada proporcin de los valores de la distribucin. Se construyen varios tipos de cuantles, entre los ms comunes estn: percentil: que corresponde al anlisis del porcentaje de la distribucin, de modo que q20 es el percentil bajo el cual se encuentra el 20% de los valores de la distribucin. Decl: considera la distribucin dividida en 10 porciones. Cuartl, que considera la distribucin dividida en 4 partes.

Si queremos representar grficamente los percentiles, es preciso recurrir a la grfica de la distribucin de frecuencia acumulada. A partir de all, el valor del percentil se lee en el eje horizontal proyectando sobre el eje vertical el porcentaje asociado al percentil. En el grfico de ejemplo podemos apreciar que el percentil 67 (eje vertical), corresponde al valor aproximadamente a 118 (eje horizontal), q70 118.

Distribucin Frecuencias Relativa Acumulada


Hi 1

0.8 0.6

0,7

0.4 0.2 0 83 90 97 104 111 118 125 132 139 146 Xi

Esto significa que el 67% de los C.I. esta bajo el valor 118. Obviamente podemos obtener el rango percentil sin necesidad de recurrir al grfico, en este caso consideramos Rango percentil = [ Frec.Acumulada (Fi) / N ] * 100 = Frec.Relativa Acumulada (Hi)

6/12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

Naturalmente que corresponde al intervalo de clase (Ii), representado por la marca de clase (Xi). Para el valor exacto, necesitamos recurrir a una interpolacin, consideremos el mismo ejemplo anterior y calculemos cual es el rango percentil asociado al valor C.I. de 118: 118 [115 - 121], dado que se trata de una distribucin continua los valores reales del intervalo son [114.5 - 121.5], y entonces determinamos la distancia que est el 118 del lmite inferior del intervalo real 118 114.5 = 3.5. ahora determinamos que proporcin del intervalo le corresponde estas 3.5 unidades. Recordemos que para el ejemplo que estamos analizando, la amplitud que consideramos es de 7, por lo tanto la proporcin es 3,5/7 = 0,5. La frecuencia absoluta del intervalo analizado es de 16, entonces la frecuencia proporcional correspondiente para el 118 es 0,5 * 16 = 8. Ahora si le sumamos la frecuencia acumulada hasta el intervalo anterior, (8 + 60 = 68), tenemos que la frecuencia acumulada correspondiente a un C.I. de 118 es 68 lo que nos dan un rango percentil de 62%.

El mismo tratamiento y significado para el caso del los Decles.

7/12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

Medidas de Tendencia Central. Hemos visto como organizar los datos en forma til, ya sea a travs de la Tabla de Distribucin de Frecuencias, como las distintas representaciones grficas. Sin embargo, necesitamos establecer proposiciones cuantitativas que nos permitan describir la distribucin o comparar dos o ms distribuciones. Hay dos caractersticas que se presentan en mltiples distribuciones de frecuencia para los cuales se han desarrollado mtodos cuantitativos de descripcin: (1) con frecuencia los datos se acumulan alrededor de una valor central entre los dos extremos de la variable que se estudia, y (2) los datos pueden dispersarse o distribuirse alrededor de un valor central, en forma que esta tendencia puede ser especificada cuantitativamente. La capacidad de localizar un punto de tendencia central, particularmente cuando al mismo tiempo existe una descripcin de la dispersin de calificaciones con respecto a ese punto, puede ser muy til para el anlisis. Podremos reducir una masa de datos a un par de simples valores cuantitativos que pueden ser comprendidos y comunicados a otros especialistas. La Media Aritmtica. ( x cuando es referido a la muestra, y cuando estamos hablando de la poblacin) Es el estadgrafo ms conocido, el promedio de notas (suma de todas las notas, divididas por la cantidad de ellas), es una Media Aritmtica. Expresado esto en forma algebraica:

fi X i X 1 + X 2 + .. + X N i =1 = = i =1 M [X ] = X = N N N La ltima expresin se considera cuando se trata de datos tabulados. Si consideramos intervalos de clase, entonces X i corresponde a las marca de clase.
Propiedades: 1) M[a X + k] = a M[ X ] + k, donde a y k son constantes. 2) M[X X] = 0; esto es, la media aritmtica de los desvos de los datos con respecto a su media, es cero. Esto significa que la media es un estadgrafo que equilibra todos los puntajes ubicados a uno y otro lado de ella. De aqu se desprende que la media es muy sensible frente a valores extremos de la variable 3) La suma de los cuadrados de las desviaciones con respecto a la media aritmtica es menor que la suma de los cuadrados de las desviaciones con respecto a cualquier otro puntaje. La Mediana. La media aritmtica no proporciona una adecuada idea de posicin cuando existen valores extremos que pueden pesar demasiado en su determinacin. Por ejemplo, cuado queremos determinar el promedio de una asignatura debemos sacar del clculo aquellos alumnos que no tienen calificacin (se asume un 1). Por este motivo es preferible emplear la Mediana como estadgrafo de posicin. Se llama Mediana o valor mediano, una vez ordenado los valores en orden creciente (o decreciente), a todo valor Me de la variable que supere, a lo sumo, a la mitad de las observaciones, y que, al mismo tiempo, sea superado por a lo ms la mitad de las observaciones. 1) datos sin tabular: se presentan dos casos distintos. Una vez que los datos se ordenan creciente o decreciente (este proceso se hace engorroso si los datos son muchos, pero obviamente debemos recurrir a un programa computacional), a. nmero impar de observaciones, la determinacin es inmediata pues se toma el valor del medio, ejemplo: 14 19 22 17 y 16, al ordenarlos se tiene 14 16 17 19 - 22, y entonces Me = 17

Xi

8/12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

b. nmero par de observaciones, se considera el promedio aritmtico de los dos valores medios, ejemplo: 18 14 16 17 19 22, al ordenarlos se tiene: 14 16 17 18 19 22, y entonces Me = 17.5 2) datos tabulados: en este caso solo podemos encontrar el intervalo donde se encuentra el valor de la Mediana, para esto se determina la menor de las frecuencias absolutas acumuladas que supera la mitad de las observaciones F j > n/2 Referenciando por j el intervalo de la mediana (j 1 en intervalo anterior), la frmula para la mediana es: n 2 F j 1 M e = L j 1 + a j fj donde: L j1 es el lmite inferior del intervalo mediano aj es la amplitud del intervalo mediano F j1 es la frecuencia acumulada del intervalo anterior al mediano fj es la frecuencia absoluta del intervalo mediano Notas: podemos observar que esto es aplicable an si los intervalos son de amplitud distinta. Notar que la Mediana es equivalente a q50 (cuartl 50) y d5 (5to decil) Este procedimiento es igualmente aplicable para obtener los cuantiles, solo basta con considerar la muestra en cuartos, (n/4, 2n/4, 3n/4). El mismo procedimiento para deciles, percentiles. 3) Moda (Mo). Es un estadgrafo de posicin que puede definirse como el valor ms frecuente, es decir el que se presenta con mayor frecuencia. En trminos matemticos es el valor de la variable al que corresponde un mximo relativo. Se le emplea por sobre los otros estadgrafos cuando se desea sealar el valor ms comn o ms tpico. Al igual que la mediana, presenta una gran inestabilidad en el muestreo y tampoco permite un tratamiento algebraico. La moda es an menos importante que la Mediana debido a su ambigedad, pero es de fcil comprensin al igual que la Mediana y tampoco es sensible a valores extremos. datos tabulados: en este caso solo podemos encontrar el intervalo donde se encuentra el valor de la Moda, para esto consideramos el intervalo de mayor frecuencia absoluta. Las dos frmulas ms usadas para el clculo de la moda son: f j +1 f j f j 1 M o = L j 1 + a j = L j 1 + a j f j 1 + f j +1 ( f j f j 1 ) + ( f j f j 1 )

donde:

L j1 aj fj f j1 f j+1

es el lmite inferior del intervalo modal es la amplitud del intervalo modal es la frecuencia absoluta del intervalo modal es la frecuencia absoluta del intervalo anterior al modal es la frecuencia absoluta del intervalo siguiente al modal

4) Media geomtrica (Mg). Se usa especialmente en casos donde existe una tasa de crecimiento relativamente constante, o simplemente cuando se desean un porcentaje medio de crecimiento o de baja, segn corresponda. Tambin se usa de preferencia cuando es conveniente dar importancia a valores pequeos. M g = n x1 x2 ...xn , y para datos agrupados M g = n x1 1 x2 2 ...xm
f f fm

9/12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

para datos agrupados, la operacin se simplifica utilizando logaritmos, log M g = M log y i 5) Media Armnica (Mh). Se usa para obtener un valor representativo de un conjunto de datos expresados en forma de tasas, esto es, tantas unidades de un tipo por cada unidad de otra especie.
1 1 1 n M h = M = fi x n i =1 xi

10/12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

Medidas de Dispersin.

Tal como se indic al comienzo, la idea de dispersin se relaciona con la mayor o menor concentracin de los datos en torno a un valor central, generalmente la media aritmtica.
Varianza. (S2 cuando se trata de una muestra, 2 cuando estamos refirindonos a la poblacin). La Varianza de una distribucin unidimensional de frecuencias es la media aritmtica de los cuadrados de las diferencias entre los valores de la distribucin y su media aritmtica.

S 2 = V [X ] =

f (x
i =1 i

x) 2

Obviamente, si los datos no estn agrupados la frecuencia es uno. El valor numrico de la varianza cuantifica el grado de dispersin de los valores de una distribucin de frecuencias respecto de su media aritmtica. Mientras mayor es la dispersin, mayor es la magnitud de sus desviaciones respecto a la media aritmtica y por ende, ms alto el valor numrico de la varianza. Propiedades: 1) En algunos casos, la varianza se calcula con n 1 como divisor, (cuando se usa como estimador del valor poblacional). 2) Es preferible usar formula abreviada para clculos S2 = V[ X ] = M[ X 2 ] ( M[X] ) 2 , esto es, la media de los cuadrados menos el cuadrado de la media. 3) V[a X +k] = a2 V[x], donde a y k son constantes.
Desviacin estndar o tpica (s). Un problema de la varianza es que no se expresa en las mismas unidades de las variables originales; esto es, si las variables miden centmetros, entonces la varianza se expresa en centmetros cuadrados. Por eso se prefiere usar como estadgrafo la Desviacin tpica o estndar, que se define como la raz cuadrada positiva de la varianza.

s = + S2 Como la desviacin tpica se expresa en las mismas unidades que la variable, permite una comparacin ms adecuada con los valores originales.
El rango, es la ms sencilla y directa medida de dispersin corresponde a la distancia escalar entre la mayor y la menor de las observaciones. Es poco usada, especialmente por su inestabilidad puesto que solo compara los dos valores ms extremos. El rango intercuartil, permite superar la inestabilidad del rango como estadgrafo, se calcula simplemente restando al tercer cuartil (Q3 = q75) el valor del primer cuartil (Q1 = q25). La desviacin media (Dm), este estadgrafo tambin usa la media como la medida de tendencia central, pero para contrapesar los desvos, define el valor absoluto de ellos.
11/12

Apuntes de Estadstica Profesor Aldo Vergara Cubillos

Dm =

f
i =1

Xi X n

Como base para la comparacin de la dispersin existente en varias distribuciones, la desviacin media es bastante prctica. As por ejemplo, cuanto mayor es la desviacin media tanto mayor es la dispersin de las observaciones. Sin embargo, para la interpretacin de las observaciones en una distribucin, la desviacin media es menos til puesto que no existe una relacin matemtica precisa entre la desviacin media, y la situacin de las observaciones dentro de la distribucin.

12/12