Sie sind auf Seite 1von 18

ESTADSTICA DESCRIPTIVA

Escuela de Estudios de Postgrado


Arq. MSc. Edgar Jurez Seplveda

CONCEPTOS BSICOS
Estadstica: Es la ciencia que da normas que permiten reducir a unas medidas caractersticas un conjunto de informacin numrica, convirtindolo en valores susceptibles de anlisis. Es una parte del mtodo cientfico encargado de la recopilacin, organizacin, anlisis e interpretacin de datos numricos y el uso de tales datos para la toma de decisiones racionales.

CONCEPTOS BSICOS
ESTADSTICAS: Son observaciones numricas o datos de una poblacin, que dan a conocer las caractersticas de la misma. POBLACIN: Conjunto de elementos (personas, objetos) con caractersticas comunes. Ej. Alumnos, viviendas, cuentas pendientes de pago, etc. La poblacin puede ser finita infinita

CONCEPTOS BSICOS

CARACTERSTICAS: Signo distintivo del elemento de la poblacin. La caracterstica puede ser cualitativa o cuantitativa.
Atributo: Es la caracterstica cualitativa del elemento de la poblacin y no permite grados de comparacin. Ej. Estado civil, sexo. Su clasificacin se hace en grupos llamados modalidades.

CONCEPTOS BSICOS
Variable: Es la caracterstica cuantitativa del elemento de la poblacin y esta s permite grados de comparacin. Ej. Estatura, peso, saldos de cuentas. Su clasificacin se hace en grupos llamados clases. La variable puede ser discreta o continua. Discreta: Caracterstica cuantitativa del elemento de la poblacin, que no permite divisin o fraccionamiento y por lo tanto se presenta en forma de nmero entero. Ej. Nmero de cuentas, nmero de hijos, nmero de estudiantes.

CONCEPTOS BSICOS
Continua: Caracterstica cuantitativa del elemento de la poblacin, que s permite divisin o fraccionamiento. Ej. Peso, estatura, valor de saldos de cuenta, se presenta en forma de nmero real.

CONCEPTOS BSICOS

Clasificacin de la Estadstica:
Estadstica descriptiva: Es aquella referente a la descripcin y anlisis de un grupo determinado de datos, sin establecer conclusiones sobre un grupo ms grande en el cual estn contenidos los datos estadsticos. Estadstica inferencial o inductiva: Es la estadstica a travs de la cual, es posible sacar conclusiones importantes de una poblacin, con el anlisis de una muestra obtenida de la misma.

CONCEPTOS BSICOS
SERIE: Es un ordenamiento de datos numricos, en orden creciente o decreciente, (sin considerar que existan repeticiones o no). DISTRIBUCIN DE FRECUENCIAS: Es un ordenamiento tabular de datos numricos, segn una agrupacin en clases y las correspondientes frecuencias de las mismas.

CONCEPTOS BSICOS

LIMITE DE CLASE: La escritura 53-57 se denomina clase o intervalo de clase. Los nmeros 53 y 57 se conocen como lmites discretos de clase, as 53 ser el lmite discreto inferior de la clase y 57 ser el lmite discreto superior de la clase. Para la aproximacin de los intervalos, se utiliza los denominados lmites reales de clase, que se indican con un decimal 0.5 de menos y 0.5 de ms en el lmite discreto superior de la respectiva clase. En el ejemplo 5357, el lmite real inferior es 52.5 y el lmite real superior 57.5

CONCEPTOS BSICOS
AMPLITUD DEL INTERVALO DE UNA CLASE: Es la diferencia entre los lmites reales superior e inferior de la misma. Tambin se puede obtener tal amplitud, haciendo la diferencia entre los lmites discretos superior e inferior de la clase, ms uno. 57-53= 4+1 = 5 57.5 52.5= 5

CONCEPTOS BSICOS
VALOR CENTRAL O PUNTO MEDIO DE UNA CLASE: Se obtiene sumando los lmites inferior y superior (reales o discretos) de la clase y dividiendo entre dos. Por razones del anlisis estadstico matemtico posterior a la agrupacin de los datos, todas las observaciones que pertenecen a una determinada clase, se hacen coincidir con el valor central o punto medio de esa clase. 53-57 = Se consideran que son de valor 55

DISTRIBUCIN DE FRECUENCIAS
Ordenamiento de los datos Determinar la amplitud de la distribucin o amplitud de la variable R (rango, oscilacin, recorrido), diferencia entre lmite superior e inferior de la variable, ms uno. Determinar la amplitud del intervalo de clase constante c, usando la frmula de Sturgess. Si no es satisfactorio puede usarse otra cantidad que se adapte a nuestra exigencia o principios estadsticos.

DISTRIBUCIN DE FRECUENCIAS
c

R 1 (3.322 log n)

Formula de Sturgess Debe de tomarse en cuenta que en la elaboracin de distribucin de frecuencias, se pierde informacin que proporciona el conjunto de datos originales, pero se obtiene un avance en cuanto a la visin sinttica y relaciones evidentes.

Requisitos mnimos: Las frecuencias no deben de tener el mismo nmero si son subsiguientes. El nmero de frecuencias no debe de ser igual a 0 en ninguna de las clases. Los nmeros de las frecuencias correspondientes a cada clase, deben ir ascendiendo hasta un punto, despus del cual, comienza a descender. El nmero de las clases no debe de ser muy pequeo ni grande: normalmente debe variar entre cinco y veinte.

DISTRIBUCIN DE FRECUENCIAS

DISTRIBUCIN DE FRECUENCIAS

Si una distribucin de frecuencias no cumple con tales caractersticas, es conveniente escoger otra amplitud de clase constante, si se desea efectuar un mejor anlisis de la informacin y evitar alguna ambigedad.

EJEMPLO

Pesos de un grupo de 30 estudiantes registrados en kilogramos, los que luego se disponen en el siguiente arreglo ascendente:
53 57 66 53 58 65 55 80 69 55 59 66 75 58 59 55 60 67 67 56 62 55 60 69 60 77 57 56 60 70 65 58 70 56 60 70 63 70 60 57 62 71 55 58 64 57 63 75 56 60 60 58 64 77 71 55 65 58 65 80

Los valores extremos de este arreglo son 53 y 80 Kg. Rango igual a 28

EJEMPLO

Aplicando la frmula de Sturgess:


c 28 1 (3.322 log 30)

c 4.74

Se considera como 5

EJEMPLO

La distribucin de frecuencia queda de la siguiente forma:


PESO (KG) 53-57 58-62 63-67 68-72 73-77 78-82 TOTAL No. Estudiantes 8 9 6 4 2 1 30

GRAFICAS

HISTOGRAMA: Es un grfico que sirve para representar una distribucin de frecuencias. Est formada por un conjunto de rectngulos que tienen como base un eje horizontal y como centros los puntos medios de las clases. Los anchos de los rectngulos son iguales a los tamaos de los intervalos de las clases y las reas de los rectngulos son proporcionales a las frecuencias de las clases.
HISTOGRAMA
10 9 8 7 FRECUENCIA 6 5 4 3 2 1 0 1 PESO
Series1 Series2 Series3 Series4 Series5 Series6 Series7

GRAFICAS

POLGONO DE FRECUENCIAS: Grfico formado de lneas quebradas, que tienen los centros de las clases representadas en un eje horizontal y las frecuencias de las clases en un eje vertical. La frecuencia correspondiente a cada centro de clase seala mediante un punto y luego los puntos consecutivos se unen por lneas rectas.
POLIGONO FRECUENCIAS
10 9 8 7 FRECUENCIA 6 5 4 3 2 1 0 1 2 3 PESO 4 5 6
Series1

GRAFICAS

OJIVA: grfico que representa una distribucin acumulativa de frecuencias.


OJIVA
35 30 25 FRECUENCIA 20
Series1

15 10 5 0 1 2 3 PESO 4 5 6

Medidas de tendencia central y posicin


Escuela de postgrado

Arq. MSc. Edgar Jurez Seplveda

MEDIDAS DE TENDENCIA CENTRAL


DATOS NO AGRUPADOS: se utiliza para analizar poblaciones o muestras pequeas generalmente cuando tienen 30 o menos elementos. MEDIDAS DE TENDENCIA CENTRAL: Son medidas que describen el centro de una distribucin, que es donde se localizan la mayor parte de los datos (caso tpico en la distribucin normal) MEDIA ARITMTICA: Es el valor equidistante entre el grupo de mayor valor y el punto de menor valor de una serie de datos.

xi
i 1

MEDIDAS DE TENDENCIA CENTRAL

EJEMPLO:
2, 10, 4, 6, 9, 7, 5, 12 Sumatoria 55 Nmero de datos 8
x 55 8

Media= 6.875

MEDIDAS DE TENDENCIA CENTRAL

LA MEDIANA: Es el valor que divide en dos partes iguales a una serie de datos finitos. Para encontrar la mediana es necesario ordenar los datos, y pueden ocurrir dos casos:
Que el nmero de datos sea impar, la mediana ser valor central de la serie. 3,5,8,12,25 la mediana 8. Que el nmero de datos sea par, la mediana ser la media aritmtica de los valores centrales. 2,4,7,25,39,47. La mediana es 16 o sea la media de 7 y 25.

MEDIDAS DE TENDENCIA CENTRAL

LA MODA: es el valor que ocurre con ms frecuencia en una serie de datos. Si no existe se denomina amodal, donde existe ms de una toma el nombre de bimodal, trimodal, etc.
1,2,3,4,5,7,8 no existe moda AMODAL 1,5,6,6,7,8,9 La moda es 6

MEDIDAS DE TENDENCIA CENTRAL


DATOS AGRUPADOS: cuando la cantidad de datos es grande, es conveniente agrupar los datos en distribuciones de frecuencias segn tema anterior. MEDIA O PROMEDIO: El valor del punto medio de la clase, como valor de las observaciones de los datos de la tabla de frecuencias.

1880 62.67 30

MEDIDAS DE TENDENCIA CENTRAL

MEDIANA: Para su calculo se utiliza la siguiente formula:

Me Li

Li= lmite real inferior de la clase mediana N= numero de datos o sumatoria de frecuencias fa= Frecuencias acumulada anterior a la clase mediana f= frecuencia de la clase mediana La clase mediana se determina por n/2 y observando la frecuencia acumulada.

(n / 2 fa ) c f

MEDIDAS DE TENDENCIA CENTRAL

Me 57.5

(30 / 2 8) 5 9

MEDIANA= 61.39

MEDIDAS DE TENDENCIA CENTRAL

MODA: Para su calculo se utiliza la siguiente formula:

Mo Li

Li= limite real inferior de la clase modal d1= frecuencia de la clase modal menos frecuencia anterior d2= frecuencia de la clase modal menos frecuencia posterior c= amplitud de clase La clase modal es la que tiene la ms alta frecuencia.

(d1) c (d1 d 2)

10

MEDIDAS DE TENDENCIA CENTRAL

Mo 57.5

(1) 5 (1 3)

En nuestro ejemplo la ms alta frecuencia es 9, 5862 MODA= 58.75

D1= 9-8=1 D2= 9-6=3

MEDIDAS DE POSICIN
CUANTILES: Son medidas de posicin que situan valores a diferentes puntos de la distribucin, los ms utilizados son los quartiles, los deciles y los percentiles. QUARTILES: Dividen la distribucin en cuatro partes iguales Q1, Q2, Q,3

Qj Li

(nj / 4 fa ) c f

MEDIDAS DE POSICIN

Qj;j=1,2,3

((30 *1) / 4) 0 5 8 Q1 57.1875 Q1 52.5

11

MEDIDAS DE POSICIN

DECILES: Dividen la distribucin en diez partes iguales D1, D2, D3D9

Dj Li

(nj / 10 fa ) c f

D8 67.5 D8 68.75

((30 * 8) / 10) 23 5 4

Dj;j=1,2,39

MEDIDAS DE POSICIN

PERCENTILES: Dividen la distribucin en cien partes iguales P1, P2, P3P99

Pj Li

(nj / 100 fa ) c f

((30 * 85) / 100) 23 5 4 P85 70.625 P85 67.5

Pj;j=1,2,399

MEDIDAS DE DISPERSIN
Escuela de Estudios de Postgrado

12

INTRODUCCION El conocimiento de la forma de distribucin y de las medidas de posicin puede servir para tener una idea bastante clara de su conformacin, pero no de la homogeneidad de cada uno de los valores con respecto a la medida de tendencia central aplicada. Las medidas de dispersin permiten apreciar el grado de variabilidad propagacin de los datos.

MEDIDAS DE DISPERSIN DATOS NO AGRUPADOS


RANGO Es la diferencia entre la mayor y la menor observacin en una serie de datos. Estos es: Mide la propagacin total en la serie de datos, es una medicin simple y de fcil clculo pero su

Rango xmayor xmenor


debilidad es que no logra tomar en cuenta la forma en que los datos se distribuyen realmente entre el mayor y el menor valor. Usando los datos del ejemplo 1. (pgina 5): 2, 4, 5, 6, 7, 9, 10, 12 El Rango sera: R= 12- 2 = 10

LA VARIANZA
Es el cuadrado medio de las desviaciones de una serie de datos, con respecto a su media aritmtica y se calcula de la siguiente manera:
s2 ( x x)
i 2

2 i

( xi ) N N

Con los datos del ejemplo 1 tenemos: Sumatoria Xi= 55 Sumatoria Xi^2 = 455

s2

455 8

552 8 9.6093

13

LA DESVIACION STANDARD
El clculo de la varianza, se hace utilizando datos cuadrticos con el objetivo de que las desviaciones no se cancelen entre s, por esta razn, es necesario trabajar con valores originales (no elevados al cuadrado) y esto se logra con la desviacin standard. El clculo de la desviacin standard a partir de la varianza, es simplemente obtener la raz cuadrada de esta ltima.

s 2 9.6093 3.10

Propiedades El 68.27% de los datos de una distribucin, estn a una desviacin standard de la media.

El 95.45% de los datos de una distribucin, estn a dos desviaciones estndar de la media.
El 99.73% de los datos de una distribucin, estn a tres desviaciones standard de la media.

EL COEFICIENTE DE VARIACION
Es una medida de dispersin relativa que se obtiene dividiendo la desviacin estndar de la serie de datos entre su media aritmtica y se multiplica por 100 para expresarlo en porcentaje. Es un dato adimensional puesto que los datos con se calcula estn expresadas en sus dimensionales originales. Es til cuando se quiere comparar series de datos con dos variables diferentes, ejemplo: altura y peso.

C.V .

*100

C.V .

3.10 *100 45.09 6.875

14

SESGO
Es el grado de asimetra falta de simetra de una distribucin. Si la curva de frecuencia tiene una cola ms larga a la derecha del mximo central que a la izquierda, se dice que la distribucin esta sesgada a la derecha que tiene sesgo positivo, si es a la izquierda se dice que tiene sesgo negativo.

PRIMER COEFICIENTE DE PEARSON


En distribuciones sesgadas, la media tiende a situarse con respecto a la moda al mismo lado que la cola ms larga. As una medida de la asimetra nos dada por la diferencia (Media-Moda) y se adimensiona dividindola por una medida de dispersin.

x Mo sesgo s

sesgo

62.67 58.75 0.5766 6.798

SEGUNDO COEFICIENTE DE PEARSON


Para evitar el empleo de la moda, se puede usar la frmula emprica (2.2.1.4 de la pagina 7) as:

sesgo

3( x Me) s

sesgo

3(62.67 61.39) 0.56487 6.798

15

COEFICIENTE DE SESGO USANDO EL MOMENTO DE ORDEN TRES CON RESPECTO A LA MEDIA


En este momento nos va a ser til la hoja de clculo que venimos usando para datos agrupados agregando lo siguiente: Continuacin tabla peso estudiantes.........

(x-x)^3 -451.217663 -19.034163 12.649337 393.832837 1874.51634 5204.69984 7015.44652

f(x-x)^3 -3609.7413 -171.307467 75.896022 1575.33135 3749.03267 5204.69984 6823.91111

(x-x)^4 3460.83948 50.8212152 29.4729552 2886.7947 23112.7864 90197.4482 119738.163

f(x-x)^4 27686.7158 457.390937 176.837731 11547.1788 46225.5729 90197.4482 176291.144

coeficient e sesgo

a3

6823.91 m3 30 3 0.724 3 s 6.798

COEFICIENTE b1
2 b1 a3 0.7242 0.5242

P=0 NORMAL P>0 DERECHA (+)

DERECHA

16

P=0 NORMAL P<0 IZQUIERDA (-)

IZQUIERDA

CURTOSIS
Es el grado de apuntamiento de una distribucin, normalmente se toma en relacin a una normal. Una distribucin que presenta un apuntamiento relativo alto, se le llama: leptocrtica, mientras que la curva que es ms achatada se llama platicrtica. La distribucin normal se llama: mesocrtica. La curtosis ms utilizada es la que utiliza el momento de cuarto orden con respecto a la media expresado en forma adimensional, as:

curtosis a4

m4 s4

a4

176291.144 30 2.75 6.7984

Al coeficiente a4 se le denomina como b2. Para una distribucin normal, b2= 3. Muchas veces la curtosis se designa como (b2-3), el cul es positiva para una distribucin leptocrtica, negativa para una platicrtica y 0 para una mesocrtica.

17

18

Das könnte Ihnen auch gefallen