Sie sind auf Seite 1von 9

Estadstica I 1 Melanie Nogu Fructuoso

ESTADSTCA TEMA 1 ESTADSTCA DESCRPTVA


1.1. Poblacin y muestra. Variables y datos
La estadstica es un conjunto de tcnicas el objetivo de las cuales es entender y proveer conclusiones sobre un fenmeno en un lugar y tiempo particular. El fenmeno a estudiar se llama variable. Lugar y tiempo determinado es la poblacin. El conjunto de datos es la muestra u observaciones.

1.1.1. Definiciones
Estadstica descriptiva: es un subcampo de la estadstica que trata de organizar los datos de tal modo que su anlisis sea lo ms simplificado posible. Una vez todo organizado, se pueden usar las tcnicas de la inferencia estadstica, que usa herramientas probabilsticas para extender las conclusiones obtenidas de la muestra a toda la poblacin que se est estudiando.

1.2.

Tipos de variables

Existen diferentes tipos de variables segn su naturaleza: Cuantitativas (o medibles): pueden ser medidas numricamente. o Continuas: toman valores dentro de un rango. o Discretas: toman valores de una lista finita o contable. Cualitativas (o categricas): no pueden medirse numricamente. Cada observacin es asociada a un nmero o a una letra.

1.2.1. Distribucin de frecuencias de variables


Las distribuciones de frecuencias consisten en contar el nmero de veces que cada valor aparece en los datos. Tenemos las frecuencias absolutas y las frecuencias relativas. Frecuencia absoluta ( es el nmero de veces que el valor aparece en el conjunto de datos. Frecuencia relativa ( ) es el porcentaje de veces que el valor aparece en el conjunto de datos.

Adems, estas dos estn relacionadas por:

Estadstica I 2 Melanie Nogu Fructuoso

No obstante, hay que tener en cuenta que en variables continuas (ingresos, gastos) una tabla de distribucin de frecuencias proporcionara poca informacin por poder tomar muchos valores. Entonces, lo aconsejable es que se renan los datos en intervalos. Para construir intervalos: Rango: distancia entre el valor menor y el valor mayor que toma una variable en la muestra. Longitud de intervalo: una vez sabido el rango, ste lo tenemos que dividir en tantos intervalos que se necesiten. El nmero de intervalos (I) depender de lo que estemos estudiando.

Construir intervalos. Marca de clase: es el punto medio del intervalo en cuestin. Pueden ser tiles para calcular algunas caractersticas de la variable.

1.3. Medidas de centralizacin, dispersin y otras 1.3.1. Medidas de tendencia central


En este grupo tenemos la media, la mediana y la moda. La media: es la ms usada y se calcula haciendo un promedio, es decir, suma de todos los valores dividido entre el total de stos. No obstante, existen dos formas segn la frecuencia para calcular la media: - Con las frecuencias absolutas: Con las frecuencias relativas:

En el caso de variables continuas, usando los dos anteriores clculos se obtiene una aproximacin a la media. Esto sucede porque estn en intervalos, y por ello deberemos usar marcas de clase en vez de los valores observados. Las propiedades de la media son: Si cambiamos las unidades de los valores, no hace falta cambiarlos todos, slo har falta que cambiemos el valor final.

Estadstica I 3 Melanie Nogu Fructuoso Linealidad de la media. La media de cualquier combinacin lineal de dos variables es igual a:

La mediana: es el valor central de la muestra de modo que un 50% de las observaciones son iguales o menores que este valor y un 50% son iguales o mayores. Tenemos que ordenar los valores de menor a mayor y el valor de la mitad es la mediana. Para calcularla depender de si el tamao de la muestra es par o impar. o Par: se va a obtener 2 medianas. Si son dos nmeros diferentes, lo que se debe hacer es el clculo de la media de estos dos valores. Si los datos los tenemos en una tabla de frecuencias, la mediana se encuentra mirando la columna de frecuencias acumuladas absolutas . Es decir, buscamos la mitad de nuestra muestra y la mediana ser aqul valor que sobrepase la mitad de sta. Por ejemplo, si tenemos 350 muestras, la mitad es 175, y entonces la media ser el valor de aquella muestra que supere el 175.

En frecuencia relativa acumulada, es aquella que sobrepasa el 50% (o 0,5). La moda: tomar el valor que aparezca con mayor frecuencia. Para detecta si un valor es moda o no debemos mirar los valores de uno por arriba y uno por debajo. Por ejemplo: Valor de x 2 3 4 5 7 8 Frecuencia absoluta 3 1 2 2 1 1 Por lo tanto diramos que 2,4, 5 y 8 son moda pues son los que tienen mayor frecuencia absoluta a su alrededor. La moda absoluta es el valor ms alto. En nuestro ejemplo tomara el valor de 2. En el caso de variables continuas, la moda se denomina clase modal.

Estadstica I 4 Melanie Nogu Fructuoso

1.3.2. Medidas de dispersin


Lo que veremos es cun dispersados ests nuestros valores respecto al valor central, el cual lo llamaremos v. El error cuadrtico medio es una medida de error entendido como la diferencia entre el valor de una observacin y la medida de centralizacin v.

No obstante, esto presenta un problema, y es cuando el error total da 0 y da lugar a la INCORRECTA conclusin de que todas las observaciones son iguales al valor central. Entonces, la solucin es elevar los errores al cuadrado y adems lo dividiremos por el total de valores, obteniendo as el error cuadrtico medio. Cuando v sea la media, el ECM se llamar varianza:

La varianza sirve para que si tenemos 2 muestras con la misma media podamos ver cul de ellas est ms dispersa que la otra. La varianza corregida se calcula:

Propiedad importante: para cualquier valor central de v se tiene que: Desviacin tpica: es la raz cuadrada de la varianza y la denotaremos con una S. esto es as pues cuando calculamos algo con la varianza nos da las unidades elevadas al cuadrado. As conseguiremos la misma medida que nuestros datos.

Estadstica I 5 Melanie Nogu Fructuoso Si tenemos 2 datos con unidades diferentes (como aos y quilmetros) no podemos usar la desviacin tpica. Entonces miraremos si estn dispersos con el coeficiente de variacin, el cual no mira unidades de medida, pues es un valor sin medida. Coeficiente de variacin: ste se calcula: Los cuartiles (o rango intercuartlico): indican diferentes posiciones en la muestra, la cual se divide en 4 grupos y los cuartiles sern los ltimos nmeros de los 4 subgrupos. o Primer cuartil: hasta el 25%. o Segundo cuartil: hasta el 50%. o Tercer cuartil: hasta el 75%. o Cuarto cuartil: el 100%. Para ello, deberemos observar la tabla de frecuencia relativa acumulada. Importante: Q2=Mediana. Para calcular el rango intercuartlico haremos:

Dando lugar a que cuanto ms grande sea RI ms desviacin hay en nuestra muestra.

1.4.

Histogramas y otras representaciones grficas

Cuando tenemos variables cualitativas las representaremos con diagramas de barras o sectores. Diagrama de barras: o Representan las frecuencias de una variable. o La altura representa la frecuencia relativa acumulada de cada valor. Diagrama de sectores: o Se usa con los valores de la variable. El tamao de los sectores viene determinado por la frecuencia relativa acumulada. En cambio, cuando tenemos variables continuas usaremos: Histogramas: son equivalentes a los diagramas de barras pero representan la frecuencia relativa acumulada de los intervalos. o Son muy usados en estadstica ya que nos puede mostrar como si fuera una probabilidad. Mirando las barras ms altas tenemos el intervalo con ms probabilidades. Diagrama de cajas: son muy tiles para ver el grado de dispersin.

Estadstica I 6 Melanie Nogu Fructuoso

Mayor valor Q3

RI

Media Mediana=Q2 Q1

Menor valor

1.5. Frecuencias multivariantes: condicionadas

frecuencias

marginales

Hasta ahora lo que hemos hecho es analizar una a una las variables y ahora haremos un anlisis multivariante. Esto es as porque nos interesa saber cmo estn relacionadas entre s las variables. Variables cuantitativas: tabla de correlacin. Cualitativa+cuantitativa: tabla de contingencias. Por ejemplo, X1 es el nmero de miembros en la familia y X5 es si tienen (1) o no (0) ADSL: X5 X1 2 3 4 5 7 8 0 2 1 0 1 0 0 1 1 0 2 1 1 1 Esta tabla se llama bidimensional de frecuencias. Adems es una tabla de contingencias pues tiene una variable cualitativa (X5). Llamamos x e y a las variables. Los valores que tomen en la tabla tendrn 2 subndices y vienen denotados por n.

Frecuencia absoluta conjunta: 6

Estadstica I 7 Melanie Nogu Fructuoso Frecuencias marginales: buscamos lo mismo, el grado de relacin entre las variables. A partir de la frecuencia conjunta se puede sacar informacin individual. En nuestro ejemplo, podemos saber el total de familias con dos miembros sumando el nmero que tiene o no tiene ADSL. X5 X1 2 3 4 5 7 8 0 2 1 0 1 0 0 4 0.4 1 1 0 2 1 1 1 6 0.6 3 1 2 2 1 1 10 1 0.3 0.1 0.2 0.2 0.1 0.1 1 Distribucin marginal absoluta de X1

Distribucin relativa marginal de X1

Frecuencia marginal de variable X5 Propiedades: las frecuencias marginales cumplen que el sumatorio da el total. Frecuencia condicionada: nos puede interesar tambin la distribucin de una de las variables cuando fijamos un valor de la otra variable. Por ejemplo, de las familias con 3 miembros que tengan ADSL. Por ello, tendremos que buscar la frecuencia relativa conjunta, la cual en nuestro ejemplo es 0.1 si miramos la frecuencia marginal. Ahora miremos la frecuencia condicionada preguntndonos:

De las familias que tienen ADSL, qu porcentaje son de 3 miembros?


Nos miramos la columna de y2 y vemos que hay 0 familias. Ahora, en vez de 3 miembros, miremos el porcentaje de 4 miembros, y vemos que son 2. Calculamos:

Estadstica I 8 Melanie Nogu Fructuoso

1.6.

Covarianza y correlacin

La covarianza es una medida del grado de relacin existente entre dos variables X e Y: . El signo que tenga la covarianza indica cmo cambian las dos variables: >0 para altos valores de una variable tambin lo ser la otra. <0 para altos valores de una variable la otra ser ms baja.

Y con las frecuencias relativas:

De la covarianza analizamos el signo y no el nmero, por lo tanto no lo podemos interpretar pues slo indica cun grandes son los valores con los que estamos trabajando. La covarianza depende de las unidades de las variables, y por ello no es un buen indicador de la intensidad de relacin. Coeficiente de correlacin: es la solucin al planteamiento anterior. Tambin se llama coeficiente de Pearson.

Como vemos simplemente es un ratio el cual no tiene unidad de medida. Siempre fluctuar entre 1 y -1. Cuanto ms prximo sea a +-1, ms intensa es la relacin. La relacin es nula cuando sea igual a 0. No obstante, que sea prximo a 0 no significa que no haya relacin.

Estadstica I 9 Melanie Nogu Fructuoso 1.7. Medida y varianza de combinaciones lineales de variables Muchas veces las variables se pueden expresar como combinaciones de otras variables. Por ejemplo los costes de una empresa.

Entonces, diremos que una variable X es una combinacin lineal de las variables X1 y X2 si podemos encontrar dos coeficientes a1 y a2 tales que:

Das könnte Ihnen auch gefallen