Beruflich Dokumente
Kultur Dokumente
Qu es Estadstica?
La Estadstica estudia mtodos cientficos para recoger, organizar, resumir y analizar datos, as como para sacar conclusiones vlidas y tomar decisiones razonables basadas en tal anlisis Murray R. Spiegel
Estudio Estadstico
1.
2.
Se realizan observaciones aleatorias de un fenmeno que no se puede predecir con anterioridad. Se realiza un muestreo (se selecciona una muestra representativa de la poblacin).
Estudio Estadstico
3.
4.
Se recolectan datos de cada elemento muestreado (por ejemplo a travs de un cuestionario). El objetivo final es inferir estadsticamente algo sobre la poblacin, deseamos concluir algo sobre alguna caracterstica de la poblacin en la que se realiza el estudio.
Ramas de la Estadstica
Estadstica Descriptiva o Deductiva: estudia los mtodos para organizar, sumarizar y describir un conjunto de datos para que sus caractersticas se vuelvan evidentes. Se divide en:
Ramas de la Estadstica
Estadstica Inferencial o Inductiva: usa la teora de probabilidades para generalizar las caractersticas de una poblacin a partir de las caractersticas de una muestra representativa. Es decir, utiliza estadsticas muestrales para obtener conclusiones sobre los verdaderos parmetros de la poblacin.
Poblacin vs Muestra
Poblacin: es el conjunto de todas las mediciones de inters al experimentador. Su tamao se denota con la letra N. Muestra: es un subconjunto de la poblacin. Generalmente esta seleccin se hace aleatoriamente, cada individuo en la muestra tuvo la misma posibilidad de haber sido seleccionado. Su tamao se denota con la letra n.
Lo ms importante no est en lo que la muestra nos dice sobre sus miembros especficos, sino en cmo hacer inferencias sobre los miembros de la poblacin que no fueron incluidos en la muestra.
Un estadstico primero disea la muestra y el experimento para minimizar los costos de obtener la informacin. Despus busca el mejor mtodo para realizar la inferencia segn el muestreo dado. Finalmente mide la bondad de la inferencia.
Variables Aleatorias
A los diferentes fenmenos o caractersticas que se miden en un estudio estadstico se les denomina variables aleatorias. La diferencia entre variables aleatorias y variables algebraicas es que nos interesa saber la probabilidad de ocurrencia de sus posibles valores antes de que estos valores sean observados.
Tipos de Datos
Cualitativos:
Arrojan respuesta categricas. Miden cualidades Se les puede asignar despus un valor numrico (codificarlas)
Producen respuestas numricas. Miden cantidades Podemos tratar un dato cuantitativo como cualitativo (categorizando)
Cuantitativos:
Discretos:
Si el nmero de posibles valores que puede tomar es contable (nmero naturales). Generalmente resultan de un proceso de conteo
Continuos:
Si sus posibles valores estn en el continuo (nmeros reales). Generalmente resultan de un proceso de medicin
Escalas de Medicin
Los datos que se asocian con las variables aleatorias pueden medirse con diferentes escalas dependiendo del tipo de dato que se trate. Las distintas medidas son:
Escalas de Medicin
a) Medidas por Escala Nominal: Los datos de tipo cualitativo se agrupan en varias categoras nominales. Generalmente se le asigna un valor numrico a cada categora nominal (codificar los datos) Caso especial: dictomos
Escalas de Medicin
b) Medidas por Escala Ordinal: Los datos de tipo cualitativo guardan un orden natural. Son datos que pueden medirse con una escala nominal, en donde adems existe un orden natural entre las categoras. Se pueden realizar operaciones aritmticas con los nmeros asignados a las categoras. El resultado no indica nada.
TABLAS DE FRECUENCIA
Tablas de Frecuencia
Los datos recopilados en la muestra se pueden organizar en Tablas de Frecuencias. Estas tablas muestran:
las clases o categoras de respuesta de donde se obtuvieron los datos (o los intervalos de clase si los datos son cuantitativos) El nmero o proporcin de veces que la clase se encontr en los datos recopilados.
fi fri n
Rango: Es la diferencia que existe entre el valor mas grande y el mas pequeo.
Nmero de Intervalos:
Raz de n: el resultado se redondea al siguiente entero. Regla de Sturges: num.de intervalos = 3.3 (log n) + 1
Marca de Clase: Es el punto medio del intervalo de clase. Se usa en los mtodos estadsticos como valor estimado de las observaciones que cayeron dentro de ese intervalo
fa i f j
j1
Frecuencia Relativa Acumulada (fra): es la proporcin de observaciones acumuladas hasta la clase de referencia:
fai frai n
Selecciono a los datos de la muestra como rango de entrada OPCIONAL: Selecciono a los lmites superiores como rango de clases
Se tabulan dos variables en una sola tabla. Tambin se llaman tablas de cruce o de contingencia.
Hombre 10 22 7 2 4 Mujer 12 23 13 6 1 Total por Estado Civil 22 45 20 8 5 Soltero Casado Divorciado Viudo Otro
Estado Civil
45
55
100 personas
TCNICAS GRFICAS
Tcnicas Grficas
Se usa con datos cualitativos o cuantitativos. A travs de una regla de tres , un crculo se divide en sectores.
Cada rebanada representa la proporcin de datos contenidos en una clase de la tabla de frecuencia.
17% 25%
39%
Se usa con datos cualitativos o cuantitativos. Se puede hacer con la frecuencia o con la frecuencia relativa. Se grafican rectngulos sobre un eje cartesiano en donde cada rectngulo representa a cada clase en la tabla de frecuencia.
23
20
15
15
10
10
5
5
3 1
0 clase 1 clase 2 clase 3 clase 4 clase 5 clase 6 clase 7 clase 8
Histograma
Es exclusiva para datos cuantitativos. Se puede hacer con la frecuencia o con la frecuencia relativa. Se grafican rectngulos sobre un eje cartesiano en donde el rea de cada rectngulo representa a cada intervalo de clase en la tabla de frecuencia. Sirve para comparar las magnitudes representadas en cada intervalo de clase.
Histograma
25
23
20
15
15
10
10
5
5
3 1
0 clase 1 clase 2 clase 3 clase 4 clase 5 clase 6 clase 7 clase 8
Selecciono una grfica de columnas Coloco los rtulos de categora: marcas de clase Coloco los rtulos de datos Reduzco el ancho del rango a cero.
NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma para cualquier intervalo de clase.
Selecciono a los datos de la muestra como rango de entrada OPCIONAL: Selecciono a los lmites superiores como rango de clases Selecciono la opcin Crear Grfico
NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma para cualquier intervalo de clase.
Polgono
Es exclusiva para datos cuantitativos. Se puede hacer con la frecuencia o con la frecuencia relativa. Es una grfica de punto y lnea sobre el eje cartesiano. Sirve para observar la forma de la distribucin de frecuencias.
Polgono
Lo importante en el polgono es mantener el rea bajo la curva igual al rea acumulada en el histograma.
Aado una marca de clase anterior a la primera (restndole la amplitud) Aado una marca de clase posterior a la ltima (sumndole la amplitud) Les adjudico frecuencia igual a cero a estas marcas de clase adicionales Grafico utilizando estas marcas de clase adicionales.
Polgono
25
23
20
15
15
10
10
5 3
0 0
0
2
1
4 6
1
8
1
10
0
12
Selecciono la frecuencia o frecuencia relativa de la tabla (ampliada) Llamo al asistente para grficas
Selecciono una grfica de dispersin XY, que muestre los puntos unidos por lneas. Coloco las marcas de clase como rtulos de categora Coloco los rtulos de datos
NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma para cualquier intervalo de clase.
Realizo el histograma de frecuencias a travs de la subrutina de Anlisis de Datos con la tabla ampliada. Ya en la grfica, cambio el tipo de grfica a: Dispersin XY.
NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma para cualquier intervalo de clase.
TCNICAS NUMRICAS
Tcnicas Numricas
Estos son los estadsticos muestrales. Calculamos valores que resumen las caractersticas de los datos en la muestra:
Selecciono a los datos de la muestra como rango de entrada Selecciono la opcin Resumen de Estadsticas
Tendencia Central
La media aritmtica poblacional se denota como La media aritmtica muestral es el promedio de los datos.
X
X=
i 1
Se define como el valor central. El valor que delimita al 50% de los datos . En Excel Opcin 2: funcin MEDIANA
Es el valor ms frecuente, el que se observa mayor nmero de veces Pueden existir varios o ningn valor de moda para un solo conjunto de datos, la distribucin puede ser:
Amodal cuando ningn valor se repite Unimodal cuando un solo valor es el ms frecuente Bimodal cuando dos valores son los ms frecuentes trimodal,...., polimodal
Moda=Mediana=Media
Moda
Mediana
Media
Media
Mediana
Moda
Se calcula la media aritmtica muestral, adjudicando diferente importancia a cada uno de los datos.
w X
Xp=
i 1 n i
w
i 1
Dispersin
Dispersin Rango
X X
DM =
i 1 i
La varianza poblacional se denota como Es el promedio de los cuadrados de las distancias de los datos a su media aritmtica. n 2 X i X 2 = i 1 n
Es un estimador sesgado. Funciona solo para muestras grandes. En Excel Opcin 2: funcin VARP
La varianza muestral se denota como S Se calcula igual que la varianza poblacional, dividiendo entre n-1.
S2 =
X X
i 1 i
n -1
Es un estimador insesgado. Funciona para cualquier tamao de muestra. En Excel Opcin 2: funcin VAR
Mide la variacin de los datos en trminos absolutos. Se interpreta como la distancia promedio de los datos a su media aritmtica. Se expresa en las mismas unidades que las empleadas en los datos. Se calcula tomando la raz cuadrada positiva de la varianza.
S= S
Para interpretar la dispersin absoluta, se construyen intervalos alrededor del promedio. Con esto se determina en dnde se sitan los valores de una distribucin de frecuencia en relacin con la media aritmtica. Esto se puede lograr utilizando:
Cualquiera que sea la forma de la distribucin de los datos: al menos el 75% de los valores (poblacin) caern dentro de 2 desviaciones estndar respecto de la media de la distribucin:
X 2S
al menos el 89% de los valores (poblacin) caern dentro de 3 desviaciones estndar respecto de la media de la distribucin:
X 3S
Solo cuando la forma de la distribucin de los datos es simtrica (insesgada): aproximadamente el 68% de los datos (poblacin) se encuentran a una desviacin estndar alrededor de la media de la distribucin :
X S
aproximadamente el 95% de los datos (poblacin) se encuentran a 2 desviaciones estndar alrededor de la media de la distribucin :
X 2S
aproximadamente el 99% de los datos (poblacin) se encuentran a 3 desviaciones estndar alrededor de la media de la distribucin :
X 3S
Mide la variacin relativa de la variable con respecto a su promedio. Cuando deseamos comparar la dispersin de dos distribuciones, necesitamos medir la magnitud de la desviacin estndar en relacin con la magnitud de la media Expresa a la variacin de los datos como porcentaje de su promedio.
S CV = X
Forma
Sesgo Curtosis
Forma Sesgo
Es el grado de asimetra que tiene la distribucin Una curva insesgada tiene sesgo cero Medimos en cunto se aleja la distribucin de una insesgada:
Si el polgono de frecuencias tiene la mayor acumulacin a la izquierda, tiene sesgo positivo o a la derecha. Si el polgono de frecuencias tiene la mayor acumulacin a la derecha, tiene sesgo negativo o a la izquierda
Forma Sesgo
Forma Curtosis
La distribucin Normal se considera mesocrtica, es el trmino medio. Las distribuciones mas puntiagudas que la Normal se llaman leptocrticas Las distribuciones menos puntiagudas que la Normal se conocen como platocrticas
Forma Curtosis
Leptocrtica Mesocrtica
Platocrtica
Forma Curtosis
Curtosis
Mesocrtica Leptocrtica Platocrtica
Medidas de Posicin
Cuartiles: Son tres y delimitan al 25%, 50% y 75% de los datos acumulados. Deciles: Son nueve y delimitan al 10%, 20%, ... , 90% de los datos acumulados. Percentiles: Son noventa y nueve y delimitan al 1%, 2%, ... , 99% de los datos acumulados.