Beruflich Dokumente
Kultur Dokumente
Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son
de la forma:
donde es el error asociado a la medicin del valor y siguen los supuestos de modo
que (media cero, varianza constante e igual a un y con ).
Anlisis
Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y,
se obtiene:
donde es el error asociado a la medicin del valor y siguen los supuestos de modo
que (media cero, varianza constante e igual a un y con ).
Rectas de regresin
Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin
llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente,
son posibles dos rectas de mximo ajuste
La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1,
el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy
fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0,
se tratar de un ajuste malo en el que las predicciones que se realicen a partir del modelo
obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas
rectas de regresin se intersecan en un punto llamado centro de gravedad de la distribucin.
Prueba de independencia (Chi-cuadrado)
La prueba de independencia Chi-cuadrado, nos permite determinar si existe una
relacin entre dos variables categricas. Es necesario resaltar que
esta prueba nos indica si existe o no una relacin entre las variables, pero no
indica el grado o el tipo de relacin; es decir, no indica el porcentaje de influencia
de una variable sobre la otra o la variable que causa la influencia.
Figura 8-99
EJEMPLO
EJEMPLO.
Ejemplos:
4. T DE STUDENT
En estadstica, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la
que el estadstico utilizado tiene una distribucin t de Student si la hiptesis nula es cierta.
Se aplica cuando la poblacin estudiada sigue una distribucin normal pero el tamao
muestral es demasiado pequeo como para que el estadstico en el que est basada la
inferencia est normalmente distribuido, utilizndose una estimacin de la desviacin tpica
en lugar del valor real. Es utilizado en anlisis discriminante.
Formula:
5. ANLISIS DE LA VARIANZA
En estadstica, el anlisis de la varianza (ANOVA, ANalysis Of VAriance, segn
terminologa inglesa) es una coleccin de modelos estadsticos y sus procedimientos
asociados, en el cual la varianza est particionada en ciertos componentes debidos a
diferentes variables explicativas.ANOVA con un factor
Ejemplo:
Donde Y sera el valor observado (variable dependiente), y X el valor que toma la variable
independiente.
sera una constante que en la recta de regresin equivale a la ordenada en el
origen, es otra constante que equivale a la pendiente de la recta, y es una variable
aleatoria que aade a la funcin cierto error que desva la puntuacin observada de la
puntuacin pronosticada.
Por tanto, a la funcin de pronstico la podemos llamar "Y prima":
Podemos resumir que las puntuaciones observadas equivalen a las puntuaciones esperadas,
ms el error aleatorio:
(1.1)
Sabiendo este concepto, podemos operar con esta ecuacin de la siguiente forma:
1) Restamos a ambos lados de la ecuacin (para mantener la igualdad) la media de la
variable dependiente:
2) Substituimos el error por la ecuacin resultante de despejar la ecuacin 1.1:
Por tanto...
Y reorganizando la ecuacin:
Ahora hay que tener en cuenta que la media de las puntuaciones observadas es exactamente
igual que la media de las puntuaciones pronosticadas:
Por tanto:
Podemos ver que nos han quedado 3 puntuaciones diferenciales. Ahora las elevamos al
cuadrado para que posteriormente, al hacer el sumatorio, no se anulen:
Y desarrollamos el cuadrado:
Podemos ver que tenemos los numeradores de las varianzas, pero al no estar divididas por
el nmero de casos (n), las llamamos Sumas de Cuadrados., excepto en el ltimo trmino,
que es una Suma Cruzada de Cuadrados (el numerador de la covarianza), y la covarianza en
este caso es cero (por las propiedades de la regresin lineal, la covarianza entre el error y la
variable independiente es cero).
Por tanto:
6. ANLISIS FACTORIAL
Anlisis factorial es una tcnica estadstica de reduccin de datos usada para explicar las
correlaciones entre las variables observadas en trminos de un nmero menor de variables
no observadas llamadas factores. Las variables observadas se modelan como
combinaciones lineales de factores ms expresiones de error. El anlisis factorial se origin
en psicometra, y se usa en las ciencias del comportamiento tales como ciencias sociales,
marketing, gestin de productos, investigacin de operaciones y otras ciencias aplicadas
que tratan con grandes cantidades de datos.
Ejemplo:
Supngase que un psiclogo propone una teora segn la cual hay dos tipos de inteligencia,
inteligencia verbal e inteligencia matemtica. Ntese que estas son inherentemente
inobservables. Se busca evidencia para la teora en las notas de los exmenes, en 10 temas
acadmicos, a 1000 estudiantes. Si cada estudiante es seleccionado al azar de una poblacin
grande, luego, las 10 notas de cada estudiante son variables aleatorias. La teora de los
psiclogos dira que por cada una de las diez materias el promedio de todos los estudiantes
que comparten un par de valores para la inteligencias verbal y matemtica es constante
multiplicada por el nivel de inteligencia verbal ms otra constante multiplicada por el nivel
de inteligencia matemtica, es decir, que hay una combinacin lineal de estos dos factores.
Los nmeros, para este caso particular, mediante el cual los dos tipos de inteligencia se
multiplican para obtener una nota determinada, se postulan tericamente que son similares
para todos los pares obtenidos, lo mismo que el peso de los factores para este tema. Por
ejemplo, la teora podra sostener que la aptitud promedio del estudiante en la materia de
anfibologa es
Los nmeros 10 y 6 son los pesos de los factores asociados a anfibologa. Otras materias
tendrn diferentes pesos. Dos estudiante que obtengan el mismo grado de inteligencia
verbal e idntica inteligencia matemtica podran tener aptitudes diferentes en anfibologa
porque las aptitudes individuales son diferentes de las aptitudes promedio. La diferencia se
denomina error, un trmino estadstico para designar la diferencia que hay entre la nota
de un individuo y el promedio para su nivel de inteligencia.
Los datos observables que van en el anlisis factorial seran las 10 notas de cada uno de los
1000 estudiantes, un total de 10.000 valores. Los pesos de y los niveles de los factores de
las dos clases de inteligencia de cada estudiante se deben derivar de estos datos, as como
tambin el nmero de factores.
8. U DE MANN-WHITNEY
En estadstica la prueba U de Mann-Whitney (tambin llamada de Mann-Whitney-
Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney) es
una prueba no paramtrica aplicada a dos muestras independientes. Es, de hecho, la versin
no paramtrica de la habitual prueba t de Student.
Bajo la hiptesis alternativa, los valores de una de las muestras tienden a exceder a los de la
otra: P(X > Y) + 0.05 P(X = Y) > 0.05.
Formula:
Para calcular el estadstico U se asigna a cada uno de los valores de las dos muestras su
rango para construir
Formula:
10. KRUSKAL-WALLIS
En estadstica, la prueba de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un
mtodo no paramtrico para probar si un grupo de datos proviene de la misma poblacin.
Intuitivamente, es idntico al ANOVA con los datos reemplazados por categoras. Es una
extensin de la prueba de la U de Mann-Whitney para 3 o ms grupos.
,
es el promedio de .
exactamente .
Luego .
11. DISTRIBUCIN
En estadstica, la distribucin de Pearson, llamada tambin ji cuadrado o chi
cuadrado () es unadistribucin de probabilidad continua con un parmetro que
representa los grados de libertad de la variable aleatoria
Donde son variables aleatorias normales independientes de media cero y varianza uno.
El que la variable aleatoria tenga esta distribucin se representa habitualmente
as: .