Sie sind auf Seite 1von 9

Universidad de San Carlos de Guatemala

Centro Universitario de Occidente


Maestra en Docencia Universitaria
Curso: Estadstica Aplicada a la Educacin Superior
Docente: Msc. Edgar Rolando Bolaos Gonzlez
Ciclo Electivo: Segundo Semestre 2014
Alumno: Jos Francisco Canizalez Henry
Carne:
200017738

Regresin, anlisis inferencial y estadstica


no paramtrica
1. Regresin.
1.1 Definicin:
Es un proceso estadstico para la estimacin de relaciones entre variables. Incluye
muchas tcnicas para el modelado y anlisis de diversas variables, cuando la atencin se
centra en la relacin entre una variable dependiente y una o ms variables independientes.
Ms especficamente, el anlisis de regresin ayuda a entender cmo el valor tpico de la
variable dependiente cambia cuando cualquiera de las variables independientes es variada,
mientras que se mantienen las otras variables independientes fijas. Ms comnmente, el
anlisis de regresin estima la esperanza condicional de la variable dependiente dadas las
variables independientes - es decir, el valor promedio de la variable dependiente cuando se
fijan las variables independientes. Con menor frecuencia, la atencin se centra en un
cuantil, u otro parmetro de localizacin de la distribucin condicional de la variable
dependiente dadas las variables independientes. En todos los casos, el objetivo es la
estimacin de una funcin de las variables independientes llamada la funcin de regresin.
En el anlisis de regresin, tambin es de inters para caracterizar la variacin de la
variable dependiente en torno a la funcin de regresin que puede ser descrito por una
distribucin de probabilidad.
El anlisis de regresin es ampliamente utilizado para la prediccin y previsin,
donde su uso tiene superposicin sustancial en el campo de aprendizaje automtico. El
anlisis de regresin se utiliza tambin para comprender que cuales de las variables
independientes estn relacionadas con la variable dependiente, y explorar las formas de
estas relaciones. En circunstancias limitadas, el anlisis de regresin puede utilizarse para
inferir relaciones causales entre las variables independientes y dependientes. Sin embargo,
esto puede llevar a ilusiones o falsas relaciones, por lo que se recomienda precaucin, 1 por
ejemplo, la correlacin no implica causalidad.
Se han desarrollado muchas tcnicas para llevar a cabo anlisis de regresin.
Mtodos familiares tales como regresin lineal y ordinaria de mnimos cuadrados de
regresin son paramtrica, en que la funcin de regresin se define en trminos de un

nmero finito de desconocidos parmetros que se estiman a partir de los datos. regresin no
paramtrica se refiere a las tcnicas que permiten que la funcin de regresin mienta en un
conjunto especfico de funciones, que puede ser de dimensin infinita.
El desempeo de los mtodos de anlisis de regresin en la prctica depende de la
forma del proceso de generacin de datos, y cmo se relaciona con el mtodo de regresin
que se utiliza. Dado que la forma verdadera del proceso de generacin de datos
generalmente no se conoce, el anlisis de regresin depende a menudo hasta cierto punto de
hacer suposiciones acerca de este proceso. Estos supuestos son a veces comprobable si una
cantidad suficiente de datos est disponible. Los modelos de regresin para la prediccin a
menudo son tiles incluso cuando los supuestos son violados moderadamente, aunque
pueden no funcionar de manera ptima. Sin embargo, en muchas aplicaciones, sobre todo
con pequeos efectos o las cuestiones de causalidad sobre la base de los datos de
observacin, mtodos de regresin pueden dar resultados engaosos.2 3

Historia
La primera forma de regresin fue el mtodo de mnimos cuadrados, que fue
publicado por Legendre en 1805,4 y por Gauss en 1809.5 Legendre y Gauss tanto aplicaron
el mtodo para el problema de determinar, a partir de observaciones astronmicas, la
rbitas de los cuerpos sobre el Sol (la mayora de los cometas, sino tambin ms tarde el
entonces recin descubiertos planetas menores). Gauss public un desarrollo posterior de la
teora de los mnimos cuadrados en 1821,6 incluyendo una versin del teorema de GaussMarkov.
El trmino "regresin" fue acuado por Francis Galton en el siglo XIX para
describir un fenmeno biolgico. El fenmeno fue que las alturas de los descendientes de
ancestros altos tienden a regresar hacia abajo, hacia un promedio normal (un fenmeno
conocido como regresin hacia la media ).7 8 Para Galton, la regresin slo tena este
significado biolgico,,9 10 pero su trabajo se extendi ms tarde por Udny Yule y Karl
Pearson a un contexto estadstico ms general.11 12 En la obra de Yule y Pearson, la
distribucin conjunta de la respuesta y las variables explicativas se supone que es de Gauss.
Esta suposicin se vio debilitada por RA Fisher en sus obras de 1922 y 1925. 13 14 15 Fisher
supone que la distribucin condicional de la variable de respuesta es de Gauss, pero la
distribucin conjunta no es necesario. A este respecto, la asuncin de Fisher est ms cerca
de la formulacin de Gauss de 1821.
En los aos 1950 y 1960, los economistas utilizan calculadoras electromecnicas
para calcular regresiones. Antes de 1970, a veces tardaba hasta 24 horas para recibir el
resultado de una regresin.16
Los mtodos de regresin siguen siendo un rea de investigacin activa. En las
ltimas dcadas, los nuevos mtodos han sido desarrollados para la regresin robusta, la
regresin que implica respuestas correlacionadas, tales como series de tiempo y las curvas
de crecimiento, regresin en la que los predictores o variables de respuesta son curvas,
imgenes, grficos y otros objetos de datos complejos, los mtodos de regresin Aceptar

varios tipos de datos faltantes, la regresin no paramtrica, bayesianos mtodos de


regresin, regresin en el que las variables de prediccin se miden con error, regresin con
ms variables predictoras que las observaciones y la inferencia causal con la regresin.

2.2 Simple:
Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una
funcin simple (lineal) de X que nos permita aproximar Y mediante: = a + bX
a (ordenada en el origen, constante)
b (pendiente de la recta)
A la cantidad e=Y- se le denomina residuo o error residual.
As, en el ejemplo de Pearson: = 85 cm + 0,5X
Donde es la altura predicha del hijo y X la altura del padre: En media, el hijo
gana 0,5 cm por cada cm del padre.

2.2 Mltiple:
En estadstica un modelo de regresin mltiple no postulado es uno de los mtodos de
regresin lineal.

Modelo
Un modelo relaciona una o varias variables que hay que explicar Y a unas variables
explicativas X, por una relacin funcional Y = F (X)

Un modelo fsico es un modelo explicativo sostenido por una teora.

Un modelo estadstico, al contrario, es un modelo emprico nacido de datos


disponibles, sin conocimientos a priori sobre los mecanismos en juego. Podemos sin
embargo integrar en eso ecuaciones fsicas (en el momento del pretratamiento de
datos).

Disponemos de n de observaciones (i = 1,, n) de p variables. La ecuacin de regresin se


escribe:

donde

i es el error del modelo;

a0, a1, , ap son los coeficientes del modelo que hay que estimar.

El clculo de los coeficientes aj y del error del modelo, a partir de las observaciones, es un
problema bien dominado (ver Regresin lineal).
Ms delicado es la eleccin de las variables que entran en este modelo. Puede ser postulado
o no postulado.

Modelo postulado
Slo los coeficientes del modelo precedente de regresin son dirigidos por los datos, la
estructura polinmica del modelo es impuesta por el utilizador (segn su peritaje del
problema), que postula a priori:

El tipo de modelo: lineal o polinmico, y el grado del polinomio,

las variables que entrarn en el modelo.

Ejemplo

de

modelo

polinmico

con

dos

variables

explicativas:

El problema de la seleccin de las variables explicativas


Cuando el nmero de variables explicativas es grande, puede hacerse que ciertas variables
sean correlacionadas. En este caso hay que eliminar los doblones. El software utiliza para
hacerlo mtodos de seleccin paso a paso (ascendientes, descendentes o mixtos).
Sin embargo la calidad del modelo final repone en gran parte en la eleccin de las
variables, y del grado del polinomio.

Modelo no postulado
El modelo no postulado es al contrario totalmente dirigido por los datos , tanto su
estructura matemtica como sus coeficientes. La seleccin de las variables explicativas no
pide conocimiento a priori sobre el modelo: se efecta entre un conjunto muy grande de
variables, comprendiendo:

Variables explicativas simples: A, B, C, (propuestas por los expertos del campo


considerado y cuyo nmero p puede ser superior a n

Interacciones o acoplamiento de estas variables, por ejemplo A*B (producido


cruzado sobre variables centradas reducidas), pero tambin interacciones lgicas
tal A y B , A o B , A y B medios , A si B es fuerte , A si B es medio ,
A si B es dbil , etc.;

Funciones de estas variables': por ejemplo cos (A) o cualquier funcin sinusoidal
amortiguada o ampliada, funcin peridica no sinusoidal, efecto de umbral, etc.

La seleccin se produce antes del clculo de los coeficientes de la regresin segn el


principio siguiente:
Buscamos el factor o la interaccin o la funcin mejor correlada a la respuesta.
Habindolo encontrado, buscamos el factor o la interaccin mejor correlada al
residuo no explicado por la correlacin precedente; etc. Este mtodo pretende no
contar dos veces la misma influencia, cuando los factores son correlados, y a
ordenarlos por importancia decreciente.
La lista por orden de importancia decreciente encontrada y clasificada, no puede contar
ms trminos que desconocidas (n). Si se guarda slo un trmino en el modelo, deber ser
la primera de la lista. Si se guarda dos, sern ambos primeros, etc.
En efecto ya que cada uno de los trminos de la lista explica el residuo no explicado por los
precedentes, los ltimos explican posiblemente slo el ruido. Cul criterio de parada
escoger?
El nmero de trminos conservados en el modelo puede ser, por ejemplo, el que minimiza
el error estndar de prediccin SEP (Standard error of Prediction), o el que maximiza el F
de Fisher. Este nmero de trmino puede tambin ser escogido por el utilizador a partir de
consideraciones fsicas.
Ejemplo: suponemos que el conjunto de las variables explicativas candidatas es
{A,B,C,D,E,F,G}, y que el modelo obtenido es :
Y = constante + a.A + b.( E et G ) + c.( D y F medios )
Observamos que:
* las variables B y C, no pertinentes, no figuran en el modelo
* la variable A apareci como trmino simple
* las variables E y G de una parte, y D y F, por otra parte, aparecen slo como
interacciones lgicas .
Este modelo parsimonioso , es decir conteniendo pocos trminos (aqu tres), contrata 5
variables, y estar pegado mejor a la realidad fsica que un modelo polinmico. En efecto la
conjuncin E y G que significa E y G fuertes simultneamente es encontrado ms a
menudo en la realidad fsica (ejemplo: la catlisis en qumica) que un trmino polinmico
de tipo E.G.

Descomposicin armnica
Un modelo no postulado ser tambin eficaz en la descomposicin armnica de las series.

En efecto, el principio se aplica tambin bien en caso de muestreo irregular (donde los
mtodos de tipo media mvil, ARIMA o Box y Jenkins son hechos caer en falta) que en los
casos no estacionarios (donde Anlisis armnico no se aplica). Permite descubrir y
desenredar las interferencias de ciclos diversos y estacionalidad con roturas de tendencias
en escaln, en V, roturas logsticas, motivos peridicos, y acontecimientos accidentales
tales como picos aislados o pedazos de ondas.

2. Analisis inferencial.
2.1 Pruebas de hiptesis de uno o dos extremos.
Cuando estudiamos ambos valores estadsticos es decir, ambos lados de la media lo
llamamos prueba de uno y dos extremos o contraste de una y dos colas.
Con frecuencia no obstante, estaremos interesados tan slo en valores extremos a un
lado de la media (o sea, en uno de los extremos de la distribucin), tal como sucede cuando
se contrasta la hiptesis de que un proceso es mejor que otro (lo cual no es lo mismo que
contrastar si un proceso es mejor o peor que el otro) tales contrastes se llaman unilaterales,
o de un extremo. En tales situaciones, la regin crtica es una regin situada a un lado de la
distribucin, con rea igual al nivel de significacin.

2.2 Errores tipo I y Tipo II


Si rechazamos una hiptesis cuando debiera ser aceptada, diremos que se ha cometido un
error de tipo I.
Por otra parte, si aceptamos una hiptesis que debiera ser rechazada, diremos que se
cometi un error de tipo II.
En ambos casos, se ha producido un juicio errneo.
Para que las reglas de decisin (o no contraste de hiptesis) sean buenos, deben disearse
de modo que minimicen los errores de la decisin; y no es una cuestin sencilla, porque
para cualquier tamao de la muestra, un intento de disminuir un tipo de error suele ir
acompaado de un crecimiento del otro tipo. En la prctica, un tipo de error puede ser ms
grave que el otro, y debe alcanzarse un compromiso que disminuya el error ms grave.
La nica forma de disminuir ambos a la vez es aumentar el tamao de la muestra que no
siempre es posible.

2.3 Diferencia entre media Muestral y Poblacional.


Media aritmtica
.

Construccin geomtrica para hallar las medias aritmtica (A), cuadrtica (Q), geomtrica
(G) y armnica (H) de dos nmeros a y b.
En matemticas y estadstica, la media aritmtica (tambin llamada promedio o
simplemente media) de un conjunto finito de nmeros es el valor caracterstico de una serie
de datos cuantitativos objeto de estudio que parte del principio de la esperanza matemtica
o valor esperado, se obtiene a partir de la suma de todos sus valores dividida entre el
nmero de sumandos. Cuando el conjunto es una muestra aleatoria recibe el nombre de
media muestral siendo uno de los principales estadsticos muestrales.
Expresada de forma ms intuitiva, podemos decir que la media (aritmtica) es la
cantidad total de la variable distribuida a partes iguales entre cada observacin.
Por ejemplo, si en una habitacin hay tres personas, la media de dinero que tienen
en sus bolsillos sera el resultado de tomar todo el dinero de los tres y dividirlo a partes
iguales entre cada uno de ellos. Es decir, la media es una forma de resumir la informacin
de una distribucin (dinero en el bolsillo) suponiendo que cada observacin (persona)
tuviera la misma cantidad de la variable.
Tambin la media aritmtica puede ser denominada como centro de gravedad de una
distribucin, el cual no est necesariamente en la mitad.
Una de las limitaciones de la media aritmtica es que se trata de una medida muy
sensible a los valores extremos; valores muy grandes tienden a aumentarla mientras que
valores muy pequeos tienden a reducirla, lo que implica que puede dejar de ser
representativa de la poblacin.
La media aritmtica se calcula sumando todos los componentes y dividiendo el
resultado entre el nmero de componentes. El resultado entero o decimal es la media
aritmtica.
En estadstica la esperanza matemtica (tambin llamada esperanza, valor
esperado, media poblacional o media) de una variable aleatoria , es el nmero
que formaliza la idea de valor medio de un fenmeno aleatorio.
Cuando la variable aleatoria es discreta, la esperanza es igual a la suma de la probabilidad
de cada posible suceso aleatorio multiplicado por el valor de dicho suceso. Por lo tanto,
representa la cantidad media que se "espera" como resultado de un experimento aleatorio
cuando la probabilidad de cada suceso se mantiene constante y el experimento se repite un
elevado nmero de veces. Cabe decir que el valor que toma la esperanza matemtica en

algunos casos puede no ser "esperado" en el sentido ms general de la palabra - el valor de


la esperanza puede ser improbable o incluso imposible.
Por ejemplo, el valor esperado cuando tiramos un dado equilibrado de 6 caras es 3,5.
Podemos hacer el clculo

2.4 Diferencia
proporcional.

entre

una

proporcin

muestral

una

Una proporcin poblacional se define como =X/N, donde X es el nmero de


elementos en la poblacin que poseen cierta caracterstica y N es el total de elementos de la
poblacin.
Una proporcin muestral se define como p = x/n, donde x es el nmero de
elementos en la muestra que poseen cierta caracterstica y n es el total de elementos de la
muestra.
Cuando se desea estimar una proporcin, el tamao de la muestra siempre debe ser
grande, es decir, n 30.
Si la muestra se obtiene con reemplazo, x tiene distribucin binomial y debido a que
la muestra es grande, por el teorema central del lmite se aproxima a una distribucin
normal; por consiguiente:

Leer ms: http://www.monografias.com/trabajos17/pruebas-de-hipotesis/pruebas-dehipotesis.shtml#ixzz3Gk1uTyLw

Das könnte Ihnen auch gefallen