Sie sind auf Seite 1von 12

UNIVERSIDAD DE LAS AMERICAS

TRABAJO DE INVESTIGACION DE MERCADO INTERNACIONAL

DANILO ESPINOZA ZEAS SECCION:A 18 TURNO SABATINO

PROF: SANTOS REYES

FECHA: 17 -01-14

Introduccin

El anlisis de datos de la encuesta tiene como objetivo la deteccin de grupos variables altamente relacionados, para ello se utilizan los siguientes anlisis :

En estadstica, la correlacin lineal se refiere a una medida de asociacin entre dos variables intervalo-relacin. Las variables intervalo-relacin son aquellas que se pueden poner en orden y son numricas. La medida tambin refleja el grado de fuerza de la relacin entre las variables. Hay unos cuantos tipos diferentes de medida de correlacin. Coeficiente de correlacin de Pearson (r) La R de Pearson mide la fuerza o el grado de asociacin entre dos variables de intervalo-relacin que van desde 0,0 hasta 1, ya sea positiva o negativa. Es la raz cuadrada de la determinacin de la correlacin. Cuanto ms cerca est la medida de 1 o -1, ms fuerte es la relacin. Por lo tanto, 80 o 90 en cualquier direccin indica que existe una fuerte relacin. El cero significa que no hay correlacin. La R de Pearson es la medida de correlacin ms utilizada. Se utiliza la siguiente frmula: R = covarianza/(desviacin estndar x)(desviacin estndar y).

Determinacin de correlacin La determinacin de la correlacin mide el error de reduccin proporcional resultante de la regresin lineal. De acuerdo con el texto "Social Statistics for a Diverse Society", la determinacin de correlacin tambin demuestra "la proporcin de la variacin total en la variable dependiente y, que se explica por la variable independiente x". Si r = 0,60, entonces el 60 por ciento de la variacin de y se explica por x. Tambin se conoce como el coeficiente de determinacin. La frmula utilizada para calcular la determinacin de la correlacin es la siguiente: R al cuadrado = covarianza al cuadrado/(varianza x)(varianza y). Un signo negativo se aade a la respuesta si la covarianza original tambin fue negativa.

Anlisis de correlacin El anlisis de correlacin emplea mtodos para medir la significacin del grado o intensidad de asociacin entre dos o ms variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersin. El concepto de correlacin est estrechamente vinculado al concepto de regresin, pues, para que una ecuacin de regresin sea razonable los puntos mustrales deben estar ceidos a la ecuacin de regresin; adems el coeficiente de correlacin debe ser: Grande cuando el grado de asociacin es alto (cerca de +1 o -1, y pequeo cuando Es bajo, cerca de cero. Independiente de las unidades en que se miden las variables. En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal y proporcionalidad entre dos variables estadsticas. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna relacin de causalidad

Anlisis de Correlacin : Con los datos mas simples de respuestas a varias preguntas se pueden fabricar medidas combinatorias de los mismos en forma de ndices o escalas.

Estas medidas constituyen la operacionalizacin de los conceptos, es la referencia emprica reducida a valores empricamente manejables.

Los conceptos son elaboraciones tericas con las que definimos un determinado aspecto de la realidad y de la que nos servimos para expresar teoras e hiptesis.

Las variables : son dimensiones de la realidad que deseamos estudiar.

Los indicadores : son expresiones numerables de las distintas dimensiones de un concepto.

Con los datos indexados podemos hacer anlisis de correlacin de diferentes tipo.

La correlacin entre dos o mas variables expresa la extensin en que una incide en la otra interseccin, la interseccin de ambas, su grado de asociacin... . Pero no indica si a partir de los valores de una de ellas podemos predecir los valores de la otra , esto se consigue mediante el coeficiente de regresin que indica si la correlacin entre variables es tal que a partir de una podemos calcular los valores de otra. Todo esto lo podemos realizar con medidas de la estadstica no paramtrica no pueden ser calculadas.

A partir del Anlisis de Correlacin se puede trabajar con distintos modelos de anlisis multivariable :

Un conjunto de modelos de anlisis podra denominarse como el del anlisis causal : aqu se incluiran los anlisis de cadena (< path anlisis>) , el de regresin mltiple y el de segmentacin por arborescencia (<tree anlisis>) el cual es una tcnica multivariable que produce una serie de agrupamientos dicotomizados en un modelo que se asemeja a las ramas de un arbol. La divisin de las cosas en grupos dicotomizados la realiza el anlisis de segmentacin de modo que en ellos quede explicada de la mejor forma posible la variacin de una cierta variable que llamamos dependiente , respecto a otras que llamamos independientes. La divisin en grupos dicotomizados e deberalizar en cada paso de tal manera que la variacin en ellos sea mnima, que sean lo mas homogneos posibles al mismo tiempo que la variacin entre si sea la mayor posible, que los dos grupos resultantes sean lo mas heterogneos posibles entre si.
TIPOS DE CORRELACIN

La correlacin puede clasificarse en dos tipos dependiendo de la cantidad de variables analizadas y por el tipo de relacin lineal, en el primer caso estamos haciendo referencia a:

Correlacin simple: se estudia la dependencia nicamente entre dos variables Correlacin mltiple: se estudia la dependencia entre mas de 2 variables Correlacin parcial: cuando se incluye la influencia de variables exgenas no consideradas en el clculo de los coeficientes. Dependiendo del tipo de relacin lineal el coeficiente relaciona:

Relacin directa entre las variables: un aumento en la variable independiente implica un aumento en la variable dependiente. Relacin inversa entre las variables: un aumento en la variable independiente implica una disminucin en la variable dependiente. A partir de ello la ecuacin puede mejorar su correlacin si se hace pruebas para determinar si se ajusta mas a una recta, una curva exponencial o parablica.

ANLISIS DE LA VARIANZA 1. Introduccin:

El anlisis de varianza para muestras independientes es el modelo de anlisis de varianza ms frecuente: un factor o criterio de clasificacin, dividido en dos o ms niveles;; tambin se denomina anlisis de varianza unifactorial1. Repetimos brevemente lo ya dicho en la introduccin. El anlisis de varianza se utiliza cuando tenemos en el mismo planteamiento ms de dos muestras independientes (de sujetos fsicamente distintos en cada muestra). Tambin se puede utilizar cuando solamente tenemos dos muestras como alternativa a la t de Student (de hecho en este caso t2 = F), aunque la prctica habitual en este caso es utilizar directamente el contraste de medias (t de Student). Ms adelante (apartado 7) presentamos un ejemplo metodolgico del anlisis de varianza aplicado a dos muestras como mtodo alternativo al contraste de medias. Ya hemos indicado la razn principal para utilizar el anlisis de varianza en vez de la t de Student cuando tenemos ms de dos grupos en el mismo planteamiento general: aumentan

mucho las probabilidades de no aceptar (rechazar) la Hiptesis Nula de no diferencia cuando es verdadera (lo que denominamos error tipo I; explicado con ms detalle en el anexo I). Dicho de otra manera: cuando tenemos ms de dos muestras y las contrastamos entre s con la t de Student, tenemos el riesgo de aceptar la diferencia (no aceptamos la Hiptesis Nula) cuando realmente se trata de una diferencia normal o, lo que es lo mismo, la probabilidad de encontrar esa diferencia es mayor de lo que especifi V. Abraira

Anlisis de la varianza

El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar dos o ms medias, que es necesario porque cuando se quiere comparar ms de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos:

En primer lugar, y como se realizaran simultnea e independientemente varios contrastes de hiptesis, la probabilidad de encontrar alguno significativo por azar aumentara. En cada contraste se rechaza la H0 si la t supera el nivel crtico, para lo que, en la hiptesis nula, hay una probabilidad a. Si se realizan m contrastes independientes, la probabilidad de que, en la hiptesis nula, ningn estadstico supere el valor crtico es (1 - a)m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - a)m, que para valores de a prximos a 0 es aproximadamente igual a a m. Una primera solucin, denominada mtodo de Bonferroni, consiste en bajar el valor de a, usando en su lugar a/m, aunque resulta un mtodo muy conservador.

Por otro lado, en cada comparacin la hiptesis nula es que las dos muestras provienen de la misma poblacin, por lo tanto, cuando se hayan realizado todas las comparaciones, la hiptesis nula es que todas las muestras provienen de la

misma poblacin y, sin embargo, para cada comparacin, la estimacin de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.

El mtodo que resuelve ambos problemas es el anova, aunque es algo ms que esto: es un mtodo que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseo de experimentos y, de alguna manera, es la base del anlisis multivariante.

Bases del anlisis de la varianza

Supnganse k muestras aleatorias independientes, de tamao n, extradas de una nica poblacin normal. A partir de ellas existen dos maneras independientes de estimar la varianza de la poblacin s2

1) Una llamada varianza dentro de los grupos (ya que slo contribuye a ella la varianza dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula como la media de las k varianzas muestrales (cada varianza muestral es un estimador centrado de s2 y la media de k estimadores centrados es tambin un estimador centrado y ms eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los trminos independientes de la suma de cuadrados.

2) Otra llamada varianza entre grupos (slo contribuye a ella la varianza entre las distintas muestras), o varianza de los tratamientos, o cuadrados medios de los tratamientos y representada por MSA o MSB (Mean Square Between). Se calcula a partir de la varianza de las medias muestrales y es tambin un cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al denominador (k-1) grados de libertad.

MSA y MSE, estiman la varianza poblacional en la hiptesis de que las k muestras provengan de la misma poblacin. La distribucin muestral del cociente de dos estimaciones independientes de la varianza de una poblacin normal es una F con los grados de libertad correspondientes al numerador y denominador

respectivamente, por lo tanto se puede contrastar dicha hiptesis usando esa distribucin.

Si en base a este contraste se rechaza la hiptesis de que MSE y MSA estimen la misma varianza, se puede rechazar la hiptesis de que las k medias provengan de una misma poblacin.

Aceptando que las muestras provengan de poblaciones con la misma varianza, este rechazo implica que las medias poblacionales son distintas, de modo que con un nico contraste se contrasta la igualdad de k medias.

Existe una tercera manera de estimar la varianza de la poblacin, aunque no es independiente de las anteriores. Si se consideran las kn observaciones como una nica muestra, su varianza muestral tambin es un estimador centrado de s2:

Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es tambin un cociente y al numerador se le llama suma de cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad.

3. Anlisis de varianza: 3.1. Fases del proceso Al explicar el procedimiento seguiremos el proceso que es til tener claro desde el comienzo y que, ms o menos, seguiremos en la presentacin de otros modelos de anlisis de varianza, porque responde a los pasos lgicos que debemos seguir: 1 Explicacin del procedimiento con un ejemplo resuelto paso a paso. Aadiremos una serie de aclaraciones metodolgicas que nos pueden ayudar a entender mejor lo que realmente estamos haciendo. 2 Con el anlisis de varianza propiamente dicho (razn F) no termina nuestro anlisis. Dos tipos de clculos posteriores completan el proceso: a) Contrastes posteriores, para poder comparar las medias de dos en dos en el caso de que la razn F sea estadsticamente significativa. b) Diversos coeficientes de asociacin que nos ayudan a aclarar la importancia de los resultados, y el tamao del efecto (semejante al que ya conocemos y aplicamos en el contraste de dos medias).

3 Otras variantes metodolgicas para hacer este mismo anlisis de varianza (que o simplifican el proceso, o son tiles en determinadas circunstancias). 4 Sugerencias sobre cmo presentar los resultados. Vamos a presentar dos procedimientos muy semejantes; uno que se basa en el clculo de desviaciones tpicas (o varianzas) de la muestra (dividiendo por N) y otro utilizando las desviaciones tpicas o varianzas de la poblacin (dividiendo por N-1). 3.2. Procedimiento utilizando desviaciones tpicas; justificacin Los procedimientos que vamos a exponer en primer lugar suponen el uso de calculadoras con programacin estadstica, sobre todo para calcular medias y desviaciones tpicas; con esos datos ya hemos visto que los procedimientos son fciles y rpidos, sobre todo si se trata de muestras pequeas. Aunque disponemos de programas informticos y de Internet (comentados en otros apartados) el proceso explicado en primer lugar calculando medias y desviaciones tpicas con una simple calculadora, son tiles por estas razones. a) Para llegar a una comprensin ms cabal de lo que estamos haciendo, sobre todo en procesos de aprendizaje. Hay interpretaciones que no se pueden hacer correctamente sin entender bien el proceso que se capta mejor siguindolo paso a paso que explicando los resultados que encontramos ya hechos en cualquier programa disponible. Hay que insistir que este mtodo puede ser muy apropiado (al menos es una buena alternativa didctica) cuando se trata de entender y aprender; en otro momento lo normal ser utilizar programas informticos. b) Cuando de diversas muestras ya disponemos del tamao de cada muestra y de las medias y las desviaciones tpicas (o es informacin que vemos publicada); para estos casos tenemos tambin los programas de Internet que veremos en otro apartado, pero vamos a ver que si llega el caso se pueden hacer con toda facilidad con una simple calculadora. c) Cuando en cualquier caso se trata de muestras pequeas y no resulta especialmente laborioso el clculo de medias y desviaciones con una simple calculadora. 3.2.1. Procedimiento utilizando desviaciones tpicas de las muestras (n) En todos los modelos de anlisis de varianza hay que calcular varianzas parciales (porque descomponemos la varianza total). En el clculo de estas varianzas, el denominador no tiene ninguna dificultad (los grados de libertad), pero el numerador de las varianzas, la suma de cuadrados, s resulta mucho ms laborioso.

Cuando no se utiliza directamente un programa de ordenador, lo ms cmodo es seguir el procedimiento que utilizamos aqu para calcular las sumas de cuadrados y que no es el tradicional que es normal ver en los libros de texto5. 5 Adaptamos y simplificamos aqu el procedimiento propuesto por Gordon (1973).Siguiente Aunque dispongamos de programas de ordenador y hojas de clculo (EXCEL, SPSS), este procedimiento, sobre todo en procesos de aprendizaje: 1) Facilita la comprensin del anlisis de varianza, se visualiza mejor cmo se descompone la varianza total y se evitan automatismos que no suponen comprender lo que se est haciendo, 2) Es muy til cuando de hecho no disponemos de los datos de cada sujeto y solamente tenemos las medias, desviaciones tpicas y nmero de sujetos de cada grupo. Esta situacin es frecuente; son datos que podemos encontrar publicados o que podemos tener ya anotados. Los programas de ordenador (como el SPSS o EXCEL) no suelen tener previsto cmo llevar a cabo un anlisis de varianza a partir solamente de estos datos (N, media y de cada grupo), aunque s es posible hacerlo en programas disponibles en Internet (mencionamos algunos en el apartado 9). Para entender el procedimiento hay que recordar en primer lugar la frmula de la varianza (de la muestra): 2 = (X - M)2 N [1] donde podemos despejar la suma de cuadrados: (X- M)2 = N 2

Es decir, la suma de cuadrados es igual a la varianza multiplicada por el nmero de sujetos. Se trata de la varianza de la muestra (dividiendo por N y no por N-1). En cada planteamiento del anlisis de varianza hay qu saber qu varianza hay que calcular y multiplicar luego por el nmero de sujetos para obtener las sumas de cuadrados. Esto es lo que iremos viendo en los diversos ejemplos al ir proponiendo los distintos modelos de anlisis de varianza. Al dividir estas sumas

de cuadrados por los grados de libertad obtendremos los cuadrados medios o varianzas parciales que van resultando al descomponer la varianza total. Si utilizamos este sencillo y rpido procedimiento, habr que calcular en primer lugar (clculos previos. Conclusiones

La realizacin del presente trabajo supuso muchas horas de navegacin en Internet, que como es sabido, es un espacio anrquico. Unas veces fue posible llegar a la informacin buscada por casualidad, otras, despus de una intensa bsqueda, con los llamados buscadores. Esto en cuanto a la localizacin de la informacin.

En una segunda fase, cuando ya los datos estuvieron reunidos, el problema fue depurarlos, es decir, no toda la informacin sera incluida. Sobre todo porque al enviarla, los buscadores incluyen todo lo existente en sus bancos de datos que contengan la palabra requerida. Ms de una vez ocurri que slo uno o dos items de cada pgina serva a este propsito, y a veces ninguno. De esta forma, antes de descartar la informacin haba que entrar en cada uno de los enlaces para conocer su contenido y as poder clasificarla.

Otro de los problemas encontrados es la movilidad de las informaciones. No siempre la misma informacin permanece en el mismo sitio a travs del tiempo, lo que equivale a decir que si hoy se localiza una cooperativa o alguna informacin relacionada, no es garanta de que esta permanezca en el mismo sitio la prxima vez que piquemos all con el ratn. Esto se da con mayor frecuencia cuando la empresa o cooperativa anunciante no posee su propio servidor y contrata los servicios de otra empresa para alojar sus pginas y expandirse a travs del espacio web.

Bibliografa: Rincn del vago Monografas .com V. Abraira, A. Prez de Vargas Mtodos Multivariantes en Bioestadstica. Ed. Centro de Estudios Ramn Areces. 1996.

Das könnte Ihnen auch gefallen