Sie sind auf Seite 1von 57

DISTRIBUCIN DE FRECUENCIAS,

TABULACIN CRUZADA Y PRUEBA


DE HIPTESIS

DISTRIBUCIN DE FRECUENCIAS
Cuando los investigadores de mercado
necesitan responder preguntas sobre una
sola variable.
Por ejemplo:
Qu porcentaje del mercado consiste en
usuarios frecuentes, medios, espordicos y no
usuarios?
Cul es la distribucin del ingreso en los
usuarios de la marca?
La distribucin est sesgada hacia el grupo
de bajo ingreso?

DISTRIBUCIN DE FRECUENCIAS
Se considera una variable a la vez.
La ocurrencia relativa o frecuencia de los
diferentes valores de la variable se
expresa en porcentajes.
Histograma de frecuencias

ESTADSTICOS ASOCIADOS CON LA DISTRIBUCIN DE


FRECUENCIAS

Los estadsticos ms utilizados que se


asocian con las frecuencias son:
medidas de localizacin (media, moda y
mediana)
medidas de variacin (rango, rango
intercuartlico,
desviacin
estndar
y
coeficiente de variacin)
medidas de la forma (asimetra y curtosis)

ESTADSTICOS ASOCIADOS CON LA DISTRIBUCIN DE


FRECUENCIAS

Medidas de localizacin
Medidas de tendencia central porque tienden a
describir el centro de la distribucin.
Media. O valor promedio, es la medida de
tendencia central ms utilizada.
Los datos deberan mostrar cierta tendencia
central, ya que la mayora de respuestas se
distribuyen alrededor de la media.
Si no hay valores extremos
la media es una medida
robusta.

ESTADSTICOS ASOCIADOS CON LA DISTRIBUCIN DE


FRECUENCIAS

Medidas de localizacin
Moda:
Es el valor que ocurre con mayor frecuencia y
representa el pico ms alto de la distribucin.
Es una buena medida de localizacin cuando
la variable es categrica o se ha agrupado en
categoras.

ESTADSTICOS ASOCIADOS CON LA DISTRIBUCIN DE


FRECUENCIAS

Medidas de localizacin
Mediana. Es el valor intermedio cuando los datos
estn
acomodados
en
orden
ascendente
o
descendente
Es una medida de tendencia central adecuada para datos
ordinales
Si la variable se mide en una escala nominal, debemos
emplear la moda; si se mide en una escala ordinal, la
mediana es la apropiada
La media es ms apropiada para los datos de intervalo o
de razn. Cuando existen valores extremos en los datos,
la media no es una buena medida entonces es til
considerar tanto la media como la mediana.

ESTADSTICOS ASOCIADOS CON LA DISTRIBUCIN DE


FRECUENCIAS

Medidas de variacin
Rango. mide la dispersin de los datos, y
se define como la diferencia entre el valor
ms grande y el valor ms pequeo en la
muestra.
Se ve directamente afectado por los valores
extremos

ESTADSTICOS ASOCIADOS CON LA DISTRIBUCIN DE


FRECUENCIAS

Medidas de variacin
Varianza y desviacin estndar.
La diferencia entre la media y un valor observado
se conoce como la desviacin a partir de la media.
La varianza es la desviacin promedio al cuadrado
a partir de la media.
Cuando los datos se agrupan alrededor de la
media, la varianza es pequea.
Cuando los datos estn dispersos, la varianza es
grande.

ESTADSTICOS ASOCIADOS CON LA DISTRIBUCIN DE


FRECUENCIAS

Medidas de variacin
Varianza y desviacin estndar. Es la raz
cuadrada de la varianza. As, la desviacin
estndar se expresa en las mismas unidades que
los datos, y no en unidades al cuadrado.
La desviacin estndar de una muestra, s, se
calcula por medio de:
Dividimos entre n-1 en vez de entre n, as
compensamos la menor variacin observada en
la muestra.

ESTADSTICOS ASOCIADOS CON LA DISTRIBUCIN DE


FRECUENCIAS

Medidas de variacin
Coeficiente de variacin.
Es el cociente de la desviacin estndar con
respecto a la media, expresado en porcentaje,
y es una medida de variacin relativa sin
unidades.

ESTADSTICOS ASOCIADOS CON LA DISTRIBUCIN DE


FRECUENCIAS

Medidas de forma
Asimetra.
En distribucin simtrica, los valores que se ubican a
ambos lados del centro de la distribucin son iguales, y
la media, la moda y la mediana tienen el mismo valor.
En una distribucin asimtrica, las desviaciones
positivas y negativas a partir de la media son diferentes.
La asimetra es la tendencia de las desviaciones de la
media a ser mayores tanto en una direccin como en la
otra.
Es la tendencia de una de las colas de la distribucin a
ser ms grande que la otra.

ESTADSTICOS ASOCIADOS CON LA DISTRIBUCIN DE


FRECUENCIAS

Medidas de forma
Curtosis.
Es una medida del pico o aplanamiento
relativo de la curva.

Las medidas de la forma son importantes,


ya que si una distribucin est muy
sesgada o es muy puntiaguda o aplanada,
entonces los procedimientos estadsticos
que suponen normalidad deben utilizarse
con cautela.

ESTADSTICOS ASOCIADOS CON LA DISTRIBUCIN DE


FRECUENCIAS

Medidas de forma
Asimetra de una distribucin

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Procedimiento general para la prueba


de hiptesis

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Paso 1: formular las hiptesis

Una hiptesis nula es un enunciado sobre el status quo


sin diferencia o con ningn efecto.

Si la hiptesis nula no se rechaza, entonces no se


realizan cambios.
En una hiptesis alternativa se plantea la expectativa
de cierta diferencia o efecto.
Una hiptesis nula puede rechazarse, pero nunca se
acepta con base en una sola prueba.
En la investigacin de mercados, la hiptesis nula se
formula de tal manera que su rechazo conduce a la
aceptacin de la conclusin deseada.

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Paso 1: formular las hiptesis


Por ejemplo
Una tienda departamental considera la
posibilidad de introducir un servicio de
compras por Internet, que se implementar si
ms del 40% por ciento de los usuarios de
Internet compran a travs de este medio. La
forma adecuada de formular la hiptesis es:

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Paso 1: formular las hiptesis


Esta prueba de la hiptesis nula es de una
cola
Por otro lado, suponga que el investigador
deseara determinar si la proporcin de
usuarios de Internet que compran por este
medio difiere del 40%, se utilizara una
prueba de dos colas y las hiptesis se
expresaran de la siguiente manera:

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Paso 2: elegir una prueba adecuada


El estadstico de prueba mide cunto se
aproxima la muestra a la hiptesis nula y
suele deducirse de una distribucin bien
conocida, como la distribucin normal, t o
chi cuadrada

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Paso 3: seleccionar a nivel de significancia


Error tipo I. ocurre cuando los resultados de la
muestra conducen al rechazo de una hiptesis
nula que en realidad es verdadera.
Ejemplo:
concluyramos que la proporcin de
clientes que prefieren el nuevo plan de servicio fue
mayor que 0.40, cuando de hecho fue menor o igual
que 0.40. La probabilidad del error tipo I
tambin
se denomina nivel de significancia.
Este error se controla al establecer el nivel tolerable
de riesgo de rechazar una hiptesis nula que es
verdadera.

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Paso 3: seleccionar
significancia

nivel

de

Error tipo II. ocurre cuando, con base en los


resultados de la muestra, no se rechaza una
hiptesis nula que en realidad es falsa.

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Paso 4: reunir los datos y calcular el


estadstico de prueba
p = 17/30 = 0.567

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Paso 4: reunir los datos y calcular el


estadstico de prueba

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Paso 5: determinar la probabilidad


(valor crtico)
El rea a la derecha de
z = 1.88 es 1.0000 - 0.9699 = 0.0301

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Pasos 6 y 7: comparar la probabilidad


(valor crtico) y tomar la decisin
La probabilidad asociada con el valor
calculado u observado del estadstico de
prueba es 0.0301.
sta es la probabilidad de obtener un valor
p de 0.567 cuando
= 0.40, el cual es
menor que el nivel de significancia de 0.05.
Por lo tanto, se rechaza la hiptesis nula.

INTRODUCCIN A LA PRUEBA DE HIPTESIS

Pasos 6 y 7: comparar la probabilidad


(valor crtico) y tomar la decisin
Probabilidad de z con una prueba de una
cola

TABULACIONES CRUZADAS

Describe dos o ms variables de forma


simultnea.
Una tabulacin cruzada es la combinacin
de la distribucin de frecuencias de dos o
ms variables en una sola tabla.

TABULACIONES CRUZADAS
A las tablas de tabulacin cruzada se les conoce como
tablas de contingencia.
Se utiliza ampliamente en la investigacin de mercados
comercial,
1.

el anlisis y los resultados pueden interpretarse y


comprenderse fcilmente por parte de gerentes sin
conocimientos de estadstica;

2.

la claridad de la interpretacin ofrece un vnculo ms


fuerte entre los resultados y las acciones gerenciales;

3.

una serie de tabulaciones cruzadas puede dar ms


informacin sobre un fenmeno complejo, que un solo
anlisis multivariado;

4.

la tabulacin cruzada puede resolver el problema de


celdas escasas;

TABULACIONES CRUZADAS

Tres variables
La relacin inicial era espuria

TABULACIONES CRUZADAS

Tres variables
Revelacin de asociacin oculta

TABULACIONES CRUZADAS

Comentarios generales sobre la tabulacin


cruzada
Es posible hacer tabulaciones cruzadas de ms
de tres variables, aunque la interpretacin
sera bastante compleja.
Debe haber por lo menos cinco observaciones
esperadas en cada celda para calcular los
estadsticos.
Es una forma ineficiente de examinar
relaciones en las que existen muchas variables.

ESTADSTICOS ASOCIADOS CON LA TABULACIN CRUZADA

La significancia estadstica de la asociacin observada


generalmente se mide usando el estadstico chi
cuadrada.
Chi cuadrada
La hiptesis nula,
entre las variables.

, plantea que no hay una asociacin

La prueba se realiza al calcular las frecuencias de celda


que se esperara observar si no hubiera una asociacin
entre las variables, dados los totales por rengln y por
columna.
Estas
frecuencias
de
celda
esperadas,
que
se
simbolizan
, luego se comparan con las frecuencias
reales observadas,

ESTADSTICOS ASOCIADOS CON LA TABULACIN CRUZADA

Chi cuadrada

Tabla 15.3

Para los datos de la tabla las frecuencias


esperadas para la celdas, de izquierda a
derecha y de arriba hacia abajo, son:

ESTADSTICOS ASOCIADOS CON LA TABULACIN CRUZADA

Chi cuadrada
Se calcula como
Si existe una asociacin sistemtica, se estima
la probabilidad de obtener un valor de chi
cuadrada, tan grande o ms grande que el
calculado a partir de la tabulacin cruzada.
En general, el nmero de grados de libertad es
igual al nmero de observaciones menos el
nmero de limitaciones necesarias para calcular
un trmino estadstico.

ESTADSTICOS ASOCIADOS CON LA TABULACIN CRUZADA

Chi cuadrada

La hiptesis nula (H0), de que no hay relacin


entre las dos variables, se rechaza cuando el
valor calculado del estadstico de prueba es
mayor que el valor crtico de la distribucin chi
cuadrada con el nmero apropiado de grados
de libertad.
La distribucin chi cuadrada es una distribucin
asimtrica, cuya forma depende nicamente
del nmero de grados de libertad.

ESTADSTICOS ASOCIADOS CON LA TABULACIN CRUZADA

Chi cuadrada
Prueba chi cuadrada de asociacin

tabla 15.3, existe (2 - 1) X (2 - 1) = 1

ESTADSTICOS ASOCIADOS CON LA TABULACIN CRUZADA

Chi cuadrada
El estadstico chi cuadrada slo
calcularse en conteos de datos.

debe

Cuando los datos se presentan en forma de


porcentaje, primero deben convertirse a
conteos absolutos o nmeros.
Como regla general, el anlisis de chi
cuadrada no debe realizarse cuando las
frecuencias esperadas o tericas en
cualquier celda sean menores que 5.

ESTADSTICOS ASOCIADOS CON LA TABULACIN CRUZADA

Coeficiente fi
Se utiliza como una medida de la fuerza de la asociacin
en el caso especial de una tabla con dos renglones y dos
columnas (una tabla 2 X 2). El coeficiente fi
es
proporcional a la raz cuadrada del estadstico chi
cuadrada.

El estadstico toma un valor de 0 cuando no haya


asociacin, lo que tambin indicara una chi cuadrada de
0.
Cuando las variables estn perfectamente relacionadas, fi
toma un valor de 1.

ESTADSTICOS ASOCIADOS CON LA TABULACIN CRUZADA

Coeficiente de contingencia
Se utiliza para evaluar la fuerza de la
asociacin en una tabla de cualquier
tamao.
Este ndice tambin est relacionado con
chi cuadrada de la siguiente forma:
Vara entre 0 y 1

PRUEBA DE HIPTESIS DE DIFERENCIAS

Las pruebas paramtricas asumen que las


variables de inters se miden por lo
menos en una escala de intervalo.
Las pruebas no paramtricas asumen que
las variables se miden en una escala
nominal u ordinal.
La prueba paramtrica ms popular es la
prueba t, que se utiliza para examinar
hiptesis sobre medias.

PRUEBA DE HIPTESIS DE DIFERENCIAS

Pruebas de hiptesis relacionadas con


diferencias

PRUEBAS PARAMTRICAS

El estadstico t supone que la variable se


distribuye normalmente y que se conoce la
media y la varianza de la poblacin se
estima a partir de la muestra.
La distribucin t tiene una apariencia similar
a la distribucin normal, ya que ambas son
simtricas y tienen forma de campana.
A diferencia de la distribucin normal, la
distribucin t tiene un rea mayor en las
colas y menor en el centro.

PRUEBAS PARAMTRICAS

Procedimiento:
1.

Formular las hiptesis nula (H0) y alternativa (H1).

2.

Elegir la frmula apropiada para el estadstico t.

3.

Elegir un nivel de significancia, , para poner a prueba


H0. Generalmente se selecciona un nivel de 0.05.13

4.

Tomar una o dos muestras, y calcular la media y la


desviacin estndar de cada una.

5.

Calcular el
verdadera.

6.

Calcular los grados de libertad y estimar la probabilidad


de obtener un valor ms extremo del estadstico en la
tabla 4 (de manera alternativa, calcular el valor crtico
del estadstico t).

estadstico

asumiendo

que

H0

es

PRUEBAS PARAMTRICAS

7. Si la probabilidad calculada en el paso 6 es


menor que el nivel de significancia elegido en
el paso 3, se rechaza H0. Si la es mayor, no
se rechaza H0. (De manera alternativa, si el valor del
estadstico t calculado en el paso 5 es mayor que el valor
crtico determinado en el paso 6, se rechaza H0. Si el valor
calculado es menor que el valor crtico, no se rechaza H0).

8. Expresar la conclusin a la que se lleg por


medio de la prueba t, en trminos del
problema de investigacin de mercados.

PRUEBAS PARAMTRICAS

Una muestra
(Datos de la tabla 15.1) suponga que se
desea poner a prueba la hiptesis de que la
media de la puntuacin de familiaridad es
mayor que 4.0, el valor neutral en una
escala de 7 puntos. Se selecciona un nivel
de significancia
Las hiptesis se formulan
de la siguiente manera:

PRUEBAS PARAMTRICAS

Una muestra
Los grados de libertad del estadstico t para
probar la hiptesis sobre una media son n 1.
En este caso, n - 1 = 29 - 1 o 28. En la tabla
4 del apndice estadstico vemos que la
probabilidad de obtener un valor ms
extremo que 2.471 es menor que 0.05.
Por lo tanto, se rechaza la hiptesis nula.

PRUEBAS PARAMTRICAS

Dos muestras independientes


Por ejemplo: los usuarios y no usuarios de
una marca difieren en trminos de la
manera
en
que
la
perciben,
los
consumidores con un ingreso alto gastan
ms
en
entretenimiento
que
los
consumidores con un ingreso bajo, o la
proporcin de usuarios leales a la marca en
el segmento
Medias

PRUEBAS PARAMTRICAS

Dos muestras independientes


Se obtienen muestras de dos poblaciones, y se
calculan las medias y las varianzas con base en
el tamao de las muestras n1 y n2. Si se
descubre que ambas poblaciones tienen la
misma varianza, entonces se estima una
varianza conjunta a partir de las varianza de las
dos muestras, de la siguiente manera:

PRUEBAS PARAMTRICAS

Dos muestras independientes


La desviacin estndar del estadstico de prueba se
estima como:
El valor adecuado de t se calcula como:

Los grados de libertad en este caso son


Si las dos poblaciones tienen varianza diferentes, no
se puede calcular una t exacta para la diferencia de
las medias de las muestras. En cambio, se calcula una
t aproximada.

PRUEBAS PARAMTRICAS

Dos muestras independientes

PRUEBAS PARAMTRICAS

Dos muestras independientes


Proporciones: se ejemplifica con los datos
de la tabla 15.1, que indica el nmero de
hombres y mujeres que utilizan Internet
para hacer compras. Es igual la proporcin
de hombres y mujeres que utilizan Internet
para hacer compras?

PRUEBAS PARAMTRICAS

Dos muestras independientes


Proporciones:

PRUEBAS PARAMTRICAS

Dos muestras independientes


Proporciones:
alternativa son:

Las

hiptesis

nula

Se utiliza la prueba z para probar la


proporcin en una muestra. Sin embargo,
en este caso el estadstico de prueba est
dado por:

PRUEBAS PARAMTRICAS

Dos muestras independientes


Proporciones:
En el estadstico de prueba, el numerador es
la diferencia entre las proporciones de las dos
muestras, P1 y P2. El denominador es el error
estndar de la diferencia de las dos
proporciones, y est dado por

PRUEBAS PARAMTRICAS

Dos muestras independientes


Proporciones:
Se elige un nivel de significancia
Dados los datos de la
tabla 15.1, el estadstico de prueba se calcula como sigue:

Dada una prueba de dos colas, el rea a la derecha del


valor crtico es /2 o 0.025. Por lo tanto, el valor crtico del
estadstico de prueba es 1.96. Debido a que el valor
calculado es menor que el valor crtico, no se puede
rechazar la hiptesis nula.

PRUEBAS PARAMTRICAS

Muestras pareadas
En el ejemplo del uso de Internet (tabla 15.1), se podra
emplear una prueba t pareada para determinar si los
sujetos difieren en su actitud hacia Internet y en su actitud
hacia la tecnologa.
El archivo de resultados se muestra en la tabla 15.15.

La media de la actitud hacia Internet es 5.167 y hacia la


tecnologa es 4.10.

La media de la diferencia entre las variables es 1.067, con una


desviacin estndar de 0.828 y un error estndar de 0.1511.

Esto produce un valor t de (1.067/0.1511) 7.06, con 30-1=29


grados de libertad y una probabilidad menor que 0.001.

Por lo tanto, en general los sujetos tienen una actitud ms


favorable hacia Internet que hacia la tecnologa.

PRUEBAS NO PARAMTRICAS

Tabla 15.9

Das könnte Ihnen auch gefallen