Sie sind auf Seite 1von 45

Estadstica bsica

Taller de Evaluacin Sensorial

Carlos Gmez Corona / UNAM 2014 -2

Introduccin
Despus de haber colectado las respuestas de los jueces o consumidores, que podemos decir sobre las muestras evaluadas?

Los productos son diferentes?


Los productos son iguales?

En qu atributos son diferentes las muestras?


Qu producto prefieren los consumidores?

Analizar estadsticamente los resultados

Qu producto gusta ms?


Los consumidores tienen los mismos gustos?

De donde viene la palabra?

GRACIAS GODOFREDO!
Fue el primero en usar el trmino estadstica Viene de la palabra alemana statistik que significa datos del estado

Gottfried Achenwall 1719 - 1772

Y para qu sirve
Recolectamos datos para saber algo de una poblacin
Para conocer sus elementos mas importantes

Para detectar una estructura entre lo aleatorio


Para confrontar una teora a la realidad

1. Hacer inferencias de una poblacin con base en un una muestra La media como un prueba

2. Queremos describir a una poblacin


La media como un resumen 3. Queremos predecir

Trminos Importantes
Variable.- Es la propiedad de un objeto o evento que puede tomar diferentes valores.

Nominales*.- con un nombre: azul, verde, caliente, hombre, mujer, aciertos


(distribucin binomial, ji-cuadrada)

Ordinales*.- el orden tiene sentido: NSE, ranking,


(ji-cuadrada,Friedman, Mann-Whitney)

Intervalo.- cifras continuas: temperatura, talla, escalas hednicas.


Razn.- cuando el 0 tiene razn de ser: km, correlaciones.
(medidas de tendencia central y dispersin, pruebas paramtricas)

* Las operaciones aritmticas no tienen sentido con variables nominales y ordinales. Pruebas no paramtricas.

Variables nominales con nmeros?

Se cuentan frecuencias y se analizan con pruebas no paramtricas.


Ji cuadrada, distribucin binomial

Variables ordinales. Un punto importante

En las variables ordinales el intervalo o distancia entre un punto y el otro no son iguales!

Escalas de intervalo

Las distancias entre un punto y otro en la escala es el mismo

Escalas de razn

Existe un verdadero cero en la escala, como ausencia o como punto central en las escala.

Ramas de la Estadstica
Hay dos ramas principales de la estadstica que se utilizan dependiendo de la forma en la que queremos utilizar los datos.

Descriptiva
Cuando el objetivo es nicamente describir un conjunto de datos. Grficas > medias, ndices > variaciones

Inferencial
Cuando queremos describir con ms detalle los datos, las diferencias entre ellos, cuando tenemos hiptesis. Describir datos > probar hiptesis

Distribuciones de Probabilidad
Una distribucin de probabilidad, es una grfica en donde se representa la probabilidad de encontrar un valor dado:
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Enero Marzo Mayo Julio Sep Nov

Grafica de probabilidad de lluvia en el DF

Binomial

Poisson

Normal

Weibull

Numero fijo de ensayos Ensayos independientes Los resultados de cada ensayo deben estar clasificados en dos categoras (dicotmicos) Probabilidad constante en cada ensayo.

Es similar a la distribucin binomial pero no se ve afectada por el tamao de muestra, o nmero de ensayos.

Es la distribucin ms importante en estadstica.

Es usada para variables de intervalo o de razn .

Es una distribucin de errores, donde la proporcin de error es proporcional a un tiempo dado.

Forma de la Distribucin Normal


Matemticamente, la distribucin normal se define de la siguiente manera:

y e son constantes (=3.1416; e=2.7183) Distribucin de problemas de comportamiento:


Histograma de Problemas de Comportamiento
40
Media Desv S N 49.08 10.60 286

30

La forma de la distribucin depende del valor de la media y de su desviacin estndar: (m, s) Podemos tener una sola distribucin normal?

Frequencia

20

10

20

30 40 50 60 70 Calificacin de Problemas de Comportamiento

80

Distribucin Normal
Es la distribucin + importante en estadstica Pruebas paramtricas

Binomial
Ampliamente usada en Ev.Sensorial Pruebas no paramtricas

Distribucin Normal estandarizada (s2=1, m=0). Simtrica


Teorema central del lmite Para variables de intervalo y razn

Para datos que toman 2 valores.


Nmero fijo de ensayos

Para variables nominales y ordinales

Pruebas de Hiptesis_ estadstica Inferencial


Generar Hiptesis: Ho y HA Ho: Hiptesis Nula; a = b, m1 < m2 Recopilar datos Prueba Estadstica

Ho

HA: Hiptesis Alternativa; a = b, m1 > m2

Tipos de Errores
realidad decisin

Ho

HA Error tipo II b = .

Ho

HA

Error tipo I a = 0.05

Prueba unilateral?, Prueba bilateral?

Ejercicio #1 Error tipo 1 vs error tipo 2


Para ti que es ms importante? Error tipo 1 , tipo 2?

Dos enamorados recin casados, pero.. H0= ella es una chica infiel

Error tipo 1 =

Error tipo 2=

Error Tipo I y Error tipo II


Ho : La proporcin de Jvenes en Mxico que prefieren Doritos X es menor o igual a 50%. Ho : P 0.5

Ha: La proporcin de Jvenes en Mxico que prefieren Doritos X es mayor a 50%. Ha: P>0.5

Decisin Basada en los resultados del estudio

Rechazo Ho
Error Tipo I

No Rechazo Ho No hay Error

Ho es cierta

Lanzamiento errneo de Doritos

No se lanza

X
Realidad

Doritos X
Error Tipo II

Ho es falsa

No hay error Se lanza Doritos X y es un xito

No se lanza Doritos X y se pierde una oportunidad de Negocio

Ji cuadrada
Karl Pearson 1857 1936 Fund 1 departamento de estadistica en el mundo en University

College London Biografo de Sir Francis


Galton (correlacion)

Ji cuadrada
Hace referencia a una distribucin particular matemtica que existe por ella misma sin referencia en el mundo exterior.

Designa una prueba estadstica cuya distribucin es similar a la Ji cuadrada

Existen dos tipos de Pruebas Ji cuadrada:

- Bondad de ajuste

- Independencia

Ji cuadrada Bondad de ajuste


Ajuste entre una distribucin terica vs una emprica

La formula implica una comparacin entre frecuencias observadas y tericas*

Ejemplo: 4 muestras idnticas en diferente orden. 32 Consumidores -> preferencia?

Ho: 1=2=3=4 (misma preferencia) 1


F. O. 4

2
5

3
8

4
15

F. T.

* Frecuencias que esperaramos si H0 es verdadera.

Ji cuadrada_Bondad de Ajuste
Calcular grados de libertad

Ejercicio con Excel

Ji cuadrada_Independencia
Cuando se tienen frecuencias derivadas de diferentes segmentos de una prueba. Y se quiere saber la independencia entre las respuestas (ej: hombres y mujeres, diferentes sabores, etc.). Se utiliza la misma frmula de Ji 2 Bondad de Ajuste

Nombre:__________

Fecha:__________

Prueba las sopas que hay frente a ti, y determine el aroma dominante de cada muestra: poro, zanahoria, jitomate o papa. Escoja solamente un aroma
Cdigo 247 584 976 340 628 584 Poro Zanahoria Jitomate Papa

Ji cuadrada_Independencia
40 consumidores participaron en la prueba de las sopas, y se tuvieron las respuestas:
Sopa* Poro Zanahoria Jitomate Papa S

Calcular la frecuencia terica:

total lnea * total columna A


B C

24
20 7

4
9 11

4
3 8

8
8 14

40
40 40

total general = 40 x 51 = 17 120

51

24

15

30

120

Sopa* Poro Zanahoria Jitomate Papa


A B C 17 17 17 8 8 8 5 5 5 10 10 10

Ji2 = (24-17)2 + (20-17) 2 +, , +(14-10)2

17

17

10

Ji2 = 17.74

g.d.l.? valor crtico?


* Se evaluaron 2 veces cada sopa, con diferente cdigo

Friedman
Milton Friedman 1912 2006 Gringo University of Chicago Nobel memorial price in

economics sciences

Friedman
Es una ji2 modificada para calcular rangos (ordenamiento de muestras) X2=

12 np (p+1)

(S Tp2)

(3n

(p+1) )

n= # personas P= # productos

Tp= suma de rangos de xProd

Ho: prod 1 = prod 2 = prod 3 = prod 4 = prod 5


4 formulas diferentes de sopas + actual
12 jueces

Ordenar las muestras de la + aromtica aromtica


Igualdades no permitidas

Friedman
Nota: A un rango ms alto equivale mayor intensidad de aroma

g.d.l. = productos - 1

d determinar errores / productos


Formula:

Calculando::

T Student_1 muestra
Una muestra < 30 observaciones, evaluadas por diferentes jueces

Todos los datos provienen de una sola muestra Se desea saber si los datos son diferentes entre s: jueces El valor obtenido se compara al valor terico de la distribucin t

T Student_1 muestra
Ejemplo 1: Intensidad de pungencia 25 jueces calificaron la pungencia de una salsa habanera y se quiere saber si los datos obtenidos son similares o diferentes: Escala no estructurada de 15 puntos:

T Student_1 muestra
La ilusin del tamao de la luna a interesado a muchos durante siglos, viene del hecho de que veamos la luna ms grande cuando est en el horizonte que cuando est en el zenit

Un estudio se interes en la percepcin de la gente sobre la ilusin del tamao, para ver si realmente la gente perciba una diferencia en el tamao. Luna estndar = 1.0 (zenit) Luna + grande = 1.5 Ho: m = 1.0

T Student_2 muestras independientes


Dos muestras < 30 observaciones. Se desea probar la independencia de las muestras:

Las muestras provienen de poblaciones distintas


Histogram of Vino C-1, Vino C-2
0.6 0.5 0.4
Variable Vino C-1 Vino C-2 Mean 6.444 8.259 StDev N 0.7511 27 1.375 27

Density

0.3 0.2 0.1 0.0

8 Data

10

11

Se tienen dos muestras.

Las dos muestras son evaluadas por distintos jueces 2 muestras independientes evaluadas por el mismo juez El valor obtenido se compara al valor terico de la distribucin t

T Student_2 muestras
Ejemplo: 27 enlogos calificaron la intensidad del aroma a ciruela en dos vinos vinos carmenere. Las evaluaciones se hicieron de forma mondica

Escala contnua de 10 puntos:

T Student_2 muestras pareadas


Dos muestras < 30 observaciones. Se desea probar la independencia de las muestras:

Las muestras provienen de poblaciones distintas


Histogram of Vino C-1, Vino C-2
0.6 0.5 0.4
Variable Vino C-1 Vino C-2 Mean 6.444 8.259 StDev N 0.7511 27 1.375 27

Density

0.3 0.2 0.1 0.0

8 Data

10

11

Se tienen dos muestras.

Las dos muestras son evaluadas por el mismo juez al mismo tiempo
El valor obtenido se compara al valor terico de la distribucin t

T Student_2 muestras pareadas


En 1987 se realiz un estudio sobre el nivel de satisfaccin sexual en parejas casadas.
Se le pregunt a 91 parejas, a que punto estaban de acuerdo con la siguiente frase: el sexo es divertido para mi y mi pareja

Escala de 4 puntos: (1) jamas a (4) siempre

Analizar descriptivamente los datos Realizar una prueba t para muestras pareadas

ANOVA
Varianza, medida de dispersin de los datos.

Elevar al cuadrado tiene 2 ventajas:

Siempre obtenemos nmeros positivos


La raz cuadrada nos da la desviacin estndar (cobra sentido con unidades)

ANOVA es ampliamente utilizada por 2 razones: Podemos comparar mltiples medias, (t de student compara nicamente 2)

Permite analizar simultneamente 2 mas variables independientes.

El modelo subyacente
Ejemplo, como resumir el efecto de la estura del Mexicano:
INEGI dice que la estatura promedio es 1m 75 cm (H y M). Los hombre tienen una tendencia a pasar el promedio por 6 cm. Quiero ver el efecto que yo puedo tener independientemente de ser hombre y mexicano: (promedio mexicano ---- gnero ----- mi gentica) Estatura = 1m 75 cm + 6 cm + mi gentica (e)

Estatura = media general + gnero + error

Condiciones de aplicacin
Homogeneidad de la Varianza Cada una de las muestras analizadas debe de tener la misma varianza. (homoscdasticit)

Normalidad
Los residuales de las muestras deben de ser normales

(Prueba Kolmogorov-Smirnov, Anderson-Darling)

Independencia de las observaciones


Conocer la posicin de una observacin x con respecto a la media, no nos dice nada sobre la observacin y.

Se puede tener diferente tamao en las observaciones

ANOVA
10 jueces evalan la intensidad aromtica de un vino, en una escala contnua de 25 puntos
Cabernet Carmenere Pinot Noir Tempranillo Malbec

C1 C2

9 8

7 9

11 13

12 11

10 19

C3
C4 C5

6
8 10

6
6 11

8
6 14

16
11 9

14
5 10

C6
C7 C8

4
6 5

6
3 8

11
12 12

23
12 10

11
14 15

C9
C10

7
7

7
6

10
11

19
11

11
11

Comparacin de medias

Ejemplo ANOVA, Aceptacin de vino.


10 consumidores

ANOVA_ Posibles resultados

ANOVA 2 factores sin repeticin


Se evalan dos factores: el producto y el consumidor Ej: Ej. 10 consumidores evaluaron el confort del aire acondicionado de la nueva Koleos Renault, en una escala hednica de 9 puntos

Cul es el modelo del ANOVA?

ANOVA 2 factores con repeticin


Se evalan dos factores: el producto y el consumidor + la interaccin entre ellos.

Qu es la interaccin? Ej: Ej. 10 consumidores evaluaron el confort del aire acondicionado de la nueva Koleos Renault, en una escala hednica de 9 puntos. Con una repeticin

Cul es el modelo del ANOVA?

Comparaciones mltiples
Despus de una prueba paramtrica cules muestras son las diferentes?
Ligado al Error tipo I: Error de Comparacin (ej: mltiples t student). Suma de errores Error Grupo (Tukey). Error compartido
Prueba Error Comparacin Tipo A priori / Post Hoc

t multiples
t Bonferroni LSD Fisher

EC
EE EE

Por pares
Contraste Por pares

t
t mod t

A priori
A priori A posteriori

Newman-Keuls
Tukey Dunnett

EE
EE EE

Por pares
Por pares Grupo testigo

d
d F

A posteriori
A posteriori A posteriori

EC: Error de Comparacin. EG: Error del grupo

Tipo de datos

Cualitativos (categoriales)

Cuantitativos (medidas)

Tipo de categorizacin

Tipo de pregunta

Una variable categrica

Dos variables categrica

Relacione

Diferencias

Prueba x2 de bondad de ajustes

Tabla de contingencia x2

Nmero de predictores

Nmero de grupos

Uno

Varios

Dos

Varios

Medicin

Regresin mltiple

Relacin entre muestras

Relacin entre muestras

Continua

Rango

Independiente

Dependiente

Independiente

Dependiente

Inters primario

rs de Spearman

t de dos muestras

t de muestras pareadas

Nmero var. independientes

Medidas repetidas

Grado de relacin

Forma de relacin

Mann-Whitney

Wilcoxon

Una

Varias

Friedman

Correlacin de Pearson

Regresin

ANOVA con 1 criterio de clas.

Kruskal-Wallis

ANOVA Factorial

Howell. D. (2009). Statistical Methods for Psychology

Das könnte Ihnen auch gefallen