Beruflich Dokumente
Kultur Dokumente
Hipótesis Nula: H0 La teoría que se supone que es cierta hasta que los datos den la
evidencia contundente que pruebe lo contrario
p.ej: Se quiere decidir si las medias de dos conjuntos de datos que se supone
provienen de la misma población, son iguales.
Criterio de decisión → Estadístico de prueba obtenido de los datos, y del cual se sabe
como se distribuye..por lo tanto se puede obtener la probabilidad del mismo
0.4500 1.0000
0.4000 0.9000
0.3500 0.8000
0.3000 0.7000
0.2500
0.6000
F(x)
0.5000
f(x)
0.2000
0.4000
0.1500
0.3000
0.1000
0.2000
0.0500
0.1000
0.0000
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico -3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
P-Value: Es la probabilidad que tiene de ocurrir el estadístico calculado a
partir de los datos.
y2 − y1 0.4500
T= 0.4000
1 1
+ 0.3500
N1 N 2 0.3000
0.2500
f(x)
0.2000
0.1500
0.1000
0.0500
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
Para dos muestras de ejemplo, con N1 y N2 dados, el valor del estadístico se
calcula como t=2.0.
Según la distribución de probabilidad del estadístico, la probabilidad p(T>=t) es de 0.054
0.4500
0.4000
0.2500
f(x)
0.2000
0.1500
Si la probabilidad de que ocurra un
0.1000
valor igual o mayor al valor t, es
0.0500 grande, entonces esto indicaría que
0.0000 estamos ante algo que sucede con
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000 regularidad
Estadístico
0.4000
0.3500
0.3000
0.2000
0.1500 mayores al
0.1000 t(p=0.05)
0.0500
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
Si el estadístico puede dar valores negativos, entonces esa probabilidad
0.05 se reparte en las dos colas de la distribución quedando entonces
0.4500
0.4000
0.3500
Todos los
0.3000
valores de t
0.2500
mayores al
f(x)
0.2000
Todos los t(p=0.025)
0.1500
valores de t
0.1000
menores al
t(p=0.025) 0.0500
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
Los valores del estadístico T, en esos rangos son los que dan evidencia
contundente contra H. Si el estadístico T, cae en ese rango entonces rechazo H
Posibles casos en las pruebas de hipótesis:
Hipótesis nula H0 Decisión tomada Situación Real
H0 Cierta Ho Falsa
No rechazar H0 Decisión Correcta Error Tipo II
Rechazar H0 Error Tipo I Decisión Correcta
0.3500
0.3000
Si H0 es falsa, y se rechaza no hay error.
0.2500
Si H0 es cierta, y se rechaza hay error.
f(x)
0.2000
0.1500
0.4500
0.4000
0.3500
0.3000
0.2500
f(x)
0.2000
α/2 0.1500 α/2
0.1000
0.0500
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
Si el estadístico calculado da dentro de este intervalo entonces la
conclusión de la prueba de hipótesis es:
Se rechaza la hipótesis nula H0, con un nivel de significancia (α)
0.4000
0.3500
0.3000
0.2500
f(x)
0.2000
0.1500
0.1000
0.0500
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
Cuando se da el nivel de significancia α, se da en realidad la probabilidad
que tiene el valor del estadístico limite o crítico a partir del cual se
considera que hay evidencia contundente en contra de H
0.4000
0.3500
0.3000
0.2500
f(x)
0.2000
0.1500
0.1000
0.0500
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
Test paramétrico:
Un test paramétrico implica que la distribución de la muestra en cuestión es
conocida o asumida para que la prueba sea válida. En la mayoría de casos se asume
que esta distribución es normal.
Test No paramétrico:
No se realizan suposiciones asociadas a la distribución de probabilidad de la
población muestreada. S
En resumen:
En una prueba de hipótesis siempre:
La prueba T, se utiliza para probar la igualdad de las medias μ1, y μ2 cuando las
dos series tienen la misma desviación σ
Prueba T, diferencia de medias de dos variables
❑Estadístico: ˆ 1 − ˆ 2
Tc = (N1 − 1)ˆ12 + (N 2 − 1)ˆ 2 2
S
1
+
1 S=
N1 N 2 N −2
ˆ 1 2 2
2
ˆ 2
Redondeado por debajo
+
N1 N 2
C = Entero
(
ˆ 1 2 N1
2
+
) (
ˆ 2 2 N 2 )
2
N1 − 1 N2 −1
Prueba T modificada: Para series autocorrelacionadas
Reemplaza el tamaño de las series (N1 y N2) por los tamaños (NE1 y NE2) que
tendrían dos series equivalentes pero independientes
𝑁12
𝑁𝐸1 = 𝑁 +1
𝜌1 1 1 − 𝑁1 𝜌12 1 + 𝑁1 − 1 𝜌1 1
𝑁1 + 2
𝜌1 1 − 1 2
𝑁22
𝑁𝐸2 = 𝑁 +1
𝜌1 2 2 − 𝑁2 𝜌12 2 + 𝑁2 − 1 𝜌1 2
𝑁2 + 2
𝜌1 2 − 1 2
ˆ 1 − ˆ 2
Tc = Similar al de la prueba T, salvo en los N1 N2 que son
ˆ 1 2 ˆ 2 2 1 reemplazados por NE1 y NE2
+
NE1 NE 2
❑La H0 se rechaza con un nivel de significancia α si:Tc > T 1-α/2 (NE1+ NE2-2)
Prueba Mann-Whitney (ó Test de Wilcoxon)
❑Método basado en los ordenes de los datos
❑El test asume que ambos conjuntos se distribuyen con la misma función, pero de
parámetros diferentes
❑H0: μy1 = μy2 La media de la primera serie es igual a la media de la segunda serie
Prueba Mann-Whitney (ó Test de Wilcoxon)
❑El estadístico que permite decidir es:
Es el orden de yt, en las dos series
𝑁1 juntas y ordenadas (serie z).
𝑁1 ∗ (𝑁1 + 1) R( y t )
𝑈 = 𝑅 𝑦𝑡 − El puesto que ocupa cada dato
2
𝑡=1 dentro de esta serie z
Cuando N1>10 y N2>10 se calcula el estadístico normalizado
𝑁𝑁
𝑈 − ( 12 2 )
𝑍𝑐 =
𝑁1 𝑁2 (𝑁 + 1)
12
ˆ 12
❑El estadístico para esta prueba se define como: Fc = 2
ˆ 2
𝑋𝑖,𝑗 − 𝑋෨𝑗
Φ−1 es el inverso de la Normal estándar
𝑖
1+𝑁+1
𝑎𝑁,𝑖 = Φ−1 𝑖 es el orden de la resta, ordenados de menor a mayor
2
1 𝑁 𝑁
N= σ𝑘𝑗=1 𝑛𝑗 1 𝑛𝑗 1 2
𝐴𝑗ҧ = σ 𝑎 𝑎ത = 𝑎𝑁,𝑖 𝑉2 = 𝑎 − 𝑎ത
𝑛𝑗 𝑖=1 𝑁,𝑖 𝑁 𝑖=1 𝑁 − 1 𝑖=1 𝑁,𝑖
2
σ𝑘𝑗=1 𝑛𝑗 𝐴𝑗ҧ − 𝑎ത
𝑥𝑜2 =
𝑉2
2
Para N grandes, 𝑥𝑜2 ∼ 𝑥𝑘−1
Homogeneidad:
La serie conserva sus características estadísticas con el tiempo
En especial: 120.00
100.00
Media, Varianza, 80.00
Independencia
Q [m3/s]
60.00
20.0
40.00
Temperatura mínima promedio anual
19.0
20.00
18.0
0.00
17.0
0 20 40 60 80 100 120 140
Tiempo
16.0
15.0
14.0
1970 1975 1980 1985 1990 1995 2000
Años
Detección de tendencias
100.00
19.0
18.0
80.00
Q [m3/s]
17.0 60.00
16.0 40.00
15.0 20.00
14.0
0.00
1970 1975 1980 1985 1990 1995 2000
Años 0 20 40 60 80 100 120 140
Tiempo
¿Por qué se
puede ver Por que el período de observación es demasiado
corto, y las series cortas son mas propensas a
afectada la mostrar cambios
detección de
una
tendencia?
Por el tipo de test, algunos son mas conservadores
Requisitos de la serie para que el test sea válido
❑Series con registros suficientes (> 30) algunos pueden ser aplicados a series con
un número de datos (> 15)
yt = a + bt
20.0
Temperatura mínima promedio anual
Regresión de tipo lineal
19.0
entre t y Temperatura
18.0
17.0
Que
depende 16.0
del tiempo y = -0.0581x + 132.6
15.0
14.0
Estadístico es:
N=Número de datos
r N −2 r=Coeficiente de correlación
Tc = cruzada de orden 0, entre la
1− r2 serie (y1, y2, y3,…,yn) y el orden
de la serie (1,2,3,..n)
Regresión Lineal (prueba T)
r N −2
Tc = Se distribuye según una t-student
1− r 2
19.0
18.0
17.0
16.0
y = -0.0581x + 132.6
15.0
14.0
1970 1975 1980 1985 1990 1995 2000 Es diferente de cero, con una
Años
significancia estadística de 0.05
Si cambiamos el nivel de significancia: 0.01
A veces es mejor no fijar el nivel de significancia, sino dar el p-value del estadístico
calculado y permitir que el decisor juzgue si es suficiente o no
P-value= 0.007
Prueba de Mann-Kendall
Si (Xi-Xj) >o→1 4 50 20 30 10
5 40 10 20 0 -10
Si (Xi-Xj) <o→ -1 6 50 20 30 10 0 10
Si (Xi-Xj) =o→0 7 36 6 16 -4 -14 -4 -14
Orden Dato Yi Yi Yi Yi Yi Yi
1 30
2 20 -1
3 40 1 1
4 50 1 1 1
5 40 1 1 0 -1
6 50 1 1 1 0 1
7 36 1 1 -1 -1 -1 -1
3. Se obtiene el estadístico S, definido como:
Orden Dato Yi Yi Yi Yi Yi Yi
N −1 N 1 30
S = y t 2 20 -1
t '=1 t =t ' +1 3 40 1 1
4 50 1 1 1
5 40 1 1 0 -1
6 50 1 1 1 0 1 S=7
7 36 1 1 -1 -1 -1 -1
4 5 1 -2 0 -1 7
4. Se transforma el estadístico S en Z:
S −m
Z=
V (S )
Si S >o→m=-1
Si S <o→ m=1
V (S ) =
1
N ( N − 1)(2 N + 5)
18
Si S =o→m=0
Algunos autores introducen otro término en esta expresión
S=7
V(s)=44
Z=0.9011
5. Se escoge el nivel de significancia α
α=0.05
6. El estadístico Z, se asume que tiene una distribución N(0,1) (proviene de una suma). Por
lo tanto se determina el cuantil U 1-α/2, de la distribución Normal estándar
1.0000
0.9000
0.8000
0.7000
U 1-α/2=U(1-0.05/2)=U0.975
0.6000
F(x)
0.5000
0.4000 U 1-α/2=1.96
0.3000
0.2000
0.1000
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
7. El criterio de decisión, establece que la H0 se rechaza si |Z| > U 1-α/2 H0: No hay tendencia
Z=0.9011 U 1-α/2=1.96 H0 no se rechaza
1.0000
Estableciendo α=0.01 0.9000
0.8000
0.7000
U 1-α/2=U(1-0.01/2)=U0.995 0.6000
F(x)
0.5000
0.4000
U 1-α/2=2.32 0.3000
0.2000
0.1000
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
0.4500
0.4000
0.3500
0.3000
0.2500
f(x)
0.2000
0.1500
0.1000
0.0500
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
20.0
Temperatura mínima promedio anual
19.0 S=-136
17.0 Z=-2.2977
16.0 α=0.05
15.0
U 1-α/2=1.96
14.0
1970 1975 1980 1985 1990 1995 2000
Años
70.00
Caudal promedio diario (m3/s)
60.00
De esta serie se obtienen 4 series
50.00
correspondientes a cada estación
40.00
30.00
En R:
20.00
Z=0.7915, P-Value= 0.214
10.00
0.00
120
Tiempo
DEF
100
MAM
80 JJA
En R:
Caudal
SON
Z=3.1471, P-Value= 0.001649 60
40
20
0
1990
1990
1991
1992
1992
1993
1994
1994
1995
1996
1997
1998
2000
2000
1996
1998
1999
Método de Sen para cuantificar la tendencia
Pendientes ordenadas
[-14 ,-10, -10, -4.67, -2, -1 ,0, 0, 1, 2.5 ,3.2, 3.33, 4, 5, 6.67, 6.67 ,7.5, 10, 10 ,15, 20]
Mediana=3.2
14.0 Signo =-
1970 1975 1980 1985 1990 1995 2000
Años
20.0
18.0
19.0
1972 18.8 1987 17.2 1.6 0.0
18.0 1973 19.1 1988 16.7 2.5 0.0
17.0
1974 19.0 1989 15.9 3.1 0.0
1975 19.2 1990 15.2 4.0 0.0
16.0
1976 17.6 1991 14.8 2.9 0.0
15.0 1977 16.6 1992 16.0 0.6 0.0
1978 16.9 1993 16.3 0.6 0.0
14.0
1970 1975 1980 1985 1990 1995 2000 1979 16.9 1994 16.6 0.3 0.0
Años 1980 17.2 1995 18.5 -1.3 1.0
1981 17.8 1996 17.7 0.1 0.0
M 15 1982 17.3 1997 16.4 0.9 0.0
M* 15 1983 17.3 1998 17.5 -0.2 1.0
1984 17.2 1999 17.5 -0.3 1.0
U -2.32379001
2000 17.7
p-value 0.01006838
alpha 0.050
alpa/2 0.025
1-alpha/2 0.975
Uc -1.96 Se rechaza la hipótesis de media iguales
Se rechaza
Cambio en la varianza
Los cambios en la varianza, son más comunes como ‘saltos’ que como tendencias…
Pruebas para la media donde no sea necesario escoger a priori el punto de cambio
Prueba de Abbe (de Homogeneidad)
❑Para una serie dada, Y1, Y2, …,yn
❑Se calcula una nueva variable z, que es la desviación de cada uno de los datos
respecto a la media
z t = yt − ̂ y
❑Se definen dos constantes: A y B
N N −1
A = z B = (z N − z1 ) + (z t − z t +1 )
2 2 2
t
t =1 t =1
2A
❑El estadístico de Abbe se define como: Tc =
B
AÑO Y Z2 (Zt-Zt+1) 2
1970 18.0 0.63922246 0.70169708 promedio 17.2
1971 18.9 2.68038291 0.00559379 (ZN-Z1) 2 0.0986
1972 18.8 2.44108074 0.09848264 N 31
1973 19.1 3.52018377 0.02642882
1974 19.0 2.93658204 0.05753335
A 37.41728604
1975 19.2 3.81618938 2.44194881
1976 17.6 0.15275069 1.10936482 B 18.4001395326966000
1977 16.6 0.43881424 0.11895314 Tc 4.067065
1978 16.9 0.1008283 0.00080081
1979 16.9 0.11960069 0.08551563 limite inferior 0.820394698
1980 17.2 0.00285186 0.39249355 limite superior 1.179605302
1981 17.8 0.32843247 0.23901235
1982 17.3 0.00708987 6.2674E-05
Se rechaza
1983 17.3 0.00581936 0.01250825
1984 17.2 0.0012642 1.87718543
1985 15.8 1.97587925 0.80931265
Prueba de Pettitte
❑Prueba de significancia estadística para puntos de cambio
❑No paramétrica
Si las funciones de distribución de los datos antes y
❑En cada punto t, realiza la después del corte son iguales→ no hay cambio
prueba F(x1-t)=F(xt-n)
Si las funciones de distribución de los datos antes y
después del corte son diferentes → si hay cambio
𝑉𝑡,𝑇 = 𝑠𝑖𝑔𝑛𝑜 𝑥𝑡 − 𝑥𝑗
𝑗=1
𝑈1,𝑇 = 𝑉1,𝑇
𝐾𝑇 = 𝑚𝑎𝑥𝑈𝑡,𝑇
6𝑘2
− 3 2
P(k>K)= 2𝑒 𝑇 +𝑇 Sólo para p≤0.5
500 Persistencia
400
300
2 Rachas
200
100
0
1970 1975 1980 1985 1990 1995 2000
n (n − 1)
2