Sie sind auf Seite 1von 66

Test estadísticos

Los test estadísticos son herramientas de inferencia, que nos dicen la


probabilidad con la cual los resultados obtenidos de una muestra pueden ser
extendidos a la población

• Permiten escoger entre dos teorías, acerca de las características estadísticas


o del modelo de distribución que representa nuestros datos de interés.
Ayudan a responder preguntas como:
• ¿Es el valor medio significantemente diferente del valor esperado o de la
teoría?
• ¿Cuál es el nivel de incertidumbre asociado con nuestro estiamdor del valor
medio?
• Es la varianza de la muestra significantemente diferente de la varianza de
nuestra población?
Características básicas de las pruebas de hipótesis

Hipótesis Nula: H0 La teoría que se supone que es cierta hasta que los datos den la
evidencia contundente que pruebe lo contrario

p.ej: Se quiere decidir si las medias de dos conjuntos de datos que se supone
provienen de la misma población, son iguales.

H0: La media del conjunto 1=La media del conjunto 2.


Criterio de decisión, para poder decir si H0 es falsa

Criterio de decisión → Estadístico de prueba obtenido de los datos, y del cual se sabe
como se distribuye..por lo tanto se puede obtener la probabilidad del mismo

Estadístico de prueba: es cualquier estadístico (función de la variable


aleatoria) obtenido de la muestra cuyo valor numérico se utiliza para decidir
cuando se debe rechazar H0

P.ejemplo: El estadístico T, para un test de igualdad de medias se define como:


y2 − y1
T= Se distribuye según una
1 1
+ distribución t de Student
N1 N 2
El estadístico de Prueba, tiene una distribución de probabilidad, dependiendo
de su naturaleza o de cómo esté definido. (las distribuciones que mas se ajustan
a los estadísticos son la Normal, la T-Student, la Chi cuadrado, la F)

0.4500 1.0000
0.4000 0.9000
0.3500 0.8000

0.3000 0.7000

0.2500
0.6000

F(x)
0.5000
f(x)

0.2000
0.4000
0.1500
0.3000
0.1000
0.2000
0.0500
0.1000
0.0000
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico -3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
P-Value: Es la probabilidad que tiene de ocurrir el estadístico calculado a
partir de los datos.

Establece la evidencia que da ese valor t, en contra de H0.

y2 − y1 0.4500
T= 0.4000
1 1
+ 0.3500
N1 N 2 0.3000

0.2500
f(x)

0.2000

0.1500

0.1000

0.0500
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
Para dos muestras de ejemplo, con N1 y N2 dados, el valor del estadístico se
calcula como t=2.0.
Según la distribución de probabilidad del estadístico, la probabilidad p(T>=t) es de 0.054
0.4500

0.4000

0.3500 Este valor de p, será el valor (p-value)


0.3000

0.2500
f(x)

0.2000

0.1500
Si la probabilidad de que ocurra un
0.1000
valor igual o mayor al valor t, es
0.0500 grande, entonces esto indicaría que
0.0000 estamos ante algo que sucede con
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000 regularidad
Estadístico

Si la probabilidad de que ocurra un valor igual o mayor valor t, es muy pequeña,


esto significa que estamos ante algo que es verdaderamente extraordinario
Mientras menor sea el p-value mayor será la evidencia
Un evento con una probabilidad p<= 0.05, se reconoce en estadística como
un evento que empieza a ser excepcional
A veces el criterio de decisión se establece para un rango de los valores del
estadístico t, tales que tengan una probabilidad de ocurrencia menor o igual a
p=0.05
0.4500

0.4000

0.3500

0.3000

0.2500 Todos los


valores de t
f(x)

0.2000

0.1500 mayores al
0.1000 t(p=0.05)
0.0500

0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
Si el estadístico puede dar valores negativos, entonces esa probabilidad
0.05 se reparte en las dos colas de la distribución quedando entonces
0.4500

0.4000

0.3500
Todos los
0.3000
valores de t
0.2500
mayores al
f(x)

0.2000
Todos los t(p=0.025)
0.1500
valores de t
0.1000
menores al
t(p=0.025) 0.0500

0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico

Los valores del estadístico T, en esos rangos son los que dan evidencia
contundente contra H. Si el estadístico T, cae en ese rango entonces rechazo H
Posibles casos en las pruebas de hipótesis:
Hipótesis nula H0 Decisión tomada Situación Real
H0 Cierta Ho Falsa
No rechazar H0 Decisión Correcta Error Tipo II
Rechazar H0 Error Tipo I Decisión Correcta

Si la decisión se basa en el estadístico T, La probabilidad de obtener un valor de


T, en esos rangos es entonces la
0.4500 probabilidad de Rechazar H0
0.4000

0.3500

0.3000
Si H0 es falsa, y se rechaza no hay error.
0.2500
Si H0 es cierta, y se rechaza hay error.
f(x)

0.2000

0.1500

0.1000 La probabilidad de cometer un error


0.0500
Tipo I = probabilidad de obtener un
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000 valor en esos rangos=α
Estadístico
Nivel de significancia α: La mayor probabilidad aceptable de cometer un
error tipo I.

α=prob(Rechazar Ho/Ho Cierta)

0.4500

0.4000

0.3500

0.3000

0.2500
f(x)

0.2000
α/2 0.1500 α/2
0.1000
0.0500
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
Si el estadístico calculado da dentro de este intervalo entonces la
conclusión de la prueba de hipótesis es:
Se rechaza la hipótesis nula H0, con un nivel de significancia (α)

Mientras mas pequeño sea el nivel de significancia, menor probabilidad de cometer


un error tipo I. Mientras menor probabilidad haya, será mas difícil rechazar la
hipótesis Ho.
0.4500

0.4000

0.3500

0.3000

0.2500
f(x)

0.2000

0.1500
0.1000

0.0500
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
Cuando se da el nivel de significancia α, se da en realidad la probabilidad
que tiene el valor del estadístico limite o crítico a partir del cual se
considera que hay evidencia contundente en contra de H

El estadístico crítico será el cuantil (1-α) si es una distribución de una cola, o el


cuantil (1-α/2) si es una distribución de dos colas (si el estadístico puede
tomar valores negativos y positivos)
0.4500

0.4000

0.3500

0.3000

0.2500
f(x)

0.2000

0.1500

0.1000
0.0500

0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
Test paramétrico:
Un test paramétrico implica que la distribución de la muestra en cuestión es
conocida o asumida para que la prueba sea válida. En la mayoría de casos se asume
que esta distribución es normal.

Test No paramétrico:
No se realizan suposiciones asociadas a la distribución de probabilidad de la
población muestreada. S
En resumen:
En una prueba de hipótesis siempre:

•Se establece la Hipótesis Nula (Ho)


•Se estima el estadístico, a partir de la muestra, el cual será el criterio de decisión
•Se establece un nivel de significancia (generalmente se trabaja con α=0.05)
•Se encuentra el estadístico crítico (el de probabilidad igual a α)
•Se ubica o compara el estadístico obtenido de la muestra, con el estadístico
crítico.
•Se decide si se rechaza o no se rechaza Ho.

•En algunos casos, se estima el estadístico de la muestra y se establece el p-value.


Con esto es suficiente para decidir si se acepta o rechaza.
Suponga un test cualquiera en el cual el estadístico
a calcular es D. La H0 se rechaza si el D>U(1-α/2),
donde α es el valor de la significancia y U(1-α/2), es
el cuantil (1-α/2) de una distribución normal
estandar.
Si para un conjunto de datos, se calcula D (según la ecuación dada por el test)
dando como resultado D=1.23 con un nivel de significancia 0.05

Se obtiene U(1-α/2)→ 1.96

1.23<1.96, por lo tanto no se


rechaza H0
• Comparar dos medias muestrales con errores según
normal (t-Student test)
• Comparar dos medias con errores no normales (Test
de Wilcoxon)
• Comparar dos varianzas (Fisher F test)
• Homogeneidad (Varianza: Levene y Fligner-Killeen)
Prueba T, para diferencia de medias de dos variables

Asume una distribución a priori de los datos (en este


❑Prueba Paramétrica caso asume que se distribuyen según una normal)

❑Sólo para series no autocorrelacionadas

❑Para dos series Y1 y Y2 dadas


Se asume que tiene media μ1 y desviación σ

Se asume que tiene media μ2 y desviación σ

La prueba T, se utiliza para probar la igualdad de las medias μ1, y μ2 cuando las
dos series tienen la misma desviación σ
Prueba T, diferencia de medias de dos variables

❑H0: μ1 = μ2 CONTRA H1: μ1 ≠ μ2

❑Estadístico: ˆ 1 − ˆ 2
Tc = (N1 − 1)ˆ12 + (N 2 − 1)ˆ 2 2
S
1
+
1 S=
N1 N 2 N −2

❑La H0 se rechaza con un nivel de significancia α si: Tc > T 1-α/2 (N-2)

Es el cuantil (1-α/2) de la distribución t-student con (N-2) grados


T 1-α/2 (N-2)
de libertad. N=N1+N2
Si las varianzas de las dos series son diferentes, el estadístico T se puede calcular
así:
ˆ 1 − ˆ 2
Tc =
ˆ 1 2 ˆ 2 2
+
N1 N2

La H0 se rechaza con un nivel de significancia α si: Tc > T 1-α/2 (C)

  ˆ 1 2 2 
 
2
ˆ 2  
Redondeado por debajo
 +
  N1 N 2  
C = Entero 

(
  ˆ 1 2 N1
2

+
) (
ˆ 2 2 N 2 )
2


  N1 − 1 N2 −1  
Prueba T modificada: Para series autocorrelacionadas
Reemplaza el tamaño de las series (N1 y N2) por los tamaños (NE1 y NE2) que
tendrían dos series equivalentes pero independientes

𝑁12
𝑁𝐸1 = 𝑁 +1
𝜌1 1 1 − 𝑁1 𝜌12 1 + 𝑁1 − 1 𝜌1 1
𝑁1 + 2
𝜌1 1 − 1 2

𝑁22
𝑁𝐸2 = 𝑁 +1
𝜌1 2 2 − 𝑁2 𝜌12 2 + 𝑁2 − 1 𝜌1 2
𝑁2 + 2
𝜌1 2 − 1 2

1 (1) Es el coeficiente de autocorrelación de orden 1, de la serie 1.

1 (2) Es el coeficiente de autocorrelación de orden 1, de la serie 2


Prueba T modificada:
❑El estadístico se calcula entonces como:

ˆ 1 − ˆ 2
Tc = Similar al de la prueba T, salvo en los N1 N2 que son
ˆ 1 2 ˆ 2 2 1 reemplazados por NE1 y NE2
+
NE1 NE 2

❑La H0 se rechaza con un nivel de significancia α si:Tc > T 1-α/2 (NE1+ NE2-2)
Prueba Mann-Whitney (ó Test de Wilcoxon)
❑Método basado en los ordenes de los datos

❑Para dos series Y1 y Y2 dadas

❑El test asume que ambos conjuntos se distribuyen con la misma función, pero de
parámetros diferentes

❑H0: μy1 = μy2 La media de la primera serie es igual a la media de la segunda serie
Prueba Mann-Whitney (ó Test de Wilcoxon)
❑El estadístico que permite decidir es:
Es el orden de yt, en las dos series
𝑁1 juntas y ordenadas (serie z).
𝑁1 ∗ (𝑁1 + 1) R( y t )
𝑈 = ෍ 𝑅 𝑦𝑡 − El puesto que ocupa cada dato
2
𝑡=1 dentro de esta serie z
Cuando N1>10 y N2>10 se calcula el estadístico normalizado

𝑁𝑁
𝑈 − ( 12 2 )
𝑍𝑐 =
𝑁1 𝑁2 (𝑁 + 1)
12

Z 1-α/2, es el cuantil (1-α/2) de la distribución


❑H0 se rechaza si |Zc| > Z 1-α/2
normal estándar

❑El test es recomendado para N1>10 y N2>10, si son menores el estadístico se


debe obtener de la tabla de Wilcoxon rank sums.
Prueba F
❑Test paramétrico: Asume distribución normal de los datos a priori
❑Variables independientes

❑Para dos series Y1 y Y2 dadas

❑H0: σy12 = σy22 contra H1: σy12 ≠ σy22

ˆ 12
❑El estadístico para esta prueba se define como: Fc = 2
ˆ 2

❑H0 no se rechaza si F 1-α/2(N1-1,N2-1)<=Fc<=Fα/2(N1-1,N2-1)


Levene test
𝐻0 = 𝜎12 = 𝜎22 = … = 𝜎𝑘2
Dados k grupos donde se quiere establecer la homogeneidad de las varianzas,
el estadístico se calcula como:
𝑁 − 𝑘 ∗ σ𝑘𝑖=1 𝑁𝑖 𝑍𝑖.ҧ − 𝑍ҧ.. 2
La H0 se rechaza si W > al valor crítico
𝑊= 𝑁𝑗
𝑘 − 1 ∗ σ𝑘𝑖=1 σ𝑗=1 𝑍𝑖𝑗 − 𝑍ҧ𝑖.
2 de la distribucion F con (k-1) y (N-k)
grados de libertad
𝑍𝑖𝑗 = 𝑌𝑖𝑗 − 𝑌ത𝑖
𝑐𝑜𝑛 𝑌𝑖 = 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒𝑙 𝑔𝑟𝑢𝑝𝑜 𝑖𝑖
En una revisión sistemática de tests para
𝑍𝑖𝑗 = 𝑌𝑖𝑗 − 𝑌ෙ𝑖
homogeneidad de varianzas, se encontró que
𝑐𝑜𝑛 𝑌ෙ𝑖 = 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝑑𝑒𝑙 𝑔𝑟𝑢𝑝𝑜 𝑖𝑖 el test de Levene y el no Paramétrico de
Fligner Killen son superiors en términos de
𝑍ҧ𝑖. 𝑒𝑠 𝑒𝑙 𝑔𝑟𝑢𝑝𝑜 𝑑𝑒 𝑚𝑒𝑑𝑖𝑎𝑠 𝑑𝑒𝑍𝑖𝑗 robuste y potencia) “ (Conver, 1981)

𝑍ҧ.. 𝑒𝑠 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑍𝑖𝑗


The Fligner-Killeen test es una opción mejor cuando los datos no son normalmente
distribuidos, o cuando se está ante la presencia de outliers.
Homogeneidad de varianzas de k poblaciones

𝑋𝑖,𝑗 𝑝𝑎𝑟𝑎 1 ≤ 𝑖 ≤ 𝑛𝑗 𝑦 1 ≤ 𝑗 ≤ 𝑘 𝑋෨𝑗 = 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 𝑑𝑒𝑙 𝑔𝑟𝑢𝑝𝑜 𝑗

𝑋𝑖,𝑗 − 𝑋෨𝑗
Φ−1 es el inverso de la Normal estándar
𝑖
1+𝑁+1
𝑎𝑁,𝑖 = Φ−1 𝑖 es el orden de la resta, ordenados de menor a mayor
2
1 𝑁 𝑁
N= σ𝑘𝑗=1 𝑛𝑗 1 𝑛𝑗 1 2
𝐴𝑗ҧ = σ 𝑎 𝑎ത = ෍ 𝑎𝑁,𝑖 𝑉2 = ෍ 𝑎 − 𝑎ത
𝑛𝑗 𝑖=1 𝑁,𝑖 𝑁 𝑖=1 𝑁 − 1 𝑖=1 𝑁,𝑖
2
σ𝑘𝑗=1 𝑛𝑗 𝐴𝑗ҧ − 𝑎ത
𝑥𝑜2 =
𝑉2
2
Para N grandes, 𝑥𝑜2 ∼ 𝑥𝑘−1
Homogeneidad:
La serie conserva sus características estadísticas con el tiempo
En especial: 120.00

100.00
Media, Varianza, 80.00
Independencia

Q [m3/s]
60.00
20.0
40.00
Temperatura mínima promedio anual

19.0
20.00
18.0
0.00
17.0
0 20 40 60 80 100 120 140
Tiempo
16.0

15.0

14.0
1970 1975 1980 1985 1990 1995 2000
Años
Detección de tendencias

Tendencia: Cambio Monotónico (en la media o en la varianza)


Hay tendencias que se identifican claramente mientras que otras no son
tan aparentes
120.00
20.0
Temperatura mínima promedio anual

100.00
19.0

18.0
80.00

Q [m3/s]
17.0 60.00

16.0 40.00

15.0 20.00

14.0
0.00
1970 1975 1980 1985 1990 1995 2000
Años 0 20 40 60 80 100 120 140
Tiempo

Los test de identificación de tendencias dan una base cuantitativa para


decidir cuando una tendencia es real o significativa
Por que se aplica un test para un tipo de
tendencia diferente (no lineal, p.ej)

¿Por qué se
puede ver Por que el período de observación es demasiado
corto, y las series cortas son mas propensas a
afectada la mostrar cambios
detección de
una
tendencia?
Por el tipo de test, algunos son mas conservadores
Requisitos de la serie para que el test sea válido

❑Series con registros suficientes (> 30) algunos pueden ser aplicados a series con
un número de datos (> 15)

❑Observaciones espaciadas igualmente en el tiempo

❑Series completas (sin datos faltantes)

Para algunos test será necesario


❑Serie estacional o No
remover la estacionalidad
Regresión Lineal (prueba T)
Asumir que una serie de datos, tiene una tendencia lineal en la media, es asumir
que la media de la serie se puede expresar como una regresión lineal:

yt = a + bt
20.0
Temperatura mínima promedio anual
Regresión de tipo lineal
19.0
entre t y Temperatura
18.0

17.0
Que
depende 16.0
del tiempo y = -0.0581x + 132.6
15.0

El cambio es el mismo 14.0


durante todo el tiempo 1970 1975 1980 1985 1990 1995 2000
Años
20.0
Regresión Lineal (prueba T)

Temperatura mínima promedio anual


19.0

Prueba T, se utiliza para 18.0


saber si la tendencia que
17.0
se encontró es real o no
16.0
y = -0.0581x + 132.6

H0: b=0 yt = a + bt 15.0

14.0

H0: No hay tendencia 1970 1975 1980 1985


Años
1990 1995 2000

Estadístico es:
N=Número de datos

r N −2 r=Coeficiente de correlación
Tc = cruzada de orden 0, entre la
1− r2 serie (y1, y2, y3,…,yn) y el orden
de la serie (1,2,3,..n)
Regresión Lineal (prueba T)

r N −2
Tc = Se distribuye según una t-student

1− r 2

La hipótesis H0 se rechaza si Tc > (T1-α/2,ν)

Cuantil (1-α/2) de la distribución t-student, con ν = N-2, grados de libertad


Ejemplo:
r=-0.473
Años Temperatura Orden N=31
1970 18.0 1
1971 18.9 2 r N −2
1972 18.8 3 Tc = Tc=2.842
1973 19.1 4 1− r 2
1974 19.0 5
1975 19.2 6 Nivel de significancia=α=0.05
1976 17.6 7
1977 16.6 8 𝑇1−𝛼/2,𝜈 = 𝑇0.975,29 =
. . .
. . .
. . .
𝑇0.975,29 = 2.045
1997 16.4 28
1998 17.5 29
2.842>2.045 Ho se rechaza, con un nivel de
1999 17.5 30
2000 17.7 31
significancia de 0.05
b ≠0
20.0
Temperatura mínima promedio anual

19.0

18.0

17.0

16.0
y = -0.0581x + 132.6
15.0

14.0
1970 1975 1980 1985 1990 1995 2000 Es diferente de cero, con una
Años
significancia estadística de 0.05
Si cambiamos el nivel de significancia: 0.01

T1− / 2, = T0.995, 28 = 3.047

Ho NO se rechaza, con un nivel


2.842<2.756
de significancia de 0.01
b =0

A veces es mejor no fijar el nivel de significancia, sino dar el p-value del estadístico
calculado y permitir que el decisor juzgue si es suficiente o no

P-value= 0.007
Prueba de Mann-Kendall

❑Compara todos los pares de datos

❑Identifica si una variable va creciendo o decreciendo desde cualquier punto de la


muestra

❑No identifica el tipo de tendencia, pero no presume que es lineal

❑Cuenta el Número de incrementos y resta el número de disminuciones

❑H0: No hay tendencia


Prueba de Mann-Kendall
Procedimiento: 60
N 7
50
1990 30
1991 20 40
1992 40 30
1993 50
20
1994 40
1995 50 10
1996 36
0
1989 1990 1991 1992 1993 1994 1995 1996 1997

1. Compara cada par de datos:

Orden Dato Xi-X1 Xi-X2 Xi-X3 Xi-X4 Xi-X5 Xi-X6


1 30
2 20 -10
3 40 10 20
4 50 20 30 10
5 40 10 20 0 -10
6 50 20 30 10 0 10
7 36 6 16 -4 -14 -4 -14
2. Convierte la serie anterior (Xi-Xj) en una nueva serie (Yi) de 1, -1 y 0
Orden Dato Xi-X1 Xi-X2 Xi-X3 Xi-X4 Xi-X5 Xi-X6
1 30
2 20 -10
3 40 10 20

Si (Xi-Xj) >o→1 4 50 20 30 10
5 40 10 20 0 -10
Si (Xi-Xj) <o→ -1 6 50 20 30 10 0 10
Si (Xi-Xj) =o→0 7 36 6 16 -4 -14 -4 -14

Orden Dato Yi Yi Yi Yi Yi Yi
1 30
2 20 -1
3 40 1 1
4 50 1 1 1
5 40 1 1 0 -1
6 50 1 1 1 0 1
7 36 1 1 -1 -1 -1 -1
3. Se obtiene el estadístico S, definido como:

Orden Dato Yi Yi Yi Yi Yi Yi
N −1 N 1 30
S = y t 2 20 -1
t '=1 t =t ' +1 3 40 1 1
4 50 1 1 1
5 40 1 1 0 -1
6 50 1 1 1 0 1 S=7
7 36 1 1 -1 -1 -1 -1
4 5 1 -2 0 -1 7
4. Se transforma el estadístico S en Z:
S −m
Z=
V (S )
Si S >o→m=-1
Si S <o→ m=1
V (S ) =
1
N ( N − 1)(2 N + 5)
18
Si S =o→m=0
Algunos autores introducen otro término en esta expresión
S=7
V(s)=44
Z=0.9011
5. Se escoge el nivel de significancia α

α=0.05
6. El estadístico Z, se asume que tiene una distribución N(0,1) (proviene de una suma). Por
lo tanto se determina el cuantil U 1-α/2, de la distribución Normal estándar
1.0000
0.9000
0.8000
0.7000
U 1-α/2=U(1-0.05/2)=U0.975
0.6000
F(x)

0.5000
0.4000 U 1-α/2=1.96
0.3000
0.2000
0.1000
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
7. El criterio de decisión, establece que la H0 se rechaza si |Z| > U 1-α/2 H0: No hay tendencia
Z=0.9011 U 1-α/2=1.96 H0 no se rechaza

No hay tendencia con un nivel de significancia de 0.05

¿Que pasa si cambio el nivel de significancia?

1.0000
Estableciendo α=0.01 0.9000
0.8000
0.7000

U 1-α/2=U(1-0.01/2)=U0.995 0.6000
F(x)

0.5000
0.4000

U 1-α/2=2.32 0.3000
0.2000
0.1000
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico

Según el criterio de decisión, se vuelve mas difícil rechazar H0


P-value para el estadístico encontrado (Z=0.9011) será:
p (Z=0.9011)=0.265

0.4500

0.4000

0.3500

0.3000

0.2500
f(x)

0.2000

0.1500

0.1000
0.0500
0.0000
-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000
Estadístico
20.0
Temperatura mínima promedio anual

19.0 S=-136

18.0 V(S)= 3452

17.0 Z=-2.2977

16.0 α=0.05

15.0
U 1-α/2=1.96
14.0
1970 1975 1980 1985 1990 1995 2000
Años

H0 se rechaza si |Z| > U 1-α/2

|Z|=2.29452 U 1-α/2=1.96 H0 se rechaza

Hay tendencia con un nivel de significancia de 0.05


El signo de S, da el signo de la tendencia
Test de Mann-Kendall Estacional Para una serie con componente estacional
1. Se elimina la componente estacional:
Se separa la serie de datos por estación (para Colombia, tenemos 4 períodos:
DEF, MAM, JJA, SON)

2. Se obtiene el estadístico Si, para cada estación


3. Se obtiene el estadístico S total Nest
S =  Si
i =1

4. Se obtiene V(S) como: 1  


V ( S ) =  N ( N − 1)(2 N + 5) −  ei (ei − 1)(2ei + 5)
18  
Donde e es el número de datos por cada estación i

5. Se obtiene Z de igual forma que en el Mann Kendall sin estacionalidad


6. Se obtiene el estadístico U 1-α/2, y se decide sobre H0
80.00

70.00
Caudal promedio diario (m3/s)

60.00
De esta serie se obtienen 4 series
50.00
correspondientes a cada estación
40.00

30.00
En R:
20.00
Z=0.7915, P-Value= 0.214
10.00

0.00
120
Tiempo
DEF
100
MAM
80 JJA
En R:
Caudal

SON
Z=3.1471, P-Value= 0.001649 60

40

20

0
1990
1990
1991
1992
1992
1993
1994
1994
1995
1996

1997

1998

2000
2000
1996

1998

1999
Método de Sen para cuantificar la tendencia

Para dar un valor a la tendencia encontrada por Mann-Kendall,


asumiendo que esta es lineal

El valor de la tendencia será la mediana de las pendientes en


pares de puntos
Método de Sen para cuantificar la tendencia
1. Se obtienen las pendientes entre cada par de datos
Orden Datos pend (xi-x1) pend (xi-x2)pend (xi-x3) pend (xi-x4) pend (xi-x5) pend (xi-x6)
1 30
2 20 -10
3 40 5 20
4 50 6.67 15 10
5 40 2.5 6.67 0 -10
6 50 4 7.5 3.33 0 10
7 36 1 3.2 -1 -4.67 -2 -14

Pendientes ordenadas
[-14 ,-10, -10, -4.67, -2, -1 ,0, 0, 1, 2.5 ,3.2, 3.33, 4, 5, 6.67, 6.67 ,7.5, 10, 10 ,15, 20]

Mediana=3.2

La magnitud de la tendencia lineal en esta serie es de 0.032%


20.0
Temperatura mínima promedio anual

19.0 Para la serie de


18.0 temperaturas,
17.0
Hay tendencia con un nivel de
16.0
significancia de 0.05
15.0

14.0 Signo =-
1970 1975 1980 1985 1990 1995 2000
Años
20.0

Temperatura mínima promedio anual


Estadístico de Sen=-0.05925926 19.0

18.0

Este estimador es recomendado 17.0


para la estimación de una
tendencia lineal , por encima de la 16.0

pendiente de regresión (afectada 15.0


por outliers)
14.0
1970 1975 1980 1985 1990 1995 2000
Años
Cambio en determinado
momento, a partir del
cual la media se
incrementa o disminuye
en relación a su valor
hasta ese momento.

Prueba T, T modificada, Prueba


de Mann-Whitney o Test de
Cambio de localización de la estación, cambio de
Wilcoxon
instrumento, deforestación de la cuenca, …¿?

Se conoce a priori el punto de cambio


Para detectar cambios, se tienen
dos alternativas: No se conoce el punto de cambio
Prueba de Signo
❑Una manera rápida y sencilla de establecer si hay algún cambio
❑Para una serie dada (y1,y2,y3,…yn), obtenemos
(y1, y2, y3, …yM)
2 subconjuntos de igual tamaño (M)→ N=2*M
(yM+1,yM+2 …,yN)

❑Se crea una serie W, tal que: W =1si yi<yM+i


i
Wi=0 si yi>=yM+i
❑H0: Las medias de ambos subconjuntos son iguales M
2 wi − M
*

❑El estadístico que permite decidir (estadístico de signo) será: U = i =1


c
M*=M-#de pares iguales M

U 1-α/2, es el cuantil (1-α/2) de la distribución


H0 se rechaza si |Uc| > U 1-α/2
normal estándar
Ejemplo Años Temperatura Años Temperatura W
20.0 1970 18.0 1985 15.8 2.2 0.0
1971 18.9 1986 16.7 2.1 0.0
Temperatura mínima promedio anual

19.0
1972 18.8 1987 17.2 1.6 0.0
18.0 1973 19.1 1988 16.7 2.5 0.0
17.0
1974 19.0 1989 15.9 3.1 0.0
1975 19.2 1990 15.2 4.0 0.0
16.0
1976 17.6 1991 14.8 2.9 0.0
15.0 1977 16.6 1992 16.0 0.6 0.0
1978 16.9 1993 16.3 0.6 0.0
14.0
1970 1975 1980 1985 1990 1995 2000 1979 16.9 1994 16.6 0.3 0.0
Años 1980 17.2 1995 18.5 -1.3 1.0
1981 17.8 1996 17.7 0.1 0.0
M 15 1982 17.3 1997 16.4 0.9 0.0
M* 15 1983 17.3 1998 17.5 -0.2 1.0
1984 17.2 1999 17.5 -0.3 1.0
U -2.32379001
2000 17.7
p-value 0.01006838
alpha 0.050
alpa/2 0.025
1-alpha/2 0.975
Uc -1.96 Se rechaza la hipótesis de media iguales
Se rechaza
Cambio en la varianza
Los cambios en la varianza, son más comunes como ‘saltos’ que como tendencias…

Prueba F, Levene , F-K


Estas pruebas anteriores se pueden utilizar
asumiendo varios puntos de cambio, y evaluando
donde es menor el p-value del estadístico. De esta
forma no es necesario tener a priori un solo punto de
cambio establecido

Sin embargo la evaluación de varios estadísticos demanda mucho tiempo

Pruebas para la media donde no sea necesario escoger a priori el punto de cambio
Prueba de Abbe (de Homogeneidad)
❑Para una serie dada, Y1, Y2, …,yn
❑Se calcula una nueva variable z, que es la desviación de cada uno de los datos
respecto a la media
z t = yt − ̂ y
❑Se definen dos constantes: A y B
N N −1
A = z B = (z N − z1 ) +  (z t − z t +1 )
2 2 2
t
t =1 t =1

2A
❑El estadístico de Abbe se define como: Tc =
B

❑H0: No hay cambio en la media


 1 1
1 − ,1 + 
❑La H0 se rechaza si cae fuera del intervalo  N N
Prueba de Abbe (de Homogeneidad)
Ejemplo

AÑO Y Z2 (Zt-Zt+1) 2
1970 18.0 0.63922246 0.70169708 promedio 17.2
1971 18.9 2.68038291 0.00559379 (ZN-Z1) 2 0.0986
1972 18.8 2.44108074 0.09848264 N 31
1973 19.1 3.52018377 0.02642882
1974 19.0 2.93658204 0.05753335
A 37.41728604
1975 19.2 3.81618938 2.44194881
1976 17.6 0.15275069 1.10936482 B 18.4001395326966000
1977 16.6 0.43881424 0.11895314 Tc 4.067065
1978 16.9 0.1008283 0.00080081
1979 16.9 0.11960069 0.08551563 limite inferior 0.820394698
1980 17.2 0.00285186 0.39249355 limite superior 1.179605302
1981 17.8 0.32843247 0.23901235
1982 17.3 0.00708987 6.2674E-05
Se rechaza
1983 17.3 0.00581936 0.01250825
1984 17.2 0.0012642 1.87718543
1985 15.8 1.97587925 0.80931265
Prueba de Pettitte
❑Prueba de significancia estadística para puntos de cambio

❑No paramétrica
Si las funciones de distribución de los datos antes y
❑En cada punto t, realiza la después del corte son iguales→ no hay cambio
prueba F(x1-t)=F(xt-n)
Si las funciones de distribución de los datos antes y
después del corte son diferentes → si hay cambio

❑H0: t=T→No hay cambio CONTRA H1:t≠T→Hay cambio


Prueba de Pettite
❑Estadístico KT:
𝑇

𝑉𝑡,𝑇 = ෍ 𝑠𝑖𝑔𝑛𝑜 𝑥𝑡 − 𝑥𝑗
𝑗=1

Para t=2,…,T 𝑈𝑡,𝑇 = 𝑈𝑡,−1,𝑇 + 𝑉𝑡,𝑇

𝑈1,𝑇 = 𝑉1,𝑇

𝐾𝑇 = 𝑚𝑎𝑥𝑈𝑡,𝑇

❑El estadístico KT se distribuye según:


6𝑘2
− 3 2 Valor de p/2. Distribución de dos colas
P(k>K)= 𝑒 𝑇 +𝑇

6𝑘2
− 3 2
P(k>K)= 2𝑒 𝑇 +𝑇 Sólo para p≤0.5

De esta distribución se obtiene el p-value para el estadístico K obtenido y de esta


forma se decide si es significante o no
Prueba de Pettitt Ejemplo:
abs(U) 18 42 64 92 118 148 158 142 136 128 126 142 146 148 148 122 112 108 96 72 44 14
Ut,T 18 42 64 92 118 148 158 142 136 128 126 142 146 148 148 122 112 108 96 72 44 14
Vt,T 18 24 22 28 26 30 10 -16 -6 -8 -2 16 4 2 0 -26 -10 -4 -12 -24 -28 -30
X1 X1-Xj X2-Xj X3-Xj X4-Xj X5-Xj X6-Xj X7-Xj X8-Xj X9-Xj X10-Xj X11-Xj X12-Xj X13-Xj X14-Xj X15-Xj X16-Xj X17-Xj X18-Xj X19-Xj X20-Xj X21-Xj X22-Xj
18.0 0 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
18.9 -1 0 -1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
18.8 -1 1 0 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
19.1 -1 -1 -1 0 -1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
19.0 -1 -1 -1 1 0 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
19.2 -1 -1 -1 -1 -1 0 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
17.6 1 1 1 1 1 1 0 -1 -1 -1 -1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
16.6 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 -1 1 1 1 -1 -1 -1
16.9 1 1 1 1 1 1 1 -1 0 -1 1 1 1 1 1 -1 -1 1 -1 -1 -1 -1
16.9 1 1 1 1 1 1 1 -1 1 0 1 1 1 1 1 -1 -1 1 -1 -1 -1 -1
17.2 1 1 1 1 1 1 1 -1 -1 -1 0 1 1 1 1 -1 -1 -1 -1 -1 -1 -1
17.8 1 1 1 1 1 1 -1 -1 -1 -1 -1 0 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
17.3 1 1 1 1 1 1 1 -1 -1 -1 -1 1 0 -1 -1 -1 -1 -1 -1 -1 -1 -1
17.3 1 1 1 1 1 1 1 -1 -1 -1 -1 1 1 0 -1 -1 -1 -1 -1 -1 -1 -1
17.2 1 1 1 1 1 1 1 -1 -1 -1 -1 1 1 1 0 -1 -1 -1 -1 -1 -1 -1
15.8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 -1 -1
16.7 1 1 1 1 1 1 1 -1 1 1 1 1 1 1 1 -1 0 1 -1 -1 -1 -1
17.2 1 1 1 1 1 1 1 -1 -1 -1 1 1 1 1 1 -1 -1 K=max(abs U)
0 -1 158
-1 -1 -1
16.7 1 1 1 1 1 1 1 -1 1 1 1 1 1 1 1 -1 1 1 0 -1 -1 -1
15.9 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 -1 1 1 K- 1 0-42 -1 -1
15.2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 -1
14.8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 K+ 1 1158 1 0
16.0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 -1 1 1 1 -1 -1 -1
N 31
p de dos colas 0.00766794
p 0.01533588
Prueba de Rachas
Una racha es una secuencia de observaciones del mismo tipo
600

500 Persistencia
400

300
2 Rachas
200

100

0
1970 1975 1980 1985 1990 1995 2000

El test de rachas determina si el número de rachas encontrado es lo


suficientemente grande o pequeño como para decir que la serie tiene algún
tipo de persistencia

Este test también se utiliza para determinar la independencia de una serie


Prueba de Rachas
❑Ho: La muestra es independiente
❑Estadístico: 2n1 n2
R− n1 y n2 son la longitud de las series 1 y 2
z= n +1 Serie 1( los datos por encima de la media)
2n1 n2 (2n1 n2 − n) Serie 2 (los datos por debajo de la media)

n (n − 1)
2

U 1-α/2, es el cuantil (1-α/2) de la distribución


H0 se rechaza si |z| > U 1-α/2
normal estándar
Recomendaciones:

•Utilizar la mayor cantidad de pruebas posibles, aplicables a la


variable de interés
•Pruebas No parámetricas permiten el análisis de series de las que no
se conoce ni asume su distribución →ventaja sobre las paramétricas
•Algunas pruebas paramétricas son mas robustas que las No
paramétricas
•Importante identificar las pruebas correctas para series estacionales
•Utilizar las pruebas que se adapten a las necesidades (ver Rodionov,
98)
Cambio en la media
Cambio en la Tendencia en la media Independencia
Con punto Sin punto de varianza
de Cambio cambio

Mann Prueba de Prueba F-Simple Prueba tendencia lineal Prueba de Rachas


Whitney Abbe (T)
(Wilcoxon)

T simple Prueba de Prueba F- Prueba de MannKendall Autocorrelograma


Pettitt modificada con limites de
Anderson
T Prueba de MannKendall
modificada Estacional

Prueba de Método de Sen


Signo
•Salas, Smith,Tabios,Heo, Statistical Compute Techniques in hydrology and
water resources,1992. Departmen of civil engineering, colorado state
university. Cap 13

•Chow, V.T, Hanbook of applied hydrology. Capitulo 19

•Pettitt, A. N. A non-parametric approach to the Change-point problem.


Applied Statistics, vol 28. Nº2. 1979 pp 126-135

•Rodionov, 1997. A brief overview of the regime shift detection methods

•F.M. Dekking C. Kraaikamp, H.P. Lopuhaa, L.E. Meester “A Modern


Introduction to Probability and Statistics . Understanding Why and How”.
SpringerTexts in Statistics. 2005 -. Cap 25-26.

Das könnte Ihnen auch gefallen