MONOGRÁFICO Final

Trabajo Monogrfico. Nuevo mtodo para el tratamiento y anlisis de datos de auscultacin de carreteras.
2011
Gestin y Conservacin de Obras Pblicas
Trabajo Monogrfico. Nuevo Mtodo para el Tratamiento y Anlisis de Datos de Auscultacin de Carreteras
ngel de la Rosa Velasco Ivn Vega Snchez

23/11/2011
NDICE
1. 2. 3.
Introduccin .......................................................................................................................... 2 Propuesta de un procedimiento de sectorizacin de series ................................................. 5 Fundamentos Estadsticos y Descripcin de los Test Utilizados en el Proceso ..................... 6 3.1 3.2 Test de las Rachas ....................................................................................................... 10 Test de Igualdad de Medias y Varianzas ..................................................................... 14 Divisin Ascendente .................................................................................................... 18 Segunda Divisin (Descendente)................................................................................. 23 Divisin en Subtramos................................................................................................. 23 Recombinacin Final de Subtramos ............................................................................ 23
4.
Descripcin del Proceso de Sectorizacin ........................................................................... 17 4.1 4.2 4.3 4.4
5. 6. 7.
Caso Prctico ....................................................................................................................... 28 Conclusiones........................................................................................................................ 33 Bibliografa .......................................................................................................................... 33
1. Introduccin
Desde hace aos la falta de datos de los diferentes parmetros para decidir la conservacin y rehabilitacin de firmes de carreteras ha sido un problema muy importante que han tenido afrontar todos los tcnicos encargados de la gestin y explotacin de carreteras en Espaa. La tecnologa de la que se dispona para auscultar las carreteras era bastante imprecisa, as como los medios informticos y de transformacin de datos analgicos a digitales no eran los ms adecuados para realizar anlisis correctos. Gracias al gran desarrollo de la electrnica e informtica durante los ltimos aos se ha podido obtener hoy una gran capacidad de procesamiento y almacenamiento de datos, lo cual ha transformado este proceso de manera espectacular en los ltimos veinte aos. Las actuales herramientas informticas de las que se disponen actualmente poseen una capacidad de procesamiento que posibilita el uso de conversores analgico-digitales que pueden recoger decenas de parmetros en tiempo real y con una velocidad de muestreo que hace que se dispongan de datos de gran parte de los parmetros necesarios con un intervalo de muestreo muy elevado. Estos avances han posibilitado la generalizacin de equipos de auscultacin con enormes rendimientos, con la capacidad de realizar campaas de medida en la totalidad de la red de carreteras de alta capacidad. Con todo esto, actualmente se disponen de muchsima informacin en intervalos cada vez ms pequeos, y con unos niveles de precisin muy grandes, lo cual ha traducido el problema al sentido contrario, es decir, actualmente se dispone de una sobreinformacin. Como consecuencia de esta gran cantidad de informacin disponible actualmente el problema es como tratar dichos datos y como resumir dicha informacin de manera que se pueda manejar de manera eficaz y de manera fiable la gran cantidad de datos originales. La solucin general en esta rama y otras ramas de la ingeniera y ciencia consiste en realizar resmenes estadsticos que muestren datos de las poblaciones y ver la manera en la que se distribuyen estos datos. Los valores usados normalmente son la media aritmtica, la varianza, la desviacin tpica, el coeficiente de variacin, los estimadores de la media al 95 %, los intervalos de confianza, etc.
Una serie de datos es homognea cuando procede de una muestra aleatoria sacada de una nica poblacin. El problema se produce cuando los datos vienen de series en las que se desconoce a priori si una determinada agrupacin procede de una misma poblacin o no y sobre estas agrupaciones se quiere realizar resmenes estadsticos. Por ejemplo, si los datos provienen de un equipo de auscultacin de carretera, es comn hacer agrupaciones cada punto kilomtrico, y para cada kilmetro se realiza un resumen estadstico de todos los datos que hay en dicho tramo. Este problema se da tambin en otros tipos de series de datos generados en procesos ms o menos continuos y luego agrupados con criterios ms o menos arbitrarios, como criterios de intervalos determinados de tiempo, acumulacin del resultado de alguna variable,...
Debido a esta combinacin de resmenes estadsticos con sistemas de agrupacin arbitraria en muchas ocasiones en muchas ocasiones los valores de resmenes obtenidos no representan fielmente a las series de datos de los que proceden. La manera de calcular la media, varianza, etc., obvia la ordenacin original de datos y hace que haya una gran probabilidad de que datos con valores bajos de un parmetro determinado se compensen con valores altos del tramo elegido arbitrariamente. De este modo ni las agrupaciones realizadas ni los valores obtenidos de ellas representan fielmente los datos originales. Lo primero se debe a que las agrupaciones son arbitrarias y no corresponden a cambios en los valores encontrados en la variable de estudio. Lo segundo se debe a la incorrecta agrupacin de datos en donde se mezclan tramos de diferentes caractersticas y que provienen generalmente de diferentes poblaciones estadsticas. A modo de ejemplo se muestra en la figura 1 cuatro tramos formados por una sucesin aleatoria de valores tomados de cuatro poblaciones con distribucin N() junto con el valor medio del tramo y los intervalos de confianza que incluyen el 95 % de los datos. Los valores de la media y la desviacin tpica de cada tramo se muestran en la tabla 1 como valores reales y sirven para generar las series de datos. Los tramos no son de la misma longitud y muestran evidentes diferencias entre ellos. Si sobre esta serie de datos se realiza un resumen estadstico cada 50 datos, los resultados que se obtienen son los mostrados en la figura 2.
Figura 1.
Sucesin aleatoria de cuatro series normales
Figura 2.
Resumen de los cuatro tramos en agrupaciones de 50 datos
En la tabla 1 se muestran los resmenes y se observa que en algunos casos son muy diferentes a los valores reales y solo coinciden si el tramo elegido arbitrariamente coincide con la realidad, lo cual es totalmente aleatorio.
Tabla 1.
Comparacin tramificacin por media y por n de datos
Adems con los resultados obtenidos en el resumen cada 50 m en algunos casos es virtualmente imposible detectar datos aberrantes, ya que esta deteccin se realiza cuando un valor de la serie se aleja del valor medio de la serie ms de tres desviaciones tpicas. Se observa en los grupos 2 y 3, para considerar un valor aberrante el valor que tiene que tomar la variable tiene que ser demasiado grande o demasiado pequeo. Si los grupos seleccionados y los resmenes estadsticos coinciden con los tramos reales se logra que las decisiones tomadas en base a las medidas sean aplicadas en tramos con 4
caractersticas similares, optimizando de este modo los recursos empleados y teniendo la certeza que tramos con malas condiciones respecto de una variable no se compensan con tramos en los que se tengan buenos resultados. Si la figura 1 muestra valores de un determinado parmetro sobre el que hay que tomar decisiones cuando desciende del valor 50, se observa que el resumen estadstico realizado con la agrupacin arbitraria de los datos no da problema en el tramo 2 ya que su media es 56. En este caso no se detecta un tramo en el que un parmetro ha sobrepasado el umbral de actuacin. Si se usa un mtodo ms conservador como en la figura 2 en el que se representan las zonas que contienen al 95 % de los datos, y marcando como umbral inferior el lmite de decisin, se observa que fijado el mismo valor umbral de 50 se obtiene un valor para el intervalo inferior den el grupo 2 de aproximadamente 17, y para el grupo 3 de 37,5. Ambos valores son inferiores al valor umbral de toma de decisiones. La actuacin prevista se aplicara a los grupos 2 y 3, y se observa en las figuras la zona que realmente presenta el problema es la que corresponde al tramo 2 que es prcticamente la mitad de la formada por los grupos 2 y 3 juntos. En este caso se observa que los recursos no seran optimizados, y las medidas correctoras tomadas en base a los criterios de agrupacin descritos se aplicaran a una longitud o a un nmero mucho ms elevado de elementos que el estrictamente necesario. De este modo se aprecia la gran importancia que tiene la correcta separacin en grupos con caractersticas estadsticamente similares, para realizar los resmenes necesarios que representarn de manera ms fiel la realidad de los datos obtenidos. Propuesta de un Procedimiento de Sectorizacin de Series.
2. Propuesta de un procedimiento de sectorizacin de series

Para detectar tramos homogneos contenidos en series continuas de datos se ha desarrollado un mtodo que combina diversas propiedades de las series normales para utilizar sobre los datos dos test de rachas, junto con los test de igualdad de medias y varianzas. Los datos recogidos por sensores de cualquier tipo siguen una distribucin normal N() en el caso de que la muestra sea recogida de una poblacin. El problema surge cuando se sigue realizando una medicin y aparecen nuevas muestras de nuevas poblaciones, apareciendo en un grfico continuo de mediciones del que es difcil separar con precisin las series originales. Esta separacin de datos presenta muchos problemas a la hora de realizarse automticamente. Como ejemplo se observa la figura 3 que muestra tres series normales de datos consecutivas, 500 muestras aleatorias de una N(26,1), 150 muestras de una N(26,4) y 350 muestras de una N(20,4). Es mtodo propuesto pretende separar tramos homogneos dentro de la serie de manera automtica, suponiendo que los datos recogidos siguen distribuciones normales de valores ydesconocidas.
(1,1)
(2,2) 2 3> 1 (3,3)
1 =2 3
Figura 3.
Tres series normales de datos consecutivos
3. Fundamentos Estadsticos y Descripcin de los Test Utilizados en el Proceso

Antes de explicar en detalle el procedimiento seguido para la sectorizacin tenemos que sealar que el procedimiento no indica si los sectores resultantes son o no procedentes de una poblacin normal, sino que esto se toma como una hiptesis de partida. Un contraste o test de hiptesis es una tcnica de Inferencia Estadstica que permite comprobar si la informacin que proporciona una muestra observada concuerda (o no) con la hiptesis estadstica formulada sobre el modelo de probabilidad en estudio y, por tanto, se puede aceptar (o no) la hiptesis formulada. Una hiptesis estadstica es cualquier conjetura sobre una o varias caractersticas de inters de un modelo de probabilidad. Una hiptesis estadstica puede ser: Paramtrica: es una afirmacin sobre los valores de los parmetros poblacionales desconocidos. Las hiptesis paramtricas se clasifican en: o o Simple: si la hiptesis asigna valores nicos a los parmetros (=1.5, =10 ). Compuesta: si la hiptesis asigna un rango de valores a los parmetros poblacionales desconocidos (15.5, <10 ).
No Paramtrica: es una afirmacin sobre alguna caracterstica estadstica de la poblacin en estudio. Por ejemplo, las observaciones son independientes, la distribucin de la variable en estudio es normal, la distribucin es simtrica,...
Como veremos en nuestro caso la primera hiptesis estadstica ser no paramtrica (aleatoriedad de la distribucin), y luego utilizaremos hiptesis no paramtricas (si los valores de la serie superan la media o no, etc). La hiptesis que se contrasta se denomina hiptesis nula y, normalmente, se denota por H0. Si se rechaza la hiptesis nula es porque se asume como correcta una hiptesis complementaria que se denomina hiptesis alternativa y se denota por H1.
Al realizar cualquier contraste de hiptesis estadstico se deben seguir las siguientes etapas: 1. Plantear el contraste de hiptesis, definiendo la hiptesis nula (H0, hiptesis que se desea contrastar), y la hiptesis alternativa (H1, cualquier forma de negacin de la hiptesis nula). 2. Definir una medida de discrepancia entre la informacin que proporciona la muestra ( ) y la hiptesis H0. Esta medida de discrepancia
se denomina estadstico del contraste y ser cualquier funcin de los datos muestrales ) y de la informacin de la hiptesis nula H0.
La medida de discrepancia debe seguir una distribucin conocida cuando H0 sea cierta, de forma que se pueda distinguir entre: Una discrepancia grande, la que tiene una probabilidad muy pequea de ocurrir cuando H0 es cierto. Una discrepancia pequea, la que tiene una probabilidad grande de ocurrir cuando H0 es cierta.
3. Decidir qu valores de d se consideran muy grandes, cuando H0 es cierto, para que sean atribuibles al azar. Esto es, decidir que discrepancias se consideran inadmisibles cuando H0 es correcto, lo que equivale a indicar el valor del nivel de significacin, que se denota por . 4. Tomar la muestra ( ), calcular el valor del estadstico crtico del contraste) y analizar: asociado a la muestra (valor
Si es pequeo (pertenece a la regin de aceptacin), entonces se acepta la hiptesis H0. Si es grande (pertenece a la regin de rechazo), entonces se rechaza la hiptesis H0.
Al realizar un contraste se puede cometer uno de los dos errores siguientes: Error tipo I, se rechaza la hiptesis nula H0 cuando es cierta. Error tipo II, se acepta la hiptesis nula H0 cuando es falsa.
Situacin Real H0 es cierta ACEPTAR H0 DECISIN RECHAZAR H0

Tabla 2.
H0 es falsa ERROR II CORRECTO
CORRECTO ERROR I
Tipos de Errores
Debe tenerse en cuenta que slo se puede cometer uno de los dos tipos de error y, en la mayora de las situaciones, se desea controlar la probabilidad de cometer un error de tipo I. Se denomina nivel de significacin de un contraste a la probabilidad de cometer un error tipo I, se denota por y, por tanto:
Fijar el nivel de significacin equivale a decidir de antemano la probabilidad mxima que se est dispuesto a asumir de rechazar la hiptesis nula cuando es cierta. El nivel de significacin lo elige el experimentador y tiene por ello la ventaja de tomarlo tan pequeo como desee (normalmente se toma = 0'05, 0'01 o 0'001). La seleccin de un nivel de significacin conduce a dividir en dos regiones el conjunto de posibles valores del estadstico de contraste: La regin de Rechazo, con probabilidad , bajo H0. La regin de Aceptacin, con probabilidad 1-, bajo H0.
Figura 4.
Nivel de Significacin
Si el estadstico de contraste toma un valor perteneciente a la regin de aceptacin, entonces no existen evidencias suficientes para rechazar la hiptesis nula con un nivel de significacin y el contraste se dice que estadsticamente no es significativo. Si, por el contrario, el estadstico cae en la regin de rechazo entonces se asume que los datos no son compatibles con la hiptesis nula y se rechaza a un nivel de significacin . En este supuesto se dice que el contraste es estadsticamente significativo. Por tanto, resolver un contraste estadstico es calcular la regin de aceptacin y la regin de rechazo y actuar segn la siguiente regla de decisin: Se obtiene la muestra ) y se calcula el estadstico del contraste
Segn la forma de la regin de rechazo, un contraste de hiptesis, paramtrico o no, se denomina: Contraste unilateral o contraste de una cola es el contraste de hiptesis cuya regin de rechazo est formada por una cola de la distribucin del estadstico de contraste, bajo H0. Contraste bilateral o contraste de dos colas es el contraste de hiptesis cuya regin de rechazo est formada por las dos colas de la distribucin del estadstico de contraste, bajo H0.
Unilateral
Bilateral
Figura 5.
Tipos de Contraste
3.1 Test de las Rachas

El test de las rachas (Bradley, 1968), se usa para decidir si una serie de datos procede de un proceso aleatorio. El test estudia el origen temporal o espacial en que las muestras han sido recogidas, de modo que muestra si una serie de datos se est desviando de la sucesin lgica o esperada, detectando que existe una tendencia no aleatoria en la aparicin de los mismos. El test est indicado para datos aleatorios que admita dos posibilidades excluyentes, como estar por encima o por debajo de un valor medio. El resultado del test ser la aceptacin o no de la hiptesis nula:
Si se rechaza H0 implica que los datos necesariamente proceden de dos poblaciones diferentes: el conjunto de datos puede proceder de una sola poblacin pero es estadsticamente imposible por el hecho de rechazar H0 esperar que los datos recogidos presenten una ordenacin no aleatoria, es decir, que tengan algn tipo de tendencia. Esto se usa para detectar el cambio de una poblacin a otra. La figura 6 indica una sucesin de valores que muestran las definiciones de los parmetros del test. R es el nmero de rachas o sucesiones de datos contiguos en la misma categora. En la figura 6 se observan cinco rachas de la categora A, y cuatro de la categora B. El test de las rachas espera, en funcin de las cantidades NA y NB, que el nmero de rachas R no sea ni muy grande ni muy pequeo y lo acota estadsticamente.
Figura 6.
Ejemplo Test de las Rachas
10
Se plantea la hiptesis nula H0 y la aleatoriedad de la muestra se rechaza con un nivel de significacin si:
La distribucin est tabulada (Tabla 7 de Downie) para NA10 y NB10. Si son mayores que 10 se admite una aproximacin a una normal (RR) definida por:
El estadstico de contraste es:

Se rechaza la hiptesis con un nivel de significacin si:
En la figura 7 se observan cuatro casos de ordenaciones espaciales de 20 datos que admiten la clasificacin en las categoras excluyentes A o B.
El caso 1 muestra una sucesin de resultados temporal de carcter aleatorio, de 9 rachas, con 11 datos en la categora A y 9 datos en la categora B. El valor del nmero de rachas con un nivel de significacin = 0,05 correspondiente a estos valores es:
11
Figura 7.
Cuatro casos de ordenaciones espaciales
Como el valor del nmero de rachas R=9 est comprendido entre dicho intervalo se acepta la hiptesis H0, que implica que la aparicin de los datos en la serie es aleatoria y no existe ningn patrn definido en la sucesin. El caso 2 y el caso 3 se analizan de manera similar: El caso 2 muestra una sucesin oscilante que presenta, con NA = 11 y NB = 9, un nmero anormalmente bajo de rachas R=4, inferior a RNA, NB, /2=6, rechazndose la hiptesis de que los datos se distribuyen aleatoriamente (evidente ya que es una serie oscilatoria). El caso 3 tiene un nmero de rachas R=2, que indica que la ordenacin no es aleatoria sino que tiene clara tendencia. El caso 4 tiene un nmero de rachas anormalmente alto R=20, que indica que los datos tienen valores alternos y no siguen un patrn aleatorio. Esta propiedad del test de las rachas es la que se va a usar para separar series de datos en tramos homogneos. Pero hay que convertir las series en grupos de datos que puedan ser divididos en dos clases disjuntas. Esto se hace con los Test 1 y Test 2 que se describen a continuacin.
3.1.1 Test 1: Test de las Rachas para Valores Medios

Se usa para detectar series consecutivas con valores medios diferentes (figura 8, izquierda). Se separan los valores en dos grupos disjuntos comparando cada dato con el valor medio de los datos procesados en cada momento. Al ser las series normales N() simtricas (figura 8, derecha), y la probabilidad de estar por encima o por debajo del valor medio es p=0,5, se tiene la serie de datos en dos 12
grupos disjuntos, los valores que superan el valor medio y los que son inferiores a dicho valor medio. Se contabiliza el nmero de rachas de los valores superiores e inferiores a la media, tratando como anormales las distribuciones en las que el valor del nmero de rachas sea anormalmente alto o bajo. Como se desconoce el valor verdadero se usa su estimador ; de este modo los datos sern de categora A si xi< , y de categora B si xi .
1 2
(2,2) (1,1)
1= 2
Figura 8. Series consecutivas con valores medios diferentes
3.1.2 Test 2: Test de las Rachas para las Desviaciones

El objetivo es detectar variaciones en las varianzas como las mostradas en la figura 9 (izquierda). Para ello divide tambin en dos grupos disjuntos. Se hallan los puntos Z(0,25) y Z(1-0,25) que son los puntos de la curva normal que dejan a la derecha e izquierda una probabilidad p=0,25 (figura 9, derecha). As se obtienen las siguientes zonas: Zona A dentro del intervalo, y las zonas exteriores B/2 con igual probabilidad. As un dato escogido al azar de una poblacin normal tiene la misma probabilidad de ser recogido de la zona interior que de las dos exteriores. Esto se debe a que los datos de una distribucin normal se distribuyen con igual probabilidad dentro y fuera del intervalo, presentado una dispersin determinada. No lo harn si se incorporan valores que, aunque sean normales con la misma media no tengan la misma desviacin tpica. Deshaciendo la normalizacin y sustituyendo por los estimadores de y el valor de Z0,25 y Z0,75:
Z0,25 = -0,677;
Z0,75 = 0,677
As, los datos estarn dentro de la categora A si:
13
Debido a la simetra:
Estarn en la categora B:
1 =2
1 2
(1,1) (2,2)
Figura 9. Series consecutivas con desviaciones diferentes
3.2 Test de Igualdad de Medias y Varianzas

En la parte final del proceso la serie completa queda dividida en varios subtramos que consideramos homogneos, el problema es que el test de las rachas es bastante sensible y divide la serie en un nmero excesivo de subtramos, dejando tramos consecutivos de muy parecidas caractersticas y que pudieran englobarse en uno solo. Para unir estos subtramos resultantes en uno solo se realizan dos test, denominados Test 3 y Test 4, con el fin de comprobar si es posible unir dos subtramos consecutivos, debiendo para esto cumplir simultneamente un test de igualdad de medias y otro de igualdad de varianzas para que se proceda a la unin de los mismos.
3.2.1 Test 3: Test de Igualdad de Medias

Para determinar si dos muestras con n1 y n2 datos, procedentes de dos distribuciones normales N1(1,1) y N2(2,2), cuyas varianzas suponemos conocidas, tienen valores para la media que puedan considerarse estadsticamente similares, se utiliza el contraste de medias con varianzas conocidas, planteando la siguiente hiptesis nula:
14
Para ello nos basamos en la distribucin del siguiente estimador de contraste:
Y hacemos un contraste bilateral:
Definimos entonces:
Y el test consiste en:
Lo que nos deja el test como:
15
3.2.2 Test 4: Test de Igualdad de Varianzas

Este contraste est indicado para determinar si dos muestras de n y m datos de dos poblaciones N1(1,1) y N2(2,2), tienen varianzas similares. La igualdad entre las dos varianzas puede escribirse , o bien, la existencia de una diferencia entre ambas (), del modo . Este modo de escribir la diferencia entre varianzas (que era el adecuado para las medias) no es sin embargo fcil de utilizar para las varianzas, de modo que nos ser ms fcil sacarle partido a las expresiones de las relaciones entre varianzas como:
Por ejemplo, si R=1 tenemos que ambas varianzas son iguales. Planteando la siguiente hiptesis nula:
La cual vamos a contrastar teniendo en cuenta que:
Por tanto el estadstico del contraste que nos conviene tiene una distribucin conocida cuando H0 es cierta. Distribucin F de Snedecor:
Lo que nos deja un estimador de contraste:
Y hacemos un contraste bilateral para R=1:
16
Definimos entonces un estadstico experimental y los lmites de la regin crtica como:
Y el criterio de aceptacin rechazo es:
Lo que nos deja el test como:
4. Descripcin del Proceso de Sectorizacin

El proceso se lleva a cabo en cuatro fases. En una primera fase, Divisin ascendente, se divide la serie completa en tramos de igual media y varianza, por medio de los test de rachas Test 1 y Test 2, que utilizan dos categorizaciones diferentes, una que nos permite detectar tramos con diferentes valores medios y la otra tramos con diferentes varianzas. Esta divisin se realiza suponiendo los datos ordenados tal y como se encontraron espacialmente. A continuacin se divide la serie completa en tramos, por medio de los dos test de rachas Test 1 y Test 2, con las dos categorizaciones citadas, pero esta vez la divisin se realiza suponiendo los datos ordenados en el sentido inverso al anterior, Divisin descendente.
17
Combinando los tramos en que queda dividida la serie de datos con las divisiones ascendente y descendente, se consigue una subdivisin de los datos en subtramos independientes del sentido de medida, Divisin en subtramos. Por ltimo se realiza una Recombinacin de los subtramos resultantes que estadsticamente puedan ser iguales por medio de una matriz de estimadores puntuales de igualdad de medias y varianzas, utilizando los Test 3 y Test 4, descritos con anterioridad. A continuacin se describen con detalle cada una de estas fases.
4.1 Divisin Ascendente

El programa recoge los cinco primeros datos en orden ascendente y a partir del sexto dato comienza el proceso de deteccin de los tramos. La razn de evitar estos primeros datos es que en una ordenacin de tan solo 5 datos, cualquier combinacin de rachas y valores de datos en las categoras A y B son plausibles con un nivel de significacin de =0.05, por lo tanto no se pueden detectar tramos con un nmero de datos inferior a 5. A partir del sexto dato, el proceso mostrado en la Tabla 3, es el siguiente, se calcula la media y la desviacin S6 de los 6 primeros datos y a continuacin se realiza el test de las rachas para la media, comparando los datos desde x1 hasta x6 con el valor obtenido de . Asignndolos a la categora A si xi< en la categora B si xi y contabilizando los cambios de categora consecutivos para obtener el nmero de rachas. De esta manera obtendremos los valores A6 , B6 y R6, que representan respectivamente el nmero de datos en la categora A, en la B y el nmero de rachas observado hasta el dato n 6.
Tabla 3.
Ejemplo divisin Ascendente
18
Tras esto se realiza el test de las rachas para la desviacin, comparando los datos desde x1 hasta x6 con el valor obtenido de x0.25. Asignndolos a la categora A si y en la categora B si y contabilizando los cambios de categora consecutivos para obtener el nmero de rachas. De esta manera obtendremos los valores A6 , B'6 y R'6. En este momento se tienen los valores, A6 , B6 , R6 y A6 , B6 , R6 con los cuales se estima si la serie hasta ese momento es o no aleatoria. Mientras alguno de los dos valores A6 o B6 no superen el valor de 10 se realiza una comprobacin en las tablas y se comprueba que:
Si el valor obtenido para el nmero de rachas R6 est comprendido en el intervalo se acepta la hiptesis de que los datos estn distribuidos aleatoriamente. En el caso de que uno de los dos valores, An, o Bn, supere el valor de 10 se realiza la aproximacin a la normal segn las frmulas descritas anteriormente:
Aceptndose la hiptesis de que los datos estn distribuidos aleatoriamente con un nivel de significacin si:
O lo que es lo mismo:
Se procede de igual manera para los valores A6 , B'6 y R'6.
19
Si los dos test son positivos y aceptan la hiptesis de que los datos estn distribuidos aleatoriamente, se repite el proceso aadiendo un dato ms y recalculando todos los parmetros. En cambio si hay datos que proceden de distintas series llegar un momento, en el dato ensimo, en el que uno de los dos test rechazar la hiptesis de que los datos procesados hasta ese momento estn distribuidos aleatoriamente. En este caso dependiendo del test que presente el rechazo se actuar, de una u otra manera.
4.1.1 Caso de Rechazo por el Test 1

Para explicar esto veamos la figura 10 en la que se han representado dos series consecutivas N1(1,1) y N2(2,2) con valores medios y desviaciones diferentes. Vemos el valor medio calculado hasta el dato ensimo y el punto de deteccin donde el test de las rachas indica que los datos procesados hasta ese momento no siguen una distribucin aleatoria.
Figura 10.
Rechazo por el valor medio
Como se puede apreciar este punto de deteccin siempre ser posterior al punto real en que los datos cambiaron de una distribucin a otra debido a que es necesario incorporar k datos de la serie N2 a la serie N1 para que el test de las rachas detecte que existe una anormalidad en el conjunto de datos procesados. Para poder determinar entonces qu porcin de los datos procesados no corresponden a la serie N1 y poder eliminarlos estudiaremos los datos de la ltima racha y los
20
compararemos con los anteriores. As calculamos el valor de la media y la desviacin, anteriores al punto de cruce de la ltima racha y los posteriores a dicho punto y .
Si las dos series N1 y N2 tuviesen la misma media, todos los datos de la ltima racha seran de la serie N1, para lo cual el estadstico del contraste para la igualdad de medias de las dos poblaciones debera ser igual a 0, por el contrario, si fuesen muy diferentes, el estadstico tender a tomar valores elevados e indicara que ningn valor de la ltima racha tiene probabilidad de ser de la serie N1. El estadstico citado para el contraste es el de igualdad de dos medias con varianzas conocidas:
donde
es la cuasivarianza muestral ponderada.
Como se trata tan solo de realizar una sencilla estimacin y el valor de
para
valores elevados de Na y Nb se puede aproximar a una N(0,1), tomaremos como valor ms elevado para este estadstico T=3, que corresponde a casos francamente aberrantes. De esta manera estimamos la siguiente relacin para el nmero de datos de la ltima racha a agregar a los datos de N1:
donde DN1 es el nmero de datos de la ltima racha de k datos que se estiman pertenecientes a la serie N1. Como el nmero de datos no puede ser un nmero fraccionario, tomaremos la parte entera de la estimacin, quedando finalmente la expresin:
Una vez obtenido el nmero de datos que se estiman pertenecen a N1, tendremos definido el primer tramo del sentido ascendente que estar comprendido entre el dato 1 y el dato n-k+DN1. A partir de este momento se reiniciar el clculo desde el dato n-k+DN1+1, hasta el momento en que o bien finalicen los datos, o bien se obtenga un resultado negativo de uno de los test de las rachas que indicara que existe una tercera agrupacin, repitindose el proceso hasta rastrear todos los datos de la serie.
21
4.1.2 Caso de Rechazo por el Test 2

Veamos ahora en la figura 11 en la que se han representado dos series consecutivas N1(,1) y N2(,2) y con valores medios iguales y desviaciones diferentes.
Figura 11.
Rechazo por la desviacin
En este caso, el dato que separa las categoras es , segn se indica en el apartado 3.1.2, y se compara con para obtener el nmero de rachas que quedan en cada categora. Vemos el valor calculado hasta el dato ensimo y el punto de deteccin donde el test de las rachas indica que los datos procesados hasta ese momento no siguen una distribucin aleatoria. Se puede apreciar que como en el caso anterior, el punto de deteccin tiene que ser posterior al punto real en que los datos cambiaron de una distribucin a otra debido a que es necesario incorporar k datos de la serie N2 a la serie N1 para que el test de las rachas detecte que existe una anormalidad en el conjunto de los datos procesados. Para estimar qu parte de los k datos de la ltima racha pueden pertenecer a la serie N1 y dado que partimos de series que tienen medias similares, podemos comparar directamente sus desviaciones tpicas y podemos decir que si (1/ 2)=1, todos los datos de la ltima racha perteneceran a la serie N1 y estimaremos por el contrario que si (mx/ mn)>3, ningn dato de la ltima racha pertenece a la serie N1. Para lo anterior, ser necesario definir cul de las dos desviaciones es la mxima y cul la mnima, con el fin de que la divisin siempre sea superior a 1. Sustituyendo por su estimador , obtendremos en nmero de datos estimado DN1.
22
Una vez obtenido el nmero de datos que se estiman pertenece a N1, tendremos definido el primer tramo del sentido ascendente que estar comprendido entre el dato 1 y el dato n-k+DN1. A partir de este momento se reiniciar el clculo desde el dato n-k+DN1+1, hasta el momento en que, o bien finalicen los datos, o bien se obtenga un resultado negativo de uno de los test de las rachas que indicara que existe una tercera agrupacin, repitindose el proceso hasta rastrear todos los datos de la serie. De esta manera conseguiremos definir en sentido ascendente m subtramos, desde N1 hasta Nm.
4.2 Segunda Divisin (Descendente)

De igual manera se repite todo el proceso pero esta vez empezando los clculos en sentido descendente, o sea desde el ltimo dato hacia el primero y obteniendo entonces p subtramos, desde D1 hasta Dp.
4.3 Divisin en Subtramos

Con la combinacin de los tramos obtenidos en sentido ascendente con los obtenidos en sentido descendente, figura 12, logramos una divisin de los datos en diversos subtramos. Como vemos en la figura, se han representado una serie de datos que ha quedado dividida en cuatro tramos en sentido ascendente, desde N1 hasta N4, en sentido descendente ha quedado tambin dividida en otros cuatro tramos, desde D1 hasta D4 y con la combinacin de ambos sentidos la divisin final consta de 8 subtramos, nombrados desde ST1 hasta ST8, que sern sobre los que se realice el ltimo paso del proceso.
4.4 Recombinacin Final de Subtramos

Debido a la sensibilidad del test de las rachas y la combinacin de los subtramos ascendentes y descendentes es posible que algunos subtramos consecutivos sean estadsticamente similares y por lo tanto no sea procedente realizar esa divisin y lo lgico es recombinar esos tramos adyacentes.
23
Figura 12.
Divisin en subtramos y combinacin
En este punto surge la duda de en qu orden realizar la recombinacin, ya que dependiendo de sta los resultados pueden ser muy diferentes. Si volvemos sobre la figura 12 y observamos los subtramos ST3, ST4 y ST5 , es posible pensar que ST4 pueda ser estadsticamente similar a ST3 o a ST5, al realizar los contrastes de hiptesis para la media y la desviacin es perfectamente posible que ambas hiptesis sean ciertas, o sea que siendo:
Se cumpla simultneamente que:
En el caso de unir el tramo ST3 con el ST4 para conseguir un nuevo tramo ST34, tendremos con gran probabilidad que el tramo resultante, ST34, no se podr recombinar con el ST5 o sea que, 34 5 y 34 5 de la misma manera ocurrira de unir primeramente el tramo ST4 con el ST5. Para efectuar entonces la recombinacin de los subtramos lo que se realiza es un contraste de hiptesis de igualdad de medias e igualdad de varianzas entre todos los subtramos consecutivos, hallndose una matriz de estimadores con k-1 elementos, que contendrn los estadsticos (Z12,H12), (Z23,H23)....(Z(k-1)k, H(k-1)k). Siendo Z12, Z23 ,... Z(k-1)k el estadstico del contraste para la igualdad de medias.
24
Y H12, H23 ,... H(k-1)k, el valor expresado como verdadero o falso al haber realizado las hiptesis de igualdad de varianzas.
De todos los estimadores Z12, Z23 ,... Z(k-1)k, se seleccionan los que estn en valor absoluto por debajo de la regin de aceptacin para la igualdad de medias:
, con el nivel de significacin escogido y en los cuales el test de igualdad de varianzas haya resultado positivo, o sea que simultneamente se cumpla que:
Esta seleccin corresponde a todos los subtramos consecutivos que son susceptibles de ser unidos, por tener un valor medio y una varianza estadsticamente similares. De entre todo el conjunto solo se selecciona el que presente el mnimo valor de Z. Entonces si el valor de Zy(y+1) es el mnimo del conjunto, esto representar que los dos subtramos, consecutivos STy y ST(y+1) son los que tienen ms probabilidad de tener medias similares. No siendo necesario realizar un test de igualdad de varianzas ya que el conjunto solo contiene datos de subtramos que hayan superado el test de igualdad de varianzas, que implica que Hy(y+1)=Verdadero. De esta manera recombinamos los subtramos que tienen ms probabilidades de tener medias iguales, independientemente del lugar en el que se encuentren dentro de la serie. Siendo el elemento seleccionado el (Zy(y+1), Hy(y+1)) se procede a eliminar la divisin y considerar el tramo STy y el ST(y+1) como uno solo, recalculando la media y la desviacin del nuevo tramo.
25
Al recalcular la media y desviacin del nuevo tramo, tambin habr que recalcular la matriz de estimadores que pasar a tener un elemento menos, ya que dos de los tramos se habrn fusionado en uno. El proceso se repetir hasta que no exista ningn Zy(y+1) que cumpla que simultneamente cumpla que Hy(y+1) sea verdadero. y
En este momento el proceso se da por concluido, quedando finalmente la serie de datos dividida en tramos con caractersticas similares y que pueden ser resumidos con sus valores medios y desviaciones, ya que todos los subtramos sern homogneos. Debido a que el procedimiento es relativamente complejo y laborioso ha sido necesario implementarlo en un programa informtico. En el desarrollo del programa final se han introducido pequeas modificaciones para adecuarlo a casos particulares no recogidos en el caso general, como pueden ser los casos en que los datos consecutivos sean iguales o el tratamiento de datos con valores negativos etc. Ahora veremos un esquema a modo de resumen del proceso.
26
4.5 Resumen Procedimiento
1. DIVISIN ASCENDENTE Orden igual al de toma de datos
2. DIVISIN DESCENDENTE Orden inverso al de toma de datos
3. DIVISIN EN SUBTRAMOS Combinacin de las dos divisiones anteriores
4. RECOMBINACIN Test de igualdad de Medias y Varianzas
SECTORIZACIN COMPLETADA
TEST DE LAS RACHAS PARA LA MEDIA
TEST DE LAS RACHAS PARA LA DESVIACIN
TEST DE IGUALDAD DE MEDIAS
TEST DE IGUALDAD DE VARIANZAS
TEST NEGATIVO Media y desviacin iguales
TEST POSITIVO Muestra aleatoria
TEST NEGATIVO Medias iguales y desviaciones diferentes
TEST POSITIVO Simultneamente
N de datos del primer tramo DN1
Aadir datos, recalcular y rehacer Test
N de datos del primer tramo DN1
Combinar subtramos con ms probabilidad de tener medias iguales
Divisin en n subtramos
Divisin en m subtramos
27
5. Caso Prctico
Con el fin de poner en prctica este mtodo hemos realizado la sectorizacin de un tramo de 1 km de longitud de la CR-5003 (Variante sur de Puertollano). Disponamos de los datos de deflexiones de ambos carriles. Y realizamos en una prctica anterior la sectorizacin en tramos homogneos de forma manual, cumpliendo las especificaciones de la Norma 6.3-IC. Rehabilitacin de Firmes, en su apartado 2.1referente a los criterios de tramificacin. Lo que nos daba como resultado cinco subtramos para el carril derecho, y cuatro para el carril izquierdo.
DEFLEXIONES CARRIL DERECHO

160 Deflexin Patrn (mm/100) 140 120 100 80 60 40 20 0 7+0400 7+0500 7+0600 7+0700 7+0800 7+0900 8+0015 8+0115 8+0215 8+0315 PK
DEFLEXIONES CARRIL IZQUIERDO

140 Deflexiones Patrn (mm/100) 120 100 80 60 40 20 0 7+0400 7+0500 7+0600 7+0700 7+0800 7+0900 8+0015 8+0115 8+0215 8+0315 PK
28
Como se puede comprobar a simple vista la sectorizacin manual, aunque cumple con los criterios de la norma, no genera tramos homogneos, ya que admite una desviacin muy grande y pone como lmite mnimo de longitud de subtramo 100 m, por motivos constructivos.
Con el nuevo mtodo la sectorizacin con un nivel de confianza del 95% da como resultado:
SECTORIZACIN CARRIL DERECHO

160 140
Deflexiones (mm/100)
120 100 80 60 40 20 0 7+0400
7+0500
7+0600
7+0700
7+0800
7+0900 PK
8+0015
8+0115
8+0215
8+0315
SECTORIZACIN CARRIL IZQUIERDO

140 120 100 80 60 40 20 0 7+0400
Deflexiones (mm/100)
7+0500
7+0600
7+0700
7+0800
7+0900
8+0015
8+0115
8+0215
8+0315
PK
29
Vemos como los subtramos son mucho ms homogneos que antes, en el carril derecho pasamos de 5 subtramos a 16, y en el izquierdo de 4 a 10, la pequea longitud de algunos sectores se debe a que el programa est diseado para todo tipo de datos de auscultacin que sigan una distribucin normal, en el caso concreto de las deflexiones, no contempla los criterios de la Norma 6.3 IC, como la mnima longitud de subtramo. Sin embargo bien aadindole estos parmetros al programa o bien realizando una ltima recombinacin de tramos adyacentes de escasa longitud por parte del tcnico encargado de analizar estos datos y dar las soluciones de rehabilitacin, el nuevo mtodo se muestra mucho ms preciso y por lo tanto mejorar el diagnstico de la carretera y la optimizacin de los recursos necesarios para su rehabilitacin. Comparamos ambos mtodos:
30
CARRIL DERECHO
160 140
120
Deflexin Patrn (mm/100)
100 80 60 40
20 0 7+0400 Deflexiones Manual Automtico
7+0500
7+0600
7+0700
7+0800
7+0900 PK
8+0015
8+0115
8+0215
8+0315
31
CARRIL IZQUIERDO
140
120
Deflexiones Patrn (mm/100)
100
80 Deflexiones 60 Manual Automtico 40
20
0 7+0400
7+0500
7+0600
7+0700
7+0800
7+0900 PK
8+0015
8+0115
8+0215
8+0315
32
6. Conclusiones
Importante una correcta identificacin de los sectores con las mismas caractersticas para tomar las medidas correctoras adecuadas al tramo, con el fin de optimizar los recursos disponibles y no aplicar medidas en tramos que no las necesiten o bien pasar por alto tramos que no cumplen determinadas especificaciones. El mtodo tiene un carcter general y se puede utilizar para cualquier serie de datos de auscultacin que sigan una distribucin normal. EI nuevo mtodo propuesto, una vez informatizado, ha resultado ser muy til en la separacin de tramos, en nuestro caso de datos deflexiones. El mtodo es totalmente automtico, tiene pocos parmetros de configuracin, puede ser ajustada su sensibilidad por medio de los niveles de confianza para as obtener resultados adecuados a cada fin particular y no necesita de ningn dato ni configuracin para ajustar la escala. Es muy robusto a la presencia en las series con valores aberrantes, Io cual permite, una vez finalizado el proceso, la deteccin de los citados valores, dentro de los subtramos en los que queda dividida la serie completa.
7. Bibliografa y Agradecimientos
YANGUAS GONZLEZ, Sixto Jos: Nuevo mtodo para el tratamiento y anlisis de datos de auscultacin de carreteras. Revista Ingeniera Civil. Centro de Estudios Experimentales de Obras Pblicas (CEDEX). Ministerio de Fomento. Madrid. n 150, (2008) p. 23 -33. RUS DAZ, Francisca, et al. Bioestadstica: mtodos y aplicaciones. Universidad de Mlaga.
Nuestro ms sincero agradecimiento a D. Sixto Jos Yanguas Gonzlez por su ayuda a la hora de realizar este trabajo.
33

MONOGRÁFICO Final

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

MONOGRÁFICO Final

Hochgeladen von

Copyright:

Verfügbare Formate

Trabajo Monogrfico. Nuevo mtodo para el tratamiento y anlisis de datos de auscultacin de carreteras.

ngel de la Rosa Velasco Ivn Vega Snchez

Descripcin del Proceso de Sectorizacin ........................................................................... 17 4.1 4.2 4.3 4.4

Sucesin aleatoria de cuatro series normales

Resumen de los cuatro tramos en agrupaciones de 50 datos

Comparacin tramificacin por media y por n de datos

2. Propuesta de un procedimiento de sectorizacin de series

(2,2) 2 3> 1 (3,3)

Tres series normales de datos consecutivos

3. Fundamentos Estadsticos y Descripcin de los Test Utilizados en el Proceso

Situacin Real H0 es cierta ACEPTAR H0 DECISIN RECHAZAR H0

H0 es falsa ERROR II CORRECTO

3.1 Test de las Rachas

Ejemplo Test de las Rachas

El estadstico de contraste es:

Cuatro casos de ordenaciones espaciales

3.1.1 Test 1: Test de las Rachas para Valores Medios

3.1.2 Test 2: Test de las Rachas para las Desviaciones

As, los datos estarn dentro de la categora A si:

3.2 Test de Igualdad de Medias y Varianzas

3.2.1 Test 3: Test de Igualdad de Medias

Para ello nos basamos en la distribucin del siguiente estimador de contraste:

Y hacemos un contraste bilateral:

Y el test consiste en:

Lo que nos deja el test como:

3.2.2 Test 4: Test de Igualdad de Varianzas

La cual vamos a contrastar teniendo en cuenta que:

Lo que nos deja un estimador de contraste:

Y hacemos un contraste bilateral para R=1:

Definimos entonces un estadstico experimental y los lmites de la regin crtica como:

Y el criterio de aceptacin rechazo es:

Lo que nos deja el test como:

4. Descripcin del Proceso de Sectorizacin

4.1 Divisin Ascendente

Ejemplo divisin Ascendente

Se procede de igual manera para los valores A6 , B'6 y R'6.

4.1.1 Caso de Rechazo por el Test 1

Rechazo por el valor medio

es la cuasivarianza muestral ponderada.

Como se trata tan solo de realizar una sencilla estimacin y el valor de

4.1.2 Caso de Rechazo por el Test 2

Rechazo por la desviacin

4.2 Segunda Divisin (Descendente)

4.3 Divisin en Subtramos

4.4 Recombinacin Final de Subtramos

Divisin en subtramos y combinacin

Se cumpla simultneamente que:

4.5 Resumen Procedimiento

1. DIVISIN ASCENDENTE Orden igual al de toma de datos

2. DIVISIN DESCENDENTE Orden inverso al de toma de datos

3. DIVISIN EN SUBTRAMOS Combinacin de las dos divisiones anteriores

4. RECOMBINACIN Test de igualdad de Medias y Varianzas

TEST DE LAS RACHAS PARA LA MEDIA

TEST DE LAS RACHAS PARA LA DESVIACIN

TEST DE IGUALDAD DE MEDIAS

TEST DE IGUALDAD DE VARIANZAS

TEST NEGATIVO Media y desviacin iguales

TEST POSITIVO Muestra aleatoria

TEST NEGATIVO Medias iguales y desviaciones diferentes

TEST POSITIVO Simultneamente

N de datos del primer tramo DN1

Aadir datos, recalcular y rehacer Test

N de datos del primer tramo DN1

Combinar subtramos con ms probabilidad de tener medias iguales