Sie sind auf Seite 1von 23

Universidad de la República - Facultad de Ingeniería

Instituto de Computación

Proyecto de Grado 2005

Evolución de sistemas de Web Warehousing guiados por


parámetros de calidad

Integrantes Tutoras
Daniela Vila Regina Motz
Martín Balestra Verónika Peralta
Agenda

• Sistemas de Web Warehousing (WW)


• Introducción al sistema WW existente
• Evolución del sistema WW
• Metadata en la evolución del sistema WW
• Objetivos del Proyecto 2005
• Estado actual del proyecto
• Tareas Pendientes
Sistemas de Web Warehousing (WW)

Motivación

• Uso masivo de la Web como fuente de


información
• Poca estructuración de la información
• Una consulta en la Web puede devolver muchos
resultados no relevantes a la información buscada
• Dada la poca estructuración de las páginas no es
posible realizar consultas demasiado específicas
Sistemas de Web Warehousing (WW)
Solución

Extracción de Data Consulta de


Información Warehouse Información
Introducción al sistema WW existente
Descripción
Integra información de diferentes
Extrae información de una página páginas de un mismo dominio
Web de un dominio especifico
Integra información de
diferentes dominios

Wrapper Mediador

Mediador
Final Data
Warehouse

Wrapper Mediador

Metadata
Introducción al sistema WW existente
Funcionalidades

• El proyecto parte de un sistema ya existente que


proporciona las siguientes funcionalidades:
o Extracción de información a través de los Wrappers
o Integración de información de un dominio especifico a
través de los Mediadores Intermedios
o Generación de metadata en formato XML en los dos
niveles anteriores
Evolución del sistema WW
Cambios en el sistema

• El sistema debe ser actualizado cuando se


detectan cambios en las páginas fuente
• Pueden existir diferentes tipos de cambio:
o Cambios visuales
o Cambios estructurales
o Cambios en los datos
o Cambios semánticos
Evolución del sistema WW
Problema
• La ejecución completa del sistema ante cada
cambio en las páginas fuente puede llegar a
ser muy costosa e innecesaria
• Es necesario evaluar cada cambio y su
impacto en la información almacenada en el
Data Warehouse
• De la evaluación del cambio se desprende
hasta donde debe propagarse el mismo en el
sistema
Metadata en la evolución del sistema WW
Importancia

• La metadata generada proporciona información


de los datos extraídos de cada página fuente
• En base a esta información se evalúa la
propagación del cambio hacia el sistema
• Desde otra perspectiva la metadata puede incluir
también información sobre la calidad de los
datos
Metadata en la evolución del sistema WW
Metadata existente – Proyecto 2004

Wrapper Generador de uRules


Salida

XML
Extractor

Grouped

iRules Sorted
XML

XML XML
Metadata en la evolución del sistema WW
Metadata existente – Proyecto 2004 (cont.)

Mediador Fusión de Salida


Datos

Limpieza y XML
Homogenización
de Datos

Homogenized

XML
Objetivos del Proyecto 2005
• Estructuración y definición de una nueva metadata
que provea mayor información con respecto a los
datos extraídos
• Traducción de la metadata existente al lenguaje
OWL
• Administración de la evolución del sistema
(propagación de cambios)
• Actualización de la metadata del sistema
• Utilización de parámetros de calidad en la
elección de los datos a almacenar en el Data
Warehouse
Estado actual del proyecto
Tareas Realizadas
• Estudio del entorno y la arquitectura del
sistema y las funcionalidades de cada módulo
• Identificación de los puntos en los cuales el
sistema exporta metadata, elaborando un
documento que especifica el estudio realizado
• Definición de la nueva metadata del sistema y
elaboración de una política de calidad
• Diseño de un prototipo
• Implementación en curso del prototipo
Estado actual del proyecto
Nueva Metadata
• Se define una política de calidad
describiendo la información necesaria tanto
del archivo como del contenido de la
metadata
• Información del archivo de metadata
o Descripción del módulo que la generó
o Validez de la metadata
o Objetivo de la metadata
o Consumidores conocidos de la metadata
Estado actual del proyecto
Nueva Metadata (cont.)
• Información del contenido de la metadata
o Fuente de origen
o Proceso que genera la metadata
o Regla de selección de la metadata
• Para cada archivo también deben tenerse en
cuenta las condiciones en que se genera la
metadata, descartando información
generada con excepciones o problemas en la
ejecución del sistema
Estado actual del proyecto
Jerarquía Descripción
Info
Validez
Objetivo
Consumidore
s
Fuente
iRules uRules sorted grouped Proceso
homogenized salida

Regla

reglaInstanciada var reglaAplicada hAtributo jAtributo

iAtributos atributos jOpciones

Extraído de [3]
Estado actual del proyecto
Procesos Definidos
• Reprocesamiento de la metadata generada
por el sistema, agregando políticas de
calidad sobre la misma y traduciendo la
metadata existente (escrita en XML) al
lenguaje OWL
• Monitoreo de las páginas propiamente dicho
y su reprocesamiento en caso de cambios
detectados procurando el mínimo impacto
posible
Estado actual del proyecto
Reprocesamiento de la Metadata

WrapperTranslator

+processIRules()
+processURules()
+processSorted()
Runner (2004) RunnerMetadata +processGrouped()

+processMetadata()
MediatorTranslator

+processHomogenized()
+processJoined()

Extraído de [4]
Estado actual del proyecto
Control de Cambios

PullPages EvalChanges RunnerMetadata

+processPull() +proccessMetadata()

Mediator (2004)
WrapperTranslator
+integrate() MediatorTranslator
+processIRules()
Wrapper (2004) +processURules()
+processHomogenized()
+processSorted()
+processJoined()
+processGrouped()
+wrap()

Extraído de [4]
Estado actual del proyecto
Arquitectura

Wrapper Mediator

Metadata
XML XML

Pull Eval Wrapper Mediator


Pages Changes Translator Translator

Metadata
OWL OWL
Estado actual del proyecto
Prototipo en Implementación
• El prototipo presenta una primera
generación de metadata en OWL a partir de
la metadata que exporta el sistema en XML
o No se ha incorporado aún la selección basada
en parámetros de calidad
• Se ha iniciado el monitoreo de las páginas
Web registradas en el sistema
o No se ha procesado todavía el impacto de
cambios de las páginas en el sistema
Tareas Pendientes
• Llevar el prototipo al sistema final,
incorporando el chequeo de algunas
restricciones en cuanto a la metadata generada
• Incorporar al diseño y desarrollo la evaluación
de parámetros de calidad para las fuentes
• Implementar el módulo de actualización de
información del Data Warehouse procesando el
impacto de los cambios en el sistema
o La implementación de este módulo se extiende hasta
los mediadores intermedios
Referencias
[1] A. Marotta, R. Motz, R. Ruggia. Managing Source Schema
Evolution in Web Warehouses. International Workshop on
Information Integration on the Web (WIIW ‘2001).
[2] V. Giaudrone, M. Guerra, M. Vaccaro. Informe General.
Proyecto de Grado 2004. Extracción e integración en una
arquitectura de Web Warehouse.
[3] D. Vila, M. Balestra. Metadata del sistema.
[4] D. Vila, M. Balestra. Documento de diseño.

Das könnte Ihnen auch gefallen