Sie sind auf Seite 1von 12

White Paper

Optenet MIDAS: Haciendo frente a la W eb 2.0

Enero 2009

Optenet MIDAS: Haciendo frente a la W eb 2.0

W hite Paper

Tabla de contenidos
Tabla de contenidos....................................................2 Nuevos contenidos plantean nuevos retos..................3 Multicontent Inspection & Dynamic Analysis System...6 Procesamiento online y offline de contenidos por Optenet MIDAS.........................................................6 Motor de Anlisis de Contenidos..................................7 Entrenador Multicontenido..........................................8 Clasificador Automtico de Contenidos.....................11 Las ventajas de Optenet MIDAS.............................11

Optenet 2

Optenet MIDAS: Haciendo frente a la W eb 2.0

W hite Paper

Nuevos contenidos plantean nuevos retos


Internet ha continuado en los ltimos aos su crecimiento exponencial, y actualmente existen ms de 215 millones de servidores web 1 de los cuales la compaa Google tiene indexadas ya ms de 1 billn (1.000.000.000.000) de URLs distintas2. Este crecimiento se debe en gran medida a la aparicin y popularizacin de la Red Social (blogs, redes de fotos como Flickr y Picasa, redes de vdeo como YouTube o Vimeo, redes sociales generales como Facebook o MySpace, y temticas como LinkedIn, etc.). La Web 2.0 constituye no solo una herramienta de participacin y colaboracin de primer orden entre usuarios particulares, sino que ofrece a las empresas oportunidades extraordinarias que les permiten sacar un Ventajas
Nuevas oportunidades de construccin y desarrollo de imagen de marca. Nuevo canal de ventas. Nuevo canal de comunicacin con los clientes (CRM).

Riesgos
Prdida de productividad de los empleados.

Nuevo vector de propagacin de


malware (virus, troyanos, etc.). correo basura (spam).

Nuevo vector de propagacin de


Exposicin adicional a la fuga de datos confidenciales. Posible detrimento de imagen de la empresa por opiniones malintencionadas.

Posibilidad de utilizar Redes

Sociales como herramienta de colaboracin interna (la nueva Intranet). Temticas (e.g. reclutamiento en LinkedIn).

Especficas de Redes Sociales

Cuadro 1. Ventajas y riesgos de la Web 2.0 para empresas.

mximo partido al uso y la presencia en la Web. Sin embargo, como cabe esperar, tambin las expone a riesgos tradicionales y novedosos. Tanto el crecimiento de Internet, como la enorme popularidad y potencial de las redes sociales, exige que las empresas actuales controlen el uso efectivo de Internet en general, y de la Web en particular, con ms inters

1 2

Netcraft Web Survey (Febrero, 2009): http://news.netcraft.com/. Jesse Alpert & Nissan Hajaj, Software Engineers, Web Search Infrastructure Team. The Official Google Blog

Optenet 3

Optenet MIDAS: Haciendo frente a la W eb 2.0

W hite Paper

y atencin que nunca. Los sistemas de filtrado de contenidos juegan un papel fundamental en este control, habilitando a las empresas para ejercer un control efectivo y un aprovechamiento mximo de los crecientes Crecimiento exponencial del nmero de sitios Web y de dominios. Sitios Web con contenidos dinmicos. Evolucin natural de los contenidos de los sitios Web. Sitios Web aleatorios generados por campaas de fraude (phishing). Bloqueo binario (si/no) de Redes Sociales. recursos existentes.
Cuadro 2. Limitaciones del filtrado por URLs.

Este control no puede lograrse en exclusiva con tecnologas tradicionales de filtrado por URLs (vase el cuadro 2: Limitaciones del filtrado por URLs), sino que es preciso disponer de un anlisis inteligente y dinmico de las peticiones Web realizadas por los usuarios de cada empresa. Optenet ha desarrollado con este fin una tecnologa capaz de analizar los contenidos web de manera dinmica e inteligente. El sistema Optenet MIDAS combina tcnicas de Inteligencia Artificial, que incluyen el anlisis lingstico y semntico de las pginas web, y algoritmos genticos y de Aprendizaje Automtico, proporcionando altsimos niveles de efectividad y eficiencia que posibilitan el control eficaz y el aprovechamiento ptimo de la Web en el puesto de trabajo.

Optenet 4

Optenet MIDAS: Haciendo frente a la W eb 2.0

W hite Paper

Figura 1. Las pginas dinmicas se catalogan fcilmente con mtodos convencionales.

Optenet 5

Optenet MIDAS: Haciendo frente a la W eb 2.0

W hite Paper

Multicontent Inspection & Dynamic Analysis System


Optenet MIDAS (Multicontent Inspection & Dynamic Analysis System) es el sistema inteligente de anlisis de informacin que permite a Optenet incorporar a sus productos funcionalidades extremadamente efectivas para la clasificacin de contenidos web multilinges y multiformato. El sistema Optenet MIDAS agrega indicios sobre mltiples tipos de datos (texto, imgenes, vdeo, etc.) presentes en las pginas web y correos electrnicos, y construye modelos multidimensionales a partir de ellos, utilizando tcnicas de Aprendizaje Automtico que permiten clasificar los contenidos objetivo. El sistema Optenet MIDAS consta de tres partes fundamentales, cada una de ellas encargada de realizar parte del trabajo. Esta divisin es la que le permite llevar a cabo un anlisis inteligente en tiempo real sin que ello afecte al rendimiento del sistema global con un aumento en la latencia. Anlisis de contenidos multilinge y multiformato. Consiste en la recopilacin estadstica de indicios a partir de los contenidos en bruto. Esta funcionalidad es responsabilidad del Motor de Anlisis de Contenidos (Content Analisis Engine). Aprendizaje multicontenido. En este aprendizaje tiene lugar la construccin automtica modelos que condensan la informacin sobre los indicios y su relacin entre ellos. Esta funcin la realiza en Entrenador Multicontenido (Multicontent Trainer). Clasificacin automtica de contenidos. Se trata de, valindose de los modelos generados y de los resultados del anlisis de nuevos contenidos, es clasificar estos ltimos de manera eficiente y eficaz. Esta funcin corresponde al Clasificador Automtico de Contenidos (Automatic Content Classifier).

Procesamiento online y offline de contenidos por Optenet MIDAS


Optenet MIDAS no reside solo en cada uno de los productos de Optenet. En realidad el sistema completo est compuesto de dos partes Optenet 6

Optenet MIDAS: Haciendo frente a la W eb 2.0

W hite Paper

diferenciadas. Cada una de ellas realiza unas tareas especficas y las dos se combinan retroalimentndose con la informacin correspondiente. Una de las partes trabaja online, es decir, reside en cada uno de los productos y realiza su trabajo a medida que tienen que inspeccionar el trfico que se analiza. Por otra parte existe otro componente que trabaja de forma offline, reside en los servidores centrales de Optenet y se encarga de las tareas de aprendizaje. Procesamiento offline: Las granjas de servidores de Optenet ejecutan mltiples instancias de Optenet MIDAS, en las que se hace acopio de la informacin existente en diversos medios (pginas Web, Partners de Optenet, y la realimentacin de ms de 70 millones de usuarios finales de las soluciones de Optenet por todo el mundo). Esta informacin alimenta al Motor de Anlisis de Contenidos, y sucesivamente al Entrenador Multicontenido, que genera modelos que constituyen la base de conocimiento de Optenet MIDAS, distribuida a los centros de operaciones de Optenet. Procesamiento online: Los servidores instalados en los clientes ejecutan una instancia de Optenet MIDAS que es responsable de, con la base de conocimiento actualizada desde los centros de operaciones de Optenet, clasificar instantneamente todas las transacciones realizadas (navegacin, correo, etc.) usando primero el Motor de Anlisis de Contenidos, y a continuacin el Clasificador Automtico de Contenidos.

Motor de Anlisis de Contenidos


El Motor de Anlisis de Contenidos es el responsable de la recopilacin estadstica de indicios a partir de los contenidos en bruto. Se trata de un subsistema que proporciona cobertura a mltiples tipos de contenido. Este subsistema posee mdulos especficos capaces de analizar distintos formatos de datos (texto, imagen, vdeo, etc.) y de recopilar, de cada uno, indicios especficos segn el formato y las clases objetivo (pornografa, juegos de casino, etc.). Cada tipo de contenido es susceptible de recopilacin de indicios de naturaleza diferente: Anlisis de texto: El procesamiento de pginas incluye, entre otras, las siguientes tcnicas: Anlisis estructural: Se tiene en cuenta la relacin entre las etiquetas y el texto, los valores de los atributos de las etiquetas, etc. Optenet 7

Optenet MIDAS: Haciendo frente a la W eb 2.0

W hite Paper

Anlisis lingstico: No solo se tiene en cuenta la aparicin de palabras, sino de races de las mismas. Anlisis posicional: Se generan estadsticas de correlacin de apariciones, y se tiene en cuenta la distancia entre las apariciones de palabras y races, para construir conceptos de alto nivel (presidente + Espaa = presidente de Espaa). De este modo, se realiza un verdadero anlisis conceptual que permite capturar en gran medida la semntica de los elementos textuales en contenidos web y correo electrnico. Anlisis de imagen y vdeo: Adems de todo el contenido que rodea a la imagen o vdeo en s (TAGs, informacin EXIF, texto asociado, etc.) se realizan distintos tipos de anlisis sobre el archivo multimedia, deteccin de piel y rostros, movimiento de rostros en vdeo, etc.

Figura 2 Anlisis de imgenes para la deteccin de reas de piel. Los indicios se recopilan de manera dependiente del contenido, en base a estadsticas de aparicin que tienen en cuenta su frecuencia en las distintas clases objetivo, y en distintas instancias del tipo de contenido (nmero de imgenes, nmero de textos, etc.).

Entrenador Multicontenido
Optenet 8

Optenet MIDAS: Haciendo frente a la W eb 2.0

W hite Paper

El subsistema Entrenador Multicontenido, sistema de entrenamiento o Aprendizaje Automtico, es capaz de seleccionar y condensar la informacin de distintos indicios para construir modelos que capturen las propiedades esenciales de cada clase segn el tipo de contenido. Estos modelos se utilizarn despus en el Clasificador Automtico de Contenidos. La experiencia de Optenet en mltiples entornos de despliegue en operadores y clientes empresariales y residenciales, combinada con los resultados de mltiples proyectos de investigacin ha permitido experimentar con un amplio rango de tcnicas de Aprendizaje Automtico, que incluyen: Sistemas de clasificacin por reglas borrosas. Redes Neuronales mono y multicapa. Redes Bayesianas adaptativas. Algoritmos genticos.

El entrenamiento que se realiza permite crear modelos que se asocian a tipos de contenidos, as como a si esos contenidos representan alguna amenaza en forma de phising, cdigo malicioso, etc. De esta forma es posible identificar en el siguiente paso contenidos potencialmente perjudiciales al vuelo aunque no se tenga ninguna referencia previa de dicho elemento. Estos modelos son enviados al Clasificador Automtico de Contenidos, de tal forma que se separa la parte de aprendizaje de la propia de clasificacin para evitar sobrecargar los sistemas, con el beneficio que esto supone para el rendimiento global.

Optenet 9

Optenet MIDAS: Haciendo frente a la W eb 2.0

W hite Paper

Optenet 10

Optenet MIDAS: Haciendo frente a la W eb 2.0

W hite Paper

Clasificador Automtico de Contenidos


El Clasificador Automtico de Contenidos utiliza los modelos y los resultados del anlisis de nuevos contenidos, y es capaz de clasificar estos ltimos de manera eficiente y eficaz. El sistema de entrenamiento genera modelos lineales que se pueden emplear como funciones de clasificacin. Los modelos lineales de clasificacin han demostrado una efectividad altsima en diversos problemas de anlisis de contenidos. Al mismo tiempo, su implementacin se puede realizar de manera extremadamente eficiente, como se puede observar en sistemas de clasificacin y recuperacin como los Motores de Bsqueda de Internet.

Las ventajas de Optenet MIDAS


La combinacin de todas estas tcnicas y la posibilidad de desglosar el trabajo de forma que no afecte al rendimiento de los productos de Optenet, suponen un avance espectacular en el campo del anlisis inteligente de contenidos. Gracias a Optenet MIDAS es posible disfrutar de un conocimiento mucho ms profundo de la estructura de los contenidos de Internet, con unos niveles de eficiencia sin parangn. El resultado son unos sistemas de filtrado de contenidos que llevan el anlisis en tiempo real un paso ms all de modelos anteriores, para poder dar respuesta a los retos que el carcter dinmico de la Web 2.0 supone para los administradores de sistemas de seguridad.

OPTENET S.A. Jos Echegaray n 8. Edificio 3, 1 Planta, mdulo 1. Parque empresarial Alvia - 28230 Las Rozas. Madrid (SPAIN) Tel.: +34 902 154 604 Fax: +34 913 575 433 Email: info@optenet.com Web: www.optenet.com Optenet is a global IT security company that provides high-performance security solutions to service providers and large enterprises worldwide. Optenets technology protects 75 million end users around the globe, including the customers of many of

Optenet 11

Optenet MIDAS: Haciendo frente a la W eb 2.0

W hite Paper

the worlds leading ISPs and mobile operators, as well as employees of global enterprise organizations. The Company is a socially conscious organization, committed to eliminating illegal content on the Internet, protecting children and supporting government agencies and non-profit organizations that share the same goal. For more information, visit www.optenet.com Copyright 2009 Optenet

Optenet 12

Das könnte Ihnen auch gefallen