Beruflich Dokumente
Kultur Dokumente
Enero 2009
W hite Paper
Tabla de contenidos
Tabla de contenidos....................................................2 Nuevos contenidos plantean nuevos retos..................3 Multicontent Inspection & Dynamic Analysis System...6 Procesamiento online y offline de contenidos por Optenet MIDAS.........................................................6 Motor de Anlisis de Contenidos..................................7 Entrenador Multicontenido..........................................8 Clasificador Automtico de Contenidos.....................11 Las ventajas de Optenet MIDAS.............................11
Optenet 2
W hite Paper
Riesgos
Prdida de productividad de los empleados.
Sociales como herramienta de colaboracin interna (la nueva Intranet). Temticas (e.g. reclutamiento en LinkedIn).
mximo partido al uso y la presencia en la Web. Sin embargo, como cabe esperar, tambin las expone a riesgos tradicionales y novedosos. Tanto el crecimiento de Internet, como la enorme popularidad y potencial de las redes sociales, exige que las empresas actuales controlen el uso efectivo de Internet en general, y de la Web en particular, con ms inters
1 2
Netcraft Web Survey (Febrero, 2009): http://news.netcraft.com/. Jesse Alpert & Nissan Hajaj, Software Engineers, Web Search Infrastructure Team. The Official Google Blog
Optenet 3
W hite Paper
y atencin que nunca. Los sistemas de filtrado de contenidos juegan un papel fundamental en este control, habilitando a las empresas para ejercer un control efectivo y un aprovechamiento mximo de los crecientes Crecimiento exponencial del nmero de sitios Web y de dominios. Sitios Web con contenidos dinmicos. Evolucin natural de los contenidos de los sitios Web. Sitios Web aleatorios generados por campaas de fraude (phishing). Bloqueo binario (si/no) de Redes Sociales. recursos existentes.
Cuadro 2. Limitaciones del filtrado por URLs.
Este control no puede lograrse en exclusiva con tecnologas tradicionales de filtrado por URLs (vase el cuadro 2: Limitaciones del filtrado por URLs), sino que es preciso disponer de un anlisis inteligente y dinmico de las peticiones Web realizadas por los usuarios de cada empresa. Optenet ha desarrollado con este fin una tecnologa capaz de analizar los contenidos web de manera dinmica e inteligente. El sistema Optenet MIDAS combina tcnicas de Inteligencia Artificial, que incluyen el anlisis lingstico y semntico de las pginas web, y algoritmos genticos y de Aprendizaje Automtico, proporcionando altsimos niveles de efectividad y eficiencia que posibilitan el control eficaz y el aprovechamiento ptimo de la Web en el puesto de trabajo.
Optenet 4
W hite Paper
Optenet 5
W hite Paper
W hite Paper
diferenciadas. Cada una de ellas realiza unas tareas especficas y las dos se combinan retroalimentndose con la informacin correspondiente. Una de las partes trabaja online, es decir, reside en cada uno de los productos y realiza su trabajo a medida que tienen que inspeccionar el trfico que se analiza. Por otra parte existe otro componente que trabaja de forma offline, reside en los servidores centrales de Optenet y se encarga de las tareas de aprendizaje. Procesamiento offline: Las granjas de servidores de Optenet ejecutan mltiples instancias de Optenet MIDAS, en las que se hace acopio de la informacin existente en diversos medios (pginas Web, Partners de Optenet, y la realimentacin de ms de 70 millones de usuarios finales de las soluciones de Optenet por todo el mundo). Esta informacin alimenta al Motor de Anlisis de Contenidos, y sucesivamente al Entrenador Multicontenido, que genera modelos que constituyen la base de conocimiento de Optenet MIDAS, distribuida a los centros de operaciones de Optenet. Procesamiento online: Los servidores instalados en los clientes ejecutan una instancia de Optenet MIDAS que es responsable de, con la base de conocimiento actualizada desde los centros de operaciones de Optenet, clasificar instantneamente todas las transacciones realizadas (navegacin, correo, etc.) usando primero el Motor de Anlisis de Contenidos, y a continuacin el Clasificador Automtico de Contenidos.
W hite Paper
Anlisis lingstico: No solo se tiene en cuenta la aparicin de palabras, sino de races de las mismas. Anlisis posicional: Se generan estadsticas de correlacin de apariciones, y se tiene en cuenta la distancia entre las apariciones de palabras y races, para construir conceptos de alto nivel (presidente + Espaa = presidente de Espaa). De este modo, se realiza un verdadero anlisis conceptual que permite capturar en gran medida la semntica de los elementos textuales en contenidos web y correo electrnico. Anlisis de imagen y vdeo: Adems de todo el contenido que rodea a la imagen o vdeo en s (TAGs, informacin EXIF, texto asociado, etc.) se realizan distintos tipos de anlisis sobre el archivo multimedia, deteccin de piel y rostros, movimiento de rostros en vdeo, etc.
Figura 2 Anlisis de imgenes para la deteccin de reas de piel. Los indicios se recopilan de manera dependiente del contenido, en base a estadsticas de aparicin que tienen en cuenta su frecuencia en las distintas clases objetivo, y en distintas instancias del tipo de contenido (nmero de imgenes, nmero de textos, etc.).
Entrenador Multicontenido
Optenet 8
W hite Paper
El subsistema Entrenador Multicontenido, sistema de entrenamiento o Aprendizaje Automtico, es capaz de seleccionar y condensar la informacin de distintos indicios para construir modelos que capturen las propiedades esenciales de cada clase segn el tipo de contenido. Estos modelos se utilizarn despus en el Clasificador Automtico de Contenidos. La experiencia de Optenet en mltiples entornos de despliegue en operadores y clientes empresariales y residenciales, combinada con los resultados de mltiples proyectos de investigacin ha permitido experimentar con un amplio rango de tcnicas de Aprendizaje Automtico, que incluyen: Sistemas de clasificacin por reglas borrosas. Redes Neuronales mono y multicapa. Redes Bayesianas adaptativas. Algoritmos genticos.
El entrenamiento que se realiza permite crear modelos que se asocian a tipos de contenidos, as como a si esos contenidos representan alguna amenaza en forma de phising, cdigo malicioso, etc. De esta forma es posible identificar en el siguiente paso contenidos potencialmente perjudiciales al vuelo aunque no se tenga ninguna referencia previa de dicho elemento. Estos modelos son enviados al Clasificador Automtico de Contenidos, de tal forma que se separa la parte de aprendizaje de la propia de clasificacin para evitar sobrecargar los sistemas, con el beneficio que esto supone para el rendimiento global.
Optenet 9
W hite Paper
Optenet 10
W hite Paper
OPTENET S.A. Jos Echegaray n 8. Edificio 3, 1 Planta, mdulo 1. Parque empresarial Alvia - 28230 Las Rozas. Madrid (SPAIN) Tel.: +34 902 154 604 Fax: +34 913 575 433 Email: info@optenet.com Web: www.optenet.com Optenet is a global IT security company that provides high-performance security solutions to service providers and large enterprises worldwide. Optenets technology protects 75 million end users around the globe, including the customers of many of
Optenet 11
W hite Paper
the worlds leading ISPs and mobile operators, as well as employees of global enterprise organizations. The Company is a socially conscious organization, committed to eliminating illegal content on the Internet, protecting children and supporting government agencies and non-profit organizations that share the same goal. For more information, visit www.optenet.com Copyright 2009 Optenet
Optenet 12