Beruflich Dokumente
Kultur Dokumente
especficos.
Un total de noventa y cinco por ciento de la Web profunda es informacin pblicamente accesible
no sujetas a cuotas o suscripciones.
En segundo lugar, incluso en el contexto estricto de la web, la mayora de los usuarios son
conscientes
de slo el contenido que se les presenta a travs de motores de bsqueda como Excite, Google,
AltaVista,
o del Norte de luz, o los directorios de bsqueda como Yahoo !, About.com, o LookSmart. El
ochenta y cinco
por ciento de los usuarios de la Web utilizan los buscadores para encontrar la informacin
necesaria,
pero casi tan alto porcentaje citar la imposibilidad de encontrar informacin deseada como una de
sus mayores
frustraciones. [3] Segn una reciente encuesta de satisfaccin de los motores de bsqueda de
mercado NPD
Para este estudio, hemos evitado el trmino "web invisible" porque es inexacta. Lo nico
"invisible" sobre
las bases de datos de bsqueda es que no son indexables ni poder ser consultada por los motores
de bsqueda
convencionales. Utilizando la tecnologa BrightPlanet, son totalmente "visible" para aquellos que
necesitan para
acceder a ellos.
Buscando en Internet hoy en da se puede comparar con una red de arrastre a travs de la
superficie del ocano. Mientras que una gran cantidad puede ser atrapado en la red, todava hay
una gran cantidad de informacin que es profundo, y por lo tanto, se perdi. La razn es simple: la
mayora de la informacin de la Web est enterrado sitios muy abajo en generadas
dinmicamente, y los motores de bsqueda estndar nunca lo encuentran.
Los motores de bsqueda tradicionales crean sus ndices de spidering o arrastrndose pginas
Web de superficie. Para ser descubierta, la pgina debe ser esttico y vinculado a otras pginas.
Los motores de bsqueda tradicionales no pueden "ver" o recuperar contenido en la Web
profunda - no existen esas pginas hasta que se crean dinmicamente como resultado de una
bsqueda especfica. Debido tradicionales rastreadores de motores de bsqueda no pueden
sondear bajo la superficie, la Web profunda hasta ahora se ha ocultado.
La informacin pblica sobre la Web profunda es actualmente 400 a 550 veces ms grande que la
define comnmente World Wide Web.
La Web profunda contiene 7.500 terabytes de informacin en comparacin con diecinueve
terabytes de informacin en la Web superficial.
La Web profunda contiene cerca de 550 mil millones de documentos individuales en comparacin
con los mil millones de la Web superficial.
Actualmente existen ms de 200.000 sitios Web profundas.
Sesenta de los mayores sitios de profundidad en la Web contienen colectivamente alrededor de
750 terabytes de informacin - suficientes por s mismos para superar el tamao de la Web
superficial de cuarenta veces.
En promedio, los sitios Web profundas reciben el cincuenta por ciento mayor trfico mensual de
sitios de la superficie y estn ms vinculados a que los sitios de superficie; sin embargo, el
(mediana) Sitio Web profunda tpica no es bien conocida por el pblico a Internet de bsqueda.
La Web profunda es la categora de mayor crecimiento de la nueva informacin en la Internet.
Sitios Web profundos tienden a ser ms estrecho, con contenido ms profundo, que los sitios
superficiales convencionales.
El contenido total de calidad de la Web profunda es de 1.000 a 2.000 veces mayor que la de la
superficie Web.
Contenido Web profunda es altamente relevante para todas las necesidades de informacin, el
mercado y el dominio.
Ms de la mitad del contenido de la Web profunda reside en bases de datos sobre temas
especficos.
Un total de noventa y cinco por ciento de la Web profunda es informacin pblicamente accesible
- no sujetas a cuotas o suscripciones.
Para poner estos resultados en perspectiva, un estudio del Instituto de Investigacin NEC [1],
publicado en la revista Nature estima que los motores de bsqueda con el mayor nmero de
pginas web indexadas (como Google o Northern Light) cada ndice no ms de diecisis por ciento
de la superficie Web. Desde que se estn perdiendo la Web profunda cuando utilizan estos
motores de bsqueda, los buscadores de Internet son, por tanto, buscando slo el 0,03% - o uno
en 3000 - de las pginas disponibles para ellos hoy. Claramente, la bsqueda simultnea de
superficie mltiple y fuentes web profundas es necesario cuando se necesita la recuperacin de
informacin integral.
En primer lugar, aunque a veces se utiliza como sinnimo, la World Wide Web (protocolo HTTP) no
es sino un subconjunto de contenido de Internet. Otros protocolos de Internet, adems de la Web
incluyen FTP (File Transfer Protocol), correo electrnico, noticias, Telnet y Gopher (ms
prominente entre los protocolos pre-Web). Este documento no considera promover estos
protocolos no web. [2]
En segundo lugar, incluso en el contexto estricto de la web, la mayora de los usuarios son
conscientes de slo el contenido que se les presenta a travs de motores de bsqueda como
Excite, Google, AltaVista, o del Norte de luz, o los directorios de bsqueda como Yahoo !,
About.com, o LookSmart. El ochenta y cinco por ciento de los usuarios de la Web utilizan los
buscadores para encontrar la informacin necesaria, pero casi tan alto porcentaje citar la
imposibilidad de encontrar informacin deseada como una de sus mayores frustraciones. [3]
Segn una reciente encuesta de satisfaccin de los motores de bsqueda de mercado NPD Investigador, bsqueda tasas de fracaso han aumentado constantemente desde 1997. [4a]
Hasta Van Leeuwenhoek primero mir a una gota de agua en el microscopio a finales de 1600, la
gente no tena idea de que haba todo un mundo de "animlculos" ms all de su visin.
Exploracin de las profundidades marinas en los ltimos treinta aos ha aparecido cientos de
extraas criaturas que desafan las viejas ideas acerca de los orgenes de la vida y en los que puede
existir. Descubrimiento viene de ver el mundo de nuevas maneras y con nuevas herramientas. La
gnesis del estudio BrightPlanet era mirar de nuevo a la naturaleza de la informacin en la Web y
cmo se est identificado y organizado.
Los motores de bsqueda obtener sus listados de dos maneras: Los autores pueden presentar sus
propias pginas Web, o los documentos "araa" motores de bsqueda "rastrear" o siguiendo un
enlace de hipertexto a otro. Este ltimo devuelve el mayor de los listados. Rastreadores funcionan
mediante el registro de cada enlace de hipertexto en cada pgina que ndice de rastreo. Como las
ondas que se propagan a travs de un estanque, los rastreadores de motores de bsqueda son
capaces de extender sus ndices ms y ms de sus puntos de partida.
La web superficie contiene un estimado de 2.5 mil millones de documentos, creciendo a un ritmo
de 7,5 millones de documentos por da. [5a] Los motores de bsqueda ms grandes han hecho un
trabajo impresionante en la ampliacin de su alcance, cuando el crecimiento de la Web en s ha
superado la capacidad de rastreo de los motores de bsqueda [6a] [7a] Hoy en da, los tres
motores de bsqueda ms grandes en trminos de los documentos de la informacin interna, son
indexadas en Google con 1350 millones de documentos (500 millones de dlares disponibles para
la mayora de bsquedas), [8] Fast, con 575 millones de documentos [9] y Northern Light con 327
millones de documentos. [10]
La crtica legtima ha sido dirigida contra los motores de bsqueda para estos rastreos
indiscriminados, principalmente debido a que proporcionan demasiados resultados (busque
"Web", por ejemplo, con la luz del Norte, y obtendr cerca de 47 millones de visitas. Adems,
debido a los nuevos documentos se encuentran de enlaces dentro de otros documentos, los
documentos que se citan son ms propensos a ser indexado de nuevos documentos - hasta ocho
veces ms probabilidades [5b].
Y, por supuesto, una vez que un motor de bsqueda tiene que actualizar literalmente millones de
pginas web existentes, la frescura de sus resultados sufren. Numerosos comentaristas han
notado el aumento de la demora en la publicacin y registro de nueva informacin en los motores
de bsqueda convencionales [11 bis] Nuestras propias pruebas empricas de moneda buscador
sugieren que los anuncios son frecuentemente tres o cuatro meses -. O ms - fuera de fecha.
Por otra parte, volver a la premisa de cmo un motor de bsqueda obtiene sus anuncios en primer
lugar, si ajusta la popularidad o no. Es decir, sin una vinculacin de otro documento Web, jams
ser descubierto la pgina. Pero el principal fallo de los motores de bsqueda es que dependen de
los vnculos de la Web para identificar lo que est en la Web.
La Figura 1 es una representacin grfica de las limitaciones del motor de bsqueda tpica. El
contenido identificado es slo lo que aparece en la superficie y la cosecha es bastante
indiscriminada. Hay un enorme valor que reside ms all de este contenido superficie. La
informacin est ah, pero se esconde debajo de la superficie de la Web.
Las bases de datos que se pueden buscar: valor oculto en la Web
Cmo aparece la informacin y conseguir present en la Web? En los primeros das de la Web,
hubo relativamente pocos documentos y sitios. Fue una tarea manejable para publicar todos los
documentos como pginas estticas. Debido a que todas las pginas fueron persistentes y
constantemente disponible, podran ser rastreadas fcilmente por los motores de bsqueda
convencionales. En julio de 1994, el motor de bsqueda de Lycos sali a bolsa con un catlogo de
54.000 documentos. [12] Desde entonces, la tasa de crecimiento compuesto en los documentos
Web ha sido del orden de ms de 200% anual! [13 bis]
Los sitios que se requeran para administrar decenas a cientos de documentos podran hacerlo
fcilmente mediante la publicacin de pginas HTML fijos dentro de una estructura de directorios
esttica. Sin embargo, a partir de 1996 aproximadamente, tres fenmenos tuvieron lugar. En
primer lugar, la tecnologa de base de datos se introdujo a la Internet a travs de proveedores
como de Bluestone Zafiro / Web (Bluestone ya ha sido comprada por HP) y ms tarde Oracle. En
segundo lugar, la Web se comercializ inicialmente a travs de directorios y motores de bsqueda,
pero evolucion rpidamente para incluir el comercio electrnico. Y, en tercer lugar, los servidores
web fueron adaptados para permitir que la "dinmica" que sirve de pginas Web (por ejemplo, de
Microsoft ASP y las tecnologas Unix PHP).
Esta confluencia produjo una verdadera orientacin de base de datos para la Web, sobre todo
para los sitios ms grandes. Ahora se acepta la prctica de que los grandes productores de datos
como la Oficina del Censo de EE.UU., de Valores y de la Comisin de Valores y de Patentes y
Marcas, por no hablar de las nuevas clases enteras de empresas basadas en Internet, elija la Web
Se ha dicho que lo que no se puede ver, no se puede definir, y lo que no est definida, no se puede
entender. Tal ha sido el caso de la importancia de las bases de datos con el contenido de la
informacin de la Web. Y tal ha sido el caso de la falta de apreciacin de cmo el modelo ms
antiguo de arrastrarse pginas Web estticas - paradigma de hoy para los motores de bsqueda
convencionales - ya no se aplica al contenido de la informacin de Internet.
En 1994, el Dr. Jill Ellsworth primero acu la frase "Web invisible" para referirse al contenido de
la informacin que era "invisible" para los motores de bsqueda convencionales. [14] La
importancia potencial de las bases de datos de bsqueda tambin se reflej en el primer sitio de
bsqueda dedicado a ellos , el motor AT1 que se anunci con bombos y platillos a principios de
1997. [15] Sin embargo, PLS, el dueo del AT1, fue adquirida por AOL en 1998, y poco despus el
servicio AT1 fue abandonado.
Para este estudio, hemos evitado el trmino "web invisible" porque es inexacta. Lo nico
"invisible" sobre las bases de datos de bsqueda es que no son indexables ni poder ser consultada
por los motores de bsqueda convencionales. Utilizando la tecnologa BrightPlanet, son
totalmente "visible" para aquellos que necesitan para acceder a ellos.
La Figura 2 representa, de una manera no cientfica, los resultados mejorados que se pueden
obtener por la tecnologa BrightPlanet. Por primera identificacin donde las bases de datos de
bsqueda adecuados residen, una consulta dirigida a continuacin, se puede colocar a cada una de
estas fuentes de forma simultnea a la cosecha slo los resultados deseados - con una precisin
milimtrica.
embargo, incluimos esos cdigos en nuestra cuantificacin del contenido total (ver seccin
siguiente).
Por ltimo, las estimaciones para el tamao de la Web profunda incluyen ni las fuentes
especializadas motores de bsqueda - que pueden ser parcialmente "oculto" a los motores de
bsqueda tradicionales - ni el contenido de los principales motores de bsqueda en s. Esta ltima
categora es significativo. Simplemente la contabilidad de los tres motores de bsqueda ms
grandes y tamaos promedio de documentos web sugiere contenidos de motores de bsqueda
solo pueden igualar 25 terabytes o ms [17] o algo ms grandes que el tamao conocido de la
Web superficial.
La mayora de los motores de bsqueda estndar que reportan tamaos de documentos lo hagan
en esta misma base.
Al guardar documentos o pginas Web directamente desde un navegador, el nmero de bytes del
archivo que utiliza esta convencin.
Documento los informes de BrightPlanet tamaos en esta misma base.
Todos los tamaos de los documentos utilizados en las comparaciones utilizan cuentas de bytes
reales (1.024 bytes por kilobyte).
cdigo HTML exagera el tamao de las bases de datos de bsqueda, informacin estndar
"esttica" en la web de superficie se presenta de la misma manera.
Pginas web comparaciones HTML incluido proporcionan el denominador comn para comparar
fuentes web profundas y superficiales.
Identificacin de bsqueda del sitio Web profunda automatizada y calificacin tambin utilizan
una versin modificada de la tecnologa que emplea contenido propietario y mtodos de
evaluacin HTML.
En asociacin con Inktomi, NEC actualiz sus estimaciones de las pginas web a los mil millones de
documentos a principios de 2000. [21] Hemos adoptado esta estimacin del tamao del ms
reciente y almacenamiento total documento actualizado de toda la Web superficial basado en el
estudio de Nature 1999:
Los mensajes de correo electrnico se enviaron a los webmasters o contactos de la lista de todos
los sitios identificados, solicitando la verificacin del nmero de registros totales y tamaos de
almacenamiento (base sin comprimir); aproximadamente el 13% de los sitios mostrados en la
Tabla 2 proporciona la documentacin directa en respuesta a esta solicitud.
Recuento total de registros segn ha informado el propio sitio. Esto implic la inspeccin de las
pginas relacionadas en el sitio, incluyendo secciones de ayuda, preguntas frecuentes del sitio, etc.
Tamaos Documentados sitio presentados en congresos, que se estima por los dems, etc. Este
paso involucrado Web integral bsqueda para identificar las fuentes de referencia.
Registros diarios de lo dispuesto por la propia funcin de bsqueda del sitio. Algunas bsquedas
sitio proporcionan el recuento total de registros para todas las consultas presentadas. Para otros
que utilizan el operador NOT y permiten su uso independiente, un trmino de consulta se sabe
que no se produzca en el sitio como "NO ddfhrwxxct" fue emitida. Este enfoque devuelve un
recuento total rcord absoluto. A falta de estas dos opciones, una consulta amplia se emiti eso
sera capturar el contenido del sitio en general; a continuacin, este nmero se corrigi para un
determinado empricamente "factor de cobertura", generalmente en el rango de 1.2 a 1.4 [22].
Un sitio que no todas estas pruebas no se puede medir y fue eliminado de la lista de resultados.
Anlisis de profundas Sitios Web Estndar
Anlisis y caracterizacin de toda la Web profunda involucrados una serie de tareas concretas:
A continuacin se aplica un criterio de filtro a estos sitios para determinar si en realidad eran los
sitios de bsqueda. Este filtro patentado involucrado inspeccionar el contenido HTML de las
pginas, adems del anlisis de contenido de texto de la pgina. Con ello, el conjunto total de
candidatos Web profundas hasta 17.579 direcciones URL.
Inspeccin lado posterior de 700 sitios al azar de esta lista identifica otros criterios de filtro.
Noventa y cinco de ellos 700, o el 13,6%, no calific plenamente como sitios de bsqueda. Esta
correccin se ha aplicado a todo el conjunto candidato y los resultados presentados.
Algunos de los criterios desarrollados cuando luego se incorporaron los 700 sitios de pruebas de la
mano de nuevo en un test automatizado dentro de la tecnologa BrightPlanet para sitios de
bsqueda que califiquen con lo que creemos que es el 98% de precisin. Adems, los medios
automatizados para descubrir nuevos sitios de bsqueda se ha incorporado en nuestra versin
interna de la tecnologa basada en lo que hemos aprendido.
El sitio de media profunda Web tiene un (HTML incluido base) Tamao de la base de datos
expresados en la Web de 74.4 MB (mediana de 169 KB). Recuentos de registros reales y las
estimaciones de tamao se pueden derivar de los sitios Web a uno de cada siete de profundidad.
En promedio, los sitios Web profundas reciben alrededor de la mitad de nuevo tanto trfico
mensual como sitios de la superficie (123 000 pginas vistas por mes frente a 85.000). El sitio Web
de profundidad mediana recibe algo ms de dos veces el trfico de un sitio superficie aleatoria
Web (843.000 pginas vistas mensuales frente a 365.000). Sitios Web profundas en promedio
estn ms vinculados a que los sitios de superficie en casi un factor de dos (6.200 vs. 3.700 enlaces
enlaces), aunque el sitio Web de profundidad mediana es menos (66 vs. 83 enlaces). Esto sugiere
que los sitios Web conocidos profundas son muy populares, pero que el sitio Web tpica de
profundidad no es bien conocida por el pblico de bsqueda de Internet.
Una de las ms resultados contra-intuitiva es que el 97,4% de los sitios Web de profundidad estn
disponibles al pblico sin restricciones; Otros 1,6% se mezclan (resultados limitados disponibles al
pblico con mayores resultados que requieren de suscripcin y / o honorarios pagados); slo el
1,1% de los resultados son totalmente suscripcin o cuota limitada. Este resultado es contrario a la
intuicin, debido a la prominencia visible de sitios de los abonados limitada como Dialog, LexisNexis, Wall Street Journal Interactive, etc. (Que de los condes de documentos de los propios o de
otras fuentes publicadas sitios.)
Sin embargo, una vez que el conjunto ms amplio de sitios Web profundas se mira ms all de las
grandes, visibles, basados en honorarios, disponibilidad pblica domina.
Aproximadamente dos tercios de estos sitios son las pblicas, que representan alrededor del 90%
de los contenidos disponibles en este grupo de sesenta aos. El tamao absolutamente masiva de
los sitios ms grandes se muestra tambin ilustra el poder de distribucin funcin universal de los
sitios dentro de la Web profunda, no muy diferente al sitio Web de popularidad [40] o sitios Web
de superficie. [41] Una de las consecuencias de este tipo de distribucin es que no hay un lmite
superior de tamao real para que los sitios pueden crecer.
Nuestra inspeccin de los sitios Web de profundidad 700 muestras aleatorias identific otros tres
que no estaban en la piscina inicialmente identificado de 100 sitios potencialmente grandes. Si esa
relacin fuera titular en toda la estimada 200.000 sitios Web profundas (vase la siguiente tabla),
tal vez slo un porcentaje muy pequeo de sitios se muestra en esta tabla demostrara ser el ms
grande. Sin embargo, ya que muchos sitios grandes se conocen de manera anecdtica, creemos
que nuestro perfil, mientras que muy impreciso, puede representar el 10% y el 20% de los sitios
web ms grandes profunda reales en la existencia.
Esta incapacidad para identificar todos los mayores sitios web profunda hoy no debera ser
sorprendente. La conciencia de la Web profunda es un fenmeno nuevo y ha recibido poca
atencin. Solicitamos nominaciones para los grandes sitios adicionales en nuestro sitio
CompletePlanet integral y documentaremos nuevos casos que se presenten.