Sie sind auf Seite 1von 19

Ms de la mitad del contenido de la Web profunda reside en bases de datos sobre temas

especficos.
Un total de noventa y cinco por ciento de la Web profunda es informacin pblicamente accesible
no sujetas a cuotas o suscripciones.

Para poner estos resultados en perspectiva, un estudio del Instituto de Investigacin


NEC,publicado en la
revista Nature estima que los motores de bsqueda con el mayor nmero de pginas
web indexadas (como Google o Northern Light) cada ndice no ms de diecisis por ciento de la
superficie Web.
Desde que se estn perdiendo la Web profunda cuando utilizan estos motores de bsqueda, los
buscadores de Internet
son, por tanto, buscando slo el 0,03% - o uno en 3000 - de las pginas disponibles para ellos hoy.
Claramente,
la bsqueda simultnea de superficie mltiple y fuentes web profundas es necesario cuando se
necesita la recuperacin
de informacin integral.

En segundo lugar, incluso en el contexto estricto de la web, la mayora de los usuarios son
conscientes
de slo el contenido que se les presenta a travs de motores de bsqueda como Excite, Google,
AltaVista,
o del Norte de luz, o los directorios de bsqueda como Yahoo !, About.com, o LookSmart. El
ochenta y cinco
por ciento de los usuarios de la Web utilizan los buscadores para encontrar la informacin
necesaria,
pero casi tan alto porcentaje citar la imposibilidad de encontrar informacin deseada como una de
sus mayores
frustraciones. [3] Segn una reciente encuesta de satisfaccin de los motores de bsqueda de
mercado NPD

-Investigador, bsqueda tasas de fracaso han aumentado constantemente desde 1997.

Para este estudio, hemos evitado el trmino "web invisible" porque es inexacta. Lo nico
"invisible" sobre
las bases de datos de bsqueda es que no son indexables ni poder ser consultada por los motores
de bsqueda
convencionales. Utilizando la tecnologa BrightPlanet, son totalmente "visible" para aquellos que
necesitan para
acceder a ellos.

Buscando en Internet hoy en da se puede comparar con una red de arrastre a travs de la
superficie del ocano. Mientras que una gran cantidad puede ser atrapado en la red, todava hay
una gran cantidad de informacin que es profundo, y por lo tanto, se perdi. La razn es simple: la
mayora de la informacin de la Web est enterrado sitios muy abajo en generadas
dinmicamente, y los motores de bsqueda estndar nunca lo encuentran.

Los motores de bsqueda tradicionales crean sus ndices de spidering o arrastrndose pginas
Web de superficie. Para ser descubierta, la pgina debe ser esttico y vinculado a otras pginas.
Los motores de bsqueda tradicionales no pueden "ver" o recuperar contenido en la Web
profunda - no existen esas pginas hasta que se crean dinmicamente como resultado de una
bsqueda especfica. Debido tradicionales rastreadores de motores de bsqueda no pueden
sondear bajo la superficie, la Web profunda hasta ahora se ha ocultado.

La Web profunda es cualitativamente diferente de la Web superficial. Fuentes web profundos


almacenan su contenido en las bases de datos de bsqueda, que slo producen resultados de
manera dinmica en respuesta a una solicitud directa. Pero una consulta directa es un "uno a la
vez" manera laboriosa para buscar. La tecnologa de bsqueda de BrightPlanet automatiza el
proceso de hacer decenas de consultas directas al mismo tiempo usando la tecnologa de
mltiples hilos y por lo tanto es la nica tecnologa de bsqueda, hasta el momento, que es capaz
de identificar, recuperar, clasificacin, clasificar y organizar tanto "profunda" y "superficial
"contenido.

Si el producto ms codiciado de la era de la informacin es de hecho la informacin, entonces el


valor del contenido de la Web profunda es inconmensurable. Con esto en mente, BrightPlanet ha
cuantificado el tamao y la relevancia de la Web profunda en un estudio basado en datos
recogidos entre el 13 y 30 de marzo de 2000. Nuestros hallazgos clave incluyen:

La informacin pblica sobre la Web profunda es actualmente 400 a 550 veces ms grande que la
define comnmente World Wide Web.
La Web profunda contiene 7.500 terabytes de informacin en comparacin con diecinueve
terabytes de informacin en la Web superficial.
La Web profunda contiene cerca de 550 mil millones de documentos individuales en comparacin
con los mil millones de la Web superficial.
Actualmente existen ms de 200.000 sitios Web profundas.
Sesenta de los mayores sitios de profundidad en la Web contienen colectivamente alrededor de
750 terabytes de informacin - suficientes por s mismos para superar el tamao de la Web
superficial de cuarenta veces.
En promedio, los sitios Web profundas reciben el cincuenta por ciento mayor trfico mensual de
sitios de la superficie y estn ms vinculados a que los sitios de superficie; sin embargo, el
(mediana) Sitio Web profunda tpica no es bien conocida por el pblico a Internet de bsqueda.
La Web profunda es la categora de mayor crecimiento de la nueva informacin en la Internet.
Sitios Web profundos tienden a ser ms estrecho, con contenido ms profundo, que los sitios
superficiales convencionales.
El contenido total de calidad de la Web profunda es de 1.000 a 2.000 veces mayor que la de la
superficie Web.
Contenido Web profunda es altamente relevante para todas las necesidades de informacin, el
mercado y el dominio.
Ms de la mitad del contenido de la Web profunda reside en bases de datos sobre temas
especficos.
Un total de noventa y cinco por ciento de la Web profunda es informacin pblicamente accesible
- no sujetas a cuotas o suscripciones.
Para poner estos resultados en perspectiva, un estudio del Instituto de Investigacin NEC [1],
publicado en la revista Nature estima que los motores de bsqueda con el mayor nmero de
pginas web indexadas (como Google o Northern Light) cada ndice no ms de diecisis por ciento
de la superficie Web. Desde que se estn perdiendo la Web profunda cuando utilizan estos

motores de bsqueda, los buscadores de Internet son, por tanto, buscando slo el 0,03% - o uno
en 3000 - de las pginas disponibles para ellos hoy. Claramente, la bsqueda simultnea de
superficie mltiple y fuentes web profundas es necesario cuando se necesita la recuperacin de
informacin integral.

The Deep Web


El contenido de Internet es mucho ms diversa y el volumen sin duda, mucho ms grande que se
entiende comnmente.

En primer lugar, aunque a veces se utiliza como sinnimo, la World Wide Web (protocolo HTTP) no
es sino un subconjunto de contenido de Internet. Otros protocolos de Internet, adems de la Web
incluyen FTP (File Transfer Protocol), correo electrnico, noticias, Telnet y Gopher (ms
prominente entre los protocolos pre-Web). Este documento no considera promover estos
protocolos no web. [2]

En segundo lugar, incluso en el contexto estricto de la web, la mayora de los usuarios son
conscientes de slo el contenido que se les presenta a travs de motores de bsqueda como
Excite, Google, AltaVista, o del Norte de luz, o los directorios de bsqueda como Yahoo !,
About.com, o LookSmart. El ochenta y cinco por ciento de los usuarios de la Web utilizan los
buscadores para encontrar la informacin necesaria, pero casi tan alto porcentaje citar la
imposibilidad de encontrar informacin deseada como una de sus mayores frustraciones. [3]
Segn una reciente encuesta de satisfaccin de los motores de bsqueda de mercado NPD Investigador, bsqueda tasas de fracaso han aumentado constantemente desde 1997. [4a]

La importancia de reunir en la web y el papel central e incuestionable de los motores de bsqueda


de informacin - adems de las frustraciones expresadas por los usuarios sobre la adecuacin de
estos motores - hacen un foco evidente de investigacin.

Hasta Van Leeuwenhoek primero mir a una gota de agua en el microscopio a finales de 1600, la
gente no tena idea de que haba todo un mundo de "animlculos" ms all de su visin.
Exploracin de las profundidades marinas en los ltimos treinta aos ha aparecido cientos de
extraas criaturas que desafan las viejas ideas acerca de los orgenes de la vida y en los que puede
existir. Descubrimiento viene de ver el mundo de nuevas maneras y con nuevas herramientas. La
gnesis del estudio BrightPlanet era mirar de nuevo a la naturaleza de la informacin en la Web y
cmo se est identificado y organizado.

Cmo funcionan los buscadores

Los motores de bsqueda obtener sus listados de dos maneras: Los autores pueden presentar sus
propias pginas Web, o los documentos "araa" motores de bsqueda "rastrear" o siguiendo un
enlace de hipertexto a otro. Este ltimo devuelve el mayor de los listados. Rastreadores funcionan
mediante el registro de cada enlace de hipertexto en cada pgina que ndice de rastreo. Como las
ondas que se propagan a travs de un estanque, los rastreadores de motores de bsqueda son
capaces de extender sus ndices ms y ms de sus puntos de partida.

La web superficie contiene un estimado de 2.5 mil millones de documentos, creciendo a un ritmo
de 7,5 millones de documentos por da. [5a] Los motores de bsqueda ms grandes han hecho un
trabajo impresionante en la ampliacin de su alcance, cuando el crecimiento de la Web en s ha
superado la capacidad de rastreo de los motores de bsqueda [6a] [7a] Hoy en da, los tres
motores de bsqueda ms grandes en trminos de los documentos de la informacin interna, son
indexadas en Google con 1350 millones de documentos (500 millones de dlares disponibles para
la mayora de bsquedas), [8] Fast, con 575 millones de documentos [9] y Northern Light con 327
millones de documentos. [10]

La crtica legtima ha sido dirigida contra los motores de bsqueda para estos rastreos
indiscriminados, principalmente debido a que proporcionan demasiados resultados (busque
"Web", por ejemplo, con la luz del Norte, y obtendr cerca de 47 millones de visitas. Adems,
debido a los nuevos documentos se encuentran de enlaces dentro de otros documentos, los
documentos que se citan son ms propensos a ser indexado de nuevos documentos - hasta ocho
veces ms probabilidades [5b].

Para superar estas limitaciones, la ms reciente generacin de motores de bsqueda


(especialmente Google) han reemplazado el enfoque enlace siguiente azar con el rastreo y la
indexacin dirigida basada en la "popularidad" de las pginas. En este enfoque, los documentos
con mayor frecuencia referencias cruzadas que se da prioridad a otros documentos, tanto para el
rastreo y en la presentacin de los resultados. Este enfoque ofrece resultados superiores cuando
se emiten consultas simples, pero exacerba la tendencia a pasar por alto los documentos con
pocos vnculos. [5c]

Y, por supuesto, una vez que un motor de bsqueda tiene que actualizar literalmente millones de
pginas web existentes, la frescura de sus resultados sufren. Numerosos comentaristas han
notado el aumento de la demora en la publicacin y registro de nueva informacin en los motores

de bsqueda convencionales [11 bis] Nuestras propias pruebas empricas de moneda buscador
sugieren que los anuncios son frecuentemente tres o cuatro meses -. O ms - fuera de fecha.

Por otra parte, volver a la premisa de cmo un motor de bsqueda obtiene sus anuncios en primer
lugar, si ajusta la popularidad o no. Es decir, sin una vinculacin de otro documento Web, jams
ser descubierto la pgina. Pero el principal fallo de los motores de bsqueda es que dependen de
los vnculos de la Web para identificar lo que est en la Web.

La Figura 1 es una representacin grfica de las limitaciones del motor de bsqueda tpica. El
contenido identificado es slo lo que aparece en la superficie y la cosecha es bastante
indiscriminada. Hay un enorme valor que reside ms all de este contenido superficie. La
informacin est ah, pero se esconde debajo de la superficie de la Web.
Las bases de datos que se pueden buscar: valor oculto en la Web
Cmo aparece la informacin y conseguir present en la Web? En los primeros das de la Web,
hubo relativamente pocos documentos y sitios. Fue una tarea manejable para publicar todos los
documentos como pginas estticas. Debido a que todas las pginas fueron persistentes y
constantemente disponible, podran ser rastreadas fcilmente por los motores de bsqueda
convencionales. En julio de 1994, el motor de bsqueda de Lycos sali a bolsa con un catlogo de
54.000 documentos. [12] Desde entonces, la tasa de crecimiento compuesto en los documentos
Web ha sido del orden de ms de 200% anual! [13 bis]

Los sitios que se requeran para administrar decenas a cientos de documentos podran hacerlo
fcilmente mediante la publicacin de pginas HTML fijos dentro de una estructura de directorios
esttica. Sin embargo, a partir de 1996 aproximadamente, tres fenmenos tuvieron lugar. En
primer lugar, la tecnologa de base de datos se introdujo a la Internet a travs de proveedores
como de Bluestone Zafiro / Web (Bluestone ya ha sido comprada por HP) y ms tarde Oracle. En
segundo lugar, la Web se comercializ inicialmente a travs de directorios y motores de bsqueda,
pero evolucion rpidamente para incluir el comercio electrnico. Y, en tercer lugar, los servidores
web fueron adaptados para permitir que la "dinmica" que sirve de pginas Web (por ejemplo, de
Microsoft ASP y las tecnologas Unix PHP).

Esta confluencia produjo una verdadera orientacin de base de datos para la Web, sobre todo
para los sitios ms grandes. Ahora se acepta la prctica de que los grandes productores de datos
como la Oficina del Censo de EE.UU., de Valores y de la Comisin de Valores y de Patentes y
Marcas, por no hablar de las nuevas clases enteras de empresas basadas en Internet, elija la Web

como su medio preferido para el comercio y la informacin transferencia. Lo que no ha sido


ampliamente apreciado, sin embargo, es que los medios por los cuales estas entidades
proporcionan su informacin ya no es a travs de las pginas estticas, sino a travs de diseos
con bases de datos.

Se ha dicho que lo que no se puede ver, no se puede definir, y lo que no est definida, no se puede
entender. Tal ha sido el caso de la importancia de las bases de datos con el contenido de la
informacin de la Web. Y tal ha sido el caso de la falta de apreciacin de cmo el modelo ms
antiguo de arrastrarse pginas Web estticas - paradigma de hoy para los motores de bsqueda
convencionales - ya no se aplica al contenido de la informacin de Internet.

En 1994, el Dr. Jill Ellsworth primero acu la frase "Web invisible" para referirse al contenido de
la informacin que era "invisible" para los motores de bsqueda convencionales. [14] La
importancia potencial de las bases de datos de bsqueda tambin se reflej en el primer sitio de
bsqueda dedicado a ellos , el motor AT1 que se anunci con bombos y platillos a principios de
1997. [15] Sin embargo, PLS, el dueo del AT1, fue adquirida por AOL en 1998, y poco despus el
servicio AT1 fue abandonado.

Para este estudio, hemos evitado el trmino "web invisible" porque es inexacta. Lo nico
"invisible" sobre las bases de datos de bsqueda es que no son indexables ni poder ser consultada
por los motores de bsqueda convencionales. Utilizando la tecnologa BrightPlanet, son
totalmente "visible" para aquellos que necesitan para acceder a ellos.

La Figura 2 representa, de una manera no cientfica, los resultados mejorados que se pueden
obtener por la tecnologa BrightPlanet. Por primera identificacin donde las bases de datos de
bsqueda adecuados residen, una consulta dirigida a continuacin, se puede colocar a cada una de
estas fuentes de forma simultnea a la cosecha slo los resultados deseados - con una precisin
milimtrica.

Objetivos del estudio


Para realizar el estudio discutido, hemos utilizado nuestra tecnologa en un proceso iterativo.
Nuestro objetivo era:

Cuantificar el tamao y la importancia de la Web profunda.


Caracterizar los solicitantes de contenido, calidad y relevancia a la informacin de la Web
profunda.
Descubra medio automatizado para la identificacin de los sitios de bsqueda profunda Web y
dirigir las consultas a ellos.
Comience el proceso de educar al pblico a Internet en busca de este almacn de informacin
antes ocultos y valioso.
Como cualquier fenmeno recin descubierto, la Web profunda es simplemente ser definido y
comprendido. Todos los das, como hemos continuado con nuestras investigaciones, nos ha
sorprendido la enorme escala y rico contenido de la Web profunda. Este white paper concluye con
las solicitudes de conocimientos e informacin adicionales que nos permitirn seguir para
comprender mejor la Web profunda.

Lo que no ha sido analizada o incluido en los resultados


Este artculo no investiga fuentes no web de contenidos de Internet. Este estudio tambin ignora
deliberadamente informacin intranet privada escondido detrs de los cortafuegos. Muchas
grandes empresas tienen depsitos de documentos internos que excedan terabytes de
informacin. Dado que el acceso a esta informacin est restringido, su escala no puede ser
definida ni puede ser caracterizado. Asimismo, si bien en promedio el 44% de los "contenidos" de
un documento Web tpica residir en HTML y otra informacin codificada (por ejemplo, XML o
Javascript), [16] este estudio no evala informacin especfica dentro de ese cdigo. Nosotros, sin

embargo, incluimos esos cdigos en nuestra cuantificacin del contenido total (ver seccin
siguiente).

Por ltimo, las estimaciones para el tamao de la Web profunda incluyen ni las fuentes
especializadas motores de bsqueda - que pueden ser parcialmente "oculto" a los motores de
bsqueda tradicionales - ni el contenido de los principales motores de bsqueda en s. Esta ltima
categora es significativo. Simplemente la contabilidad de los tres motores de bsqueda ms
grandes y tamaos promedio de documentos web sugiere contenidos de motores de bsqueda
solo pueden igualar 25 terabytes o ms [17] o algo ms grandes que el tamao conocido de la
Web superficial.

Un comn denominador para Comparaciones del tamao


Todas las figuras de tamao profunda en la Web y la superficie en la Web utilizan tanto el nmero
total de documentos (o registros de base de datos en el caso de la Web profunda) y total de
almacenamiento de datos. El almacenamiento de datos se basa en "HTML incluido" estimaciones
del tamao de Web-documento. [13b] Esta base incluye todo el HTML y la informacin del cdigo
relacionado adems de contenido de texto estndar, exclusiva de las imgenes incrustadas y la
informacin estndar HTTP "cabecera". El uso de esta convencin estndar permite
comparaciones de tamao manzanas con las manzanas entre la superficie y profundo Web. La
convencin HTML-incluido fue elegido porque:

La mayora de los motores de bsqueda estndar que reportan tamaos de documentos lo hagan
en esta misma base.
Al guardar documentos o pginas Web directamente desde un navegador, el nmero de bytes del
archivo que utiliza esta convencin.
Documento los informes de BrightPlanet tamaos en esta misma base.
Todos los tamaos de los documentos utilizados en las comparaciones utilizan cuentas de bytes
reales (1.024 bytes por kilobyte).

En la actualidad, el almacenamiento de datos de documentos de profundidad en la Web ser,


pues, considerablemente menor que las cifras reportadas. [18] Los registros reales recuperados de
una base de datos se envan a una plantilla de pgina web dinmica que puede incluir elementos
como encabezados y pies de pgina estndar, anuncios , etc. Si bien la inclusin de este contenido

cdigo HTML exagera el tamao de las bases de datos de bsqueda, informacin estndar
"esttica" en la web de superficie se presenta de la misma manera.

Pginas web comparaciones HTML incluido proporcionan el denominador comn para comparar
fuentes web profundas y superficiales.

Uso y Papel de BrightPlanet Tecnologa


Todas las recuperaciones, agregaciones, y caracterizaciones de documentos en este estudio
utilizaron la tecnologa de BrightPlanet. La tecnologa utiliza mltiples hilos para las consultas de
origen simultneas y luego documentar descargas. Completamente indexa todos los documentos
recuperados (incluyendo el contenido HTML). Despus de la descarga e indexados, los
documentos se anot para la relevancia utilizando cuatro diferentes algoritmos de puntuacin, un
lugar destacado de modelado espacio vectorial (VSM) y estndar y modificado de recuperacin de
informacin booleano extendido (EBIR). [19]

Identificacin de bsqueda del sitio Web profunda automatizada y calificacin tambin utilizan
una versin modificada de la tecnologa que emplea contenido propietario y mtodos de
evaluacin HTML.

Baseline Surface Web


Los estudios ms autorizados hasta la fecha del tamao de la superficie Web han venido de
Lawrence y Giles, del Instituto de Investigacin NEC en Princeton, Nueva Jersey. Sus anlisis se
basan en lo que ellos llaman la Web "indexable pblicamente". Su primer gran estudio, publicado
en la revista Science en 1998, utilizando el anlisis de diciembre de 1997, estim que el tamao
total de la Web superficial como 320 millones de documentos. [4b] Una actualizacin de su
estudio que emplea una metodologa diferente fue publicado en la revista Nature en 1999 ,
utilizando el anlisis a partir de febrero de 1999. [5d] Este estudio document 800 millones de
documentos dentro de la Web indexable pblicamente, con un tamao de pgina media de 18,7
kilobytes exclusivos de imgenes y cabeceras HTTP. [20]

En asociacin con Inktomi, NEC actualiz sus estimaciones de las pginas web a los mil millones de
documentos a principios de 2000. [21] Hemos adoptado esta estimacin del tamao del ms
reciente y almacenamiento total documento actualizado de toda la Web superficial basado en el
estudio de Nature 1999:

Anlisis de mayores sitios Web profundas


Ms de 100 sitios Web profundos individuales se caracterizaron para producir la lista de sesenta
sitios reportados en la siguiente seccin.

Caracterizacin del sitio requiere tres pasos:

La estimacin del nmero total de registros o documentos contenidos en ese sitio.


Recuperacin de una muestra aleatoria de un mnimo de diez resultados de cada sitio y luego
calcular el tamao del documento HTML media-incluido expresado en bytes. Esta cifra,
multiplicado por el nmero total de registros del sitio, produce la estimacin total sitio tamao en
bytes.
Indexacin y caracterizar la forma de bsqueda de la pgina en el sitio para determinar la
cobertura de tema.
Estimacin de recuento total de registros de cada sitio con frecuencia no era sencillo. Una serie de
pruebas se aplic a cada sitio y se enumeran en orden de importancia y confianza descendiendo al
derivar el recuento total de documento:

Los mensajes de correo electrnico se enviaron a los webmasters o contactos de la lista de todos
los sitios identificados, solicitando la verificacin del nmero de registros totales y tamaos de
almacenamiento (base sin comprimir); aproximadamente el 13% de los sitios mostrados en la
Tabla 2 proporciona la documentacin directa en respuesta a esta solicitud.
Recuento total de registros segn ha informado el propio sitio. Esto implic la inspeccin de las
pginas relacionadas en el sitio, incluyendo secciones de ayuda, preguntas frecuentes del sitio, etc.
Tamaos Documentados sitio presentados en congresos, que se estima por los dems, etc. Este
paso involucrado Web integral bsqueda para identificar las fuentes de referencia.
Registros diarios de lo dispuesto por la propia funcin de bsqueda del sitio. Algunas bsquedas
sitio proporcionan el recuento total de registros para todas las consultas presentadas. Para otros
que utilizan el operador NOT y permiten su uso independiente, un trmino de consulta se sabe
que no se produzca en el sitio como "NO ddfhrwxxct" fue emitida. Este enfoque devuelve un
recuento total rcord absoluto. A falta de estas dos opciones, una consulta amplia se emiti eso
sera capturar el contenido del sitio en general; a continuacin, este nmero se corrigi para un
determinado empricamente "factor de cobertura", generalmente en el rango de 1.2 a 1.4 [22].

Un sitio que no todas estas pruebas no se puede medir y fue eliminado de la lista de resultados.
Anlisis de profundas Sitios Web Estndar
Anlisis y caracterizacin de toda la Web profunda involucrados una serie de tareas concretas:

La calificacin como un sitio Web de profundidad.


Estimacin del nmero total de los sitios Web de profundidad.
El anlisis del tamao.
Contenido y anlisis de la cobertura.
Pginas vistas del sitio y enlaces de referencia.
Anlisis del crecimiento.
Anlisis de calidad.
Los mtodos aplicados a estas tareas se tratan por separado ms adelante.

Web profunda Calificacin del Sitio


Un grupo inicial de 53.220 posibles direcciones URL candidatos profunda Web se identific a partir
compilaciones existentes en siete lugares principales y tres menores. [23] Despus de la cosecha,
este grupo se tradujo en 45.732 anuncios nicos reales despus de las pruebas para los
duplicados. Inspeccin superficial indic que en algunos casos la pgina de la asignatura era un
eslabn retirado de la bsqueda real. Se elaboraron criterios para predecir cundo podra ser el
caso. La tecnologa BrightPlanet se utiliza para recuperar las pginas completas e ndice
plenamente tanto las fuentes nicas iniciales y las fuentes retirados de un enlace. Un total de
43.348 URLs resultantes fueron realmente recuperada.

A continuacin se aplica un criterio de filtro a estos sitios para determinar si en realidad eran los
sitios de bsqueda. Este filtro patentado involucrado inspeccionar el contenido HTML de las
pginas, adems del anlisis de contenido de texto de la pgina. Con ello, el conjunto total de
candidatos Web profundas hasta 17.579 direcciones URL.

Inspeccin lado posterior de 700 sitios al azar de esta lista identifica otros criterios de filtro.
Noventa y cinco de ellos 700, o el 13,6%, no calific plenamente como sitios de bsqueda. Esta
correccin se ha aplicado a todo el conjunto candidato y los resultados presentados.

Algunos de los criterios desarrollados cuando luego se incorporaron los 700 sitios de pruebas de la
mano de nuevo en un test automatizado dentro de la tecnologa BrightPlanet para sitios de
bsqueda que califiquen con lo que creemos que es el 98% de precisin. Adems, los medios
automatizados para descubrir nuevos sitios de bsqueda se ha incorporado en nuestra versin
interna de la tecnologa basada en lo que hemos aprendido.

Estimacin del total Nmero de Pginas


La tcnica bsica para la estimacin de los sitios web profunda totales utiliza el anlisis de
"solapamiento", la tcnica aceptada elegido para dos de la superficie ms prominente analiza
Tamao Web. [6b] [24] Se utiliz el anlisis de superposicin basado en la bsqueda
la cobertura del motor y de los sitios Web de compilacin profundas indicados anteriormente (ver
resultados en la Tabla 3 a la Tabla 5).

Caractersticas Generales Web profundas


Contenido Web Profunda tiene algunas diferencias significativas de contenido web superficie.
Documentos Web profundas (13.7 KB significan tamao; 19,7 KB de tamao mediano) son en
promedio 27% ms pequeo que los documentos Web de superficie. Aunque los sitios Web
profundos individuales tienen una tremenda diversidad en su nmero de registros, que van desde
decenas o cientos a cientos de millones (una media de 5.430.000 registros por el lugar, pero con
una media de slo 4.950 registros), estos sitios son, en promedio, mucho, mucho ms grande que
sitios de la superficie. El resto de este trabajo servir para amplificar estos hallazgos.

El sitio de media profunda Web tiene un (HTML incluido base) Tamao de la base de datos
expresados en la Web de 74.4 MB (mediana de 169 KB). Recuentos de registros reales y las
estimaciones de tamao se pueden derivar de los sitios Web a uno de cada siete de profundidad.

En promedio, los sitios Web profundas reciben alrededor de la mitad de nuevo tanto trfico
mensual como sitios de la superficie (123 000 pginas vistas por mes frente a 85.000). El sitio Web
de profundidad mediana recibe algo ms de dos veces el trfico de un sitio superficie aleatoria
Web (843.000 pginas vistas mensuales frente a 365.000). Sitios Web profundas en promedio
estn ms vinculados a que los sitios de superficie en casi un factor de dos (6.200 vs. 3.700 enlaces
enlaces), aunque el sitio Web de profundidad mediana es menos (66 vs. 83 enlaces). Esto sugiere
que los sitios Web conocidos profundas son muy populares, pero que el sitio Web tpica de
profundidad no es bien conocida por el pblico de bsqueda de Internet.

Una de las ms resultados contra-intuitiva es que el 97,4% de los sitios Web de profundidad estn
disponibles al pblico sin restricciones; Otros 1,6% se mezclan (resultados limitados disponibles al
pblico con mayores resultados que requieren de suscripcin y / o honorarios pagados); slo el
1,1% de los resultados son totalmente suscripcin o cuota limitada. Este resultado es contrario a la
intuicin, debido a la prominencia visible de sitios de los abonados limitada como Dialog, LexisNexis, Wall Street Journal Interactive, etc. (Que de los condes de documentos de los propios o de
otras fuentes publicadas sitios.)

Sin embargo, una vez que el conjunto ms amplio de sitios Web profundas se mira ms all de las
grandes, visibles, basados en honorarios, disponibilidad pblica domina.

60 pases Deep ya superan el Internet superficial por 40 Tiempos


Tabla 2 indica que el sesenta conocido, mayores sitios Web profundas contienen datos de
alrededor de 750 terabytes (base HTML incluido) o aproximadamente cuarenta veces el tamao
de la Web superficial conocida. Estos sitios aparecen en una amplia gama de dominios de la
ciencia a la ley con las imgenes y el comercio. Estimamos que el nmero total de registros o
documentos dentro de este grupo a ser aproximadamente ochenta y cinco mil millones.

Aproximadamente dos tercios de estos sitios son las pblicas, que representan alrededor del 90%
de los contenidos disponibles en este grupo de sesenta aos. El tamao absolutamente masiva de
los sitios ms grandes se muestra tambin ilustra el poder de distribucin funcin universal de los
sitios dentro de la Web profunda, no muy diferente al sitio Web de popularidad [40] o sitios Web
de superficie. [41] Una de las consecuencias de este tipo de distribucin es que no hay un lmite
superior de tamao real para que los sitios pueden crecer.

Tabla 2. Sesenta mayores sitios Web profundas


Nombre Tipo Tamao Web URL (GB)
National Climatic Data Center (NOAA)
http://www.ncdc.noaa.gov/ol/satellite/satelliteresources.html Pblica 366000
NASA EOSDIS Pblica http://harp.gsfc.nasa.gov/~imswww/pub/imswelcome/plain.html 219600
Oceanogrfico Nacional (combinado con Geophysical) Data Center (NOAA) pblico / Fee
http://www.nodc.noaa.gov/, http://www.ngdc.noaa.gov/ 32940
Alexa Pblica (parcial) http://www.alexa.com/ 15860
Derecho a Saber de la red (RTK Net) http://www.rtk.net/ Pblica 14640
MP3.com Pblica http://www.mp3.com/ 4300
Terraserver pblico / Fee http://terraserver.microsoft.com/ 4270
HEASARC (Astrofsica de Altas Energas Ciencia Archive Research Center)
http://heasarc.gsfc.nasa.gov/W3Browse/ Pblica 2562
US PTO - Marcas y patentes Pblica http://www.uspto.gov/tmdb/, http://www.uspto.gov/patft/
2440
Informedia (Carnegie Mellon Univ.) Pblico (todava no) http://www.informedia.cs.cmu.edu/ 1830

Biblioteca de Alejandra digital Pblica http://www.alexandria.ucsb.edu/adl.html 1220


JSTOR Proyecto Limited http://www.jstor.org/ 1220
10K Asistente de bsqueda Pblica http://www.tenkwizard.com/ 769
Proyecto de la Universidad de Berkeley Biblioteca Pblica Digital http://elib.cs.berkeley.edu/ 766
SEC Edgar Pblica http://www.sec.gov/edgarhp.htm 610
Censo de Estados Unidos Pblica http://factfinder.census.gov 610
Base de datos del NCI CancerNet Pblica http://cancernet.nci.nih.gov/ 488
Http://www.amazon.com/ Amazon.com Pblica 461
Centro de Patentes de IBM Pblico / Privado http://www.patents.ibm.com/boolquery 345
NASA Imagen Pblica de Intercambio http://nix.nasa.gov/ 337
InfoUSA.com Pblico / Privado http://www.abii.com/ 195
Betterwhois (muchos similares) Pblico http://betterwhois.com/ 152
GPO Acceso Pblico http://www.access.gpo.gov/ 146
Adobe PDF Search Pblica http://searchpdf.adobe.com/ 143
Internet Auction Lista Pblica http://www.internetauctionlist.com/search_products.html 130
Commerce, Inc. Pblica http://search.commerceinc.com/ 122
Biblioteca del Congreso Catlogo Online Public http://catalog.loc.gov/ 116
Sunsite Europa Pblica http://src.doc.ic.ac.uk/ 98
Destape peridico con DB pblico / Fee http://uncweb.carl.org/ 97
Bazar Pblica del astrnomo http://cdsweb.u-strasbg.fr/Cats.html 94
eBay.com Pblica http://www.ebay.com/ 82
REALTOR.com Inmobiliaria Busca Pblica http://www.realtor.com/ 60
Federal Express Pblico (si embarcador) http://www.fedex.com/ 53
Integrum Pblico / Privado http://www.integrumworld.com/eng_test/index.html 49
NIH PubMed Pblica http://www.ncbi.nlm.nih.gov/PubMed/ 41
Visual Mujer (NIH) Pblico http://www.nlm.nih.gov/research/visible/visible_human.html 40

AutoTrader.com Pblica http://www.autoconnect.com/index.jtmpl/?LNX=M1DJAROSTEXT 39


UPS Pblico (si embarcador) http://www.ups.com/ 33
NIH GenBank Pblica http://www.ncbi.nlm.nih.gov/Genbank/index.html 31
AustLi (Australasian Legal Information Institute) Pblico http://www.austlii.edu.au/austlii/ 24
Programa de Biblioteca Digital (UVa) Pblico http://www.lva.lib.va.us/ 21
Fuentes pblicas y mixtas Subtotal 673.035
DBT Fee Online http://www.dbtonline.com/ 30500
Lexis-Nexis Fee http://www.lexis-nexis.com/lncc/ 12200
Cuota de dilogo http://www.dialog.com/ 10980
Genealoga - Tarifa ancestry.com http://www.ancestry.com/ 6500
ProQuest directa (incl. Bveda Digital) Cuota http://www.umi.com 3172
Dun & Bradstreet Fee http://www.dnb.com 3113
Westlaw Fee http://www.westlaw.com/ 2684
Dow Jones News Recuperacin Fee http://dowjones.wsj.com/p/main.html 2684
Cuota infoUSA / http://www.infousa.com/ Pblica 1584
Elsevier Press Cargo http://www.elsevier.com 570
EBSCO Fee http://www.ebsco.com 481
Springer-Verlag Fee http://link.springer.de/ 221
Ovid Technologies Fee http://www.ovid.com 191
Investext Fee http://www.investext.com/ 157
Blackwell Fee Ciencia http://www.blackwell-science.com 146
GenServ Fee http://gs01.genserv.com/gs/bcc.htm 106
Academic Press IDEAL Fee http://www.idealibrary.com 104
Tradecompass Fee http://www.tradecompass.com/ 61
INSPECCIN Fee http://www.iee.org.uk/publish/inspec/online/online.html 16
Fuentes de Pago Subtotal 75.469

Total 748 504


Este listado es preliminar y probablemente incompleto ya que carecemos de un censo completo
de los sitios Web de profundidad.

Nuestra inspeccin de los sitios Web de profundidad 700 muestras aleatorias identific otros tres
que no estaban en la piscina inicialmente identificado de 100 sitios potencialmente grandes. Si esa
relacin fuera titular en toda la estimada 200.000 sitios Web profundas (vase la siguiente tabla),
tal vez slo un porcentaje muy pequeo de sitios se muestra en esta tabla demostrara ser el ms
grande. Sin embargo, ya que muchos sitios grandes se conocen de manera anecdtica, creemos
que nuestro perfil, mientras que muy impreciso, puede representar el 10% y el 20% de los sitios
web ms grandes profunda reales en la existencia.

Esta incapacidad para identificar todos los mayores sitios web profunda hoy no debera ser
sorprendente. La conciencia de la Web profunda es un fenmeno nuevo y ha recibido poca
atencin. Solicitamos nominaciones para los grandes sitios adicionales en nuestro sitio
CompletePlanet integral y documentaremos nuevos casos que se presenten.

Das könnte Ihnen auch gefallen