Sie sind auf Seite 1von 5

GOOGLE

Aparte del 'PageRank' (el sistema de clasificacin de la importancia de cada web), una de
las claves del xito de Google es la tecnologa de sus servidores.
Google atiende a ms de 5,000 millones de bsquedas cada mes (unas dos mil por
segundo), y esta cifra aumenta progresivamente cada da. Para atender todas estas
peticiones, y buscar entre ms de 3,000 millones de documentos, Google opt por la
tecnologa Linux.
Disponen de un clster de cerca de 20,000 servidores repartidos en siete 'data centers'. Estos
centros de datos se encuentran situados en diversos puntos del planeta, como Washington
D.C. (USA), Herndon (Virginia, USA), Santa Clara (California, USA) o Zurich (Suiza). Cada
servidor dispone de un solo procesador Intel, y una memoria RAM que va desde 256 Mb a 1
Gb.




Google ha decidido mover sus servicios de anuncios de MySQL, un popular manejador de
bases de datos, a uno nuevo, creado por ellos mismos, llamado F1. El nuevo sistema
combina lo mejor de NoSQL y SQL. El equipo de trabajo dice que F1 da los beneficios de los
sistemas NoSQL (escalabilidad, tolerancia a errores y costo/beneficio, entre otros), con la
facilidad de uso y soporte transaccional de una base de datos relacional.
Google decidi desarrollar F1 para tener un manejador de bases de datos que tenga
peticiones SQL en paralelo, y que pueda adems, hacer transacciones en un sistema de
almacenamiento distribuido que pueda escalarse en hardware estndar. El
almacenamiento en Google soporta replicacin entre los centros de datos mientras que
mantiene consistentes las transacciones.
F1 se codesarroll con un nuevo sistema de almacenamiento de bajo nivel llamado
Spanner. Esto est descrito como un descendiente de BigTable (del mismo Google), el cual
es un sucesor de Megastore. Este ltimo es un manejador de registros indexados de
transacciones construido por Google por encima de su almacenamiento de datos BigTable
en NoSQL. Spanner ofrece entonces replicacin sincrnica entre centros de datos (con
Paxos, el algoritmo para trabajar con tolerancia a fallas en los sistemas distribuidos).

Caractersticas de su Base de Datos
Actualmente est considerada la 4 Base de datos informtica ms grande del
mundo, con unos 8.000 millones de pginas Web indexadas en su base de datos,
siendo la del World Data Center for Climate la ms grande de la actualidad.
En comparacin con Altavista, Hotbot o MSN, la base de datos de Google es casi 2,5
veces mayor.
El spider que ms tiempo lleva rastreando la red es Googlebot, encargado de
recoger los links que despus aparecern en Google.
Cuenta con otros robots como Freshbot que escanea los principales portales de
noticias.
A parte de la base de datos Web, tambin incorpora otras bases de datos de servicios
como son:
Google Groups permite crear listas de correo, interactuar en ellas y leer los mensajes
de Usenet.
Google Directory nos proporciona un mtodo til que permite acotar la bsqueda
basndose en un tema determinado.
Google Print o Google Book Search es un buscador de libros. Busca en libros (ttulos y
contenido) que el propio Google ha digitalizado e incluido a su base de datos.
Google Image Search es el buscador de imgenes de Google, contiene ms de mil
millones de imgenes de todos los tipos: fotografas, dibujos, pinturas y ms.
Google News es un portal de noticias agregadas por ordenadores de Google. Todo el
proceso es automtico.
Google Catalogs busca en catlogos.
Froogle es un buscador de productos. Utilizado para buscar el precio ms barato de
un producto y la comparativa de estos en diferentes tiendas online.
Google Schoolar busca informacin en documentacin de tipo
acadmico/cientfico.
Principales caractersticas
Google es el motor de bsqueda ms completo y con ms peso como proveedor de
bsquedas, esta afirmacin se sustenta en la clara preferencia de usuarios del mundo
entero quienes pasan por Google al menos una vez al da, llegando a dominar la
cuota del mercado mundial en torno al 60% y un 99% en el mercado espaol.
Una funcin clave de Google permite abrir los documentos PDF encontrados en HTML
Permite corregir la ortografa de las bsquedas gracias a la funcin Google Suggest
(quiso usted decir...?)
Caractersticas de bsqueda
Google slo muestra aquellas pginas que incluyen todos los trminos de la
bsqueda.
Google ignora las palabras y caracteres comunes, conocidos como trminos vacos.
Google automticamente descarta trminos como "http" y".com,", as como ciertos
dgitos o letras.
Tampoco distingue los acentos, diresis ni la letra ee.
No distingue entre maysculas y minsculas.
Busca palabras completas, es decir no utiliza el truncado automtico.
Cada resultado de bsqueda Google contiene un fragmento de la pgina Web que
muestran el contexto en el que los trminos aparecen en esa pgina.
No presenta truncado pero si podemos utilizar el asterisco * para sustituir una, dos o
ms palabras. Suele combinarse con las comillas (" "), tienda * deportes comparar
resultados con tienda deportes).
Presenta autostemming en las bsquedas. Tambin podemos utilizar los signos (+, ", -)
como conectores de frases.
Google hace uso de los operadores booleanos O (OR) Y (AND) NO (NOT) para
realizar bsquedas combinadas de varios trminos.
Bsqueda por campos
filetype: trmino: Las bsquedas se restringen a pginas cuyos nombres acaben en el
trmino especificado. Sobretodo se utiliza para determinar la extensin de los ficheros
requeridos.
Fileytpe: pdf deporte: muestra aquellos resultados para el trmino deporte con
extensin pdf.
site:sitio/dominio : Los resultados se restringen a los contenidos en el sitio o dominio
especificado. Muy til para realizar bsquedas en sitios que no tienen buscadores
internos propios.
site:www.elpais.es deporte: muestra los pginas del sitio www.elpais.es donde
aparece el trmino deporte.
link:url : Muestra pginas que apuntan a la definida por dicha url. La cantidad (y
calidad) de los enlaces a una pgina determina su relevancia para los buscadores.
Nota: slo presenta aquellas pginas con pagerank 5 o ms.
link:www.elpais.es: presenta las pginas (con Page Rank igual o mayor a 5) que
enlazan con la web elpais
cache:url : Se mostrar la versin de la pgina definida por url que Google tiene en su
memoria, es decir, la copia que hizo el robot de Google la ltima vez que pas por
dicha pgina.
cache:www.elpais.es: presenta la versin de Galinus que Google guarda en su
memoria.
Bsqueda avanzada
En la pgina de la bsqueda avanzada, podemos refinar las bsquedas: Por medio de la
Interfaz Avanzada podemos limitar los resultados sin tener que recurrir a los operadores
booleanos y conectores de frases.

Presentacin de los resultados
En cuanto a la presentacin de los resultados la tecnologa de bsqueda Google se
basa en los hipertextos, analizando todo el contenido de cada web y la posicin de
todos los trminos en cada pgina.
La tecnologa conocida como PageRank, asegura que los resultados ms
importantes se muestren primero. PageRank mide objetivamente la importancia de
las pginas web y se calcula que resuelve una ecuacin de 500 millones de variables
y ms de 2.000 millones de trminos.
El algoritmo PageRank asigna a cada pgina web un valor que resulta de la suma de
los valores de las pginas que enlazan a ella ponderada por el nmero de enlaces
salientes de cada una, con peso 1-q = 0'85, y un factor de suavizacin con peso q =
0'15. Es decir:

PR(p) = q + (1-q) * ( PR(e1)/ES(e1) + PR(e2)/ES(e2) + ... + PR(eN)/ES(eN) )

donde PR(pgina) es el valor que Google asigna a una pgina (PageRank), ES(pgina) es
el nmero de enlaces salientes de cada pgina, y q es un valor de probabilidad (=0'15).

Ventajas:
Desde el momento que realizamos la pregunta hasta que recibimos la respuesta el tiempo
de espera es de aproximadamente 0,5 segundos, esto es debido a que no utiliza un buen
servidor sino una red completa de PCs de baja gama interconectados. Llegando ha ahorrar
un tiempo considerable de espera al usuario.

Inconvenientes:
Los resultados no son clasificados por la fecha de aparicin o por calidad de la
informacin, sino por su popularidad. Esto hace que la cantidad de los resultados sea
aceptable pero la calidad a menudo no.
Tampoco se pueden ordenar los resultados, ni descargarlos ni enviarlos va e-mail.
Se puede falsear el PageRank aumentando el n de backlinks.
Google no puede cubrir todas las paginas, hay algunos que son invisibles para el
(paginas no enlazadas, protegidas, informacin de las bases de datos, las que los
propios webmasters no dejan indexar a los robots mediante un No follow)
Solo guarda 100kb de cada pagina dejando de recuperar trminos que se
encuentran en otra posicin.
Google tiene un lmite de bsqueda de 10 palabras.
Los spiders de Google no pueden leer flash, por lo que la informacin contenida no
queda almacenada y pasa desapercibida.

BIBLIOGRAFIA
http://www.webtaller.com/maletin/articulos/analisis-caracteristicas-google.php
http://www.unocero.com/2012/05/31/nuevo-manejador-de-bases-de-datos-en-google/

Das könnte Ihnen auch gefallen