Beruflich Dokumente
Kultur Dokumente
Enjin Gelintar
Pengenalan
Maksud Enjin Gelintar
Tiga Jenis Enjin Gelintar
Senibina Enjin Gelintar
Komponen Asas Enjin Gelintar
Pengenalan Enjin Gelintar
• 2003 16.5
bil Laman
web
• 3 bil laman /
59GB teks
dimuat setiap
hari
• Hayat 44
hari
• 10MB/s
teks :
connection
capable to
downloading
2
Pengenalan Enjin Gelintar
• Nov 97 :
AltaVista
handle
20 bil
queries
per day
3
Apa itu enjin gelintar ?
Enjin gelintar ialah suatu program yang digunakan untuk mencari dan
mencapai maklumat berdasarkan kepada sebutan gelintaran
(search terms) yang diberi oleh pengguna. Ia membenarkan
pengguna menjelajah pangkalan data yang mengandungi teks terdiri
daripada berjuta-juta di laman web. Apabila perisian enjin gelintar
dapat padankan maklumat yang dicari (hits), ia akan menerangkan
dimana pautan maklumat terdapat dan seterusnya pengguna akan
terus menjelajah.
4
Web Spider Document
corpus
Query IR
String System
1. Page1
2. Page2
3. Page3
Ranked
. Documents
.
5
Pengenalan Enjin Gelintar
6
Pengenalan Enjin Gelintar
7
URL
FTSM
URL Pelayan
UKM
Pelayan
Google
8
How SE Works
Crawl entire Intranet
Compute the shortest hyperlink path from a certain
root page to every web page
Index and compute metadata for the pages
• Using Cheshire II
• Run a user query.
• Gather all the hits
• Create a “directory” based on combining the shortest paths
• Special graph algorithm removes redundant links and
internal nodes
9
SE System Architecture
store
crawl the the
web documents
10
SE System Architecture
store
crawl the the
web documents
create files
of
metadata
Cheshire II
11
SE Metadata
Information about web pages
• Title
• Length
• Inlinks
• Outlinks
• Shortest Paths from a root home page
Used to provide innovative search
interface
12
SE System Architecture
store
crawl the the
web documents
create files
of
metadata
Cheshire II
13
SE System Architecture
store
crawl the the
web documents
Cheshire II
14
Creating a Keyword Index
For each document
• Tokenize the document
• Break it up into tokens: words, stems, punctuation
• There are many variations on this
• Record which tokens occurred in this document
• Called an Inverted Index
• Dictionary: a record of all the tokens in the collection
and their overall frequency
• Postings File: a list recording for each token, which
document it occurs in and how often it occurs
15
SE System Architecture
user
query
Cheshire II
16
Responding to the User Query
User searches on “pam samuelson”
Search Engine looks up documents
indexed with one or both terms in its
inverted index
Search Engine looks up titles and shortest
paths in the metadata index
User Interface combines the information
and presents the results as HTML
17
SE System Architecture
user
query
Cheshire II
18
SE System Architecture
server
accesses the
databases
Cheshire II
19
SE System Architecture
results shown
to user
Cheshire II
20
SE System Architecture
user
query
server
accesses the
databases
results shown
to user
Cheshire II
21
What hasn’t been explained here?
22
Pengenalan Enjin Gelintar
Dua kaedah mendapatkan maklumat yang menarik
Kueri
24
Pengenalan Enjin Gelintar
25
Enjin Gelintar
1. Web Crawlers
Dikenali juga : robots, spiders, worms, walkers, wanderer
Jelajahi internet bagi mendapat laman kepada indeks
Mula dengan satu alamat web yang dikenalpasti dan muat turun
laman tersebut. (berdasarkan URL kaedah cth breath-first
search)
Indeks semua perkataan dan frasa dan hubungan perkataan
Pengguna akan buat carian berdasarkan indeks tersebut
Contoh : AltaVista, Excite, Google, Hotbot, Lycos , Northen Light
……
26
Alirankerja bagi web crawlers
27
Web Crawlers : AltaVista
28
Web Crawlers : AltaVista
AltaVista menyokong operasi penuh Boolean, phrase, dan
case-sensistive searches.
AltaVista memangkat dokumen berdasarkan kerelevanan,
memberikan pemberat yang lebih tinggi pada dokumen
yang mengandungi sebutan query pada baris pertama
dokumen.
Hasil query termasuklah tajuk, abstrak yang ringkas, saiz,
dan tarikh terakhir dimodifikasi.
29
Web Crawlers : Excite
30
Web Crawlers : HotBot
HotBot mencapai dan mengindeks dokumen dengan
menggunakan robot bernama Slurp.
Slurp mengeluarkan semua URL daripada document yang
dicapai dan meletakkannya di dalam struktur data berjadual,
yang menunjukkan setiap URL kepada CPU yang berbeza
berdasarkan kriteria seperti bilakah masa terkini hos
diakses.
HotBot menyokong penggelintaran berasakan case-sensitive
dan operasi Boolean.
HotBot memberikan tarikh terakhir sesuatu laman web
diupdate dan abstrak ringkas mengandungi beberapa baris
pertama sesuatu dokumen.
31
Web Crawlers : InfoSeek
32
Web Crawlers : InfoSeek
InfoSeek memangkat outputnya, mengira RSV dengan
memberikan pemberat yang lebih untuk dokumen yang
kata sebutan query terdapat pada awalan dokumen
tersebut.
Ia memberi ringkasan pendek, markah kerelevanan, dan
saiz dokumen.
33
Web Crawlers : Lycos
34
Web Crawlers : Lycos
Lycos mengindeks tajuk, headings, dan subheadings
untuk dokumen HTML, FTP dan Gopher.
Bila bilangan dokumen terindeks melebihi 100, hanya 100
sebutan yang berpemberat tinggi akan akan disimpan.
Pengindeks juga menyimpan 20 baris pertama dokumen,
saiznya, dan bilangan perkataan.
35
Web Crawlers : OpenText
OpenText mempunyai robot yang melayari laman web
dengan memilih satu-satu URL daripada sekumpulan
URL, mencapai dokumen dari URL tersebut, dan
mengindeks dokumen tersebut.
Ia juga mengeluarkan semual URL daripada dokumen
yang dicapai dan meletakkannya di kumpulan URL (URL
pool).
Pengguna boleh menghantar URL untuk diindeks.
36
Web Crawlers : OpenText
OpenText mengindeks teks penuh sesuatu dokumen
HTML dan berterusan mengupadate indeksnya.
Pengindeks (indexer) akan menghasilkan 100 perkataan
pertama sesuatu dokumen sebagai ringkasan pendek.
Ia menyokong sepenuhnya pengoperasi Boolean.
37
Web Crawlers : Direktori/Katalog
38
Web Crawlers : Yahoo
39
Enjin Gelintar
2. Portals
● Laman yabg diorganisasi maklumat mengikut topik bagi memudah
pengguna menavigasi dan mendapatkan maklumat yang dicari
● Juga dikenali web direktori
● Kebanyakan portal merupakan “human maintained”
● Carian kebanyakan berdasarkan ringkasan (summaries) atau tajuk
bukan pada kandungan
40
Alirankerja portal
41
Enjin Gelintar
3. Meta-Search Engines
● Merupakan site yang mengambil kueri (katakunci atau
kueri NL) dan hantar ianya ke banyak enjin gelintar dan
pulangkan hasil kepada pengguna.
● Tiga kaedah gelintaran
i. Senarai penuh enjin gelintar
ii. Penggelintaran secara jujukan (sequential)
iii. Penggelintaran secara concurrent
42
Aliran kerja meta-search engines
43
Pembahagian Sistem Enjin Gelintar
Enjin Gelintar
44
• Crawling the web
• Building an index
• Ranking
• Serving search result
• User interface and
design
• Google infrastructure
Pelayan
Google
45
WWW
Repositori laman
klien
kueri
keputusan
Modul Modul Himpunan
Lelabah Indeks Analisis
Enjin kueri pemangkatan
Indeks:
Modul Kawalan kemudahan
Lelabah struktur teks
Maklumbalas pengguna
Repositori laman
klien
kueri
keputusan
Modul Modul Himpunan
Lelabah Indeks Analisis
Enjin kueri pemangkatan
Indeks:
Modul Kawalan kemudahan
Lelabah struktur teks
Maklumbalas pengguna
URL: http:\\www.mol.com.my
Modul Kawalan
Lelabah
48
WWW
Repositori laman
klien
kueri
keputusan
Modul Modul Himpunan
Lelabah Indeks Analisis
Enjin kueri pemangkatan
Modul Indeks
Indeks:
Modul Kawalan •kemudahan
Modul Indeks berperanan mendapatkan
struktur teks
Lelabah semua perkataan dalam laman web yang
dimuat turun oleh lelabah
Maklumbalas
• Merekod pengguna
URL bagi perkataan berkaitan
(URL halaman berkaitan)
49
WWW
Repositori laman
klien
kueri
keputusan
Modul Modul Himpunan
Lelabah Indeks Analisis
Enjin kueri pemangkatan
Indeks:
Modul Kawalan kemudahan
Lelabah struktur teks
Maklumbalas pengguna
50
Modul
WW
Kueri
W
Terima kueri dari Repositori laman
pengguna dan cari
maklumat dari indeks klien
dan kadang2 dari
repositori laman kueri
keputusan
Modul Modul Himpunan
Lelabah Indeks Analisis
Enjin kueri pemangkatan
Indeks:
Modul Kawalan kemudahan
Lelabah struktur teks
Maklumbalas pengguna
51
WWW
Repositori laman
Indeks:
Modul Kawalan kemudahan
Lelabah struktur teks
Maklumbalas pengguna
52
Enjin Gelintar
53
Pangkalan Data
Pangkalan data ialah koleksi maklumat yang terindeks yang
dikumpul oleh robot. Robot akan merekodkan semua maklumat
yang diindekskan dalam pangkalan data yang mungkin
merangkumi alamat laman web, tajuk, header, sebutan, saiz
atau mungkin keseluruhan teks.
Pangkalan data boleh menyimpan sehingga berjuta maklumat
dalam laman web. Sesetengah enjin gelintar mempunyai lebih
daripada satu pangkalan data.
Enjin gelintar berbeza dari segi kekerapan dan metod dalam
mengemaskini pangkalan data.
54
Robot
Juga dipanggil “web wanderers”, “web crawlers”, dan “spider”
Robot yang menjejaki laman menerusi hiperlink untuk mencari,
mengumpul, mengindeks, dan memeriksa dokumen dan dimasukkan
ke dalam pangkalan data
Merekod data yang dijumpai
• Perkataan pada laman web
• Metadata
• Atribut ALT pada IMG tags
Program ini berinteraksi berdasarkan HyperText Transfer Protocol
(HTTP) untuk mencapai dokumen daripada pelayan-pelayan (servers)
Robot Exclusion Protocol
http://www.robotstxt.org/wc/exclusion.html
55
Robots Exclusion
Sometimes people find they have been indexed by an indexing
robot, or that a resource discovery robot has visited part of a
site that for some reason shouldn't be visited by robots. In
recognition of this problem, many Web Robots offer facilities
for Web site administrators and content providers to limit what
the robot does. This is achieved through two mechanisms:
The Robots Exclusion Protocol
A Web site administrator can indicate which parts of the site
should not be vistsed by a robot, by providing a specially
formatted file on their site, in http://.../robots.txt.
The Robots META tag
A Web author can indicate if a page may or may not be
indexed, or analysed for links, through the use of a special
HTML META tag.
56
Robot
Robot akan sentiasa meneliti internet, secara otomatik akan
menjejaki dokumen baru atau yang diupdate dan menyingkirkan
dokumen yang bertindih, yang tidak aktif atau yang telah
dimansuhkan.
Strategi yang dilakukan oleh robot ketika “berjalan” dalam WWW
menentukan kuantiti dan kualiti maklumat yang dicapai untuk
pangkalan data.
57
Antaramuka Enjin Gelintar
58
Antaramuka Enjin Gelintar
Output
• Keputusan / hasil
• Descriptions
• Clusters
59
Pemadanan Term Gelintaran
Cuba mendapatkan padanan pada pangkalan data
Dua kaedah utama
• Gelintar menggunakan katakunci
• Padanan satu term, menggunakan “cosine”
• Gelintar berasaskan konsep (concept-based)
• Menilai gugusan perkataan (clusters of words)
• Cuba tentukan maksud kueri dan dapatkan rekod
berdasarkan maksud tersebut.
60
Asas Ciri-ciri IR
Operator Boolean
• AND, OR, NOT, grouping
Extended operators
• NEAR, ADJACENT (")
Analisa Leksikal
Pembuangan katahenti
Cantasan
Pengindeksan
Maklumbalas berkaitan
61
Pemangkatan Output
62
Sistem Capaian Maklumat
Pengumpulan
Dokumen
Pengindeksan
Pencarian
Pengurusan
Dokumen dan
Kueri
63
Perbezaan enjin gelintar untuk internet
dan sistem capaian maklumat
64
b) Keluasan pangkalan data
65
c) Medan yang diindeks
Kebanyakan maklumat yang disimpan di dalam on-line
database dan CD-ROM diindeks berdasarkan kepada set
perbendaharan kata (controlled vocabularies) atau
thesauri. Medan yang diindeks seperti subjek, katakunci,
penulis, tajuk atau organisasi ditentu atau dipilih oleh
manusia.
66
d) Teknik Penggelintaran
67
e) Antaramuka dan Pilihan Output
Enjin gelintar untuk internet menawarkan berbagai
antaramuka. Contoh: AltaVista menawarkan 2
antaramuka: penggelintaran mudah atau query lanjutan.
68
Perbezaan enjin gelintar untuk internet
dan sistem capaian maklumat (samb…)
Sistem Maklumat
Enjin Gelintar Web
Klasikal
Kelajuan Masa tindakbalas yang interaktif
Precision (Kejituan) Kejituan hasil yang dipaparkan pada
laman pertama
Recall (panggil semula) Dapat sebanyak mungkin laman kaya
maklumat, called authority dan hub
pages
69