Sie sind auf Seite 1von 44

Ένα βήμα μετά την

γραφομηχανή;
Υπολογιστές και
φιλολογία
Θεσσαλονίκη
22/11/2005

Νότης Τουφεξής
www.toufexis.info

1
Διάρθρωση της παρουσίασης
 Ηλεκτρονικό κείμενο
– Πλεονεκτήματα
– Ελληνικά: Προβλήματα και λύσεις
 Εφαρμογές

– Συμφραστικοί πίνακες λέξεων


– Ιεραρχικό μοντέλο απεικόνισης: XML
– Βάσεις δεδομένων

2
Το ηλεκτρονικό κείμενο

3
Ηλεκτρονικό κείμενο:
Χαρακτηριστικά

 Ένα προς ένα αντιγραφή


 Εύκολη επεξεργασία στο

ψηφιακό περιβάλλον
 Δυνατότητα μεταφοράς μέσα

από ηλεκτρονικά δίκτυα


 Δυνατότητα διασύνδεσης

(hypertext)
4
– HTML, XML (markup languages)
Ότι βλέπουμε δεν είναι το ίδιο
για τον υπολογιστή
 Διάκρισημεταξύ χαρακτήρα (character) και
απεικόνισης (glyph)

ίδιο glyph
GREEK CAPITAL LETTER
ΚK
Tahoma
KAPPA (922)
LATIN CAPITAL LETTER K
(75)
διαφ. glyph
Code 2000

2 χαρακτήρες
5
Παλαιότερα προβλήματα με τα
ελληνικά

 256 χαρακτήρες δεν ήταν αρκετοί


για την απεικόνιση μονοτονικών και
πολυτονικών ελληνικών
– Πολλές γραμματοσειρές για επιπλέον
glyphs (ψηφιόγλυφα)
 Σχέση χαρακτήρων και glyphs
– «Διαφορετικά» σε κάθε λειτουργικό
σύστημα
– Μη συμβατά μεταξύ τους

6
Η τυποποίηση (και η λύση):
Unicode

 Αύξηση των χαρακτήρων κάθε


γραμματοσειράς σε 65536
 Unicode = Τυποποιημένοι πίνακες

κωδικοποίησης χαρακτήρων και


συμβόλων
– Υποστηρίζεται από όλα τα σύγχρονα
λειτουργικά συστήματα
– Περιέχει δύο πίνακες για τα ελληνικά
 Κανονικά (Greek and Coptic) και με
7 επιπλέον χαρακτήρες (Greek extended)
Απελπισία;
Η μετατροπή από παλαιότερη
κωδικοποίηση σε Unicode είναι στις
περισσότερες περιπτώσεις δυνατή
– GreekKeys Converter, Transcoder κτλ.
 Βασικά πλεονεκτήματα
– Συμβατότητα μεταξύ διαφορετικών
λειτoυργικών συστημάτων
– Αποφυγή του «θανάτου των ψηφιακών
δεδομένων»

8
Πρώτο βήμα: δημιουργία
ηλεκτρονικού κειμένου

9
Δημιουργία ηλεκτρονικού κειμένου
από «παραδοσιακό» κείμενο

 Λύση 1: Internet (copyright?)


– Αρκετά (λογοτεχνικά) κείμενα
διαθέσιμα
Συχνά προβληματική κωδικοποίηση
 Λύση 2: OCR
– Προηγμένο για μονοτονικά ελληνικά,
στα πρώτα του βήματα για
πολυτονικά
 Λύση 3: Δακτυλογράφηση
10
– Τυφλό σύστημα, Κίνα;
Βασικά ερωτήματα 1
 Τί είδους κωδικοποίηση;
– Πολυτονικά: Unicode
– Μονοτονικά:
Σε συνδυασμό με λατινικά χωρίς
επιπλέον χαρακτήρες: Win 1253 ή ISO
8859-7
Σε συνδυασμό με λατινικά με επιπλέον

χαρακτήρες: Unicode
– UTF-8: Η κωδικοποίηση ειδικά για
11
χρήση στο Internet
Βασικά ερωτήματα 2
 Τι είδους ηλεκτρονικό format;
– Κατά προτίμηση «ανοιχτό», που δεν
εξαρτάται δηλ. από μία και μόνο
ηλεκτρονική εφαρμογή
Να αποφεύγεται το .doc (MS WORD) ως
πρώτη και μοναδική επιλογή
Προτιμότερο .txt (χωρίς πληροφορίες
μορφοποίησης) ή .html (με πληροφορίες
μορφοποίησης), ιδανικά .xml για πιο
σύνθετες πληροφορίες (σε Unicode)

12
Τι είδους απεικόνιση του κειμένου
στο ψηφιακό περιβάλλον;

 Γιακείμενο που ήδη υφίσταται σε


τυπωμένη μορφή
– Διατήρηση των χαρακτηριστικών
του τυπωμένου κειμένου;
Πόσων και ποιων;
– Αλλαγές που είναι απαραίτητες
λόγω ψηφιακού περιβάλλοντος
π.χ. συλλαβισμός, ορθογραφικές
ιδιαιτερότητες (π.χ. ό,τι),
παρασελίδιες σημειώσεις,
13 στιχαρίθμηση κτλ.
Τι είδους απεικόνιση του κειμένου
στο ψηφιακό περιβάλλον;

 Για «νέο» και ήδη υπάρχον κείμενο


– Ποιο μοντέλο απεικόνισης της δομής
του κειμένου
Κατανοητό από τον χρήστη μόνο;
«Κατανοητό» από τον υπολογιστή;

Επίπεδα απεικόνισης;
– π.χ. απεικόνιση εναλλαγής μέσα στο ίδιο
κείμενο
– απεικόνιση πληροφοριών που είναι
απαραίτητες για την φιλολογική ανάλυση
και επεξεργασία
14
Το έργο του φιλολόγου
Η ανάλυση της δομής του
περιεχομένου του κειμένου και η
λήψη αποφάσεων για την
απεικόνιση του σε ψηφιακό
περιβάλλον είναι δουλειά του
φιλολόγου και όχι του
πληροφορικάριου

15
Εφαρμογές με βάση το
ηλεκτρονικό κείμενο

Συμφραστικός
πίνακας λέξεων

16
Εφαρμογές ηλεκτρονικών κειμένων

 Συμφραστικόςπίνακας λέξεων
(Keyword In Context
Concordance)
– Αλφαβητικός πίνακας όλων των
λέξεων με τα συμφραζόμενά που
ακολουθούν και έπονται
 Χρησιμοποιείται
για υφολογική
ανάλυση και ανάλυση λόγου
17
KWIC: Διαθέσιμες εφαρμογές
 Πολλέςεφαρμογές για WinXP
διαθέσιμες, έλλειψη στο Mac OS X
– Win XP: Concordance, MonoConc, SCP,
MLCT
– Mac Os: Conc (χωρίς υποστήριξη
Unicode) / Mac OS X: CasualConc
 Άλληδυνατότητα: χρήση γλώσσας
προγραμματισμού: Perl, Java etc.

18
Βασικές λειτουργίες
 Δέχονται ηλεκτρονικό κείμενο
συνήθως σε μορφή TXT (text only)
– Συχνά και σε ό,τι βασίζεται σε TXT (HTML,
XML)
– Ελάχιστες υποστηρίζουν πλήρως Unicode
(MLCT, Word Smith Tools)
– Επιτρέπουν τη χρήση εξειδικευμένου
συστήματος παραπομπών
– Επιτρέπουν ρύθμιση του μεγέθους των
συμφραζομένων
– Επιτρέπουν την δημιουργία σύνθετων
19 αναζητήσεων (regular expressions)
Μειονεκτήματα
 Κανένα πρόγραμμα που να
υποστηρίζει Unicode και σωστή
αλφαβήτιση πολυτονικών
ελληνικών
 Σχεδόν παντού η αλφαβήτιση

γενικώς γίνεται αυτόματα με


βάση προκαθορισμένες ρουτίνες
του λειτουργικού συστήματος
20
Ιεραρχικό μοντέλο
απεικόνισης κειμένου

Τι είναι η XML

21
To πρόβλημα
 Απεικόνιση της δομής των δεδομένων
όταν αποθηκεύονται ηλεκτρονικά και
πρέπει να διανεμηθούν με ψηφιακό
τρόπο
 Ο υπολογιστής δεν μπορεί να

κατανοήσει την δομή ενός περιεχομένου


– Παράδειγμα:
 Τολήμμα ψηφιακός από το λεξικό
Τριανταφυλλίδη

22
«Ψηφιακός»
ψηφιακός
λήμμα -ή -ό [psifiakós]
προφορά E1κλίση
:
α.(για
σημασία όργανο
1 μέτρησης, συσκευή κτλ.) που
εμφανίζει τις σχετικές με τη λειτουργία του
ενδείξεις με ψηφία (αριθμούς ή γράμματα):
Ψηφιακό ρολόι / χρονόμετρο. Ψηφιακές ενδείξεις.
παραδείγματα σημασίας 1
β. (ηλεκτρον.) που επεξεργάζεται τις
πληροφορίες
σημασία 2 που του διοχετεύονται
χρησιμοποιώντας αριθμητικά ψηφία ή ειδικά
σήματα:
Ψηφιακό τηλέφωνο.
παραδείγματα σημασίας 2
[λόγ. ψηφί(ο) -ακός μτφρδ. αγγλ. digital]
ετυμολογία

23
Προβλήματα από την οπτική της
επεξεργασίας στον υπολογιστή
 Ο αριθμός των σημασιών δεν μπορεί να
προβλεφθεί εκ των προτέρων
 Υπάρχουν ενότητες που είναι ενταγμένες μέσα
σε άλλες ενότητες ή αποτελούν υποκατηγορία
άλλης ενότητας
– παραδείγματα σε σημασίες
– καταλήξεις σε λέξεις
– είδη δανείων, προέλευση δανείων
 Υπάρχουν ενότητες που αποτελούνται από
πολλά στοιχεία (ετυμολογία)
 Κάθε λεξικό μπορεί να έχει διαφορετική δομή
 Τι από όλα αυτά «καταλαβαίνει» ο υπολογιστής;

24
Απάντηση στα προβλήματα:
XML
 H XML (Extensible markup language) είναι
μέθοδος αποθήκευσης ψηφιακών δεδομένων που
απεικονίζει την εσωτερική τους δομή
– Δεν είναι γλώσσα προγραμματισμού
– Είναι «φλύαρη»
– Είναι ανοιχτή, δηλ. μπορεί να χρησιμοποιηθεί για
κάθε είδους δεδομένα
– Υποστηρίζει πλήρως το Unicode
– Υποστηρίζεται από πολλές άλλες τεχνολογίες

25
Πως δουλεύει
 Χρησιμοποιεί ετικέτες (tags) για το
μαρκάρισμα στοιχείων (elements) και
χαρακτηριστικών (attributes)
– <λήμμα κλίση="E1">ψηφιακός</λήμμα>
 Εντός των ετικετών περικλείεται η πληροφορία του κάθε
στοιχείου
– Οι ετικέτες, τα στοιχεία και τα χαρακτηριστικά
μπορούν να επιλεχθούν κατά βούληση
 Ακολουθεί αυστηρούς κανόνες ιεραρχικής
οργάνωσης (που πρέπει να έχουν καθοριστεί
από πρίν)

26
«Ψηφιακός» ως XML
 XML εκδοχή του λήμματος

27
Πλεονεκτήματα
 «Διάφανη» δομή
– Διάφανη αποθήκευση (text only)
 Απεριόριστες και προσωπικές «ετικέτες»
 Συμβατή με όλα τα λειτουργικά συστήματα
– Διαβάζεται από οποιοδήποτε εφαρμογή που
διαβάζει απλό κείμενο
 Διαχωρισμός δομής και περιεχομένου
 Μη πατενταρισμένη, ελεύθερη στη χρήση
 Συνδυάζεται εύκολα με άλλες τεχνολογίες

28
Απαιτήσεις
 Σαφείς, προκαθορισμένοι κανόνες που
ρυθμίζουν την ιεραρχία των
περιεχομένων
– Υπάρχουν ήδη τυποποιημένοι κανόνες για
πολλά επίπεδα πληροφορίας
 Σωστή χρήση των ετικετών και των
ιεραρχικών κανόνων
– Μη έγκυρη (non valid) XML δεν
«διαβάζεται» και δεν μπορεί να
χρησιμοποιηθεί
 κλίση="E1" δεν είναι το ίδιο με κλίση=„E1“!
29
Διαχωρισμός μορφής και
περιεχομένου

 Σε ένα αρχείο XML περιέχεται η


ιεραρχική δομή της πληροφορίας και
η ίδια η πληροφορία
 Οι λεπτομέρειες της μορφοποίησης

αποθηκεύονται χωριστά σε ένα αρχείο


διαφορετικού τύπου (CSS ή XSL
stylesheet). Το ίδιο παράδειγμα
με μορφοποίηση.

30
Εναλλακτικό μοντέλο
απεικόνισης: βάση
δεδομένων

Relational
databases

31
Βάση δεδομένων = Πίνακας σε
ηλεκτρονική μορφή

 Ένας πίνακας αποτελείται από μία


ή περισσότερες σειρές και μία ή
περισσότερες στήλες
 Κάθε σειρά συνήθως εκπροσωπεί
μια εμφάνιση του πράγματος υπό
κατηγοριοποίηση
 Κάθε στήλη εκπροσωπεί ένα
χαρακτηριστικό γνώρισμα αυτού
του πράγματος
32
Πίνακας: ανάλυση δομής
Πρώτες εκδόσεις και δημοσιεύσεις Γ. Σεφέρη
Τίτλος Πόλη Εκδότης Χρονολογία Αριθμός
συλλογής αντιτύπων
Στροφή Αθήνα Τυπογραφείο Μάης 1931 200
«Εστία»
Η Στέρνα Αθήνα Τυπογραφείο Οχτώβρης 50
«Εστία» 1932
Η Στέρνα Περιοδικό Νέα Γενάρης
γράμματα 1935

... ... ... ... ...

33
Τι συλλέγουμε;
 Γιατι πράγμα (entity)
συλλέγουμε πληροφορίες
(attributes);
– Εκδόσεις και δημοσιεύσεις ή
Εκδόσεις

Δημοσιεύσεις

– Πρόκειται για το ίδιο ή για


διαφορετικά πράγματα;
34
Ποιες πληροφορίες χρειάζονται
για αυτό που συλλέγουμε;
 Πόσεςπληροφορίες διαφορετικού τύπου
αφορούν το πράγμα για το οποίο
συλλέγουμε πληροφορίες;
– «Αφορούν» σημαίνει είναι σημαντικές για
την φιλολογική ανάλυση
 Πως αναλύουμε το εξής:
– H Στέρνα ... Χωρίς όνομα συγγραφέα, αλλά
με την υπογραφή του, 50 αντίτυπα
αριθμημένα με το χέρι

35
Οι πληροφορίες που συλλέγουμε
είναι σύνθετες;

 Ημερομηνία: Χρόνος / Mήνας


– Αν η πληροφορία για τον μήνα
έκδοσης είναι σημαντική πρέπει να
αποθηκευθεί με τρόπο «κατανοητό»
για τον υπολογιστή
 Ανναι, μήπως πρέπει να
καταγραφεί με πολλούς τρόπους;
– Οχτώβρης ή Οκτώβρης ή Οκτώβριος
ή 10/XXX ή October;

36
Σχεδιασμός των πινάκων της
βάσης δεδομένων
Ο κάθε πίνακας αφορά ένα και μόνο
ένα πράγμα
– Κάθε σειρά εκπροσωπεί μία και μόνο
μία εμφάνιση του πράγματος στο
πρωτογενές μας υλικό
 Περιέχει
τις πληροφορίες που είναι
απαραίτητες για την φιλολογική
ανάλυση του πράγματος
– Κάθε στήλη εκπροσωπεί ένα και μόνο
ένα χαρακτηριστικό του πράγματος
37
«Κανονικοποίηση» των
δεδομένων (data normalization)

 Πληροφορίες για ένα


συγκεκριμένο πράγμα δεν
πρέπει να αποθηκεύονται στον
πίνακα που αφορά άλλο πράγμα
– Π.χ. τίτλοι των ποιημάτων στον
πίνακα πρώτων δημοσιεύσεων
 Μίαπληροφορία για ένα πράγμα
πρέπει να αποθηκεύεται σε μία
και μόνο μία στήλη
38
Δημιουργία σχέσεων (relations)
μεταξύ πινάκων

 Οι
πίνακες μπορούν να
συνδεθούν μεταξύ τους
Τίτλος Μέρος Τίτλος ποιήματος Αρ.
συλλογής στ.
Στροφή Κοχύλια, Σύννεφα Στροφή 3

Στροφή Κοχύλια, Σύννεφα Αργά μιλούσες 3

Τίτλος Πόλη Εκδότης Χρονολογία Αρ.


συλλογής αντ.
Στροφή Αθήνα Τυπογραφείο Μάης 1931 200
«Εστία»
39
Πλεονεκτήματα βάσης
δεδομένων
 Οικονομικός
τρόπος αποθήκευσης
πολλών δεδομένων
– Εύκολη και γρήγορη αναζήτηση και
ανάκληση
 Ταξινόμηση με διαφορετικά κριτήρια
 Εύκολη στην κατασκευή και την
εισαγωγή δεδομένων
 Μπορεί να χρησιμοποιηθεί ως
υπόβαθρο εφαρμογών web

40
Μειονεκτήματα βάσης
δεδομένων

 Το μοντέλο του πίνακα αφού «στηθεί»


δεν τροποποιείται εύκολα
– Μπορεί να αποβεί περιοριστικό για την
ανάλυση
 Δεν μπορεί να αποδώσει ιεραρχίες
παρά μόνο μέσω σχέσεων
 Έχει περιορισμένες δυνατότητες

μορφοποίησης των δεδομένων


 Δεν ενδείκνυται για αποθήκευση

41 κείμενου
Συμπεράσματα

42
Τι χρειάζεται να ξέρει ο
φιλόλογος;

 Να έχει αποκτήσει εξοικείωση με τα


πρακτικά ζητήματα της δημιουργίας
ηλεκτρονικού κειμένου
 Να αναλύει σωστά τα περιεχόμενα του

πρωτογενούς υλικού για να επιτύχει την


κατάλληλη ψηφιακή τους αναπαράσταση
 Να είναι εξοικειωμένος / -η με τις βασικές

τεχνολογίες και τα μειονεκτήματα /


πλεονεκτήματά τους

43
Γιατί Πληροφορική και
Φιλολογία;
 Για να διευκολύνουμε την φιλολογική
έρευνα με κατάλληλα ερευνητικά
εργαλεία
 Για να καθορίζουμε εμείς που έχουμε την
κατάλληλη εκπαίδευση και ευαισθησία
τις ψηφιακές εφαρμογές που
χρησιμοποιούνται σήμερα και αύριο
 Γιατί καλώς ή κακώς το ψηφιακό
περιβάλλον αντικαθιστά με ραγδαίους
ρυθμούς παραδοσιακές δομές παντού
 Γιατί έχει πλάκα!

44

Das könnte Ihnen auch gefallen