Beruflich Dokumente
Kultur Dokumente
γραφομηχανή;
Υπολογιστές και
φιλολογία
Θεσσαλονίκη
22/11/2005
Νότης Τουφεξής
www.toufexis.info
1
Διάρθρωση της παρουσίασης
Ηλεκτρονικό κείμενο
– Πλεονεκτήματα
– Ελληνικά: Προβλήματα και λύσεις
Εφαρμογές
2
Το ηλεκτρονικό κείμενο
3
Ηλεκτρονικό κείμενο:
Χαρακτηριστικά
ψηφιακό περιβάλλον
Δυνατότητα μεταφοράς μέσα
(hypertext)
4
– HTML, XML (markup languages)
Ότι βλέπουμε δεν είναι το ίδιο
για τον υπολογιστή
Διάκρισημεταξύ χαρακτήρα (character) και
απεικόνισης (glyph)
ίδιο glyph
GREEK CAPITAL LETTER
ΚK
Tahoma
KAPPA (922)
LATIN CAPITAL LETTER K
(75)
διαφ. glyph
Code 2000
2 χαρακτήρες
5
Παλαιότερα προβλήματα με τα
ελληνικά
6
Η τυποποίηση (και η λύση):
Unicode
8
Πρώτο βήμα: δημιουργία
ηλεκτρονικού κειμένου
9
Δημιουργία ηλεκτρονικού κειμένου
από «παραδοσιακό» κείμενο
χαρακτήρες: Unicode
– UTF-8: Η κωδικοποίηση ειδικά για
11
χρήση στο Internet
Βασικά ερωτήματα 2
Τι είδους ηλεκτρονικό format;
– Κατά προτίμηση «ανοιχτό», που δεν
εξαρτάται δηλ. από μία και μόνο
ηλεκτρονική εφαρμογή
Να αποφεύγεται το .doc (MS WORD) ως
πρώτη και μοναδική επιλογή
Προτιμότερο .txt (χωρίς πληροφορίες
μορφοποίησης) ή .html (με πληροφορίες
μορφοποίησης), ιδανικά .xml για πιο
σύνθετες πληροφορίες (σε Unicode)
12
Τι είδους απεικόνιση του κειμένου
στο ψηφιακό περιβάλλον;
Επίπεδα απεικόνισης;
– π.χ. απεικόνιση εναλλαγής μέσα στο ίδιο
κείμενο
– απεικόνιση πληροφοριών που είναι
απαραίτητες για την φιλολογική ανάλυση
και επεξεργασία
14
Το έργο του φιλολόγου
Η ανάλυση της δομής του
περιεχομένου του κειμένου και η
λήψη αποφάσεων για την
απεικόνιση του σε ψηφιακό
περιβάλλον είναι δουλειά του
φιλολόγου και όχι του
πληροφορικάριου
15
Εφαρμογές με βάση το
ηλεκτρονικό κείμενο
Συμφραστικός
πίνακας λέξεων
16
Εφαρμογές ηλεκτρονικών κειμένων
Συμφραστικόςπίνακας λέξεων
(Keyword In Context
Concordance)
– Αλφαβητικός πίνακας όλων των
λέξεων με τα συμφραζόμενά που
ακολουθούν και έπονται
Χρησιμοποιείται
για υφολογική
ανάλυση και ανάλυση λόγου
17
KWIC: Διαθέσιμες εφαρμογές
Πολλέςεφαρμογές για WinXP
διαθέσιμες, έλλειψη στο Mac OS X
– Win XP: Concordance, MonoConc, SCP,
MLCT
– Mac Os: Conc (χωρίς υποστήριξη
Unicode) / Mac OS X: CasualConc
Άλληδυνατότητα: χρήση γλώσσας
προγραμματισμού: Perl, Java etc.
18
Βασικές λειτουργίες
Δέχονται ηλεκτρονικό κείμενο
συνήθως σε μορφή TXT (text only)
– Συχνά και σε ό,τι βασίζεται σε TXT (HTML,
XML)
– Ελάχιστες υποστηρίζουν πλήρως Unicode
(MLCT, Word Smith Tools)
– Επιτρέπουν τη χρήση εξειδικευμένου
συστήματος παραπομπών
– Επιτρέπουν ρύθμιση του μεγέθους των
συμφραζομένων
– Επιτρέπουν την δημιουργία σύνθετων
19 αναζητήσεων (regular expressions)
Μειονεκτήματα
Κανένα πρόγραμμα που να
υποστηρίζει Unicode και σωστή
αλφαβήτιση πολυτονικών
ελληνικών
Σχεδόν παντού η αλφαβήτιση
Τι είναι η XML
21
To πρόβλημα
Απεικόνιση της δομής των δεδομένων
όταν αποθηκεύονται ηλεκτρονικά και
πρέπει να διανεμηθούν με ψηφιακό
τρόπο
Ο υπολογιστής δεν μπορεί να
22
«Ψηφιακός»
ψηφιακός
λήμμα -ή -ό [psifiakós]
προφορά E1κλίση
:
α.(για
σημασία όργανο
1 μέτρησης, συσκευή κτλ.) που
εμφανίζει τις σχετικές με τη λειτουργία του
ενδείξεις με ψηφία (αριθμούς ή γράμματα):
Ψηφιακό ρολόι / χρονόμετρο. Ψηφιακές ενδείξεις.
παραδείγματα σημασίας 1
β. (ηλεκτρον.) που επεξεργάζεται τις
πληροφορίες
σημασία 2 που του διοχετεύονται
χρησιμοποιώντας αριθμητικά ψηφία ή ειδικά
σήματα:
Ψηφιακό τηλέφωνο.
παραδείγματα σημασίας 2
[λόγ. ψηφί(ο) -ακός μτφρδ. αγγλ. digital]
ετυμολογία
23
Προβλήματα από την οπτική της
επεξεργασίας στον υπολογιστή
Ο αριθμός των σημασιών δεν μπορεί να
προβλεφθεί εκ των προτέρων
Υπάρχουν ενότητες που είναι ενταγμένες μέσα
σε άλλες ενότητες ή αποτελούν υποκατηγορία
άλλης ενότητας
– παραδείγματα σε σημασίες
– καταλήξεις σε λέξεις
– είδη δανείων, προέλευση δανείων
Υπάρχουν ενότητες που αποτελούνται από
πολλά στοιχεία (ετυμολογία)
Κάθε λεξικό μπορεί να έχει διαφορετική δομή
Τι από όλα αυτά «καταλαβαίνει» ο υπολογιστής;
24
Απάντηση στα προβλήματα:
XML
H XML (Extensible markup language) είναι
μέθοδος αποθήκευσης ψηφιακών δεδομένων που
απεικονίζει την εσωτερική τους δομή
– Δεν είναι γλώσσα προγραμματισμού
– Είναι «φλύαρη»
– Είναι ανοιχτή, δηλ. μπορεί να χρησιμοποιηθεί για
κάθε είδους δεδομένα
– Υποστηρίζει πλήρως το Unicode
– Υποστηρίζεται από πολλές άλλες τεχνολογίες
25
Πως δουλεύει
Χρησιμοποιεί ετικέτες (tags) για το
μαρκάρισμα στοιχείων (elements) και
χαρακτηριστικών (attributes)
– <λήμμα κλίση="E1">ψηφιακός</λήμμα>
Εντός των ετικετών περικλείεται η πληροφορία του κάθε
στοιχείου
– Οι ετικέτες, τα στοιχεία και τα χαρακτηριστικά
μπορούν να επιλεχθούν κατά βούληση
Ακολουθεί αυστηρούς κανόνες ιεραρχικής
οργάνωσης (που πρέπει να έχουν καθοριστεί
από πρίν)
26
«Ψηφιακός» ως XML
XML εκδοχή του λήμματος
27
Πλεονεκτήματα
«Διάφανη» δομή
– Διάφανη αποθήκευση (text only)
Απεριόριστες και προσωπικές «ετικέτες»
Συμβατή με όλα τα λειτουργικά συστήματα
– Διαβάζεται από οποιοδήποτε εφαρμογή που
διαβάζει απλό κείμενο
Διαχωρισμός δομής και περιεχομένου
Μη πατενταρισμένη, ελεύθερη στη χρήση
Συνδυάζεται εύκολα με άλλες τεχνολογίες
28
Απαιτήσεις
Σαφείς, προκαθορισμένοι κανόνες που
ρυθμίζουν την ιεραρχία των
περιεχομένων
– Υπάρχουν ήδη τυποποιημένοι κανόνες για
πολλά επίπεδα πληροφορίας
Σωστή χρήση των ετικετών και των
ιεραρχικών κανόνων
– Μη έγκυρη (non valid) XML δεν
«διαβάζεται» και δεν μπορεί να
χρησιμοποιηθεί
κλίση="E1" δεν είναι το ίδιο με κλίση=„E1“!
29
Διαχωρισμός μορφής και
περιεχομένου
30
Εναλλακτικό μοντέλο
απεικόνισης: βάση
δεδομένων
Relational
databases
31
Βάση δεδομένων = Πίνακας σε
ηλεκτρονική μορφή
33
Τι συλλέγουμε;
Γιατι πράγμα (entity)
συλλέγουμε πληροφορίες
(attributes);
– Εκδόσεις και δημοσιεύσεις ή
Εκδόσεις
Δημοσιεύσεις
35
Οι πληροφορίες που συλλέγουμε
είναι σύνθετες;
36
Σχεδιασμός των πινάκων της
βάσης δεδομένων
Ο κάθε πίνακας αφορά ένα και μόνο
ένα πράγμα
– Κάθε σειρά εκπροσωπεί μία και μόνο
μία εμφάνιση του πράγματος στο
πρωτογενές μας υλικό
Περιέχει
τις πληροφορίες που είναι
απαραίτητες για την φιλολογική
ανάλυση του πράγματος
– Κάθε στήλη εκπροσωπεί ένα και μόνο
ένα χαρακτηριστικό του πράγματος
37
«Κανονικοποίηση» των
δεδομένων (data normalization)
Οι
πίνακες μπορούν να
συνδεθούν μεταξύ τους
Τίτλος Μέρος Τίτλος ποιήματος Αρ.
συλλογής στ.
Στροφή Κοχύλια, Σύννεφα Στροφή 3
40
Μειονεκτήματα βάσης
δεδομένων
41 κείμενου
Συμπεράσματα
42
Τι χρειάζεται να ξέρει ο
φιλόλογος;
43
Γιατί Πληροφορική και
Φιλολογία;
Για να διευκολύνουμε την φιλολογική
έρευνα με κατάλληλα ερευνητικά
εργαλεία
Για να καθορίζουμε εμείς που έχουμε την
κατάλληλη εκπαίδευση και ευαισθησία
τις ψηφιακές εφαρμογές που
χρησιμοποιούνται σήμερα και αύριο
Γιατί καλώς ή κακώς το ψηφιακό
περιβάλλον αντικαθιστά με ραγδαίους
ρυθμούς παραδοσιακές δομές παντού
Γιατί έχει πλάκα!
44