Συμφραστικοί Πίνακες 

Εισαγωγή στον Συμφραστικό Πίνακα 

Γιώργος Σεφέρης (Ποιητικό έργο) 

Η ηλεκτρονική επεξεργασία

Σε μια πρώτη φάση πληκτρολογήθηκε το κείμενο (base-text), που ταυτόχρονα με­τατράπηκε, όπως σημειώθηκε, από πολυτονικό σε μονοτονικό. Στο κείμενο αυτό προ­στέθηκε σήμανση (tagging) σε XML, για να χωριστούν τα συμπεριλαμβανόμενα τμή­ματα κειμένου κατά τις ειδικές τους λειτουργίες (τίτλοι ποιημάτων και συλλογών, αφιερώσεις, motti, ημερομηνίες, ξενόγλωσσες λέξεις σε λατινικό αλφάβητο, η αρχή και το τέλος των στροφών και η σελιδαρίθμηση·η αρίθμηση των ποιημάτων και η στι­χαρίθμησή τους έγινε με αυτόματο τρόπο)·επίσης, για να οριστούν ποια τμήματα δεν ενδιέφερε να συμπεριληφθούν στην αποδελτίωση του ΣΠΛ.

Το επόμενο βήμα ήταν να χρησιμοποιηθεί το πρόγραμμα "Concordance 2.0" του Rob Watt, ένα από τα καλύτερα του είδους, για να παραχθεί η πρώτη concordance με τη βοήθεια της προσημασμένης πληροφορίας. Το λαμπρό αυτό εργαλείο παρουσιάζει παραταύτα σοβαρά προβλήματα, όταν χειρίζεται ελληνικούς χαρακτήρες: αγνοεί ορι­σμένους χαρακτήρες όπως το τελικό σίγμα, ενώ η αλφαβητική ακολουθία του λατι­νικού αλφαβήτου διαφέρει από αυτή του ελληνικού. Χρειάστηκε όλα τα τονισμένα φωνήεντα να αντικατασταθούν από άλλα, καθώς το πρόγραμμα δεν αναγνωρίζει τα τονούμενα ά και Ά ως παραλλαγές του ίδιου γράμματος.[1] Το πρόβλημα επιλύθηκε με την αντιστοίχηση των ά Ά, έ Έ, ή Ή, ί Ί, ό Ό, ύ Ύ και ώ Ώ με αχρησιμοποίητους λατινι­κούς χαρακτήρες.

Ως προς τα συμφραζόμενα της έντυπης concordance: Όπως προαναφέρθηκε, θελή­σαμε να δώσουμε όσο γίνεται πλουσιότερα συμφραζόμενα. Επιλέξαμε να δίνουμε ολόκληρη τη στροφή γύρω από τη μεμονωμένη λέξη, αν και γνωρίζαμε ότι το context αυτό θα αποδεικνυόταν υπέρ το δέον ευρύ για τις περισσότερες περιπτώσεις. Η οικο­νομία αποτελεί βασική αρχή στην εκπόνηση των ΣΠΛ, διότι ανήκει στη φύση των έργων αυτών να είναι πολλαπλάσιας έκτασης σε σχέση με τα πρωτότυπα κείμενα στα οποία στηρίζονται. (Στην περίπτωσή μας, από ένα αρχείο κείμενο-βάσης έκτασης 350 kb, πήραμε έναν ΣΠΛ της τάξεως των 115 ΜΒ σε ASCII.)

Αποφασίσαμε το context να μην ορίζεται με ομοιόμορφα μηχανικό τρόπο (λ.χ., με τον αριθμό χαρακτήρων, ένθεν και ένθεν εκάστου ΛΤ). Κάτι τέτοιο θα ενείχε τον προ­φανή κίνδυνο κάποτε να συμπεριλαμβάνονται άχρηστα τμήματα κειμένου, και να παραλείπονται άλλα με σημαντικές πληροφορίες. Εφόσον είχαμε ήδη συμφωνήσει ότι το context δεν θα ξεπερνούσε την ποιητική στροφή, και ότι ο κεντρικός ποιητικός στίχος θα διατηρούνταν ακέραιος, το ζήτημα ήταν πόσο context θα δινόταν επιπλέον του στίχου αυτού (αν αυτό ήταν μικρότερο της διαθέσιμης "αράδας της concordance"). Η μέγιστη αράδα ορίστηκε στους 86 χαρακτήρες (ή, συμπεριλαμβανομένης της αφα­νούς σήμανσης, στους 93 χαρακτήρες).

Επειδή χρειαστήκαμε έναν ορισμό των όρων «λέξη», «πρόταση», «παράγραφος», για τη σταδιακή μείωση του κάθε context, γράφηκε ένα πρόγραμμα σε Visual Basic for Applications στο Word 2000, που να κάνει τα εξής για κάθε context:

  1. να ορίζει τη σχετική λέξη-λήμμα και να την προσημαίνει, έτσι ώστε να μην χά­νεται·
  2. να προσημαίνει και τον στίχο της λέξης-λήμματος·
  3. να ελέγχει το μέγεθος του context: εάν τούτο υπερβαίνει τους 123 χαρακτήρες (93 + 30), να απαλείφει τον τελευταίο στίχο (εκτός αν είναι ο στίχος που περιέχει τη λέξη-λήμμα)·αν πάλι είναι μεγαλύτερο των 123 χαρακτήρων, να απαλείφει τον πρώτο στίχο (εκτός αν είναι ο στίχος που περιέχει τη λέξη-λήμμα), και ούτω καθεξής, έως ότου το context γίνει μικρότερο των 123 χαρακτήρων, ή έως ότου απομείνει μόνον ένας ακέραιος στίχος·
  4. στη συνέχεια, να μειώνει το context κατά λέξεις ακέραιες, να απαλείφει την τε­λευταία, να απαλείφει την πρώτη, κ.ο.κ., έως ότου φτάσουμε στον αριθμό 93, αρκεί η λέξη-λήμμα να μένει πάντα ακέραιη. Το ίδιο γινόταν με το αμέσως επό­μενο context κ.ο.κ.. Με τον τρόπο αυτό, τα contexts μειώθηκαν κατά 75%, και μπόρεσαν να χωρέσουν σε μια αράδα της τυπωμένης concordance.

Τα τελευταία βήματα ήταν να γίνει ο αλφαβητισμός των ΛΤ, να τοποθετηθούν οι παραπομπές και οι κεφαλίδες των σελίδων στη σωστή τους θέση, και να γίνει η μορ­φοποίηση των λέξεων-λημμάτων μέσα στο οικείο context.

Ας σημειωθεί ότι η ηλεκτρονική εκδοχή της concordance αυτής, μαζί με συμπληρω­ματικά αρχεία του κειμένου-βάσης και του λημματολογίου, θα αναρτηθεί σύντομα στον Ηλεκτρονικό Κόμβο του Κέντρου Ελληνικής Γλώσσας: http://www.komvos.edu.gr. Εκεί θα συνδεθεί με τα άλλα τέσσερα ήδη καταχωρισμένα λεξικά της ελληνικής γλώσσας, τα οποία έχουν μετατραπεί και αυτά σε βάσεις δεδομένων. Οι δυνατότητες συνδυαστικών αναζητήσεων, που θα αποκτήσει τότε ο ΣΠΛ του Σεφέρη, στο ενοποιη­μένο λεξικογραφικό περιβάλλον του Ηλεκτρονικού Κόμβου, θα πολλαπλασιαστούν σε σχέση με την έντυπη concordance. Το ίδιο και οι λεξικογραφικές και οι φιλολογικές εφαρμογές για την έρευνα και την εκπαιδευτική πράξη.

1 Ο λόγος είναι ότι το πρόγραμμα δεν καταλαβαίνει το Unicode, και συνεπώς έπρεπε να δουλέψουμε με το standard 8 bit ASCII κείμενο με ελληνικό encoding. Αυτό το encoding σε MS Windows (συμπεριλαμβανομένου του Windows 2000) είναι τέτοιο, ώστε και οι ελληνικοί και οι σταθεροί λατινικοί χαρακτήρες να συνωστίζο­νται, για να χωρέσουν στο σύνολο των 256 διαθέσιμων χαρακτήρων της ίδιας γραμματοσειράς. Αποτέλε­σμα: με προγραμματιστική επέμβαση πετύχαμε ώστε το πρώτο υποσύνολο της γραμματοθήκης να κατα­λαμβάνεται από τους λατινικούς χαρακτήρες, ενώ το δεύτερο υποσύνολο, που κανονικά μένει για ειδικούς χαρακτήρες, όπως είναι οι τόνοι, τα διαλυτικά κλπ., χρησιμοποιήθηκε για τους ελληνικούς χαρακτήρες. Σε άλλα συστήματα, όπως το Macintosh, οι ελληνικοί χαρακτήρες ήτανε τοποθετημένοι σε ξεχωριστή γραμμα­τοσειρά 256 χαρακτήρων, έτσι ώστε το μικρό α να βρίσκεται στη θέση του a , κ.ο.κ.

Τελευταία Ενημέρωση: 06 Αύγ 2011, 9:25