Διδακτικά Βιβλία του Παιδαγωγικού Ινστιτούτου

Αναζήτηση

Βρες
Εμφάνιση

2.6.3 Κώδικας Unicode

Ο κώδικας Unicode είναι ένας διεθνής κώδικας που χρησιμοποιείται για την παράσταση των χαρακτήρων στους υπολογιστές. Επειδή ο αριθμός των χαρακτήρων που μπορούμε να παραστήσουμε με τον κώδικα ASCII και τους άλλους κώδικες των 8 bit είναι περιορισμένος -το πολύ 256-, ήταν επιτακτική η ανάγκη να δημιουργηθεί ένας κώδικας ο οποίος να δίνει τη δυνατότητα για την παράσταση των γραμμάτων όλων των γλωσσών. Έτσι σχεδιάστηκε ο κώδικας Unicode, στον οποίο χρησιμοποιούνται 16 bit για την παράσταση των χαρακτήρων, οπότε μπορούν να παρασταθούν 65.536 (=[pic]) διαφορετικοί χαρακτήρες. Με τον κώδικα αυτό είναι δυνατόν να παρασταθούν οι χαρακτήρες που χρησιμοποιούνται σε όλα τα αλφάβητα του κόσμου -Λατινικό, Ελληνικό, Εβραϊκό, Κυριλλικό, Αραβικό, κ.ά.-, ακόμη και τα ιδεογράμματα που χρησιμοποιούνται στην Κορεατική, την Κινεζική και την Ιαπωνική γλώσσα. Το πρότυπο Unicode περιλαμβάνει ακόμα διάφορα διακριτικά, μαθηματικά και τεχνικά σύμβολα, βέλη, σημεία στίξης, κ.ά. Δίνει επίσης τη δυνατότητα να παρασταθούν τονούμενα γράμματα.

Το συμβολικό όνομα Unicode (Unicode) χρησιμοποιήθηκε για να εκφράσει τις τρείς βασικές ιδιότητές του: α) Παγκόσμιος - οικουμενικός (Universal). Σχεδιάστηκε για να καλύψει όλες τις γλώσσες του κόσμου. β) Μοναδικός (Unique). Κάθε χαρακτήρας έχει ακριβώς μία τιμή. γ) Ομοιόμορφος ενιαίος (Uniform). Κάθε χαρακτήρας έχει σταθερό μήκος (16 bit).

Περισσότερα για τον κώδικα Unicode

Σε κάθε χαρακτήρα του κώδικα Unicode αντιστοιχεί ένας αριθμός μήκους 16 bit, ο οποίος ονομάζεται τιμή του κωδικού (code value). Η τιμή αυτή παριστάνεται με το πρόθεμα U+ ακολουθούμενο από τη δεκαεξαδική μορφή της. Για παράδειγμα: Η τιμή U+0043 παριστάνει το χαρακτήρα "C".

Σε κάθε τέτοια τιμή αντιστοιχεί και μια ονομασία για το χαρακτήρα που παριστάνει. Για παράδειγμα: Στην τιμή U+0043 αντιστοιχεί και η ονομασία "latin capital letter c - λατινικό κεφαλαίο γράμμα c"

Η κωδικοποίηση αρχίζει από την τιμή U+0000 και τελειώνει στην τιμή U+FFFF. Οι πρώτες τιμές αντιστοιχούν στους χαρακτήρες του κώδικα ASCII και ακολουθούν οι χαρακτήρες του Ελληνικού, του Κυριλλικού, του Εβραϊκού, του Αραβικού, του Ινδικού και άλλων αλφαβήτων.

Ο κώδικας Unicode έχει και κωδικούς οι οποίοι καθορίζουν τη διεύθυνση του κειμένου, δηλαδή: Αν το κείμενο γράφεται από αριστερά προς τα δεξιά, όπως π.χ. τα Ελληνικά ή από δεξιά προς τα αριστερά, όπως π.χ. τα Αραβικά.

Όλα αυτά καταλαμβάνουν στο πρότυπο Unicode σχεδόν 39.000 θέσεις, ενώ υπάρχουν 18.000 κενές θέσεις για μελλοντική επέκταση. Επίσης υπάρχουν δεσμευμένες πάνω από 6.000 θέσεις οι οποίες διατίθενται για ιδιωτική χρήση. Μπορεί, δηλαδή, οποιοσδήποτε να χρησιμοποιήσει τους κωδικούς αυτούς για να παραστήσει τους δικούς του χαρακτήρες και τα δικά του σύμβολα.

Οι πιο διαδεδομένες τεχνικές για την παράσταση των δεδομένων στον υπολογιστή είναι: α) για τα αριθμητικά δεδομένα - ο κώδικας BCD - η μέθοδος συμπληρώματος ως προς 2 - η μέθοδος κινητής υποδιαστολής β) για τους χαρακτήρες, οι κώδικες - ASCII - EBCDIC - UNICODE.