"Institute of Educational Policy" Books
Ψηφιακή Παράσταση Video
Τα τελευταία χρόνια η εξέλιξη στις μεθόδους συμπίεσης έχει επιτρέψει την αναπαραγωγή κινούμενης εικόνας ή video μέσω των υπολογιστών χαμηλού κόστους. Η κινούμενη εικόνα είναι πιο σύνθετη από την απλή εικόνα ή τον ήχο, καθώς περιέχει εικόνα και ήχο που συγχρονίζονται. Η αρχή πάνω στην οποία στηρίζεται η αναπαραγωγή video είναι ίδια με αυτή του κινηματογράφου. Σε κάθε δευτερόλεπτο εναλλάσσονται αρκετές εικόνες με ταχύτητα και μικροδιαφορές μεταξύ τους, δίνοντας στον άνθρωπο την ψευδαίσθηση της κίνησης. Το ανθρώπινο μάτι δεν μπορεί να αντιληφθεί εύκολα αλλαγές με ρυθμό πάνω από 20 εικόνες/δευτερόλεπτο και επομένως νομίζει πως βλέπει μια συνεχόμενη σκηνή. Στον κινηματογράφο έχουμε 24 εικόνες (ή καρέ όπως λέγονται) ανά δευτερόλεπτο, ενώ στην τηλεόραση κυμαίνονται από 25 καρέ/δευτερόλεπτο (σύστημα PAL στην Ευρώπη) έως και 30 καρέ/δευτερόλεπτο (NTSC στην Αμερική).
Οι συχνότητες αυτές αναφέρονται στο ρυθμό εναλλαγής των ακίνητων εικόνων για να σχηματιστεί το video και δεν έχουν σχέση με τη συχνότητα ανανέωσης του πλαισίου που θα δούμε στην τεχνολογία των οθονών.
Αν μια εικόνα διαστάσεων 640x480 εικονοστοιχείων με 24 bits χρώματος για κάθε εικονοστοιχείο, έχει κανονικό μέγεθος 920 KB, τότε για ένα δευτερόλεπτο video με ρυθμό 25 εικόνων ανά δευτερόλεπτο θα χρειαζόμασταν 24 ΜΒ περίπου. Για μια ταινία 90 λεπτών θα χρειαζόμασταν 24MB/sec x 60sec/min x 90 min περίπου 3500 GB!!
Το μέγεθος αυτό είναι τεράστιο για την σημερινή τεχνολογία των αποθηκευτικών μέσων αλλά και των δικτύων μετάδοσης δεδομένων. Η συμπίεση εδώ είναι υποχρεωτική.
Για να συμπιεστεί το video, η κάθε ακίνητη εικόνα συμπιέζεται με κάποιο απωλεστικό αλγόριθμο συμπίεσης εικόνας, συνήθως τον JPEG. Αυτό όμως δεν αρκεί καθώς έστω και υποδεκαπλασιασμός του μεγέθους της ακίνητης εικόνας, θα είχε στο παραπάνω παράδειγμα αντίστοιχη μείωση στην τιμή των 350GB που εξακολουθεί να είναι τεράστιο.
Ο μεγάλος όγκος δεδομένων προέρχεται από τον μεγάλο αριθμό των εικόνων ή πλαισίων, όπως θα τα λέμε στο εξής, ανά δευτερόλεπτο. Η αίσθηση της κίνησης βασίζεται στην ταχύτατη εναλλαγή εικόνων που διαφέρουν πολύ λίγο μεταξύ τους, ώστε το μάτι να μην βλέπει ξαφνικά μεγάλες διαφορές. Η τεχνολογία συμπίεσης σε κινούμενη εικόνα βασίζεται στην απομάκρυνση της πλεονάζουσας πληροφορίας που επαναλαμβάνεται στα διαδοχικά πλαίσια. Η τεχνική που χρησιμοποιείται για την ανίχνευση της πλεονάζουσας πληροφορίας, βασίζεται στην σύγκριση διαδοχικών πλαισίων και στην εύρεση των διαφορών μεταξύ τους. Στη συνέχεια αντί να κωδικοποιηθεί το πλαίσιο, κωδικοποιούμε μόνο τις διαφορές. Το τρέχον πλαίσιο ανακατασκευάζεται από το προηγούμενο και τη διαφορά του με αυτό.
Στην πράξη τα σχήματα κωδικοποίησης είναι αρκετά πιο σύνθετα από την παραπάνω περιγραφή. Η διαδικασία εύρεσης των διαφορών λέγεται αλγόριθμος εκτίμησης κίνησης (motion estimation algorithm). Έχουμε δύο διαδοχικά πλαίσια που ονομάζουμε προηγούμενο και τρέχον. Τα δύο πλαίσια διαιρούνται σε στοιχειώδεις μικρές τετραγωνικές περιοχές (blocks). Η κάθε περιοχή του τρέχοντος πλαισίου αναζητείται στο προηγούμενο. Όταν βρεθεί, αντί να κωδικοποιήσουμε την περιοχή με κάποιο αλγόριθμο κωδικοποίησης εικόνας, κωδικοποιούμε το διάνυσμα που δείχνει τις συντεταγμένες του σημείου μετατόπισης, άρα σημαντικά λιγότερη πληροφορία και επομένως επιτυγχάνουμε μεγάλη συμπίεση.
Το πιο διαδεδομένο πρότυπο συμπίεσης για κινούμενη εικόνα είναι το MPEG-2. Για να κωδικοποιήσουμε ένα video σύμφωνα με το πρότυπο αυτό, διαιρούμε το συνολικό αριθμό των 25 ή 30 ή περισσοτέρων πλαισίων το δευτερόλεπτο σε κατηγορίες.