Η AI αποκρυπτογραφεί ιστορικά κρυπτογραφημένα αρχεία 400 ετών του Βατικανού

Σύνοψη

Υπολογίζεται ότι το 1% των παγκόσμιων ιστορικών αρχείων παραμένει κρυπτογραφημένο και μη προσβάσιμο στους ερευνητές.
Εξειδικευμένα συστήματα Τεχνητής Νοημοσύνης αποκρυπτογράφησαν τον κώδικα Borg του Βατικανού (ηλικίας 400 ετών) σε μόλις 29 λεπτά.
Τα έγγραφα αποκαλύπτουν ιατρικές συνταγές, διπλωματικά μυστικά και σχέδια δολοφονίας (π.χ. επιστολές του Καρόλου Ε’).
Η τεχνολογία βασίζεται σε συνδυασμό οπτικής αναγνώρισης χαρακτήρων (OCR), νευρωνικών δικτύων και μοντέλων γλωσσικής ανάλυσης.
Στην Ελλάδα, αντίστοιχες μέθοδοι εφαρμόζονται πλέον για την ψηφιοποίηση βυζαντινών χειρογράφων και κρυπτογραφημένων μηνυμάτων της Φιλικής Εταιρείας.

Η ανάλυση ιστορικών κειμένων περνά σε νέα φάση μέσω της αξιοποίησης προηγμένων μοντέλων Τεχνητής Νοημοσύνης (AI). Αρχεία που παρέμεναν αδιάβαστα για αιώνες, κλειδωμένα πίσω από πολύπλοκους κώδικες, αρχίζουν να παραδίδουν τα δεδομένα τους. Οι ιστορικοί και οι γλωσσολόγοι υπολογίζουν ότι περίπου το 1% του συνολικού αρχειακού υλικού παγκοσμίως, συμπεριλαμβανομένων διπλωματικών αναφορών, στρατιωτικών εγγράφων και προσωπικών επιστολών, είναι μερικώς ή ολικώς κρυπτογραφημένο.

Η συμβατική αποκρυπτογράφηση απαιτεί τεράστιο χρόνο ή την ύπαρξη του αρχικού «κλειδιού», ωστόσο σήμερα, η υπολογιστική γλωσσολογία αναλαμβάνει τον ρόλο του αποκωδικοποιητή, εφαρμόζοντας τεχνικές μηχανικής μάθησης που αναλύουν χιλιάδες σύμβολα σε λίγα λεπτά, αποκαλύπτοντας δεδομένα με τεράστια ιστορική αξία.

Τα συστήματα AI αξιοποιούν εργαλεία αναγνώρισης χειρόγραφου κειμένου (όπως το Transkribus) και νευρωνικά δίκτυα εκπαιδευμένα σε ιστορικά γλωσσικά πρότυπα. Εντοπίζουν τη δομή του κειμένου, μετατρέπουν τα άγνωστα σύμβολα σε ψηφιακά δεδομένα και εφαρμόζουν αλγορίθμους συχνοτήτων. Έτσι, τα σύγχρονα συστήματα αποκρυπτογράφησαν τον κώδικα Borg των 408 σελίδων, με 34 άγνωστα σύμβολα, σε 29 λεπτά, παρακάμπτοντας πλήρως την ανάγκη για παραδοσιακά κλειδιά κρυπτογράφησης.

Η τεχνική διαδικασία ξεκινά με την ανάλυση διάταξης. Το λογισμικό σαρώνει το έγγραφο, αναγνωρίζοντας τις γραμμές, τα περιθώρια και τις παραγράφους, απομονώνοντας τον θόρυβο (π.χ. φθορές στο χαρτί, λεκέδες, σβησίματα). Στη συνέχεια, τα συστήματα οπτικής αναγνώρισης (OCR) και αναγνώρισης χειρόγραφου κειμένου (HTR) σαρώνουν τα μοτίβα της μελάνης.

Εκεί ακριβώς εντοπίζεται η μεγαλύτερη πρόκληση: τα συμβατικά Μεγάλα Γλωσσικά Μοντέλα (LLMs) απαιτούν terabytes δεδομένων για να εκπαιδευτούν σωστά. Ωστόσο, τα ιστορικά κρυπτογραφημένα κείμενα είναι σπάνια και περιορισμένα σε όγκο. Για να λυθεί το πρόβλημα της έλλειψης δεδομένων, ερευνητές από το Πανεπιστήμιο της Στοκχόλμης και το Πανεπιστήμιο του Όσλο δημιούργησαν εξειδικευμένες βάσεις δεδομένων (π.χ. de-crypt.org). Αυτές οι πλατφόρμες τροφοδοτούν τα μοντέλα με χιλιάδες ήδη σπασμένους κώδικες και γλωσσικά σώματα από ιστορικές εκδοχές των Λατινικών, της Γερμανικής και της Γαλλικής. Το σύστημα μαθαίνει να εντοπίζει επαναλαμβανόμενα μοτίβα και στατιστικές ανωμαλίες, κάνοντας συνδυασμούς εκατομμύρια φορές ταχύτερα από τον ανθρώπινο εγκέφαλο.

Ο κώδικας Borg και οι επιστολές της Μαρίας Στιούαρτ

Ένα από τα πλέον χαρακτηριστικά παραδείγματα της νέας τεχνολογίας είναι η αποκρυπτογράφηση του λεγόμενου κώδικα Borg. Πρόκειται για ένα χειρόγραφο του 17ου αιώνα που βρισκόταν στα αρχεία της Βιβλιοθήκης του Βατικανού για περισσότερα από 400 χρόνια. Ο κώδικας, που απαρτίζεται από 34 κρυπτικά σύμβολα, αποδείχθηκε αδύνατο να μεταφραστεί με τις παραδοσιακές μεθόδους.

Η ερευνητική ομάδα εφάρμοσε το σύστημα αποκρυπτογράφησης, το οποίο μέσα σε λιγότερο από μισή ώρα ανέλυσε ένα δείγμα 500 συμβόλων. Τα αποτελέσματα εξέπληξαν την επιστημονική κοινότητα. Το κείμενο δεν αφορούσε υψηλή θεολογία, αλλά ιατρικές συνταγές. Οι συγγραφείς του κατέγραφαν θεραπείες, όπως τη χρήση υψηλής ποιότητας κόκκινου κρασιού ή ζυμωμένου μοσχοκάρυδου για την αντιμετώπιση της δυσεντερίας. Οι ιστορικοί εικάζουν ότι ο λόγος της κρυπτογράφησης ήταν ο φόβος: η λεπτή γραμμή μεταξύ ιατρικής πρακτικής και μαγείας τον 17ο αιώνα έκανε την απόκρυψη τέτοιων γνώσεων ζήτημα ζωής και θανάτου.

Η Τεχνητή Νοημοσύνη έχει φέρει στο φως και έγγραφα τεράστιας διπλωματικής σημασίας. Ένα δίκτυο αλγορίθμων βοήθησε στην αποκωδικοποίηση γραμμάτων της Μαρίας Στιούαρτ (Μαρία Α’ της Σκωτίας), στα οποία αποκαλύπτεται η πλήρης εμπλοκή της σε συνωμοσίες για την ανάκτηση του θρόνου της, καθώς και η τεταμένη σχέση με τον γιο της, Βασιλιά Ιάκωβο. Αντίστοιχα, αναλύθηκε επιστολή 500 ετών του Αυτοκράτορα της Αγίας Ρωμαϊκής Αυτοκρατορίας, Καρόλου Ε’, η οποία περιείχε πληροφορίες για ένα σχέδιο δολοφονίας του από Ιταλό μισθοφόρο. Πιο πρόσφατα, η ανάλυση εγγράφων από τον Τριακονταετή Πόλεμο (1637) αποκάλυψε έγκαιρες προειδοποιήσεις για συνωμοσίες μεταξύ των προτεσταντών συμμάχων της Σουηδίας.

Το Project Descrypt και οι υβριδικές λύσεις

Η τεχνολογική εξέλιξη δεν σταματά στην αποσπασματική ανάλυση. Το διεθνές ερευνητικό πρόγραμμα Descrypt επικεντρώνεται στη δημιουργία ενός ολιστικού συστήματος. Ο στόχος είναι να αναπτυχθεί ένα μοντέλο το οποίο θα λαμβάνει την εικόνα του χειρογράφου και θα πραγματοποιεί ταυτόχρονα την αναγνώριση των συμβόλων και την αποκρυπτογράφηση του περιεχομένου τους, εξαλείφοντας το ενδιάμεσο στάδιο της χειροκίνητης επεξεργασίας.

Αυτή η υβριδική προσέγγιση είναι κρίσιμη για τη βελτίωση της ακρίβειας. Τα εργαλεία ενσωματώνουν δυνατότητα αυτο-βελτίωσης, όπου ο αλγόριθμος αναπροσαρμόζει τα βάρη του βάσει των διορθώσεων που εισάγουν οι ανθρώπινοι εμπειρογνώμονες. Ουσιαστικά, κάθε φορά που ένας ιστορικός διορθώνει τη μετάφραση ενός μεμονωμένου συμβόλου, το δίκτυο αναβαθμίζει τη συνολική του κατανόηση, επιταχύνοντας τις μελλοντικές σαρώσεις.

Η ελληνική διάσταση: Βυζάντιο, Φιλική Εταιρεία και ψηφιοποίηση

Η εφαρμογή αυτών των τεχνολογιών διαθέτει άμεσο και κρίσιμο αντίκτυπο στην ελληνική ακαδημαϊκή και ερευνητική πραγματικότητα. Η Ελλάδα φιλοξενεί τεράστιο όγκο αρχειακού υλικού, από τα βυζαντινά χειρόγραφα των Μονών του Αγίου Όρους μέχρι την αλληλογραφία της Οθωμανικής περιόδου και τα αρχεία του 19ου αιώνα.

Ήδη τα ελληνικά πανεπιστήμια και ερευνητικά κέντρα αναπτύσσουν μοντέλα OCR εκπαιδευμένα στην πολυτονική γραφή, στις βυζαντινές συντομογραφίες και στα συστήματα κρυπτογράφησης της Ελληνικής Επανάστασης. Για παράδειγμα, η εκτεταμένη κρυπτογραφική αλληλογραφία της Φιλικής Εταιρείας, που μέχρι σήμερα αναλύεται αποσπασματικά βάσει των διασωθέντων αλφαβήτων της εποχής, μπορεί να σαρωθεί μαζικά. Οι αλγόριθμοι μηχανικής μάθησης είναι ικανοί να εντοπίσουν άγνωστες συνδέσεις μεταξύ προσώπων, χρηματοδοτήσεων και τοπικών εξεγέρσεων, μετατρέποντας κρυμμένα δεδομένα σε δομημένη ψηφιακή πληροφορία.

Η δυνατότητα ταχείας ψηφιοποίησης και κατανόησης δυσανάγνωστων ιστορικών στοιχείων αποτελεί συγκριτικό πλεονέκτημα για τη διατήρηση της πολιτιστικής κληρονομιάς. Με εργαλεία όπως αυτά που αναπτύσσει το Descrypt, η ταχύτητα ψηφιοποίησης εθνικών αρχείων ενδέχεται να αυξηθεί εκθετικά τα επόμενα χρόνια, μειώνοντας δραματικά το κόστος της ιστορικής έρευνας.

Source link

Ο κώδικας Borg και οι επιστολές της Μαρίας Στιούαρτ

Το Project Descrypt και οι υβριδικές λύσεις

Η ελληνική διάσταση: Βυζάντιο, Φιλική Εταιρεία και ψηφιοποίηση

Related posts

Ερευνητές εξάγουν ενέργεια από «μαύρη τρύπα» σε συνθήκες εργαστηρίου!

Η Meta αποσύρει το Muse Image από το Instagram μετά τις αντιδράσεις για τα AI Deepfakes

Η Apple μηνύει την OpenAI για κλοπή εμπορικών μυστικών