Per secoli i grandi archivi europei hanno custodito testi che nessuno sapeva più leggere, avvolti in una trama di segni, cifre e depistaggi che doveva garantire riservatezza e talvolta sopravvivenza. Oggi quei documenti — lettere politiche, ricettari medici, messaggi diplomatici, corrispondenze private, rituali di società segrete, confessioni sentimentali — stanno tornando lentamente leggibili grazie all’intelligenza artificiale. Siamo davanti a una nuova forma di collaborazione tra filologia, crittoanalisi e apprendimento automatico, capace di accelerare un lavoro che resta, nella sua sostanza, un esercizio di pazienza e interpretazione.
Uno dei casi più affascinanti di questa nuova stagione riguarda un manoscritto conservato nella Biblioteca Vaticana, rimasto sostanzialmente indecifrato per oltre quattro secoli e noto come cifrario Borg. Si tratta di un volume di 408 pagine, segnato da 34 simboli oscuri, da alcune lettere romane e da una prima pagina scritta in arabo, accompagnato da una nota che lascia intuire il contenuto del libro: rimedi segreti “per le affezioni del corpo umano”. Molte pratiche curative non ufficiali, nel primo mondo moderno, vivevano infatti in una zona ambigua, a metà tra sapere empirico, tradizione medica e rischio di accusa per stregoneria. Non stupisce, dunque, che un repertorio di rimedi potesse essere cifrato. Quello che colpisce è che proprio un testo apparentemente minore, quasi marginale rispetto ai grandi archivi politici e diplomatici, abbia mostrato con tanta evidenza il potenziale delle nuove tecniche di decifrazione. Una volta sciolto il codice, i ricercatori si sono trovati davanti a una casistica terapeutica insieme bizzarra e rivelatrice, fatta di vino rosso di alta qualità, noce moscata lasciata fermentare nell’impasto e altri rimedi che ci restituiscono non solo una medicina clandestina, ma un intero modo di pensare il corpo e la malattia.
Beáta Megyesi, linguista computazionale dell’Università di Stoccolma e tra le figure più rilevanti di questa nuova frontiera, descrive il lavoro di decifrazione come una forma di indagine quasi poliziesca, nella quale ogni simbolo può aprire una breccia verso “un mondo storico perduto”. In molti casi i documenti cifrati contengono informazioni diplomatiche, strategie militari, persino storie d’amore, cioè tutto ciò che gli attori del passato avevano interesse a sottrarre alla circolazione pubblica. E poiché si tratta di materiale spesso escluso dalle fonti più accessibili, la sua riemersione può modificare in modo significativo ciò che crediamo di sapere di singole figure o interi periodi.
Un esempio eloquente è quello delle lettere di Maria Stuarda, decifrate di recente e rivelatrici del suo coinvolgimento in tentativi di riconquista del trono e della tensione con il figlio Giacomo. Ma si potrebbero citare anche altri casi. Una lettera di Carlo V, per esempio, scritta con 120 simboli diversi distribuiti su tre pagine, ha richiesto sei mesi di lavoro a Cecile Pierrot e ai suoi colleghi dell’INRIA di Nancy. Una volta decifrata, ha mostrato un imperatore terrorizzato dall’idea di essere assassinato da un mercenario italiano al servizio del re di Francia.

Molti cifrari sono scritti a mano, con grafie irregolari e inchiostri sbiaditi. Una lettera di due pagine, quando utilizza simboli sconosciuti, può richiedere una giornata intera di trascrizione. È qui che l’AI comincia davvero a cambiare il lavoro. Il team di Michelle Waldispühl dell’Università di Oslo ha mostrato come piattaforme di trascrizione automatica come Transkribus possano già oggi accelerare in modo sensibile la conversione di certi testi storici in formato digitale. Nel caso di una lettera segreta inviata nel 1637 dal nobile Sigismund Heusner von Wandersleben al cancelliere svedese Axel Oxenstierna, nel pieno della Guerra dei Trent’anni, lo strumento ha funzionato abbastanza bene perché il testo era solo parzialmente cifrato e scritto con una certa regolarità. Dopo il caricamento dell’immagine, il sistema ha generato una base di lavoro poi corretta manualmente dagli studiosi. Non è ancora l’automazione piena, ma è un salto notevole rispetto alla trascrizione integrale a mano.
I limiti restano, e sono seri. Le piattaforme oggi disponibili vanno ancora in difficoltà quando incontrano segni inventati, simboli astrologici, numerazioni eccentriche o reperti grafici troppo lontani dai modelli su cui sono state addestrate. Proprio per questo i ricercatori hanno avviato il progetto Descrypt, che punta a costruire strumenti addestrati su una gamma molto più ampia di alfabeti, calligrafie e sistemi simbolici.
I cifrari storici possono essere relativamente semplici, come quelli a sostituzione uno-a-uno, in cui ogni simbolo corrisponde a una lettera dell’alfabeto, ma possono anche diventare estremamente opachi con simboli inutili inseriti per depistare, più segni per una sola lettera o testi in lingue sconosciute o miste. Nel caso della lettera di Von Wandersleben, per esempio, vennero usati fino a otto simboli diversi per la lettera E. A quel punto la macchina da sola non basta: serve la conoscenza del tedesco antico, serve il contesto storico, serve un continuo dialogo tra ipotesi algoritmiche e validazione umana. Waldispühl parla giustamente di uno “scambio continuo di informazioni tra macchina e validatore umano”, formula che andrebbe assunta come definizione generale di questo nuovo metodo.
Il passo ulteriore, su cui il gruppo di Megyesi sta lavorando con particolare intensità, consiste nel tentare di saltare del tutto la fase di trascrizione separata, facendo in modo che la macchina analizzi direttamente la fotografia della pagina e passi quasi senza soluzione di continuità dalla percezione del segno alla decifrazione del contenuto. Il test più noto è stato condotto sul cifrario Copiale, un manoscritto di 105 pagine già decifrato in precedenza, che descrive rituali e ideali di una società segreta tedesca del Settecento. Addestrata dapprima su una scrittura generica e poi su righe del cifrario già associate al testo tedesco, l’AI è riuscita ad interpretare correttamente porzioni che non aveva mai visto prima. L’esperimento, più ancora che per il risultato specifico, è interessante perché mostra che è possibile pensare a un sistema che impari a riconoscere, trascrivere e decifrare in un solo gesto computazionale.
Questa prospettiva diventa particolarmente preziosa quando la lingua sottostante è ignota o molto incerta. In casi del genere, un sistema capace di mettere in relazione immagini e grandi corpora storici potrebbe aprire possibilità nuove non solo per i cifrari moderni, ma perfino per scritture antiche ancora indecifrate. Per arrivarci, però, serve una massa critica di dati. Ed è forse questo il problema più difficile di tutti. I grandi modelli linguistici che oggi alimentano chatbot e sistemi di generazione testuale sono stati addestrati su quantità sterminate di parole contemporanee, ma nulla di simile esiste per i cifrari storici. Per colmare questa lacuna, i gruppi di ricerca coinvolti in Descrypt stanno costruendo un vero e proprio database internazionale di testi cifrati, recuperando materiali dispersi negli archivi, classificandoli e rendendoli comparabili. Tra questi figurano anche 400 misteriose cartoline cifrate a cavallo tra la fine dell’Ottocento e l’inizio del Novecento, alcune delle quali, nelle porzioni già lette, si sono rivelate lettere d’amore in tedesco.
Il gruppo di Megyesi ha già sviluppato uno strumento di intelligenza artificiale simile a un chatbot, capace di combinare trascrizione e decrittazione in un unico passaggio, integrando modelli linguistici addestrati su testi storici, algoritmi di decrittazione basati su corrispondenze tra simboli e lettere, e sistemi di riconoscimento dell’immagine per le grafie annotate. Il punto più promettente è che il sistema può anche auto-migliorarsi incorporando le correzioni fornite dagli esperti che lo usano, secondo una logica di apprendimento progressivo che avvicina il lavoro storico a una forma sofisticata di intelligenza collaborativa tra uomo e macchina. Quando il chatbot è stato messo alla prova sul cifrario Borg, è riuscito a tradurre e decodificare un estratto di 500 simboli in poco più di 29 minuti, offrendo perfino una resa in inglese e documentando il proprio percorso inferenziale, così da permettere ai ricercatori di verificare che la soluzione non fosse il prodotto di una “allucinazione” algoritmica.
Questi strumenti potrebbero diventare decisivi non solo per i cifrari medievali e moderni finora rimasti opachi, ma anche per le grandi scritture del passato che nessuno sa ancora leggere, dal Disco di Festo alla Lineare A. Per la prima volta disponiamo di sistemi capaci di aiutare attivamente a produrre leggibilità là dove finora c’era solo oscurità.





