Comment déchiffrer un vieux manuscrit calciné
Ceci est un rouleau de papyrus:

Il a vĂ©cu des jours meilleurs. Il faut dire quâil a Ă©tĂ© dĂ©terrĂ© au dix-huitiĂšme siĂšcle, 1700 ans aprĂšs avoir Ă©tĂ© recouvert de cendres et de dĂ©bris, et complĂštement carbonisĂ©, lors de lâĂ©ruption du VĂ©suve. Avant ça, il se trouvait dans une belle villa dâHerculaneum, bien installĂ© dans une bibliothĂšque avec plusieurs centaines de ses camarades. Les historiens aimeraient beaucoup pouvoir lire ce quâil y a dans ce papyrus, et dans les centaines dâautres rĂ©cupĂ©rĂ©s dans la villa. Mais comment faire pour lire un manuscrit carbonisĂ© et impossible Ă dĂ©rouler sans complĂštement le dĂ©truire ?
Câest Ă cela que sâattaquent celles et ceux qui participent au âVesuvius Challengeâ, et câest pas de la tarte ! Mais les premiĂšres lettres ont rĂ©cemment Ă©tĂ© dĂ©chiffrĂ©es, ce qui laisse Ă espĂ©rer quâune solution plus ou moins complĂšte est au moins possible. Pour arriver Ă faire ça, les rouleaux ont Ă©tĂ© imagĂ©s avec un CT scan Ă haute rĂ©solution (8”m par pixel), ce qui permet de âvoirâ Ă lâintĂ©rieur. Plus ou moins â câest un peu plus compliquĂ© que ça.
Il y a trois étapes principales pour résoudre le problÚme:
- Dérouler virtuellement le manuscrit pour retrouver des fragments plus ou moins intacts
- Retrouver sur ces fragments dĂ©roulĂ©s des traces dâencre
- Lire
Dérouler virtuellement le manuscrit
Une coupe transversale du rouleau ressemble à ça (toutes les images proviennent de scrollprize.org):

Si vous voulez voyager à travers les coupes, il y a une vidéo de 8 minutes qui traverse tout le rouleau: https://www.youtube.com/watch?v=cY5BIxkf5m0&t=33s.
On peut assez clairement voir les diffĂ©rentes âcouchesâ du rouleau. Mais pour les âdĂ©roulerâ, il ne suffit pas de âclairementâ voir, il faut faire voir Ă la machine. Ce qui signifie, pour lâinstant en tout cas, de manuellement venir annoter les images pour âsuivreâ le trajet du parchemin, Ă travers les couches, jusquâĂ ce quâon ait un fragment de taille raisonnable pour lequel on est sĂ»r dâavoir bien identifiĂ© le papyrus. On peut ensuite simuler le âdĂ©roulementâ de ce fragment pour obtenir un volume aplati. Ici, on voit ce que ça donne:

On y voit assez facilement la texture des fibres du papyrus. Par contre, pour lire, câest un peu plus compliquĂ©.
Retrouver des traces dâencre
Une technique similaire avait Ă©tĂ© utilisĂ©e pour dĂ©chiffrer certains manuscrits de la mer morte. Mais pour ces manuscrits, lâencre utilisĂ©e avait des composants mĂ©talliques, qui la rendait fort visible au CT. Lâencre utilisĂ©e Ă Herculaneum, malheureusement, nâa pas cette propriĂ©tĂ©: elle est invisible aux rayons X.
Ou plutĂŽt, presque invisible.

Casey Handmer, un participant du concours, a gagné $10.000 grùce à cette découverte: vous voyez ces petites craquelures sur le papyrus ? Non ?

Et lĂ ? Les craquelures sont, probablement, des rĂ©sidus dâencre. Ils forment ici la lettre pi: le manuscrit est en grec.
Luke Farritor et Youssef Nader ont ensuite indĂ©pendamment entraĂźnĂ© des modĂšles de machine learning Ă reconnaĂźtre ces rĂ©sidus dâencre, afin de gĂ©nĂ©rer des images âamĂ©liorĂ©esâ, oĂč les lettres deviennent visible Ă lâoeil nu. En tout cas: plus visibles.

Une fois le premier mot trouvĂ©, les choses sâaccĂ©lĂšrent, les modĂšles sâamĂ©liorent, et les images aussi:

ProblÚme résolu?
Y a plus quâĂ âŠ
On sait maintenant quâil est possible de dĂ©rouler virtuellement le manuscrit⊠en tout cas certains morceaux.
On sait quâil est possible dây trouver des rĂ©sidus dâencre, et de les mettre en avant.
Mais le boulot reste consĂ©quent. Pour lâinstant, la âsegmentationâ des fragments de manuscrit (câest-Ă -dire: sĂ©parer les couches du rouleau et en faire des morceaux de taille suffisante pour en tirer potentiellement du texte) est en bonne partie manuelle, et donc lente. Des outils pour accĂ©lĂ©rer et partiellement automatiser le processus sont en train dâĂȘtre construits, avec plus ou moins de succĂšs. Et en identifiant et dĂ©roulant les fragments, il faut Ă©videmment faire attention Ă prendre note de sa position dans le rouleau initial, le but Ă©tant in fine de pouvoir recrĂ©er un manuscrit complet.
Quand Ă la lecture, on sait que le modĂšle fonctionne sur certains fragments. Mais il est encore trop tĂŽt pour dire sâil fonctionnera sur lâensemble du rouleau. Peut-ĂȘtre que dâautres couches, ou dâautres rĂ©gions du rouleau, auront des propriĂ©tĂ©s lĂ©gĂšrement diffĂ©rentes. Et les indices permettant de dĂ©tecter lâencre sont tellement subtils quâil suffirait de pas grand-chose pour que le modĂšle soit Ă nouveau perdu.
Mais aujourdâhui, il semble assez probable quâon finira par y arriver, et dans pas trop longtemps. Et quâon pourra enfin dĂ©couvrir le contenu de cette bibliothĂšque enfouie, et peut-ĂȘtre mettre la main sur des textes perdus depuis prĂȘt de 2000 ans.
Il y a en tout cas une certaine motivation pour les chercheurs sur le coup: lâĂ©quipe qui arrivera Ă dĂ©chiffrer quatre passages sĂ©parĂ©s dâau moins 140 caractĂšres successifs dans les deux rouleaux imagĂ©s avant le 31 dĂ©cembre 2023 remportera $700.000.