In questo articolo abbiamo l’onore di poter intervistare Maximilian Ventura, archeologo appassionato di scienze informatiche. Questi due campi, che in apparenza sembrano distanti nel tempo, sono accomunati dalla ricerca e dalla volontà di scoprire ciò che nel passato ci è stato tramandato. Ventura è riuscito a utilizzare dei software in grado di leggere e decifrare vari tipi di manoscritti, da quelli medievali a quelli moderni. Di seguito l’intervista che gli abbiamo fatto qualche giorno fa.
SCRIPOMARKET: Archeologia e informatica. Quale percorso incredibile può aver preso uno storico come lei per arrivare ad essere esperto anche di informatica?
MV: Non posso definirmi “esperto” di informatica ma appassionato. Non è falsa modestia, ma è per dare il giusto peso a chi queste cose le ha studiate per tanti anni. Nel mio lavoro di archeologo utilizzo abitualmente diversi software, a questo bisogna aggiungere la voglia di imparare ad utilizzare al meglio gli strumenti che la tecnologia ci mette a disposizione.
SCRIPOMARKET: Quanto è importante la tecnologia oggi per l’uso delle ricerche relative a fatti del passato?
MV: L’informatica applicata alla ricerca storico-archeologico non è una novità, nel corso degli anni si sono sviluppate molte tecnologie e software che poi sono state riutilizzate nel nostro ambito. Si va dai database per archiviare i dati, ai software cad per disegnare le piante degli scavi, l’uso dei GIS per lo studio dei territori, il laser scanner per fare rilievi in 3D. Fare ricerca vuol dire anche avere la possibilità di visionare e utilizzare i contenuti di molte biblioteche e riviste digitali.
SCRIPOMARKET: Nel suo blog troviamo un articolo che parla di machine learning per la trascrizione automatica di manoscritti medievali e moderni. Ci può raccontare di cosa si tratta per i meno avvezzi alla tecnologia?
Oggi esistono molti software OCR in grado di leggere documenti scritti con caratteri “standard”. Con i manoscritti le cose si complicano perché i caratteri possono variare molto in funzione del documento consultato e perché generalmente hanno molte abbreviazioni: un unico carattere equivale a più lettere. Con il machine learning abbiamo un algoritmo in grado di “imparare” a riconoscere morfologicamente i caratteri e le abbreviazioni, maggiore è la quantità di dati che viene letta e interpretata e maggiore sarà il grado di accuratezza nella trascrizione. Per fare un esempio, è come avere un bambino che impara l’alfabeto, una volta memorizzato lo ricorderà in futuro. Nei software OCR standard invece è come se ogni volta lo dimenticasse e dovesse ricominciare da capo.
SCRIPOMARKET: Cos’è un Open Data?
MV:Con Open Data, “dati aperti”, si intendono tutti quei dati che possono essere utilizzati (anche per scopi commerciali) e trasformati liberamente, con l’unica restrizione di citare la fonte. Per capire se è possibile riutilizzare i dati che troviamo navigando su internet è buona norma leggere le licenze di distribuzione.
SCRIPOMARKET: Su cosa si sta focalizzando per il futuro?
Attualmente mi sto focalizzando su due filoni: i processi di automazione nell’ambito umanistico e l’utilizzo di Agent-based model per lo studio delle dinamiche sociali nelle antiche civiltà.