Domenica, 28 Ottobre 2012

I Linked Open Data per le risorse archivistiche

Silvia Mazzini
Sezione Studi

Il 25 ottobre 2011, dopo un anno di intenso lavoro, il Library Linked Data Incubator Group del W3C ha rilasciato il proprio Final Report, un documento assolutamente indispensabile per chiunque sia interessato ad approfondire il tema dei Linked Open Data nell’ambito dei beni culturali[1]. L’incubator Group del W3C, attivo da maggio 2010 fino ad agosto 2011, aveva lo scopo di verificare come gli standard del semantic web e le tecnologie dei Linked Data fossero in grado di migliorare l’interoperabilità dei dati riguardanti il patrimonio archivistico, bibliotecario e museale, e la visibilità e la riusabilità al di fuori del loro contesto di provenienza.

Alla base del documento, come di tutto il movimento Linked Data, c’è una interessante riflessione sulla estrema transitorietà delle tecnologie e dei formati di dati a differenza di quanto proposto con i Linked Open Data che descrivono la semantica, il significato delle risorse separatamente dalla loro specifica struttura col risultato che mantengono il loro significato al di là della struttura che li rappresenta, risultando più durevoli e resistenti nel tempo.

Dopo un’analisi della situazione attuale il Report si concentra infine sulle Raccomandazioni rivolte a diverse categorie di operatori.

A coloro che gestiscono archivi e biblioteche:

        Avviare quanto prima la pubblicazione dei primi dataset senza inseguire la completezza, in quanto il modello Linked Data è predisposto per un accrescimento continuo

        Favorire la discussione sul diritto di accesso ai dati da esporre sul web

A chi si occupa di standard

        Favorire la partecipazione e la collaborazione tra esperti del settore dei beni culturali e del semantic web per adeguare al meglio gli standard informatici in via di sviluppo

        Sviluppare standard bibliografici e archivistici e museali pensando già ai Linked Data, ovvero che siano con essi compatibili

        Contribuire alla disseminazione di best-practice

A chi si occupa dell’architettura dei dati:

        Promuovere la ricerca nell’ambito della applicazioni che si possono sviluppare sui dataset “culturali”

        Creare delle URI stabili ed efficaci per le risorse esposte e per i concetti definiti nel dominio

        Sviluppare politiche di mantenimento delle URI e dei vocabolari definiti all’interno del proprio dominio di interesse

        Favorire il mapping con Linked Data già pubblicati nella comunità dei beni culturali

Agli archivisti e ai bibliotecari:

        Occuparsi del mantenimento dei vocabolari, dei dataset, dei namespaces e delle URI utilizzate per la descrizione delle risorse.

        Applicare l’esperienza maturata sulla conservazione a lungo termine delle risorse tradizionali ai Linked Data.

E’ proprio con questo Final Report che, chi oggi si occupa di gestione e valorizzazione del patrimonio culturale sul web, si deve confrontare. L’applicazione delle tecnologie del semantic web in ambito culturale è un fatto incontrovertibile, una tendenza che sta coinvolgendo sempre più istituzioni culturali; non è un caso che pochi giorni fa Europeana, il progetto europeo che espone i metadati relativi al patrimonio culturale di molti istituti europei, abbia pubblicato in formato LOD i dati relativi a migliaia di risorse utilizzando l’Europeana Data Model[2].

Senza entrare nel dettaglio dello stato dell’arte su questo settore, vogliamo presentare un progetto legato alla pubblicazione come LOD dei dati archivistici e promosso dall’Archivio Centrale dello Stato,dall’Istituto per i Beni Culturali della Regione Emilia Romagna e da regesta.exe.

 

ReLoad

ReLoad (Repository for Linked Open Archival Data)[3] è un progetto sperimentale che ha l’obiettivo di applicare le metodologie del semantic web e le tecnologie standard per i Linked Open Data (LOD) per favorire la condivisione di informazioni archivistiche provenienti da una molteplicità di fonti. ReLoad, si propone come punto di raccolta, accesso e riuso di risorse archivistiche distribuite e pubblicate in formato LOD partendo da inventari di archivi storici e da Guide di fondi già pubblicate on-line o su specifici sistemi di consultazione in formato XML secondo lo standard internazionale EAD. L’approccio adottato mira alla condivisione delle descrizioni archivistiche di dettaglio e in questa prima fase non considera la possibilità di creare un “portale” di accesso a risorse archivistiche.

L’obiettivo principale del progetto è di verificare le possibilità di creare una “rete di dati archivistici collegati”, di approfondire le potenzialità derivanti dalla combinazione e dall’integrazione di diverse collezioni di dati, sfruttando le potenzialità di link a risorse comuni per creare modalità di accesso condivise (per luoghi, enti e persone, tematismi, ecc.).

Il progetto è articolato in diverse fasi di lavoro: una prima riguardante la definizione di un data model RDF per la descrizione delle risorse archivistiche; una successiva fase di trasformazione delle risorse in LOD e infine un’ultima fase di allineamento semantico delle risorse archivistiche con altri dataset nazionali e internazionali.

L’ontologia per la descrizione archivistica OAD

L’attività preliminare per la realizzazione del progetto è stata la definizione di una ontologia per la descrizione archivistica (OAD) espressa in linguaggio OWL (Ontology Web Language)[4] con l’obiettivo di definire classi e proprietà per una esposizione nel Web of Data delle risorse archivistiche. La definizione dell’ontologia OAD ha richiesto un’analisi preliminare dei dati e dei metadati tipicamente presenti in uno strumento di descrizione archivistica, per comprendere quali oggetti trattare come “risorse” (le “classi” dell’ontologia) cui assegnare degli URI (Uniform Resource Identifier) e quali invece considerare come “proprietà” di una determinata risorsa.

I meccanismi formali forniti dallo standard RDF[5] e da OWL hanno consentito di ricondurre gli elementi informativi delle descrizioni archivistiche espresse in OAD ad una ontologia “esterna” di concetti archivistici rappresentativi della tradizione descrittiva internazionale e basata sullo standard ISAD (G). A tal fine e per agevolare il lavoro di definizione di OAD, il modello di descrizione ISAD (G) è stato rappresentato in formato SKOS (Simple Knowledge Organization System)[6], standard RDF per la descrizione di thesauri, indici e vocabolari controllati. In particolare le classi e le proprietà dell’ontologia OAD rispecchiano fedelmente la struttura delle aree di descrizione ISAD e anche il nome delle proprietà RDF di OAD ricalca i nomi degli elementi ISAD. Infatti, scopo di OAD non era definire un nuovo standard, ma proporre un data model flessibile e condiviso, basato sullo standard ISAD e in grado di poter accogliere, nei suoi elementi, tutti i metadati descrittivi delle risorse archivistiche e le informazioni relative alla gerarchia e al contesto di provenienza. Solo in pochi casi, per descrivere alcuni elementi di cui non si tiene conto in ISAD, sono state create proprietà specifiche basate sullo schema EAD. Inoltre per favorire l’interoperabilità semantica, laddove possibile, sono state utilizzate anche altre ontologie internazionali molto diffuse per la descrizione dei metadati più comuni, replicando le informazioni con Dublin Core[7], Foaf[8] (ontologia molto diffusa per la descrizione delle persone, delle loro attività, dei loro interessi), Geonames[9] (ontologia per la descrizione dei luoghi).

Per ampliare il dominio di conoscenza delle risorse archivistiche oggetto della sperimentazione, sono stati analizzati diversi titolari utilizzati per la classificazione della documentazione descritta negli inventari: il titolario della Direzione Generale dell’Agricoltura, il titolario Astengo del 1897 utilizzato per la classificazione del carteggio amministrativo dei Comuni e alcune varianti di quest’ultimo. I titolari sono stati rappresentati in formato SKOS e i descrittori sono stati utilizzati per estrarre automaticamente dagli strumenti di ricerca una serie di concetti chiave che consentissero di evidenziare tematismi comuni a risorse archivistiche diverse. Tutti questi documenti sono liberamente consultabili e scaricabili dal sito del progetto.

Produzione dei dati e popolamento del triplestore

Tutti gli strumenti di ricerca oggetto della sperimentazione, disponibili in formato XML/EAD, sono stati trasformati in LOD attraverso dei fogli di trasformazione XSLT – uno per ciascuno degli strumenti di ricerca – che applicati ai file di partenza hanno prodotto dei file RDF conformi all’ontologia OAD per la descrizione archivistica.

Nella maggior parte degli inventari non erano presenti voci di indice, quindi sono stati utilizzati degli strumenti open source per l’estrazione semi-automatica di entità[10] trattando il testo presente nel titolo e nella nota archivistica. Questo processo, tuttora in fase sperimentale, può dare risultati interessanti nel caso di descrizioni del contenuto molto analitiche o per l’individuazione automatica di nomi di luogo, di persona o di ente. Questi “descrittori” una volta estratti e verificati puntualmente, sono stati utilizzati per collegare in modo trasversale le risorse archivistiche con lo scopo di proporre all’utente finale altre risorse archivistiche correlate.

Ogni strumento di ricerca analizzato è stato collegato al suo soggetto produttore descritto a sua volta tramite l’ontologia EAC-CPF già realizzata da regesta.exe e IBC nel 2010[11] e inserita tra i data model di ambito culturale del W3C.

Al termine del processo di trasformazione tutti i dati RDF generati sono stati caricati su un Endpoint SPARQL open source[12] che è disponibile on line per le interrogazioni.

Allineamento semantico

La caratteristica più importante dei Linked Open Data riguarda i collegamenti, i “link” tra dataset diversi. Sono proprio questi collegamenti che consentono di costruire la linked data cloud grazie alla quale si pongono le basi del web of data. I collegamenti devono necessariamente essere creati con precisi criteri e utilizzano, nel migliore dei casi, la proprietà owl:sameAs preposta dallo standard OWL per “allineare” due concetti identici. Con questa proprietà è possibile disambiguare nomi di luogo o di persona prendendo come punto di riferimento dataset esterni consolidati come DBPedia[13] o Viaf[14]. Il collegamento con DBPedia ha il solo scopo di identificare con certezza una determinata risorsa; ad esempio tutti i nomi di persona e di ente sono stati allineati con DBPedia. Invece per i nomi di luogo, tramite il framework open source Silk[15], sono stati creati i collegamenti con Geonames e LinkedGeoData, due portali semantici di georeferenziazione.

 

La fruizione dei dati

Al momento le risorse archivistiche di ReLoad sono presentate sul sito del progetto con una interfaccio costruita grazie ad un framework javascript open source che consente la navigazione a faccette (fig.1), la visualizzazione delle risorse, la navigazione sulla mappa.(fig. 2) Inoltre è anche possibile visualizzare i dati su LodLive[16] (fig. 3), un visualizzatore di grafi rdf che consente di navigare le risorse RDF “saltando” tra dataset differenti, e interrogare l’endpoint SPARQL per generare elenchi di risultati in forma tabellare o scaricare i dati. In una seconda fase del progetto, quando l’ontologia OAD sarà stabile, si penserà alla realizzazione di un portale di accesso delle risorse archivistiche LOD.

 

 


[1] Per una introduzione ai Linked Open Data e al Web of Data si rimanda ad un articolo di Bizer, Heath e Berners Lee disponibile on-line all’indirizzo: http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf.

[11]http://ceur-ws.org/Vol-801/paper6.pdfè disponibile il paper presentato a Berlino in occasione del Workshop internazionale su Semantic Digital Archive. Il progetto dell’ontologia EAC-CPF è stato realizzato dall’Istituto per i Beni Culturali dell’Emilia Romagna e da regesta.exe.

[13]http://dbpedia.org/ è la versione “semantica” di wikipedia e rappresenta il punto centrale della linked data cloud.

Devi effettuare il login per inviare commenti