Il progetto Modelli digitali

Modelli digitali

Il progetto prevede il trattamento computazionale dei testi e dei lessici, nonché la realizzazione di un sistema di risorse digitali integrate utili ad una loro fruizione in prospettiva interdisciplinare.

In particolare, stiamo sviluppando:

- un corpus di testi epigrafici
- un lessico computazionale
- un set dati bibliografici
- una codifica semantica dei dati raccolti
- una piattaforma web, DigItAnt, che offre sia strumenti di creazione di lessici computazionali collegati ai dataset testuali e bibliografici, sia funzionalità esplorazione e interrogazione dei prodotti del progetto

Il corpus dei testi viene gestito e valorizzato in un archivio digitale contenente codifica dei testi in TEI/EpiDoc, lo standard per la rappresentazione dei testi epigrafici in formato digitale; è stato necessario prevedere la realizzazione di uno schema ad hoc per dare conto delle peculiarità presentate dalle lingue di frammentaria attestazione. Il corpus viene corredato di metadati condivisi e standard che consentono una descrizione accurata dell’iscrizione sia come oggetto linguistico (testo: lingua, alfabeto, data, ecc.) sia come oggetto materiale (supporto: cronologia, dati di scoperta, materiale, ecc.); a completamento si presentano gli apografi delle iscrizioni trattate. Per ogni iscrizione viene, quindi, rilasciato il file .xml contenete l’intera descrizione in TEI/EpiDoc.

Per descrivere più dettagliatamente le entità testuali e per permettere la condivisione dei dati e dei risultati della ricerca viene sperimentato l’utilizzo delle estensioni CRMtex e CRMinf del CIDOC CRM, l'ontologia standard de facto nelle Digital Humanities. CRMtex permette la descrizione in formato semantico delle entità testuali, CRMinf delle interpretazioni scientifiche ad esse pertinenti.

Le entità lessicali presenti nei testi vengono descritte e trattate al fine di produrre un lessico computazionale multilingue, per il quale si sono studiati i requisiti specifici per la progettazione di un modello lessicale computazionale specificamente dedicato alle lingue di frammentaria attestazione. Si adottano standard e vocabolari del Semantic Web per fornire una rappresentazione strutturata e formale degli elementi lessicali e delle relative informazioni, nonché per consentire un accesso semantico al corpus epigrafico. Le sfide hanno riguardato avri aspetti, dai problemi di lemmatizzazione alla rappresentazione dei sensi, poiché i significati sono spesso solo parzialmente e ipoteticamente ricostruibili.

Corpus e lessico interagiscono tra di loro e sono corredati di un apparato bibliografico strutturato secondo i modelli bibliografici digitali. Una bibliografia delle lingue dell’Italia antica, con particolare riferimento alle lingue oggetto del progetto, è stata creata tramite la piattaforma bibliografica ZOTERO, in un apposito gruppo, pubblicamente fruibile in modalità ‘sola lettura’ e costantemente aggiornato. La bibliografia, inoltre, viene rilasciata in formato TEI, così da renderla compatibile con lo standard EpiDoc, e mappata secondo l'ontologia FRBRoo, progettata per rappresentare la semantica delle informazioni bibliografica, al fine del rilascio in LOD.

Il progetto sperimenta, inoltre, linguaggi Domain-Specific per implementare un sistema che possa assistere gli studiosi nella creazione delle risorse digitali testuali e garantire la compatibilità con gli standard usati.

Tutte le risorse interagiscono tra di loro e sono messe a disposizione della comunità scientifica attraverso una piattaforma di interrogazione. Strumenti e risorse vengono, inoltre, resi disponibili attraverso importanti infrastrutture di ricerca a livello europeo come CLARIN e DARIAH, le due infrastrutture attualmente più rilevanti per le e-Humanities e (immateriali) Cultural Heritage, per la conservazione a lungo termine e una più ampia diffusione e valorizzazione di questo patrimonio.

Ultimo aggiornamento

08.10.2024

Modelli digitali

Cookie