MENU

Modelli digitali

Il progetto prevede il trattamento computazionale dei testi e la realizzazione di un sistema di risorse digitali integrate utili ad una loro fruizione in prospettiva interdisciplinare.

In particolare, si prevede lo sviluppo di un corpus di testi epigrafici, di un lessico computazionale, di un set di dati bibliografici e della sperimentazione di una codifica semantica dei dati raccolti.

 

Il corpus dei testi sarà gestito e valorizzato in un archivio digitale contenente codifica dei testi in TEI/EpiDoc, lo standard per la rappresentazione dei testi epigrafici in formato digitale; sarà necessario prevedere la realizzazione di uno schema ad hoc per dare conto delle peculiarità presentate dalle lingue di frammentaria attestazione. Il corpus sarà corredato di metadati condivisi e standard che consentano una descrizione accurata dell’iscrizione sia come oggetto linguistico (testo: lingua, alfabeto, data, ecc.) sia come oggetto materiale (supporto: cronologia, dati di scoperta, materiale, ecc.); a completamento si prevede la realizzazione degli apografi delle iscrizioni trattate. Per ogni iscrizione sarà, quindi, rilasciato il file .xml contenete l’intera descrizione in TEI/EpiDoc.

 

Per descrivere più dettagliatamente le entità testuali e per permettere la condivisione dei dati e dei risultati della ricerca si sperimenterà l’utilizzo delle estensioni CRMtex e CRMinf del CIDOC CRM, l'ontologia standard de facto nelle Digital Humanities. CRMtex permette la descrizione in formato semantico delle entità testuali, CRMinf delle interpretazioni scientifiche ad esse pertinenti.

 

Le entità lessicali presenti nei testi verranno descritte e trattate al fine di produrre un lessico computazionale multilingue, per il quale si studieranno i requisiti specifici per la progettazione di un modello lessicale computazionale specificamente dedicato alle lingue di frammentaria attestazione. Si adotteranno standard e vocabolari del Semantic Web per fornire una rappresentazione strutturata e formale degli elementi lessicali e delle relative informazioni, nonché per consentire un accesso semantico al corpus epigrafico. Le sfide vanno dai problemi di lemmatizzazione alla rappresentazione dei sensi, i significati sono spesso solo parzialmente e ipoteticamente ricostruibili.

 

Corpus e lessico interagiranno tra di loro e saranno corredati di un apparato bibliografico strutturato secondo i modelli bibliografici digitali.

 

Si prevede inoltre di sperimentare linguaggi Domain-Specific per implementare un sistema che possa assistere gli studiosi nella creazione delle risorse digitali testuali e garantire la compatibilità con gli standard usati.

 

Tutte le risorse interagiranno tra di loro e saranno messe a disposizione della comunità scientifica attraverso una piattaforma di interrogazione. Strumenti e risorse saranno, inoltre, resi disponibili attraverso importanti infrastrutture di ricerca a livello europeo come CLARIN e DARIAH, le due infrastrutture attualmente più rilevanti per le e-Humanities e (immateriali) Cultural Heritage, per la conservazione a lungo termine e una più ampia diffusione e valorizzazione di questo patrimonio.

 

Ultimo aggiornamento

10.04.2021

Cookie

I cookie di questo sito servono al suo corretto funzionamento e non raccolgono alcuna tua informazione personale. Se navighi su di esso accetti la loro presenza.  Maggiori informazioni