This study aims to focus on the management of multilingual digital libraries, with a special focus on texts in non-Latin alphabets, starting with the Arabic alphabet. The aim is to improve the accessibility and usability of diverse cultural heritages, meeting the needs of an increasingly multicultural society. The starting point and case study is the vast collection of digital volumes of the ‘Giorgio La Pira’ library (FSCIRE) in Palermo specialising in the history and doctrines of Islam. The activity is part of the broader Digital Maktaba project, which aims to develop methodologies for the cataloguing and management of texts in various alphabets, supporting library work in digital contexts and facilitating access to historical-linguistic-religious knowledge for a wide range of users, from researchers to the general public. The project is therefore fully within the field of Digital Humanities, recognising how digitisation and fast access to large digital archives are changing the approach to humanities research. In order to create an innovative system to support library work that makes use of automatic character recognition (OCR) tools and that can propose new solutions for automatic (or semi-automatic) cataloguing, certain cultural-historical considerations cannot be overlooked, which will therefore be addressed in this study. In the relationship between Islamic studies and libraries, non-Latin alphabets and library practices, in fact, the asymmetries generated by the Western Orientalist culture of the Saidian critical horizon, determined by Western knowledge classification systems (e.g. Dewey) and cataloguing practices, remain. These on the one hand marginalise Islam and other non-Christian religions, reflecting 19th century Eurocentric prejudices and views; on the other hand, they limit the use of non-Latin alphabet languages. This raises important questions about the representation of different cultures, religions and languages also in today's digital world and in DHs. Analysing specific points of interest in proposing an intelligent cataloguing system capable of extracting bibliographic data from non-Latin alphabet texts (OCR) and then supporting the librarian in cataloguing, the imbalance again emerges in the resources and datasets available for non-Latin alphabet languages and in particular Arabic alphabets. This is combined with another imbalance due to the scarce presence of cultural-historical datasets compared to other types of datasets on which OCR solutions, NLP up to the most recent Large Language Models are generally trained and fine-tuned. Cataloguing considerations, on the other hand, lead directly back to the asymmetries of the better known knowledge organisation systems and to more purely library-related considerations of relevance to cataloguing and authority control such as the treatment of the classical Arabic name. Here too, the ‘imposition’ of the binary name-surname system and standards of author cataloguing and control has not allowed for adaptations to different cultures in which the onomastic system provides far more extensive and detailed information on the life of an individual and author. The analysis of these points is intended to contribute to two focal aspects in this research: on the one hand, the production of quality humanistic datasets that can attract the world of information technology to the cultural sector; and on the other, the consideration of the use of biographical Islamic literature for authorial control itself in the context of today's databases.

Il presente studio si vuole concentrare sulla gestione di biblioteche digitali multilingue, con particolare attenzione ai testi in alfabeti non latini, partendo dall’alfabeto arabo. L'obiettivo è migliorare l'accessibilità e la fruibilità di patrimoni culturali diversificati, rispondendo alle esigenze di una società sempre più multiculturale. Il punto di partenza e caso studio è la vasta collezione di volumi digitali della biblioteca “Giorgio La Pira” (FSCIRE) di Palermo specializzata in storia e alle dottrine dell’Islam. L’attività si inquadra nel più ampio progetto Digital Maktaba, che si propone di sviluppare metodologie per la catalogazione e la gestione di testi in vari alfabeti supportando il lavoro bibliotecario in contesti digitali e facilitando l’accesso a conoscenze storico-linguistiche-religiose per un’ampia gamma di utenti, dal ricercatore al pubblico generico. Il progetto rientra dunque appieno nel campo delle Digital Humanities, riconoscendo come la digitalizzazione e l’accesso rapido a grandi archivi digitali stiano modificando l’approccio alla ricerca umanistica. Per poter creare un sistema innovativo di supporto al lavoro bibliotecario che si avvalga di strumenti per il riconoscimento automatico dei caratteri (OCR) e che possa proporre nuove soluzioni di catalogazione automatica (o semi-automatica) non possono essere tralasciate alcune considerazioni storico-culturali, che saranno quindi affrontate in questo studio. Nella relazione tra gli studi islamici e le biblioteche, alfabeti non latini e pratiche bibliotecarie, infatti, permangono le asimmetrie generate dalla cultura orientalistica occidentale dell’orizzonte critico saidiano, determinate dai sistemi di classificazione del sapere occidentali (es. Dewey) e dalle pratiche di catalogazione. Queste da un lato marginalizzano l’Islam e altre religioni non cristiane, riflettendo pregiudizi e visioni eurocentriche del XIX secolo; dall’altro limitano l’utilizzo di lingue ad alfabeto non-latino. Ciò solleva importanti questioni sulla rappresentazione di diverse culture, religioni e lingue anche nel mondo digitale odierno e nelle DH. Analizzando punti d’interesse specifico per proporre un sistema di catalogazione intelligente in grado di estrarre i dati bibliografici dai testi ad alfabeti non latini (OCR) e poi di supportate il bibliotecario nella catalogazione, lo squilibrio emerge nuovamente nelle risorse e nei dataset disponibili per lingue ad alfabeto non-latino e in particolare ad alfabeto arabo. Questo si combina con un altro squilibrio, dovuto alla scarsa presenza di dataset storico-culturali rispetto ad altre tipologie di dataset su cui vengono generalmente addestrate e tarate soluzioni di OCR, NLP fino ai più recenti Large Language Models. Le considerazioni sulla catalogazione riportano invece direttamente alle asimmetrie dei sistemi di organizzazione di conoscenza più noti e a considerazioni più prettamente biblioteconomiche e di rilevanza in ambito di catalogazione e controllo d’autorità come il trattamento del nome arabo classico. Anche qui l’“imposizione” del sistema binario nome-cognome e di standard di catalogazione e controllo autoriale non ha permesso adattamenti a culture diverse in cui il sistema onomastico fornisce informazioni ben più estese e dettagliate sulla vita di un individuo e autore. L’analisi di questi punti vuole contribuire a due aspetti focali in questa ricerca: in un caso la produzione di dataset umanistici di qualità che possano attrarre il mondo dell’informatica verso il settore culturale; e nell’altro la considerazione dell’utilizzo della letteratura islamica biografica per il controllo autoriale stesso in chiave degli odierni database.

Digital Maktaba: per un sistema innovativo di preservazione e gestione di patrimoni culturali multialfabetici.

VIGLIERMO, RICCARDO AMERIGO
2025

Abstract

This study aims to focus on the management of multilingual digital libraries, with a special focus on texts in non-Latin alphabets, starting with the Arabic alphabet. The aim is to improve the accessibility and usability of diverse cultural heritages, meeting the needs of an increasingly multicultural society. The starting point and case study is the vast collection of digital volumes of the ‘Giorgio La Pira’ library (FSCIRE) in Palermo specialising in the history and doctrines of Islam. The activity is part of the broader Digital Maktaba project, which aims to develop methodologies for the cataloguing and management of texts in various alphabets, supporting library work in digital contexts and facilitating access to historical-linguistic-religious knowledge for a wide range of users, from researchers to the general public. The project is therefore fully within the field of Digital Humanities, recognising how digitisation and fast access to large digital archives are changing the approach to humanities research. In order to create an innovative system to support library work that makes use of automatic character recognition (OCR) tools and that can propose new solutions for automatic (or semi-automatic) cataloguing, certain cultural-historical considerations cannot be overlooked, which will therefore be addressed in this study. In the relationship between Islamic studies and libraries, non-Latin alphabets and library practices, in fact, the asymmetries generated by the Western Orientalist culture of the Saidian critical horizon, determined by Western knowledge classification systems (e.g. Dewey) and cataloguing practices, remain. These on the one hand marginalise Islam and other non-Christian religions, reflecting 19th century Eurocentric prejudices and views; on the other hand, they limit the use of non-Latin alphabet languages. This raises important questions about the representation of different cultures, religions and languages also in today's digital world and in DHs. Analysing specific points of interest in proposing an intelligent cataloguing system capable of extracting bibliographic data from non-Latin alphabet texts (OCR) and then supporting the librarian in cataloguing, the imbalance again emerges in the resources and datasets available for non-Latin alphabet languages and in particular Arabic alphabets. This is combined with another imbalance due to the scarce presence of cultural-historical datasets compared to other types of datasets on which OCR solutions, NLP up to the most recent Large Language Models are generally trained and fine-tuned. Cataloguing considerations, on the other hand, lead directly back to the asymmetries of the better known knowledge organisation systems and to more purely library-related considerations of relevance to cataloguing and authority control such as the treatment of the classical Arabic name. Here too, the ‘imposition’ of the binary name-surname system and standards of author cataloguing and control has not allowed for adaptations to different cultures in which the onomastic system provides far more extensive and detailed information on the life of an individual and author. The analysis of these points is intended to contribute to two focal aspects in this research: on the one hand, the production of quality humanistic datasets that can attract the world of information technology to the cultural sector; and on the other, the consideration of the use of biographical Islamic literature for authorial control itself in the context of today's databases.
27-mag-2025
Inglese
Il presente studio si vuole concentrare sulla gestione di biblioteche digitali multilingue, con particolare attenzione ai testi in alfabeti non latini, partendo dall’alfabeto arabo. L'obiettivo è migliorare l'accessibilità e la fruibilità di patrimoni culturali diversificati, rispondendo alle esigenze di una società sempre più multiculturale. Il punto di partenza e caso studio è la vasta collezione di volumi digitali della biblioteca “Giorgio La Pira” (FSCIRE) di Palermo specializzata in storia e alle dottrine dell’Islam. L’attività si inquadra nel più ampio progetto Digital Maktaba, che si propone di sviluppare metodologie per la catalogazione e la gestione di testi in vari alfabeti supportando il lavoro bibliotecario in contesti digitali e facilitando l’accesso a conoscenze storico-linguistiche-religiose per un’ampia gamma di utenti, dal ricercatore al pubblico generico. Il progetto rientra dunque appieno nel campo delle Digital Humanities, riconoscendo come la digitalizzazione e l’accesso rapido a grandi archivi digitali stiano modificando l’approccio alla ricerca umanistica. Per poter creare un sistema innovativo di supporto al lavoro bibliotecario che si avvalga di strumenti per il riconoscimento automatico dei caratteri (OCR) e che possa proporre nuove soluzioni di catalogazione automatica (o semi-automatica) non possono essere tralasciate alcune considerazioni storico-culturali, che saranno quindi affrontate in questo studio. Nella relazione tra gli studi islamici e le biblioteche, alfabeti non latini e pratiche bibliotecarie, infatti, permangono le asimmetrie generate dalla cultura orientalistica occidentale dell’orizzonte critico saidiano, determinate dai sistemi di classificazione del sapere occidentali (es. Dewey) e dalle pratiche di catalogazione. Queste da un lato marginalizzano l’Islam e altre religioni non cristiane, riflettendo pregiudizi e visioni eurocentriche del XIX secolo; dall’altro limitano l’utilizzo di lingue ad alfabeto non-latino. Ciò solleva importanti questioni sulla rappresentazione di diverse culture, religioni e lingue anche nel mondo digitale odierno e nelle DH. Analizzando punti d’interesse specifico per proporre un sistema di catalogazione intelligente in grado di estrarre i dati bibliografici dai testi ad alfabeti non latini (OCR) e poi di supportate il bibliotecario nella catalogazione, lo squilibrio emerge nuovamente nelle risorse e nei dataset disponibili per lingue ad alfabeto non-latino e in particolare ad alfabeto arabo. Questo si combina con un altro squilibrio, dovuto alla scarsa presenza di dataset storico-culturali rispetto ad altre tipologie di dataset su cui vengono generalmente addestrate e tarate soluzioni di OCR, NLP fino ai più recenti Large Language Models. Le considerazioni sulla catalogazione riportano invece direttamente alle asimmetrie dei sistemi di organizzazione di conoscenza più noti e a considerazioni più prettamente biblioteconomiche e di rilevanza in ambito di catalogazione e controllo d’autorità come il trattamento del nome arabo classico. Anche qui l’“imposizione” del sistema binario nome-cognome e di standard di catalogazione e controllo autoriale non ha permesso adattamenti a culture diverse in cui il sistema onomastico fornisce informazioni ben più estese e dettagliate sulla vita di un individuo e autore. L’analisi di questi punti vuole contribuire a due aspetti focali in questa ricerca: in un caso la produzione di dataset umanistici di qualità che possano attrarre il mondo dell’informatica verso il settore culturale; e nell’altro la considerazione dell’utilizzo della letteratura islamica biografica per il controllo autoriale stesso in chiave degli odierni database.
Biblioteche digitali; Alfabeto arabo; Studi islamici; OCR; Controllo autoriale
SCATENA, Silvia
GAVIOLI, Laura
Università degli studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Vigliermo.pdf

embargo fino al 26/11/2026

Dimensione 5.37 MB
Formato Adobe PDF
5.37 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/211151
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-211151