Non esiste una sola Infrastruttura di Risorse Linguistiche, ma molte infrastrutture e tutte tra loro diverse, anche se con aspetti comuni. Il motivo del plurale, la (s), nel titolo della tesi è esattamente questo. La comunità dei linguisti è molto variegata: studiosi di scienze sociali ed umane sono linguisti, come linguisti sono quelli che direttamente si occupano di (o forniscono consulenze in) ambiti molto più tecnici come la traduzione automatica, l'estrazione di informazioni da testi, il question-answering fino ai motori di ricerca presenti sul Web. Ogni sotto comunità linguistica ha le proprie esigenze da richiedere ad una Infrastruttura di Risorse Linguistiche: disponibilità di risorse, possibilità di scaricare liberamente software normalmente a pagamento, presenza di commenti e valutazioni sulle risorse disponibili ed ancora altro. Possiamo affermare che, spesso, sono i requisiti utenti a guidare il design architetturale ed il modello delle infrastrutture, mentre le tecnologie più prettamente informatiche sono usate per trovare soluzioni a tali requisiti. A conferma di questo aspetto, possiamo citare due progetti europei, METANET e PANACEA: il primo è volto alla creazione di un network di repository di tool e dati languistici accessibili da una più ampia comunità di linguisti, mentre il secondo è una piattaforma volta alla creazione di un network di risorse linguistiche in ambito multilingue e della Machine Translation, pensato per essere usato da industrie in tali ambiti. Entrambi i progetti hanno la comunità dei linguisti come promotori (provider di servizi linguistici) ma diverse comunità di utenti esterni a cui i servizi sono rivolti (consumer). METANET ha come consumer ancora la comunità dei linguisti computazionali, mentre PANACEA ha la comunità di industrie legate alla Machine Translation come comunità consumer. La diversità degli utenti finali porta a diversi requisiti utente e, quindi, a caratteristiche dierenti nelle infrastrutture. In questa tesi descriviamo sia gli aspetti comuni che specifici delle Infrastrutture di Risorse Linguistiche e mettiamo in risalto il nostro apporto alla progettazione ad alto livello delle infrastrutture di entrambi i progetti. Nello specifico riportiamo i nostri contributi nell'ambito della definizione dei moduli architetturali connessi alla autenticazione ed autorizzazione, e più in generale alla gestione degli utenti, ed al loro accesso alle risorse linguistiche. We have added an "(s)" to the title of this thesis because there is not a single one "Language Resource Infrastructure" but many Language Resource Infrastructures. In fact, the language resource infrastructures are all partially alike, since they have many common aspects, but every single language resource infrastructure is peculiar in its own way, since it has its own distinguishing characteristics. The community of linguists is very wide-ranging: human and social science scientists are linguists, as linguists are those who work in more technical environments such as Machine Translation, Information Extraction, Question-Answering, search engines and technologies available on the Web. Each sub community wants that the Language Resource Infrastructures will address its own requirements: resource availability, free download of resources normally available for-fee, feedback, comments on language resources, evaluation of language resources and so on. We can say that user requirements drive the designing and modeling of the infrastructures more than information technology, whose experts are asked to solve issues and provide solution for the user requirements. To confirm this aspect, we can cite two European projects, METANET and PANACEA: the former aims at building a network of repositories of language resources and technologies widely available for an increasing linguistic community, while the latter is a platform designed for the lexical acquisition and managing multilingualism and Machine Translation issues for small and medium enterprises focused on such topics. Both projects have the language resource community as internal users, that is to say, as providers of language services, but a different target with respect to the consumers of language resources and services. METANET is a project made by computational linguists for (computational) linguists, while PANACEA provides services for the Machine Translation industrial community. As a consequence, different requirements have led to different language resource infrastructures. In this thesis we describe both common and specific aspects of Language Resource Infrastructures and point out our contribution to the modeling of the high level architecture of the infrastructure in both projects. In particular, we report our contribution in the area of Access and Identity Management, specifically in the user management and his/her access to language resources
Language Resource Infrastructure(s)
2011
Abstract
Non esiste una sola Infrastruttura di Risorse Linguistiche, ma molte infrastrutture e tutte tra loro diverse, anche se con aspetti comuni. Il motivo del plurale, la (s), nel titolo della tesi è esattamente questo. La comunità dei linguisti è molto variegata: studiosi di scienze sociali ed umane sono linguisti, come linguisti sono quelli che direttamente si occupano di (o forniscono consulenze in) ambiti molto più tecnici come la traduzione automatica, l'estrazione di informazioni da testi, il question-answering fino ai motori di ricerca presenti sul Web. Ogni sotto comunità linguistica ha le proprie esigenze da richiedere ad una Infrastruttura di Risorse Linguistiche: disponibilità di risorse, possibilità di scaricare liberamente software normalmente a pagamento, presenza di commenti e valutazioni sulle risorse disponibili ed ancora altro. Possiamo affermare che, spesso, sono i requisiti utenti a guidare il design architetturale ed il modello delle infrastrutture, mentre le tecnologie più prettamente informatiche sono usate per trovare soluzioni a tali requisiti. A conferma di questo aspetto, possiamo citare due progetti europei, METANET e PANACEA: il primo è volto alla creazione di un network di repository di tool e dati languistici accessibili da una più ampia comunità di linguisti, mentre il secondo è una piattaforma volta alla creazione di un network di risorse linguistiche in ambito multilingue e della Machine Translation, pensato per essere usato da industrie in tali ambiti. Entrambi i progetti hanno la comunità dei linguisti come promotori (provider di servizi linguistici) ma diverse comunità di utenti esterni a cui i servizi sono rivolti (consumer). METANET ha come consumer ancora la comunità dei linguisti computazionali, mentre PANACEA ha la comunità di industrie legate alla Machine Translation come comunità consumer. La diversità degli utenti finali porta a diversi requisiti utente e, quindi, a caratteristiche dierenti nelle infrastrutture. In questa tesi descriviamo sia gli aspetti comuni che specifici delle Infrastrutture di Risorse Linguistiche e mettiamo in risalto il nostro apporto alla progettazione ad alto livello delle infrastrutture di entrambi i progetti. Nello specifico riportiamo i nostri contributi nell'ambito della definizione dei moduli architetturali connessi alla autenticazione ed autorizzazione, e più in generale alla gestione degli utenti, ed al loro accesso alle risorse linguistiche. We have added an "(s)" to the title of this thesis because there is not a single one "Language Resource Infrastructure" but many Language Resource Infrastructures. In fact, the language resource infrastructures are all partially alike, since they have many common aspects, but every single language resource infrastructure is peculiar in its own way, since it has its own distinguishing characteristics. The community of linguists is very wide-ranging: human and social science scientists are linguists, as linguists are those who work in more technical environments such as Machine Translation, Information Extraction, Question-Answering, search engines and technologies available on the Web. Each sub community wants that the Language Resource Infrastructures will address its own requirements: resource availability, free download of resources normally available for-fee, feedback, comments on language resources, evaluation of language resources and so on. We can say that user requirements drive the designing and modeling of the infrastructures more than information technology, whose experts are asked to solve issues and provide solution for the user requirements. To confirm this aspect, we can cite two European projects, METANET and PANACEA: the former aims at building a network of repositories of language resources and technologies widely available for an increasing linguistic community, while the latter is a platform designed for the lexical acquisition and managing multilingualism and Machine Translation issues for small and medium enterprises focused on such topics. Both projects have the language resource community as internal users, that is to say, as providers of language services, but a different target with respect to the consumers of language resources and services. METANET is a project made by computational linguists for (computational) linguists, while PANACEA provides services for the Machine Translation industrial community. As a consequence, different requirements have led to different language resource infrastructures. In this thesis we describe both common and specific aspects of Language Resource Infrastructures and point out our contribution to the modeling of the high level architecture of the infrastructure in both projects. In particular, we report our contribution in the area of Access and Identity Management, specifically in the user management and his/her access to language resourcesFile | Dimensione | Formato | |
---|---|---|---|
Phd_thesis_DelGratta.pdf
accesso aperto
Tipologia:
Altro materiale allegato
Dimensione
1.97 MB
Formato
Adobe PDF
|
1.97 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/135878
URN:NBN:IT:UNIPI-135878