Lࢠavanzamento delle tecnologie dellࢠinformazione ha permesso la creazione di amplissime collezioni di documenti in formato elettronico riguardanti gli argomenti piàƒ¹ disparati; di queste collezioni possiamo dire che lࢠesempio piàƒ¹ rappresentativo àƒ¨ il World Wide Web. Non sempre, peràƒ², la grande disponibilitàƒ dࢠinformazione àƒ¨ da ritenersi un fatto positivo, anzi, in certi casi, puàƒ² diventare addirittura deleteria. Studi recenti hanno messo in evidenza come lࢠimmensa quantitàƒ dࢠinformazione offerta da internet possa provocare conseguenze psicologiche di vario tipo negli utilizzatori: da problemi nella sfera relazionale, allo scarso rendimento sul lavoro a causa di ࢠnavigazione compulsivaࢠsul web [Greenfield2002]. Ben piàƒ¹ grave appare, secondo Francis Heylighen, lࢠeffetto che lࢠInformation Overload (sovraccarico dࢠinformazione) sta avendo sulla nostra societàƒ . Sembrerebbe, infatti, che lࢠeccessiva informatizzazione stia incrementando esponenzialmente la velocitàƒ dei processi evolutivi della nostra societàƒ e ne stia anche aumentando la complessitàƒ [Heylighen2002]. Il fenomeno che sembra caratterizzare i nostri tempi àƒ¨ lࢠaumento progressivo di produttivitàƒ in qualunque settore, intendendo con il termine ࢠproduttivitàƒ à¢ il rapporto tra il risultato ottenuto da un processo e le risorse impiegate. Questo fenomeno nel mondo dellࢠinformazione àƒ¨ perfettamente rappresentato da internet: oggi àƒ¨ possibile pubblicare qualunque documento ad un costo praticamente nullo, senza nessun tipo di filtro. Questo se da un lato ha provocato un incremento della quantitàƒ dࢠinformazione disponibile, da un altro lato ne ha, in media, ridotto la qualitàƒ . A causa della complessitàƒ nellࢠorganizzazione dei dati e della quantitàƒ di materiale presente, la ricerca sul Web di informazioni davvero utili àƒ¨ diventata decisamente complessa. Lo sforzo fatto dalla comunitàƒ scientifica e dalle aziende che si occupano di information retrieval ha fornito agli utenti potenti mezzi, come ad esempio i motori di ricerca, per assisterli nella scoperta di risorse. Le tecniche di ricerca sono le piàƒ¹ disparate ma i risultati sono lontani dal soddisfare le richieste di una ricerca mirata. Trovare informazioni usando i tradizionali motori si rivela fruttuoso solo in presenza di argomenti di una certa notorietàƒ e importanza e di query molto precise; negli altri casi questo lavoro puàƒ² implicare una considerevole perdita di tempo dato che un utente deve raffinare manualmente la ricerca visitando una ad una le pagine restituite. Questo avviene perchàƒ© i motori di ricerca tradizionali effettuano ricerche di tipo sintattico: essi restituiscono le pagine che contengono le keywords presenti nelle query degli utenti, indipendentemente dal contesto in cui esse sono utilizzate oppure restituiscono pagine secondo algoritmi differenti, ad esempio basati sulla popolaritàƒ . Se ciàƒ² da un lato àƒ¨ conveniente in termini di velocitàƒ di reperimento delle pagine e restituzione dei risultati, dallࢠaltro lato porta spesso a risultati errati o imprecisi, dato che vengono restituite molte pagine non attinenti al contesto della query dellࢠutente. anche In un contesto tale ha acquisito sempre piàƒ¹ importanza nelle scienze informatiche, ed in particolare nel settore dellࢠinformation retrieval, il concetto di ࢠrilevanzaࢠdelle informazioni. Questo concetto, che per lࢠuomo àƒ¨ del tutto intuitivo e nella maggior parte dei casi inconscio, àƒ¨ definito da Schutz come lࢠinerenza di un informazione ad un tema, cioàƒ¨ al particolare aspetto o oggetto della nostra concentrazione, avendo come base un orizzonte, ossia lࢠinsieme delle conoscenze da noi possedute [Schutz1970]. Sarebbe conveniente avere a disposizione un sistema in grado di ࢠcapireࢠdi cosa parla una pagina, valutando la sua attinenza con i domini di interesse per lࢠutente. Una ricerca di tale tipo àƒ¨ detta semantica in quanto non restituisce semplicemente pagine che contengono le keywords, ma pagine che hanno anche un contenuto semantico aderente al dominio desiderato dallࢠutente. I ricercatori stanno cercando di dare risposte a questi problemi e una delle soluzioni piàƒ¹ accredidate sembra essere il Semantic Web [BernersLee2001]. Eࢠopinione di chi scrive che, anche se questo modo ci concepire il Web àƒ¨ affascinante e promettente, siamo ancora lontani da un suo utilizzo a larga scala dato che il metodo proposto implica necessariamente uno stravolgimento dellࢠattuale struttura del Web. Lo scopo di questo lavoro àƒ¨ quello progettare e realizzare un meta-motore di ricerca semantico, partendo dalla teorizzazione di tecniche e modelli fino ad arrivare allࢠimplementazione e al testing finale. Nel primo capitolo saranno introdotti i concetti piàƒ¹ importanti attorno ai quali si sviluppa lࢠInformation Retrieval e Representation (IRR); nel secondo capitolo verranno descritti i modelli piàƒ¹ importanti per lࢠIR; nel terzo capitolo parleremo di sistemi noti in letteratura per la ricerca semantica; nel quarto capitolo varràƒ descritta una tecnica per la rappresentazione della conoscenza, lࢠontologia; nel quinto capitolo si parleràƒ delle metriche per la misura della similaritàƒ tra concetti; nel sesto capitolo verràƒ presentato un modello proposto per lࢠinformation retrieval e saràƒ descritto un sistema che si basa su questo modello; nel settimo capitolo verràƒ descritta la metodologia per la valutazione del sistema e saràƒ presentata una sperimentazione; nellࢠottavo e ultimo capitolo verranno discussi i risultati ottenuti e presentate le conclusioni.
Tecniche e modelli per la ricerca semantica sul web: un approccio basato su ontologie
2006
Abstract
Lࢠavanzamento delle tecnologie dellࢠinformazione ha permesso la creazione di amplissime collezioni di documenti in formato elettronico riguardanti gli argomenti piàƒ¹ disparati; di queste collezioni possiamo dire che lࢠesempio piàƒ¹ rappresentativo àƒ¨ il World Wide Web. Non sempre, peràƒ², la grande disponibilitàƒ dࢠinformazione àƒ¨ da ritenersi un fatto positivo, anzi, in certi casi, puàƒ² diventare addirittura deleteria. Studi recenti hanno messo in evidenza come lࢠimmensa quantitàƒ dࢠinformazione offerta da internet possa provocare conseguenze psicologiche di vario tipo negli utilizzatori: da problemi nella sfera relazionale, allo scarso rendimento sul lavoro a causa di ࢠnavigazione compulsivaࢠsul web [Greenfield2002]. Ben piàƒ¹ grave appare, secondo Francis Heylighen, lࢠeffetto che lࢠInformation Overload (sovraccarico dࢠinformazione) sta avendo sulla nostra societàƒ . Sembrerebbe, infatti, che lࢠeccessiva informatizzazione stia incrementando esponenzialmente la velocitàƒ dei processi evolutivi della nostra societàƒ e ne stia anche aumentando la complessitàƒ [Heylighen2002]. Il fenomeno che sembra caratterizzare i nostri tempi àƒ¨ lࢠaumento progressivo di produttivitàƒ in qualunque settore, intendendo con il termine ࢠproduttivitàƒ à¢ il rapporto tra il risultato ottenuto da un processo e le risorse impiegate. Questo fenomeno nel mondo dellࢠinformazione àƒ¨ perfettamente rappresentato da internet: oggi àƒ¨ possibile pubblicare qualunque documento ad un costo praticamente nullo, senza nessun tipo di filtro. Questo se da un lato ha provocato un incremento della quantitàƒ dࢠinformazione disponibile, da un altro lato ne ha, in media, ridotto la qualitàƒ . A causa della complessitàƒ nellࢠorganizzazione dei dati e della quantitàƒ di materiale presente, la ricerca sul Web di informazioni davvero utili àƒ¨ diventata decisamente complessa. Lo sforzo fatto dalla comunitàƒ scientifica e dalle aziende che si occupano di information retrieval ha fornito agli utenti potenti mezzi, come ad esempio i motori di ricerca, per assisterli nella scoperta di risorse. Le tecniche di ricerca sono le piàƒ¹ disparate ma i risultati sono lontani dal soddisfare le richieste di una ricerca mirata. Trovare informazioni usando i tradizionali motori si rivela fruttuoso solo in presenza di argomenti di una certa notorietàƒ e importanza e di query molto precise; negli altri casi questo lavoro puàƒ² implicare una considerevole perdita di tempo dato che un utente deve raffinare manualmente la ricerca visitando una ad una le pagine restituite. Questo avviene perchàƒ© i motori di ricerca tradizionali effettuano ricerche di tipo sintattico: essi restituiscono le pagine che contengono le keywords presenti nelle query degli utenti, indipendentemente dal contesto in cui esse sono utilizzate oppure restituiscono pagine secondo algoritmi differenti, ad esempio basati sulla popolaritàƒ . Se ciàƒ² da un lato àƒ¨ conveniente in termini di velocitàƒ di reperimento delle pagine e restituzione dei risultati, dallࢠaltro lato porta spesso a risultati errati o imprecisi, dato che vengono restituite molte pagine non attinenti al contesto della query dellࢠutente. anche In un contesto tale ha acquisito sempre piàƒ¹ importanza nelle scienze informatiche, ed in particolare nel settore dellࢠinformation retrieval, il concetto di ࢠrilevanzaࢠdelle informazioni. Questo concetto, che per lࢠuomo àƒ¨ del tutto intuitivo e nella maggior parte dei casi inconscio, àƒ¨ definito da Schutz come lࢠinerenza di un informazione ad un tema, cioàƒ¨ al particolare aspetto o oggetto della nostra concentrazione, avendo come base un orizzonte, ossia lࢠinsieme delle conoscenze da noi possedute [Schutz1970]. Sarebbe conveniente avere a disposizione un sistema in grado di ࢠcapireࢠdi cosa parla una pagina, valutando la sua attinenza con i domini di interesse per lࢠutente. Una ricerca di tale tipo àƒ¨ detta semantica in quanto non restituisce semplicemente pagine che contengono le keywords, ma pagine che hanno anche un contenuto semantico aderente al dominio desiderato dallࢠutente. I ricercatori stanno cercando di dare risposte a questi problemi e una delle soluzioni piàƒ¹ accredidate sembra essere il Semantic Web [BernersLee2001]. Eࢠopinione di chi scrive che, anche se questo modo ci concepire il Web àƒ¨ affascinante e promettente, siamo ancora lontani da un suo utilizzo a larga scala dato che il metodo proposto implica necessariamente uno stravolgimento dellࢠattuale struttura del Web. Lo scopo di questo lavoro àƒ¨ quello progettare e realizzare un meta-motore di ricerca semantico, partendo dalla teorizzazione di tecniche e modelli fino ad arrivare allࢠimplementazione e al testing finale. Nel primo capitolo saranno introdotti i concetti piàƒ¹ importanti attorno ai quali si sviluppa lࢠInformation Retrieval e Representation (IRR); nel secondo capitolo verranno descritti i modelli piàƒ¹ importanti per lࢠIR; nel terzo capitolo parleremo di sistemi noti in letteratura per la ricerca semantica; nel quarto capitolo varràƒ descritta una tecnica per la rappresentazione della conoscenza, lࢠontologia; nel quinto capitolo si parleràƒ delle metriche per la misura della similaritàƒ tra concetti; nel sesto capitolo verràƒ presentato un modello proposto per lࢠinformation retrieval e saràƒ descritto un sistema che si basa su questo modello; nel settimo capitolo verràƒ descritta la metodologia per la valutazione del sistema e saràƒ presentata una sperimentazione; nellࢠottavo e ultimo capitolo verranno discussi i risultati ottenuti e presentate le conclusioni.| File | Dimensione | Formato | |
|---|---|---|---|
|
tesi_dottorato_Antonio_Rinaldi.pdf
accesso solo da BNCF e BNCR
Tipologia:
Altro materiale allegato
Licenza:
Tutti i diritti riservati
Dimensione
2.28 MB
Formato
Adobe PDF
|
2.28 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/336565
URN:NBN:IT:BNCF-336565