Tecniche e modelli per la ricerca semantica sul web: un approccio basato su ontologie

Rinaldi, Antonio Maria

Là¢ avanzamento delle tecnologie dellà¢ informazione ha permesso la creazione di amplissime collezioni di documenti in formato elettronico riguardanti gli argomenti piàƒ¹ disparati; di queste collezioni possiamo dire che là¢ esempio piàƒ¹ rappresentativo àƒ¨ il World Wide Web. Non sempre, peràƒ², la grande disponibilitàƒ dà¢ informazione àƒ¨ da ritenersi un fatto positivo, anzi, in certi casi, puàƒ² diventare addirittura deleteria. Studi recenti hanno messo in evidenza come là¢ immensa quantitàƒ dà¢ informazione offerta da internet possa provocare conseguenze psicologiche di vario tipo negli utilizzatori: da problemi nella sfera relazionale, allo scarso rendimento sul lavoro a causa di à¢ navigazione compulsivaà¢ sul web [Greenfield2002]. Ben piàƒ¹ grave appare, secondo Francis Heylighen, là¢ effetto che là¢ Information Overload (sovraccarico dà¢ informazione) sta avendo sulla nostra societàƒ . Sembrerebbe, infatti, che là¢ eccessiva informatizzazione stia incrementando esponenzialmente la velocitàƒ dei processi evolutivi della nostra societàƒ e ne stia anche aumentando la complessitàƒ [Heylighen2002]. Il fenomeno che sembra caratterizzare i nostri tempi àƒ¨ là¢ aumento progressivo di produttivitàƒ in qualunque settore, intendendo con il termine à¢ produttivitàƒ à¢ il rapporto tra il risultato ottenuto da un processo e le risorse impiegate. Questo fenomeno nel mondo dellà¢ informazione àƒ¨ perfettamente rappresentato da internet: oggi àƒ¨ possibile pubblicare qualunque documento ad un costo praticamente nullo, senza nessun tipo di filtro. Questo se da un lato ha provocato un incremento della quantitàƒ dà¢ informazione disponibile, da un altro lato ne ha, in media, ridotto la qualitàƒ . A causa della complessitàƒ nellà¢ organizzazione dei dati e della quantitàƒ di materiale presente, la ricerca sul Web di informazioni davvero utili àƒ¨ diventata decisamente complessa. Lo sforzo fatto dalla comunitàƒ scientifica e dalle aziende che si occupano di information retrieval ha fornito agli utenti potenti mezzi, come ad esempio i motori di ricerca, per assisterli nella scoperta di risorse. Le tecniche di ricerca sono le piàƒ¹ disparate ma i risultati sono lontani dal soddisfare le richieste di una ricerca mirata. Trovare informazioni usando i tradizionali motori si rivela fruttuoso solo in presenza di argomenti di una certa notorietàƒ e importanza e di query molto precise; negli altri casi questo lavoro puàƒ² implicare una considerevole perdita di tempo dato che un utente deve raffinare manualmente la ricerca visitando una ad una le pagine restituite. Questo avviene perchàƒ© i motori di ricerca tradizionali effettuano ricerche di tipo sintattico: essi restituiscono le pagine che contengono le keywords presenti nelle query degli utenti, indipendentemente dal contesto in cui esse sono utilizzate oppure restituiscono pagine secondo algoritmi differenti, ad esempio basati sulla popolaritàƒ . Se ciàƒ² da un lato àƒ¨ conveniente in termini di velocitàƒ di reperimento delle pagine e restituzione dei risultati, dallà¢ altro lato porta spesso a risultati errati o imprecisi, dato che vengono restituite molte pagine non attinenti al contesto della query dellà¢ utente. anche In un contesto tale ha acquisito sempre piàƒ¹ importanza nelle scienze informatiche, ed in particolare nel settore dellà¢ information retrieval, il concetto di à¢ rilevanzaà¢ delle informazioni. Questo concetto, che per là¢ uomo àƒ¨ del tutto intuitivo e nella maggior parte dei casi inconscio, àƒ¨ definito da Schutz come là¢ inerenza di un informazione ad un tema, cioàƒ¨ al particolare aspetto o oggetto della nostra concentrazione, avendo come base un orizzonte, ossia là¢ insieme delle conoscenze da noi possedute [Schutz1970]. Sarebbe conveniente avere a disposizione un sistema in grado di à¢ capireà¢ di cosa parla una pagina, valutando la sua attinenza con i domini di interesse per là¢ utente. Una ricerca di tale tipo àƒ¨ detta semantica in quanto non restituisce semplicemente pagine che contengono le keywords, ma pagine che hanno anche un contenuto semantico aderente al dominio desiderato dallà¢ utente. I ricercatori stanno cercando di dare risposte a questi problemi e una delle soluzioni piàƒ¹ accredidate sembra essere il Semantic Web [BernersLee2001]. Eà¢ opinione di chi scrive che, anche se questo modo ci concepire il Web àƒ¨ affascinante e promettente, siamo ancora lontani da un suo utilizzo a larga scala dato che il metodo proposto implica necessariamente uno stravolgimento dellà¢ attuale struttura del Web. Lo scopo di questo lavoro àƒ¨ quello progettare e realizzare un meta-motore di ricerca semantico, partendo dalla teorizzazione di tecniche e modelli fino ad arrivare allà¢ implementazione e al testing finale. Nel primo capitolo saranno introdotti i concetti piàƒ¹ importanti attorno ai quali si sviluppa là¢ Information Retrieval e Representation (IRR); nel secondo capitolo verranno descritti i modelli piàƒ¹ importanti per là¢ IR; nel terzo capitolo parleremo di sistemi noti in letteratura per la ricerca semantica; nel quarto capitolo varràƒ descritta una tecnica per la rappresentazione della conoscenza, là¢ ontologia; nel quinto capitolo si parleràƒ delle metriche per la misura della similaritàƒ tra concetti; nel sesto capitolo verràƒ presentato un modello proposto per là¢ information retrieval e saràƒ descritto un sistema che si basa su questo modello; nel settimo capitolo verràƒ descritta la metodologia per la valutazione del sistema e saràƒ presentata una sperimentazione; nellà¢ ottavo e ultimo capitolo verranno discussi i risultati ottenuti e presentate le conclusioni.

Tecniche e modelli per la ricerca semantica sul web: un approccio basato su ontologie

Rinaldi, Antonio Maria

2006

Abstract

Là¢ avanzamento delle tecnologie dellà¢ informazione ha permesso la creazione di amplissime collezioni di documenti in formato elettronico riguardanti gli argomenti piàƒ¹ disparati; di queste collezioni possiamo dire che là¢ esempio piàƒ¹ rappresentativo àƒ¨ il World Wide Web. Non sempre, peràƒ², la grande disponibilitàƒ dà¢ informazione àƒ¨ da ritenersi un fatto positivo, anzi, in certi casi, puàƒ² diventare addirittura deleteria. Studi recenti hanno messo in evidenza come là¢ immensa quantitàƒ dà¢ informazione offerta da internet possa provocare conseguenze psicologiche di vario tipo negli utilizzatori: da problemi nella sfera relazionale, allo scarso rendimento sul lavoro a causa di à¢ navigazione compulsivaà¢ sul web [Greenfield2002]. Ben piàƒ¹ grave appare, secondo Francis Heylighen, là¢ effetto che là¢ Information Overload (sovraccarico dà¢ informazione) sta avendo sulla nostra societàƒ . Sembrerebbe, infatti, che là¢ eccessiva informatizzazione stia incrementando esponenzialmente la velocitàƒ dei processi evolutivi della nostra societàƒ e ne stia anche aumentando la complessitàƒ [Heylighen2002]. Il fenomeno che sembra caratterizzare i nostri tempi àƒ¨ là¢ aumento progressivo di produttivitàƒ in qualunque settore, intendendo con il termine à¢ produttivitàƒ à¢ il rapporto tra il risultato ottenuto da un processo e le risorse impiegate. Questo fenomeno nel mondo dellà¢ informazione àƒ¨ perfettamente rappresentato da internet: oggi àƒ¨ possibile pubblicare qualunque documento ad un costo praticamente nullo, senza nessun tipo di filtro. Questo se da un lato ha provocato un incremento della quantitàƒ dà¢ informazione disponibile, da un altro lato ne ha, in media, ridotto la qualitàƒ . A causa della complessitàƒ nellà¢ organizzazione dei dati e della quantitàƒ di materiale presente, la ricerca sul Web di informazioni davvero utili àƒ¨ diventata decisamente complessa. Lo sforzo fatto dalla comunitàƒ scientifica e dalle aziende che si occupano di information retrieval ha fornito agli utenti potenti mezzi, come ad esempio i motori di ricerca, per assisterli nella scoperta di risorse. Le tecniche di ricerca sono le piàƒ¹ disparate ma i risultati sono lontani dal soddisfare le richieste di una ricerca mirata. Trovare informazioni usando i tradizionali motori si rivela fruttuoso solo in presenza di argomenti di una certa notorietàƒ e importanza e di query molto precise; negli altri casi questo lavoro puàƒ² implicare una considerevole perdita di tempo dato che un utente deve raffinare manualmente la ricerca visitando una ad una le pagine restituite. Questo avviene perchàƒ© i motori di ricerca tradizionali effettuano ricerche di tipo sintattico: essi restituiscono le pagine che contengono le keywords presenti nelle query degli utenti, indipendentemente dal contesto in cui esse sono utilizzate oppure restituiscono pagine secondo algoritmi differenti, ad esempio basati sulla popolaritàƒ . Se ciàƒ² da un lato àƒ¨ conveniente in termini di velocitàƒ di reperimento delle pagine e restituzione dei risultati, dallà¢ altro lato porta spesso a risultati errati o imprecisi, dato che vengono restituite molte pagine non attinenti al contesto della query dellà¢ utente. anche In un contesto tale ha acquisito sempre piàƒ¹ importanza nelle scienze informatiche, ed in particolare nel settore dellà¢ information retrieval, il concetto di à¢ rilevanzaà¢ delle informazioni. Questo concetto, che per là¢ uomo àƒ¨ del tutto intuitivo e nella maggior parte dei casi inconscio, àƒ¨ definito da Schutz come là¢ inerenza di un informazione ad un tema, cioàƒ¨ al particolare aspetto o oggetto della nostra concentrazione, avendo come base un orizzonte, ossia là¢ insieme delle conoscenze da noi possedute [Schutz1970]. Sarebbe conveniente avere a disposizione un sistema in grado di à¢ capireà¢ di cosa parla una pagina, valutando la sua attinenza con i domini di interesse per là¢ utente. Una ricerca di tale tipo àƒ¨ detta semantica in quanto non restituisce semplicemente pagine che contengono le keywords, ma pagine che hanno anche un contenuto semantico aderente al dominio desiderato dallà¢ utente. I ricercatori stanno cercando di dare risposte a questi problemi e una delle soluzioni piàƒ¹ accredidate sembra essere il Semantic Web [BernersLee2001]. Eà¢ opinione di chi scrive che, anche se questo modo ci concepire il Web àƒ¨ affascinante e promettente, siamo ancora lontani da un suo utilizzo a larga scala dato che il metodo proposto implica necessariamente uno stravolgimento dellà¢ attuale struttura del Web. Lo scopo di questo lavoro àƒ¨ quello progettare e realizzare un meta-motore di ricerca semantico, partendo dalla teorizzazione di tecniche e modelli fino ad arrivare allà¢ implementazione e al testing finale. Nel primo capitolo saranno introdotti i concetti piàƒ¹ importanti attorno ai quali si sviluppa là¢ Information Retrieval e Representation (IRR); nel secondo capitolo verranno descritti i modelli piàƒ¹ importanti per là¢ IR; nel terzo capitolo parleremo di sistemi noti in letteratura per la ricerca semantica; nel quarto capitolo varràƒ descritta una tecnica per la rappresentazione della conoscenza, là¢ ontologia; nel quinto capitolo si parleràƒ delle metriche per la misura della similaritàƒ tra concetti; nel sesto capitolo verràƒ presentato un modello proposto per là¢ information retrieval e saràƒ descritto un sistema che si basa su questo modello; nel settimo capitolo verràƒ descritta la metodologia per la valutazione del sistema e saràƒ presentata una sperimentazione; nellà¢ ottavo e ultimo capitolo verranno discussi i risultati ottenuti e presentate le conclusioni.

Scheda breve

Scheda completa

Scheda completa (DC)

	Data di pubblicazione
	
				2006
			
	Lingua
	
				it
			
	Collezione di appartenenza
	
				BNCF

File in questo prodotto:

File	Dimensione	Formato
tesi_dottorato_Antonio_Rinaldi.pdf accesso solo da BNCF e BNCR Tipologia: Altro materiale allegato Licenza: Tutti i diritti riservati Dimensione 2.28 MB Formato Adobe PDF	2.28 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/336565

Il codice NBN di questa tesi è URN:NBN:IT:BNCF-336565