L'incessante sviluppo tecnologico e la crescente diffusione di dispositivi collegabili alla rete Internet sta creando una nuova miniera informativa utile per la produzione di informazioni. Le nuove tecnologie di comunicazione offrono opportunità  di raccolta di dati semplificate che dovrebbero ridurre l'onere statistico gravante sulle imprese e migliorare la qualità  delle informazioni statistiche. L'uso di queste fonti rappresenta una grande opportunità  per gli istituti nazionali di statistica ancora non sufficientemente sfruttata a causa dei problemi connessi alla raccolta dei dati. Per contribuire al raggiungimento di questo obiettivo questo lavoro di tesi propone strumenti di text mining utili a facilitare il maggiore uso dei documenti espressi in linguaggio naturale. In particolare ਠstato proposto l'uso dell'analisi delle corrispondenze lessicali unitamente alla network analysis per la costruzione di risorse statistico linguistiche. Inoltre ਠstata proposta una strategia di text classification, per la costruzione di strumenti di interrogazione di testi: le query testuali. In ultimo, ਠstata proposto l'uso di un metodo fattoriale vincolato (analisi delle corrispondenze canoniche), per una analisi congiunta di variabili quantitative e testuali. Questo strumento consente di arricchire e comprendere i dati numerici con l'ausilio di dati testuali (parole). A titolo di esempio sono presentate alcune applicazioni a dati reali.

Produzione di informazione statistica ufficiale: il ruolo dei dati testuali

2013

Abstract

L'incessante sviluppo tecnologico e la crescente diffusione di dispositivi collegabili alla rete Internet sta creando una nuova miniera informativa utile per la produzione di informazioni. Le nuove tecnologie di comunicazione offrono opportunità  di raccolta di dati semplificate che dovrebbero ridurre l'onere statistico gravante sulle imprese e migliorare la qualità  delle informazioni statistiche. L'uso di queste fonti rappresenta una grande opportunità  per gli istituti nazionali di statistica ancora non sufficientemente sfruttata a causa dei problemi connessi alla raccolta dei dati. Per contribuire al raggiungimento di questo obiettivo questo lavoro di tesi propone strumenti di text mining utili a facilitare il maggiore uso dei documenti espressi in linguaggio naturale. In particolare ਠstato proposto l'uso dell'analisi delle corrispondenze lessicali unitamente alla network analysis per la costruzione di risorse statistico linguistiche. Inoltre ਠstata proposta una strategia di text classification, per la costruzione di strumenti di interrogazione di testi: le query testuali. In ultimo, ਠstata proposto l'uso di un metodo fattoriale vincolato (analisi delle corrispondenze canoniche), per una analisi congiunta di variabili quantitative e testuali. Questo strumento consente di arricchire e comprendere i dati numerici con l'ausilio di dati testuali (parole). A titolo di esempio sono presentate alcune applicazioni a dati reali.
2013
it
File in questo prodotto:
File Dimensione Formato  
tesi%20finale.pdf

accesso solo da BNCF e BNCR

Tipologia: Altro materiale allegato
Licenza: Tutti i diritti riservati
Dimensione 1.17 MB
Formato Adobe PDF
1.17 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/316320
Il codice NBN di questa tesi è URN:NBN:IT:BNCF-316320