A significant number of documents, reports and Web pages –an analysis reports 233M relational tables within the Common Crawl repository of 1.81 billion documents– makes use of tables to convey information that cannot be easily processed by humans, and understood by computers. To address this issue, we propose a new approach that allows computers to interpret the semantics of a table, and provides humans with a more accessible representation of the data contained in a table. To achieve the objective, the general problem has been broken down into three sub-problems: (i) define a method to provide a semantic interpretation of table data; (ii) define a descriptive model that allows computers to understand and share table data; and (iii) define processes, techniques and algorithms to generate natural language representation of the table data. Regarding sub-problem (i), the semantic representation of a data has been obtained through the application of table interpretation techniques, which supports users to identify in a semi-automatic way the meaning of the data in the table and the relationships between them. Such techniques take a table and a Knowledge Graph (KG) as input, and deliver as output an RDF representation –a set of tuples <subject, predicate, object>–. The output contains the input table annotated with the KG concepts and properties. This thesis presents a new approach, rooted in the existing literature, to laid the foundations for the development of a new tool -called MantisTable- which automatically performs a complete semantic interpretation of a table. The conducted experiments have shown good results compared to similar techniques. Sub-problem (ii) has been tackled by defining new ways of representing data. A new kind of description has been defined that combines the OpenAPI specification with the JSON-LD. The results of semantic table interpretation techniques are exploited to enhance a popular description format and allow automatic retrieval and processing of table data. Sub-problem (iii) has been addressed by defining a natural language generation technique that uses a neural network to translate RDF data obtained from table interpretation into sentences. Thanks to these sentences, it is possible to create a textual representation of the content of the table, and possibly extend it with additional information from data sources that can be selected automatically using semantic annotations.

Esiste un numero significativo di documenti, report e pagine Web – un'analisi riporta 233 milioni di tabelle relazionali nel repository Common Crawl contenente un totale 2,85 miliardi di documenti – che fanno uso di tabelle per fornire informazioni che non possono essere facilmente elaborate dagli umani o capite dai computer. Per risolvere questo problema proponiamo un nuovo approccio che permetterà ai computer di interpretare la semantica di una tabella, e fornirà agli umani una rappresentazione più accessibile dei dati contenuti in essa. Per conseguire questo obiettivo, il problema principale è stato suddiviso in tre sotto-problemi: (i) la definizione di un metodo per fornire un'interpretazione semantica dei dati di una tabella; (ii) la definizione di un modello descrittivo che permetta ai computer di capire e condividere dati di una tabella; e (iii) la definizione di processi, tecniche e algoritmi per generare rappresentazioni dei dati in linguaggio naturale. Per quanto riguarda il sotto-problema (i), la rappresentazione semantica dei dati è stata ottenuta attraverso l'applicazione di tecniche di interpretazione di tabelle (table interpretation), che aiuta gli utenti ad identificare, in una maniera semi-automatica, il significato dei dati di una tabella e le relazioni tra di essi. Queste tecniche considerano in input una tabella e un Knowledge Graph, e restituiscono una rappresentazione RDF – un set di tuple <soggetto, predicato, oggetto> – del contenuto della tabella, facendo riferimento ai concetti e alle proprietà del KG. Questa dissertazione presenta un nuovo approccio che, a partire dai lavori presenti in letteratura, ha portato allo sviluppo di un nuovo strumento, chiamato MantisTable, che effettua automaticamente un'interpretazione semantica completa della tabella. Gli esperimenti condotti hanno mostrato buoni risultati, rispetto alle tecniche e ai tool simili. Il sotto-problema (ii) è stato affrontato con la definizione di nuovi modi di rappresentazione dei dati: è stato definito un nuovo tipo di descrizione che combina la specifica OpenAPI con il linguaggio JSON-LD. I risultati delle tecniche di interpretazione semantica delle tabelle vengono così sfruttati per migliorare un formato già popolare, permettendo il recupero e il processamento dei dati tabellari. Il sotto-problema (iii) è stato affrontato definendo una tecnica di generazione del linguaggio naturale che utilizza una rete neurale per trasformare dati RDF, ottenuti dall'interpretazione delle tabelle, in frasi. Grazie a queste frasi, è possibile creare una rappresentazione testuale del contenuto delle tabelle. Questa è poi estendibile con informazioni aggiuntive provenienti da fonti che possono essere selezionate automaticamente utilizzando l'annotazione semantica.

ENABLING TABULAR DATA UNDERSTANDING BY HUMANS AND MACHINES THROUGH SEMANTIC INTERPRETATION

CREMASCHI, MARCO
2020

Abstract

A significant number of documents, reports and Web pages –an analysis reports 233M relational tables within the Common Crawl repository of 1.81 billion documents– makes use of tables to convey information that cannot be easily processed by humans, and understood by computers. To address this issue, we propose a new approach that allows computers to interpret the semantics of a table, and provides humans with a more accessible representation of the data contained in a table. To achieve the objective, the general problem has been broken down into three sub-problems: (i) define a method to provide a semantic interpretation of table data; (ii) define a descriptive model that allows computers to understand and share table data; and (iii) define processes, techniques and algorithms to generate natural language representation of the table data. Regarding sub-problem (i), the semantic representation of a data has been obtained through the application of table interpretation techniques, which supports users to identify in a semi-automatic way the meaning of the data in the table and the relationships between them. Such techniques take a table and a Knowledge Graph (KG) as input, and deliver as output an RDF representation –a set of tuples –. The output contains the input table annotated with the KG concepts and properties. This thesis presents a new approach, rooted in the existing literature, to laid the foundations for the development of a new tool -called MantisTable- which automatically performs a complete semantic interpretation of a table. The conducted experiments have shown good results compared to similar techniques. Sub-problem (ii) has been tackled by defining new ways of representing data. A new kind of description has been defined that combines the OpenAPI specification with the JSON-LD. The results of semantic table interpretation techniques are exploited to enhance a popular description format and allow automatic retrieval and processing of table data. Sub-problem (iii) has been addressed by defining a natural language generation technique that uses a neural network to translate RDF data obtained from table interpretation into sentences. Thanks to these sentences, it is possible to create a textual representation of the content of the table, and possibly extend it with additional information from data sources that can be selected automatically using semantic annotations.
18-feb-2020
Inglese
Esiste un numero significativo di documenti, report e pagine Web – un'analisi riporta 233 milioni di tabelle relazionali nel repository Common Crawl contenente un totale 2,85 miliardi di documenti – che fanno uso di tabelle per fornire informazioni che non possono essere facilmente elaborate dagli umani o capite dai computer. Per risolvere questo problema proponiamo un nuovo approccio che permetterà ai computer di interpretare la semantica di una tabella, e fornirà agli umani una rappresentazione più accessibile dei dati contenuti in essa. Per conseguire questo obiettivo, il problema principale è stato suddiviso in tre sotto-problemi: (i) la definizione di un metodo per fornire un'interpretazione semantica dei dati di una tabella; (ii) la definizione di un modello descrittivo che permetta ai computer di capire e condividere dati di una tabella; e (iii) la definizione di processi, tecniche e algoritmi per generare rappresentazioni dei dati in linguaggio naturale. Per quanto riguarda il sotto-problema (i), la rappresentazione semantica dei dati è stata ottenuta attraverso l'applicazione di tecniche di interpretazione di tabelle (table interpretation), che aiuta gli utenti ad identificare, in una maniera semi-automatica, il significato dei dati di una tabella e le relazioni tra di essi. Queste tecniche considerano in input una tabella e un Knowledge Graph, e restituiscono una rappresentazione RDF – un set di tuple <soggetto, predicato, oggetto> – del contenuto della tabella, facendo riferimento ai concetti e alle proprietà del KG. Questa dissertazione presenta un nuovo approccio che, a partire dai lavori presenti in letteratura, ha portato allo sviluppo di un nuovo strumento, chiamato MantisTable, che effettua automaticamente un'interpretazione semantica completa della tabella. Gli esperimenti condotti hanno mostrato buoni risultati, rispetto alle tecniche e ai tool simili. Il sotto-problema (ii) è stato affrontato con la definizione di nuovi modi di rappresentazione dei dati: è stato definito un nuovo tipo di descrizione che combina la specifica OpenAPI con il linguaggio JSON-LD. I risultati delle tecniche di interpretazione semantica delle tabelle vengono così sfruttati per migliorare un formato già popolare, permettendo il recupero e il processamento dei dati tabellari. Il sotto-problema (iii) è stato affrontato definendo una tecnica di generazione del linguaggio naturale che utilizza una rete neurale per trasformare dati RDF, ottenuti dall'interpretazione delle tabelle, in frasi. Grazie a queste frasi, è possibile creare una rappresentazione testuale del contenuto delle tabelle. Questa è poi estendibile con informazioni aggiuntive provenienti da fonti che possono essere selezionate automaticamente utilizzando l'annotazione semantica.
Interpretazione; Tabelle; Web Semantico; Linguaggio; API
MAURINO, ANDREA
DE PAOLI, FLAVIO MARIA
Università degli Studi di Milano-Bicocca
File in questo prodotto:
File Dimensione Formato  
phd_unimib_052538.pdf

accesso aperto

Dimensione 14.96 MB
Formato Adobe PDF
14.96 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/72078
Il codice NBN di questa tesi è URN:NBN:IT:UNIMIB-72078