La tesi riguarda gli algoritmi incrementali per l'analisi del linguaggio (naturale) usando grammatiche alle dipendenze. Queste grammatiche permettono di dare una chiara rappresentazione delle relazioni sintattiche che intercorrono tra le varie parole della frase. Negli ultimi anni tali rappresentazioni hanno rivestito grande interesse, fino a diventare un passaggio fondamentale in moltissime applicazioni che trattano il linguaggio. I sistemi incrementali trovano forti motivazioni sia pratiche che psicolinguistiche. Da un punto di vista pratico, questi sistemi sono gli unici algoritmi in grado di processare velocemente grandi quantità di dati. Da un punto di vista psicolinguistico sono sistemi che simulano il modo in cui l'uomo elabora e capisce il linguaggio. Se in termini di velocità i sistemi incrementali sono i migliori, esistono sistemi basati sulla teoria dei grafi che ottengono una migliore precisione. Recentemente si è cercato di migliorare i sistemi incrementali con l'ausilio di tecniche più o meno elaborate di ``beam search'' o combinando i risultati provenienti da diversi algoritmi. Sebbene queste tecniche migliorino la precisione dei sistemi, hanno un impatto negativo sulla velocità degli algoritmi. Durante il mio lavoro di ricerca ho elaborato sistemi alternativi che migliorano la precisione senza sacrificare l'efficienza. In particolare nella tesi descriverò come sia possibile migliorare i sistemi incrementali agendo sulle funzioni oracolo e aumentando la flessibilità degli algoritmi. Agendo sulle funzioni oracolo, che guidano l'apprendimento dei modelli statistici usati in fase applicativa, è possibile ridurre la propagazione degli errori che tipicamente affligge gli algoritmi incrementali. Le nuove funzioni riducono leggermente la velocità della fase di apprendimento, ma non hanno alcun impatto sull'efficienza in fase applicativa. Invece, agendo sulla flessibilità degli algoritmi, è possibile creare sistemi incrementali con meno vincoli con un miglioramento della precisione a scapito di una praticamente trascurabile riduzione dell'efficienza. Concluderò mostrando come queste due nuove idee funzionino bene combinate l'una con l'altra raggiungendo risultati tuttora allo stato dell'arte.
Improvements in Transition Based Systems for Dependency Parsing
SARTORIO, FRANCESCO
2015
Abstract
La tesi riguarda gli algoritmi incrementali per l'analisi del linguaggio (naturale) usando grammatiche alle dipendenze. Queste grammatiche permettono di dare una chiara rappresentazione delle relazioni sintattiche che intercorrono tra le varie parole della frase. Negli ultimi anni tali rappresentazioni hanno rivestito grande interesse, fino a diventare un passaggio fondamentale in moltissime applicazioni che trattano il linguaggio. I sistemi incrementali trovano forti motivazioni sia pratiche che psicolinguistiche. Da un punto di vista pratico, questi sistemi sono gli unici algoritmi in grado di processare velocemente grandi quantità di dati. Da un punto di vista psicolinguistico sono sistemi che simulano il modo in cui l'uomo elabora e capisce il linguaggio. Se in termini di velocità i sistemi incrementali sono i migliori, esistono sistemi basati sulla teoria dei grafi che ottengono una migliore precisione. Recentemente si è cercato di migliorare i sistemi incrementali con l'ausilio di tecniche più o meno elaborate di ``beam search'' o combinando i risultati provenienti da diversi algoritmi. Sebbene queste tecniche migliorino la precisione dei sistemi, hanno un impatto negativo sulla velocità degli algoritmi. Durante il mio lavoro di ricerca ho elaborato sistemi alternativi che migliorano la precisione senza sacrificare l'efficienza. In particolare nella tesi descriverò come sia possibile migliorare i sistemi incrementali agendo sulle funzioni oracolo e aumentando la flessibilità degli algoritmi. Agendo sulle funzioni oracolo, che guidano l'apprendimento dei modelli statistici usati in fase applicativa, è possibile ridurre la propagazione degli errori che tipicamente affligge gli algoritmi incrementali. Le nuove funzioni riducono leggermente la velocità della fase di apprendimento, ma non hanno alcun impatto sull'efficienza in fase applicativa. Invece, agendo sulla flessibilità degli algoritmi, è possibile creare sistemi incrementali con meno vincoli con un miglioramento della precisione a scapito di una praticamente trascurabile riduzione dell'efficienza. Concluderò mostrando come queste due nuove idee funzionino bene combinate l'una con l'altra raggiungendo risultati tuttora allo stato dell'arte.File | Dimensione | Formato | |
---|---|---|---|
Tesi.pdf
accesso aperto
Dimensione
1.13 MB
Formato
Adobe PDF
|
1.13 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14242/111069
URN:NBN:IT:UNIPD-111069