Gli ultimi sviluppi nel campo del Visual Question Answering hanno posto l'accento sul concetto di "attention" come premessa fondamentale per pesare le informazioni visive e testuali. In questa tesi discuteremo l'utilizzo di una Stacked Cross-Attention applicata alla soluzione del nostro problema presentando i vantaggi di questo approccio e come un semplice modello, ideato secondo questa filosofia, possa già conseguire significativi risultati.
Stacked Cross-Attention per Visual Question Answering
2020
Abstract
Gli ultimi sviluppi nel campo del Visual Question Answering hanno posto l'accento sul concetto di "attention" come premessa fondamentale per pesare le informazioni visive e testuali. In questa tesi discuteremo l'utilizzo di una Stacked Cross-Attention applicata alla soluzione del nostro problema presentando i vantaggi di questo approccio e come un semplice modello, ideato secondo questa filosofia, possa già conseguire significativi risultati.File in questo prodotto:
| File | Dimensione | Formato | |
|---|---|---|---|
|
Draft_benetti_1_3.pdf
accesso solo da BNCF e BNCR
Tipologia:
Altro materiale allegato
Licenza:
Tutti i diritti riservati
Dimensione
5.69 MB
Formato
Adobe PDF
|
5.69 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
Utilizza questo identificativo per citare o creare un link a questo documento:
https://hdl.handle.net/20.500.14242/297563
Il codice NBN di questa tesi è
URN:NBN:IT:UNIMORE-297563