Gli ultimi sviluppi nel campo del Visual Question Answering hanno posto l'accento sul concetto di "attention" come premessa fondamentale per pesare le informazioni visive e testuali. In questa tesi discuteremo l'utilizzo di una Stacked Cross-Attention applicata alla soluzione del nostro problema presentando i vantaggi di questo approccio e come un semplice modello, ideato secondo questa filosofia, possa già  conseguire significativi risultati.

Stacked Cross-Attention per Visual Question Answering

2020

Abstract

Gli ultimi sviluppi nel campo del Visual Question Answering hanno posto l'accento sul concetto di "attention" come premessa fondamentale per pesare le informazioni visive e testuali. In questa tesi discuteremo l'utilizzo di una Stacked Cross-Attention applicata alla soluzione del nostro problema presentando i vantaggi di questo approccio e come un semplice modello, ideato secondo questa filosofia, possa già  conseguire significativi risultati.
2020
it
Dipartimento di Ingegneria
Università degli Studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Draft_benetti_1_3.pdf

accesso solo da BNCF e BNCR

Tipologia: Altro materiale allegato
Licenza: Tutti i diritti riservati
Dimensione 5.69 MB
Formato Adobe PDF
5.69 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/297563
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-297563