AUTOMATIC ENHANCEMENT OF IMAGE MEMORABILITY

Majtanovic, Cveta

Ogni immagine racconta una storia. Le immagini sono uno dei tipi di media più dominanti. Ogni giorno ne vengono caricate miliardi, per un totale di centinaia di miliardi in media ogni anno. Gli artefatti che rappresentano la percezione visiva come fotografie e altre immagini bidimensionali sono distribuiti attraverso un numero crescente di siti web di condivisione di immagini. Di conseguenza, un crescente interesse nel comprendere l'intera immagine o gli oggetti in essa raffigurati, il suo stile o le emozioni che un'immagine potrebbe evocare, insieme a tutte le altre proprietà dell'immagine, è diventato sempre più diffuso nella pratica di ricerca. Questa ricerca si concentra sul problema del miglioramento automatico della memorabilità di un'immagine. Recenti lavori in Computer Vision e Multimedia hanno dimostrato che proprietà intrinseche dell'immagine come la memorabilità possono essere dedotte automaticamente sfruttando potenti modelli di deep learning. Questa ricerca fa avanzare lo stato dell'arte in questo settore affrontando un problema nuovo e più impegnativo: "Possiamo trasformare un'immagine di input arbitraria e renderla più memorabile?". Per formulare correttamente questa domanda si richiede l'esistenza di misure di memorabilità. I metodi per aumentare automaticamente la memorabilità dell'immagine avrebbero un impatto in molti campi di applicazione, come l'istruzione, i giochi o la pubblicità. Per affrontare il problema, introduciamo un approccio ispirato al paradigma dell'editing-by-applying-filters, adottato in applicazioni di fotoritocco come Instagram e Prisma. Gli utenti delle due app devono generalmente passare in rassegna i filtri disponibili prima di trovare la soluzione desiderata e si tratta di un processo che trasforma l’editing in un'attività che richiede risorse e tempo. Nel lavoro svolto ai fini di questa tesi, invertiamo il processo: data un'immagine in ingresso, ci proponiamo di recuperare automaticamente un insieme di “style seed”, cioè un insieme di immagini di stile che, applicate all'immagine in ingresso attraverso un algoritmo di neural style transfer, fornisce il massimo aumento della memorabilità. Di conseguenza, dimostriamo che è possibile recuperare automaticamente i migliori style seed per una determinata immagine, riducendo così notevolmente il numero di tentativi umani necessari per trovare una buona corrispondenza. Inoltre, dimostriamo l'efficacia dell'approccio proposto con esperimenti sul dataset LaMem, disponibile al pubblico, eseguendo sia una valutazione quantitativa che uno studio sugli utenti. Per dimostrare la flessibilità del framework proposto, analizziamo anche l'impatto delle diverse scelte di implementazione, come l'utilizzo di diversi metodi state-of-the-art di neural style transfer. Infine, mostriamo diversi risultati qualitativi per fornire ulteriori approfondimenti sul legame tra stile dell'immagine e memorabilità. Questo approccio nasce dai recenti progressi nel campo della sintesi delle immagini e adotta una deep architecture per generare un'immagine memorabile da una data immagine di input e da uno style seed. È importante sottolineare che per selezionare automaticamente lo stile migliore, basandosi anche su modelli deep, viene proposta una nuova soluzione learning-based. La valutazione sperimentale, condotta su benchmark pubblicamente disponibili, dimostra l'efficacia dell'approccio proposto per la generazione di immagini memorabili attraverso la selezione automatica degli style seed.

Every picture tells a story. Images are one of the most dominant types of media, uploaded an average in billions every single day and in hundreds of billions on an annual basis. Artifacts depicting visual perception like photographs and other two-dimensional pictures are distributed through the growing number of image-sharing websites. Consequently, a thriving interest in understanding the whole image or objects depicted in it, its style or the emotions a picture might evoke, together with all the other image properties, became increasingly represented in research practice. This research focuses on the problem of automatically enhancing memorability of an image. Recent works in Computer Vision and Multimedia have shown that intrinsic image properties like memorability can be automatically inferred by exploiting powerful deep learning models. This research advances the state of the art in this area by addressing a novel and more challenging issue: “Can we transform an arbitrary input image and make it more memorable?”. To state this question properly one requires the existence of memorability measures. Methods for automatically increasing image memorability would have an impact in many application fields, such as education, gaming or advertising. To tackle the problem, we introduce an approach inspired by editing-by-applying-filters paradigm, adopted in photo editing applications like Instagram and Prisma. Users of the two apps generally have to go through the available filters before finding the desired solution which is turning the editing process into a resource- and time-consuming task. In the work conducted for the purpose of this thesis, we reverse the process: given an input image, we propose to automatically retrieve a set of “style seeds”, i.e., a set of style images which, applied to the input image through a neural style transfer algorithm, provide the highest increase in memorability. As a result, we demonstrate that it is possible to automatically retrieve the best style seeds for a given image, thus, remarkably reducing the number of human attempts needed to find a good match. Furthermore, we show the effectiveness of the proposed approach with experiments on the publicly available LaMem dataset, performing both a quantitative evaluation and a user study. To demonstrate the flexibility of the proposed framework, we also analyze the impact of different implementation choices, such as using different state of the art neural style transfer methods. Finally, we show several qualitative results to provide additional insights on the link between image style and memorability. This approach arises from recent advances in the field of image synthesis and adopts a deep architecture for generating a memorable picture from a given input image and a style seed. Importantly, to automatically select the best style, also relying on deep models, a novel learning-based solution is proposed. The experimental evaluation, conducted on publicly available benchmarks, demonstrates the effectiveness of the proposed approach for generating memorable images through automatic style seed selection.