Questa tesi propone un’analisi corpus-based del linguaggio del micro-blogging spagnolo. Nello specifico, mediante lo studio quantitativo e qualitativo di un Corpus di 250.000 tweet (4.965.334 tokens, 3.914.477 parole, 150.173 frasi) prodotti da 2.500 utenti comuni, e il successivo confronto di questi dati con un Corpus - di grandezza equivalente - di testi scritti tratti dal web (1.674 documenti, 70.429 paragrafi, 174.505 frasi, 3.100.061 parole e 3.626.447 token totali), viene proposto un tentativo di caratterizzazione dei tratti tipici e salienti della comunicazione di Twitter, cercando anche di verificare l’eventuale esistenza di differenze sostanziali tra la stessa e lo spagnolo scritto “standard”. Il lavoro è strutturato in sette capitoli, di cui gli ultimi due sono scritti in inglese. Nel primo, viene presentato il quadro teorico di riferimento, mediante la descrizione delle funzioni strutturali e comunicative di Twitter e la revisione della letteratura internazionale relativa nello specifico al linguaggio del micro-blogging. Nel secondo, ci si concentra su alcune questioni metodologiche, etiche e legali, di cui si deve necessariamente tenere conto quando si usa Twitter come fonte di dati. Nel terzo capitolo, vengono presentati i metodi di costruzione e di “manipolazione” del Corpus di tweet usato per l’analisi e le caratteristiche demografiche degli informanti. Il quarto capitolo dà il via all’analisi vera e propria. Nello specifico, il Corpus di Tweet ed il Corpus degli scritti del Web vengono studiati computazionalmente dal punto di vista quantitativo, calcolando, per ciascuno di essi, la Type/Token Ratio (dato utile per capire il grado di ricchezza lessicale di una lingua), la percentuale di occorrenza di ciascuna Part of Speech, e le liste di frequenza dei 10 nomi, verbi, aggettivi e pronomi più usati in ciascun contesto comunicativo, per poi confrontare i risultati ottenuti. Nel quinto capitolo, viene proposta un’analisi qualitativa dei due corpora, per verificare, in ciascuno dei due contesti comunicativi, l’eventuale presenza e il grado di pervasività di una strategia linguistica tipica dell’oralità, ovvero l’uso del linguaggio formulaico, che, nelle interazioni colloquiali faccia a faccia, viene spesso usato con il fine di promuovere se stessi o di rafforzare l’identità di gruppo (cfr., tra gli altri, Wray 2002,2008) a seconda dei contesti e delle situazioni. Nel sesto capitolo, scritto in inglese, si cerca di verificare il grado di pervasività in entrambi i corpora di una costruzione infinitiva innovativa, ascrivibile alla categoria degli “infiniti indipendenti”, e non ancora pienamente caratterizzata nella linguistica spagnola, che, in alcuni lavori precedenti (Calò, 2015, Palmerini & Calò, 2018 e Calò,2019) abbiamo chiamato “infinito social”. Infine, nel settimo e ultimo capitolo, anch’esso scritto in inglese, ci si focalizza su un’altra costruzione non finita innovativa riscontrata frequentemente nei Social Media, ma non ancora documentata nella linguistica spagnola, che, in questa sede, abbiamo definito “Gerundio Influencer”.

La "grammatica" di Twitter: uno studio "corpus-based" del micro-blogging spagnolo

CALO', cristina
2020

Abstract

Questa tesi propone un’analisi corpus-based del linguaggio del micro-blogging spagnolo. Nello specifico, mediante lo studio quantitativo e qualitativo di un Corpus di 250.000 tweet (4.965.334 tokens, 3.914.477 parole, 150.173 frasi) prodotti da 2.500 utenti comuni, e il successivo confronto di questi dati con un Corpus - di grandezza equivalente - di testi scritti tratti dal web (1.674 documenti, 70.429 paragrafi, 174.505 frasi, 3.100.061 parole e 3.626.447 token totali), viene proposto un tentativo di caratterizzazione dei tratti tipici e salienti della comunicazione di Twitter, cercando anche di verificare l’eventuale esistenza di differenze sostanziali tra la stessa e lo spagnolo scritto “standard”. Il lavoro è strutturato in sette capitoli, di cui gli ultimi due sono scritti in inglese. Nel primo, viene presentato il quadro teorico di riferimento, mediante la descrizione delle funzioni strutturali e comunicative di Twitter e la revisione della letteratura internazionale relativa nello specifico al linguaggio del micro-blogging. Nel secondo, ci si concentra su alcune questioni metodologiche, etiche e legali, di cui si deve necessariamente tenere conto quando si usa Twitter come fonte di dati. Nel terzo capitolo, vengono presentati i metodi di costruzione e di “manipolazione” del Corpus di tweet usato per l’analisi e le caratteristiche demografiche degli informanti. Il quarto capitolo dà il via all’analisi vera e propria. Nello specifico, il Corpus di Tweet ed il Corpus degli scritti del Web vengono studiati computazionalmente dal punto di vista quantitativo, calcolando, per ciascuno di essi, la Type/Token Ratio (dato utile per capire il grado di ricchezza lessicale di una lingua), la percentuale di occorrenza di ciascuna Part of Speech, e le liste di frequenza dei 10 nomi, verbi, aggettivi e pronomi più usati in ciascun contesto comunicativo, per poi confrontare i risultati ottenuti. Nel quinto capitolo, viene proposta un’analisi qualitativa dei due corpora, per verificare, in ciascuno dei due contesti comunicativi, l’eventuale presenza e il grado di pervasività di una strategia linguistica tipica dell’oralità, ovvero l’uso del linguaggio formulaico, che, nelle interazioni colloquiali faccia a faccia, viene spesso usato con il fine di promuovere se stessi o di rafforzare l’identità di gruppo (cfr., tra gli altri, Wray 2002,2008) a seconda dei contesti e delle situazioni. Nel sesto capitolo, scritto in inglese, si cerca di verificare il grado di pervasività in entrambi i corpora di una costruzione infinitiva innovativa, ascrivibile alla categoria degli “infiniti indipendenti”, e non ancora pienamente caratterizzata nella linguistica spagnola, che, in alcuni lavori precedenti (Calò, 2015, Palmerini & Calò, 2018 e Calò,2019) abbiamo chiamato “infinito social”. Infine, nel settimo e ultimo capitolo, anch’esso scritto in inglese, ci si focalizza su un’altra costruzione non finita innovativa riscontrata frequentemente nei Social Media, ma non ancora documentata nella linguistica spagnola, che, in questa sede, abbiamo definito “Gerundio Influencer”.
28-feb-2020
Italiano
Twitter; corpus linguistics; independent infinitive; independent gerund; formulaic language; spanish; computational linguistics
FRESU, Rita
DI GIOVINE, Paolo
Università degli Studi di Roma "La Sapienza"
File in questo prodotto:
File Dimensione Formato  
Tesi_dottorato_Calò.pdf

accesso aperto

Dimensione 3.9 MB
Formato Adobe PDF
3.9 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/174795
Il codice NBN di questa tesi è URN:NBN:IT:UNIROMA1-174795