In this dissertation, I study how Big data and data mining can be used as an ensemble of methods for understanding the psychological underpinnings of people's behavior, specifically of customer behavior. Major advances in computing technology, combined with the human tendencies to collect and store information, have brought us to the Big Data era. Big Data refers to datasets that are not only big but also high in variety and velocity. The potential for Big Data to provide value for psychology is considerable: Big Data has the potential to overcome some of the issues of psychological studies and provide a set of methods, tools, and techniques (i.e., data mining) that can positively contribute to the advancements of the field. In Chapter II, "A guide for conducting psychological research with Big Data", I aim to provide technical knowledge to those psychologists who want to conduct Big Data projects. By taking the Knowledge Discovery from Database steps as the fil rouge, I show where it is possible to find data suitable for psychological investigations, describe the methods for preprocessing these data, enlist some techniques to analyze data, and programming languages (R and Python) through which all these steps can be realized. Throughout the chapter, I also discuss some methodological issues and highlight some related pitfalls that need to be considered when applying data mining and machine learning techniques. This dissertation aims to implement data mining methods to extract psychological knowledge from customers' data. Thus, it is essential to know how data mining has been used in the past CRM literature, which is the fields where customer data has been extensively used to create and maintain profitable relationships throughout the customer lifecycle. In Chapter III, "The use of data mining in customer relationship management: a review on 18 years of publications (2000 - 2018)", I provide a comprehensive literature review of the published works on the use of data mining on customer acquisition, cross-sell, customer churn, and customer win-back CRM processes. The review examines journal articles and conference proceedings published between 2000 and 2018, retrieved from three academic databases. Nearly five hundred works were selected for the analyses. The selected works were analyzed according to several dimensions, such as the type of data mining techniques used, the characteristics of works (e.g., type of study, study aims, factors that predict customer behavior). Findings of this review indicate that customer churn (i.e., customers who decide to leave the company) is the area that received the most attention in the last eighteen years and that, in the same period, data mining techniques have never been applied to customer win-back. Classification models are the most used to predict customers’ behaviors and ensemble algorithms (e.g., random forest) are the most used techniques. The findings of this review provide useful guidelines to direct future research and facilitate knowledge creation on the application of data mining in CRM. In Chapter IV, "Will they stay or will they go? The prediction and understanding of customer churn behavior through data mining techniques", I develop a churn prediction model using data mining and machine learning techniques in order to shed light on the psychological underpinnings of customers' churn behavior. To build the model, I use customers' data from an energy retailer. I build several predictive models using decision trees, random forest, and logistic regression. Finally, I address a posteriori psychological explanations for the predictive relationships that emerged from the model to shed some light on the psychology behind churn behavior.

Lo scopo della presente tesi è indagare come i Big data e il data mining possano essere utilizzati come strumenti per comprendere i fondamenti psicologici del comportamento umano, in particolare del comportamento dei consumatori. I progressi nella tecnologia informatica, in combinazione con la tendenza umana a raccogliere informazioni, hanno portato all'era dei Big Data. Il termine Big Data si riferisce ad un insieme di dati caratterizzati da grande volume, varietà e velocità. Il valore che i Big Data potrebbero fornire alla psicologia è considerevole. Infatti, i Big Data hanno la capacità di superare alcuni limiti delle ricerche psicologiche tradizionali e forniscono un insieme di metodi e di tecniche (es. data mining) che possono contribuire positivamente ai progressi del settore. Il capitolo II, "A guide for conducting psychological research with Big Data”, mira a fornire delle conoscenze tecniche a quegli psicologi intendono condurre progetti con i Big Data. Tenendo le fasi del Knowledge Discovery from Database come fil rouge, descrivo dove è possibile trovare dati passibili di indagini psicologiche, i metodi di pre-elaborazione dei dati, le tecniche analitiche del data mining e i linguaggi di programmazione (R e Python) attraverso cui tutti questi passi possono essere eseguiti. Inoltre, vengono discusse alcune questioni metodologiche che devono essere prese in considerazione quando si applicano le tecniche di data mining. Poiché questa tesi ha lo scopo di implementare metodi di data mining per estrarre conoscenze psicologiche dai dati dei clienti, è essenziale sapere come il data mining è stato utilizzato in passato nella letteratura CRM, un settore in cui i dati dei clienti sono stati ampiamente utilizzati per creare e mantenere relazioni proficue con i clienti. Il Capitolo III, "The use of data mining in customer relationship management: a literature review on 18 years of publications (2000 - 2018)", fornisce una revisione della letteratura volta alla comprensione dell'utilizzo del data mining nei seguenti processi di CRM: acquisizione clienti, cross-selling, customer churn e customer win-back. Sono stati presi in considerazione articoli di riviste e atti di convegni pubblicati tra il 2000 e il 2018, provenienti da tre banche dati accademiche. Sono stati selezionati quasi cinquecento studi che sono stati analizzati in base a diverse dimensioni, come il tipo di tecniche di data mining utilizzate, le caratteristiche dei lavori (ad esempio, il tipo di studio, gli obiettivi dello studio, le variabili che predicono il comportamento dei clienti). I risultati indicano che il churn (cioè, l’abbandono dell’azienda da parte del cliente) è il processo che ha ricevuto maggiore attenzione negli ultimi diciotto anni e che, nello stesso periodo, le tecniche di data mining non sono mai state applicate ai processi di customer win-back. I modelli di classificazione sono quelli più utilizzati per predire il comportamento dei consumatori, e che gli algoritmi ensemble (ad esempio, Random Forest) sono le tecniche più utilizzate. I risultati di questa revisione forniscono delle linee guida utili per orientare la ricerca futura e facilitare la creazione di conoscenze sull'applicazione del data mining nel CRM. Nel Capitolo IV, " Will they stay or will they go? The prediction and understanding of customer churn behavior through data mining techniques", è stato sviluppato un modello predittivo del comportamento di churn utilizzando alcune tecniche di data mining al fine di far luce sulle motivazioni psicologiche di tale comportamento. Per costruire il modello, sono stati utilizzati i dati dei clienti di un rivenditore di energia. I modelli predittivi sono stati creati utilizzando le tecniche di Alberi Decisionali, Random Forest e Regressione Logistica. Le predizioni del modello maggiormente predittivo sono state interpretate a posteriori per far luce sulle motivazioni psicologiche sottostanti al comportamento di churn.

If we have data, let them talk: The use of big data and data mining in psychology

VEZZOLI, MICHELA
2020

Abstract

In this dissertation, I study how Big data and data mining can be used as an ensemble of methods for understanding the psychological underpinnings of people's behavior, specifically of customer behavior. Major advances in computing technology, combined with the human tendencies to collect and store information, have brought us to the Big Data era. Big Data refers to datasets that are not only big but also high in variety and velocity. The potential for Big Data to provide value for psychology is considerable: Big Data has the potential to overcome some of the issues of psychological studies and provide a set of methods, tools, and techniques (i.e., data mining) that can positively contribute to the advancements of the field. In Chapter II, "A guide for conducting psychological research with Big Data", I aim to provide technical knowledge to those psychologists who want to conduct Big Data projects. By taking the Knowledge Discovery from Database steps as the fil rouge, I show where it is possible to find data suitable for psychological investigations, describe the methods for preprocessing these data, enlist some techniques to analyze data, and programming languages (R and Python) through which all these steps can be realized. Throughout the chapter, I also discuss some methodological issues and highlight some related pitfalls that need to be considered when applying data mining and machine learning techniques. This dissertation aims to implement data mining methods to extract psychological knowledge from customers' data. Thus, it is essential to know how data mining has been used in the past CRM literature, which is the fields where customer data has been extensively used to create and maintain profitable relationships throughout the customer lifecycle. In Chapter III, "The use of data mining in customer relationship management: a review on 18 years of publications (2000 - 2018)", I provide a comprehensive literature review of the published works on the use of data mining on customer acquisition, cross-sell, customer churn, and customer win-back CRM processes. The review examines journal articles and conference proceedings published between 2000 and 2018, retrieved from three academic databases. Nearly five hundred works were selected for the analyses. The selected works were analyzed according to several dimensions, such as the type of data mining techniques used, the characteristics of works (e.g., type of study, study aims, factors that predict customer behavior). Findings of this review indicate that customer churn (i.e., customers who decide to leave the company) is the area that received the most attention in the last eighteen years and that, in the same period, data mining techniques have never been applied to customer win-back. Classification models are the most used to predict customers’ behaviors and ensemble algorithms (e.g., random forest) are the most used techniques. The findings of this review provide useful guidelines to direct future research and facilitate knowledge creation on the application of data mining in CRM. In Chapter IV, "Will they stay or will they go? The prediction and understanding of customer churn behavior through data mining techniques", I develop a churn prediction model using data mining and machine learning techniques in order to shed light on the psychological underpinnings of customers' churn behavior. To build the model, I use customers' data from an energy retailer. I build several predictive models using decision trees, random forest, and logistic regression. Finally, I address a posteriori psychological explanations for the predictive relationships that emerged from the model to shed some light on the psychology behind churn behavior.
21-feb-2020
Inglese
Lo scopo della presente tesi è indagare come i Big data e il data mining possano essere utilizzati come strumenti per comprendere i fondamenti psicologici del comportamento umano, in particolare del comportamento dei consumatori. I progressi nella tecnologia informatica, in combinazione con la tendenza umana a raccogliere informazioni, hanno portato all'era dei Big Data. Il termine Big Data si riferisce ad un insieme di dati caratterizzati da grande volume, varietà e velocità. Il valore che i Big Data potrebbero fornire alla psicologia è considerevole. Infatti, i Big Data hanno la capacità di superare alcuni limiti delle ricerche psicologiche tradizionali e forniscono un insieme di metodi e di tecniche (es. data mining) che possono contribuire positivamente ai progressi del settore. Il capitolo II, "A guide for conducting psychological research with Big Data”, mira a fornire delle conoscenze tecniche a quegli psicologi intendono condurre progetti con i Big Data. Tenendo le fasi del Knowledge Discovery from Database come fil rouge, descrivo dove è possibile trovare dati passibili di indagini psicologiche, i metodi di pre-elaborazione dei dati, le tecniche analitiche del data mining e i linguaggi di programmazione (R e Python) attraverso cui tutti questi passi possono essere eseguiti. Inoltre, vengono discusse alcune questioni metodologiche che devono essere prese in considerazione quando si applicano le tecniche di data mining. Poiché questa tesi ha lo scopo di implementare metodi di data mining per estrarre conoscenze psicologiche dai dati dei clienti, è essenziale sapere come il data mining è stato utilizzato in passato nella letteratura CRM, un settore in cui i dati dei clienti sono stati ampiamente utilizzati per creare e mantenere relazioni proficue con i clienti. Il Capitolo III, "The use of data mining in customer relationship management: a literature review on 18 years of publications (2000 - 2018)", fornisce una revisione della letteratura volta alla comprensione dell'utilizzo del data mining nei seguenti processi di CRM: acquisizione clienti, cross-selling, customer churn e customer win-back. Sono stati presi in considerazione articoli di riviste e atti di convegni pubblicati tra il 2000 e il 2018, provenienti da tre banche dati accademiche. Sono stati selezionati quasi cinquecento studi che sono stati analizzati in base a diverse dimensioni, come il tipo di tecniche di data mining utilizzate, le caratteristiche dei lavori (ad esempio, il tipo di studio, gli obiettivi dello studio, le variabili che predicono il comportamento dei clienti). I risultati indicano che il churn (cioè, l’abbandono dell’azienda da parte del cliente) è il processo che ha ricevuto maggiore attenzione negli ultimi diciotto anni e che, nello stesso periodo, le tecniche di data mining non sono mai state applicate ai processi di customer win-back. I modelli di classificazione sono quelli più utilizzati per predire il comportamento dei consumatori, e che gli algoritmi ensemble (ad esempio, Random Forest) sono le tecniche più utilizzate. I risultati di questa revisione forniscono delle linee guida utili per orientare la ricerca futura e facilitare la creazione di conoscenze sull'applicazione del data mining nel CRM. Nel Capitolo IV, " Will they stay or will they go? The prediction and understanding of customer churn behavior through data mining techniques", è stato sviluppato un modello predittivo del comportamento di churn utilizzando alcune tecniche di data mining al fine di far luce sulle motivazioni psicologiche di tale comportamento. Per costruire il modello, sono stati utilizzati i dati dei clienti di un rivenditore di energia. I modelli predittivi sono stati creati utilizzando le tecniche di Alberi Decisionali, Random Forest e Regressione Logistica. Le predizioni del modello maggiormente predittivo sono state interpretate a posteriori per far luce sulle motivazioni psicologiche sottostanti al comportamento di churn.
Big Data; Data Mining; Psicologia; Customer Churn; CRM
ZOGMAISTER, CRISTINA
Università degli Studi di Milano-Bicocca
File in questo prodotto:
File Dimensione Formato  
phd_unimib_727779.pdf

Open Access dal 22/02/2023

Dimensione 2.28 MB
Formato Adobe PDF
2.28 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/73585
Il codice NBN di questa tesi è URN:NBN:IT:UNIMIB-73585