Over recent years several authors (Davenport 2013; Gobble 2013; Chen and Zhang 2014; Brown et al. 2011; McAfee et al. 2012) claimed that the advent of big data was going to revolutionize the business environment, by supporting for example decision-making in new product development processes and providing competitive advantage. Big data analytics can in fact provide useful insights for better customer understanding and for the generation of new ideas and customized products, allowing the firm to rapidly adjust to market needs and reduce costs (Sivarajah et al. 2017; Tan and Zhan 2017; Zhan et al. 2017; Johnson et al. 2017). However, big data are still data and without the appropriate methods to make sense out of them, they are of little value to decision-makers (Zhan and Tan 2020; Davenport and Patil 2012). For this reason, this thesis proposes new methodologies to exploit big data, by proposing the joint adoption with smaller but higher-quality data of big data and introducing new methodologies for their analysis. Several authors in fact stressed out that data quality has a strong impact on decision-making quality and therefore it cannot be overlooked (Janssen et al. 2017; Redman 1998; Chiang and Miller 2008). For this reason, the integration of big data with higher quality data is initially proposed in this thesis. In this context the term thick data was introduced to refer to small structured data sets characterized by the presence of many reliable and high quality information provided by a potentially large number of variables of different types. The small sample size and potentially high dimensionality are quite challenging characteristics of these data, therefore new permutation-based tests are proposed in this thesis for the analysis of such data, extending the NonParametric Combination (NPC) methodology (Pesarin and Salmaso 2010a). Simulation studies are conducted to evaluate the performances of such methods. Another key aspect of the use of big data to support decision-making is the choice of an appropriate machine learning model for their analysis. A poor-performing model indeed can provide biased insights on the phenomenon under investigation and lead to unreliable and even detrimental decisions. Therefore, a robust model selection technique is introduced taking advantage of the NPC methodology and the ranking procedure by Arboretti et al. (2014). Its performances are evaluated by means of an extensive simulation study and by applying it to several different problems, including two industrial cases where the integration of big data with thick data are proposed. With regard to the aforementioned industrial problems, this thesis proposes two different approaches. The first approach consists in collecting and analyzing big data to gather preliminary knowledge about a new phenomenon. These preliminary information are then used to plan the thick data collection, which are then analyzed to take reliable data-driven decisions about the definition of a new personalized product. Another approach consists in collecting and analyzing thick data and then using the obtained high-quality insights for the collection and analysis of big data. In other words, thick data are adopted to empower big data analysis. The advantages of using different methodologies for integrating big data and thick data are shown in this thesis.

Negli ultimi anni diversi autori (Davenport 2013; Gobble 2013; Chen e Zhang 2014; Brown et al. 2011; McAfee et al. 2012) hanno sostenuto l’idea che l’avvento dei big data avrebbe rivoluzionato l’ambiente imprenditoriale, per esempio supportando i processi decisionali riguardanti lo sviluppo di nuovi prodotti, e procurato diversi vantaggi concorrenziali alle aziende che li avessero utilizzati. L’uso dei big data può infatti fornire delle informazioni utili per una miglior comprensione del cliente e per la generazione di nuove idee e prodotti personalizzati, permettendo all’azienda di adeguarsi velocemente alle richieste del mercato e di ridurre i propri costi (Sivarajah et al. 2017; Tan e Zhan 2017; Zhan et al. 2017; Johnson et al. 2017). In ogni caso, i big data senza metodi adeguati per trarne un vantaggio competitivo sono di poca utilità per chi deve prendere decisioni in un’azienda (Zhan e Tan 2020; Davenport e Patil 2012). Per questo motivo, questa tesi propone nuove metodologie per sfruttare tali dati, suggerendone l’adozione congiunta con thick data, ovvero dati di maggiore qualità e minor volume, ed introducendo nuove tecniche per la loro analisi. Diversi autori infatti hanno sottolineato che la qualità dei dati ha un impatto non trascurabile sulle decisioni prese sulla base di essi e per questo motivo essa non pu`o essere trascurata (Janssen et al. 2017; Redman 1998; Chiang e Miller 2008). Il termine thick data viene introdotto per riferirsi a piccoli dataset strutturati, caratterizzati dalla potenziale presenza di molte variabili che possono fornire un gran numero di informazioni attendibili sul fenomeno di interesse. La bassa dimensione campionaria e l’eventuale elevato numero di variabili sono alcune delle proprietà che rendono questi dati difficili da analizzare. Per questa ragione nuovi test di permutazione sono proposti in questa tesi, introducendo nuove estensioni della metodologia denominata NonParametric Combination (NPC) (Pesarin e Salmaso 2010a). Studi di simulazione vengono inoltre condotti per valutare le prestazioni di tali metodi. Un altro aspetto chiave dell’utilizzo dei big data per supportare i processi decisionali è la scelta di un adeguato algoritmo di machine learning per la loro analisi. L’uso di un modello inadeguato infatti può fornire una conoscenza distorta del fenomeno di interesse e portare a decisioni inaffidabili e potenzialmente dannose. Per questo motivo, un metodo robusto per la selezione del miglior algoritmo di machine learning viene proposto in questa tesi. Questa nuova procedura sfrutta la metodologia NPC e una tecnica di ranking proposta da Arboretti et al. (2014). Le prestazioni di questo approccio vengono valutate per mezzo di uno studio di simulazione e di alcuni problemi reali, inclusi due casi studio in cui l’integrazione dei big data con i thick data viene adottata proponendo due diversi approcci. Il primo consiste nel raccogliere e analizzare i big data per ottenere delle informazioni preliminari su un nuovo fenomeno. Le indicazioni ottenute vengono poi usate per pianificare la raccolta di thick data, che vengono infine analizzati per prendere delle decisioni affidabili per la progettazione di un nuovo prodotto. Il secondo approccio invece consiste nella raccolta e nell’analisi dei thick data per poter ottenere indicazioni utili al successivo utilizzo dei big data. L’uso dei diversi metodi proposti nella tesi permette di mostrare l’utilità dell’integrazione tra big data e thick data.

Metodi Parametrici e Nonparametrici per l'Analisi di Big Data nell'Innovazione di Prodotto

CECCATO, RICCARDO
2022

Abstract

Over recent years several authors (Davenport 2013; Gobble 2013; Chen and Zhang 2014; Brown et al. 2011; McAfee et al. 2012) claimed that the advent of big data was going to revolutionize the business environment, by supporting for example decision-making in new product development processes and providing competitive advantage. Big data analytics can in fact provide useful insights for better customer understanding and for the generation of new ideas and customized products, allowing the firm to rapidly adjust to market needs and reduce costs (Sivarajah et al. 2017; Tan and Zhan 2017; Zhan et al. 2017; Johnson et al. 2017). However, big data are still data and without the appropriate methods to make sense out of them, they are of little value to decision-makers (Zhan and Tan 2020; Davenport and Patil 2012). For this reason, this thesis proposes new methodologies to exploit big data, by proposing the joint adoption with smaller but higher-quality data of big data and introducing new methodologies for their analysis. Several authors in fact stressed out that data quality has a strong impact on decision-making quality and therefore it cannot be overlooked (Janssen et al. 2017; Redman 1998; Chiang and Miller 2008). For this reason, the integration of big data with higher quality data is initially proposed in this thesis. In this context the term thick data was introduced to refer to small structured data sets characterized by the presence of many reliable and high quality information provided by a potentially large number of variables of different types. The small sample size and potentially high dimensionality are quite challenging characteristics of these data, therefore new permutation-based tests are proposed in this thesis for the analysis of such data, extending the NonParametric Combination (NPC) methodology (Pesarin and Salmaso 2010a). Simulation studies are conducted to evaluate the performances of such methods. Another key aspect of the use of big data to support decision-making is the choice of an appropriate machine learning model for their analysis. A poor-performing model indeed can provide biased insights on the phenomenon under investigation and lead to unreliable and even detrimental decisions. Therefore, a robust model selection technique is introduced taking advantage of the NPC methodology and the ranking procedure by Arboretti et al. (2014). Its performances are evaluated by means of an extensive simulation study and by applying it to several different problems, including two industrial cases where the integration of big data with thick data are proposed. With regard to the aforementioned industrial problems, this thesis proposes two different approaches. The first approach consists in collecting and analyzing big data to gather preliminary knowledge about a new phenomenon. These preliminary information are then used to plan the thick data collection, which are then analyzed to take reliable data-driven decisions about the definition of a new personalized product. Another approach consists in collecting and analyzing thick data and then using the obtained high-quality insights for the collection and analysis of big data. In other words, thick data are adopted to empower big data analysis. The advantages of using different methodologies for integrating big data and thick data are shown in this thesis.
20-gen-2022
Inglese
Negli ultimi anni diversi autori (Davenport 2013; Gobble 2013; Chen e Zhang 2014; Brown et al. 2011; McAfee et al. 2012) hanno sostenuto l’idea che l’avvento dei big data avrebbe rivoluzionato l’ambiente imprenditoriale, per esempio supportando i processi decisionali riguardanti lo sviluppo di nuovi prodotti, e procurato diversi vantaggi concorrenziali alle aziende che li avessero utilizzati. L’uso dei big data può infatti fornire delle informazioni utili per una miglior comprensione del cliente e per la generazione di nuove idee e prodotti personalizzati, permettendo all’azienda di adeguarsi velocemente alle richieste del mercato e di ridurre i propri costi (Sivarajah et al. 2017; Tan e Zhan 2017; Zhan et al. 2017; Johnson et al. 2017). In ogni caso, i big data senza metodi adeguati per trarne un vantaggio competitivo sono di poca utilità per chi deve prendere decisioni in un’azienda (Zhan e Tan 2020; Davenport e Patil 2012). Per questo motivo, questa tesi propone nuove metodologie per sfruttare tali dati, suggerendone l’adozione congiunta con thick data, ovvero dati di maggiore qualità e minor volume, ed introducendo nuove tecniche per la loro analisi. Diversi autori infatti hanno sottolineato che la qualità dei dati ha un impatto non trascurabile sulle decisioni prese sulla base di essi e per questo motivo essa non pu`o essere trascurata (Janssen et al. 2017; Redman 1998; Chiang e Miller 2008). Il termine thick data viene introdotto per riferirsi a piccoli dataset strutturati, caratterizzati dalla potenziale presenza di molte variabili che possono fornire un gran numero di informazioni attendibili sul fenomeno di interesse. La bassa dimensione campionaria e l’eventuale elevato numero di variabili sono alcune delle proprietà che rendono questi dati difficili da analizzare. Per questa ragione nuovi test di permutazione sono proposti in questa tesi, introducendo nuove estensioni della metodologia denominata NonParametric Combination (NPC) (Pesarin e Salmaso 2010a). Studi di simulazione vengono inoltre condotti per valutare le prestazioni di tali metodi. Un altro aspetto chiave dell’utilizzo dei big data per supportare i processi decisionali è la scelta di un adeguato algoritmo di machine learning per la loro analisi. L’uso di un modello inadeguato infatti può fornire una conoscenza distorta del fenomeno di interesse e portare a decisioni inaffidabili e potenzialmente dannose. Per questo motivo, un metodo robusto per la selezione del miglior algoritmo di machine learning viene proposto in questa tesi. Questa nuova procedura sfrutta la metodologia NPC e una tecnica di ranking proposta da Arboretti et al. (2014). Le prestazioni di questo approccio vengono valutate per mezzo di uno studio di simulazione e di alcuni problemi reali, inclusi due casi studio in cui l’integrazione dei big data con i thick data viene adottata proponendo due diversi approcci. Il primo consiste nel raccogliere e analizzare i big data per ottenere delle informazioni preliminari su un nuovo fenomeno. Le indicazioni ottenute vengono poi usate per pianificare la raccolta di thick data, che vengono infine analizzati per prendere delle decisioni affidabili per la progettazione di un nuovo prodotto. Il secondo approccio invece consiste nella raccolta e nell’analisi dei thick data per poter ottenere indicazioni utili al successivo utilizzo dei big data. L’uso dei diversi metodi proposti nella tesi permette di mostrare l’utilità dell’integrazione tra big data e thick data.
SALMASO, LUIGI
Università degli studi di Padova
File in questo prodotto:
File Dimensione Formato  
tesi_Riccardo_Ceccato.pdf

accesso solo da BNCF e BNCR

Dimensione 20.99 MB
Formato Adobe PDF
20.99 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/218155
Il codice NBN di questa tesi è URN:NBN:IT:UNIPD-218155