Soil Organic Carbon (SOC) is a crucial parameter for assessing soil quality and serves as a vital indicator of environmental sustainability. Access to detailed information about SOC and its spatial distribution is of utmost importance for addressing climate change and effective environmental policies, but obtaining such data presents a challenge, especially in mountainous environments. The main objective of this thesis is to apply machine learning models to predict and model the spatial distribution of SOC in different landscapes, with a specific focus on mountainous areas. This approach is called Digital Soil Mapping (DSM). The thesis covers a series of case studies conducted at various locations, employing different spatial resolutions, all aimed at predicting the spatial distribution of SOC using distinct machine learning models and environmental covariates, including four different machine learning models: Multivariate Adaptive Regression Splines (MARS), Random Forest (RF), Support Vector Regression (SVR), and Elastic Net (ENET). These case studies were conducted in two locations in the Italian Alps: Valchiavenna Valley and Andossi Plateau (Alpine Pasture). Another case study was carried out in the Bohemian uplands of the Czech Republic, specifically in Krasna Hora Nad Valtavu. All the resulting maps in this thesis focus on two soil layers: 0-10 cm and 0-30 cm. For model validation, we used 10-fold cross-validation and calculated the following metrics: R2, Mean Absolute Error (MAE), and Root Mean Square Error (RMSE). The SOC mapping utilized the best-performing model based on the best validation results. In our first study, focusing on Valchiavenna, an alpine valley in northern Italy, we created a detailed map with a 20-meter spatial resolution showing the distribution of SOC stock and the associated uncertainties for two soil layers. To achieve this, we employed the (DSM) approach and the several ML models. The used dataset contains soil data collected from 110 different soil profiles. In this case study, we used various environmental variables as covariates. These included geomorphometric parameters derived from a Digital Terrain Model (DTM), climatic maps, and a land cover map. The results of the DSM showed that the RF model has the best validation results, with the highest R2 and the lowest RMSE. For uncertainty assessment and mapping, we analyzed the standard deviation (SD) from 50 iterations of the best-performing RF model. This analysis effectively highlighted the high accuracy achieved in our soil maps. The second case study of the thesis takes place in the Andossi Plateau, an alpine grassland situated in the northern part of Valchiavenna. Covering an area of 350 hectares, our goal here is to map the SOC stock and Soil pH of this alpine grassland using various ML models to obtain a high-resolution map (4 m). Our dataset comprises data from 126 soil sampling points. By applying the DSM approach, we incorporated covariates such as geomorphometric parameters and vegetation maps, once again, the RF model outperformed the others and was employed to create the final maps. Our last study, we employed the same four machine learning models: MARS, RF, SVR, and ENET to map SOC content in the Bohemian uplands of Krasna Hora Nad Valtavu, located in the Czech Republic. This region covers an area, and the resulting map from our research exhibits a spatial resolution of 10 meters. Our dataset was drawn from 105 soil profiles. We validated our models, and the RF model emerged as the top performer. In summary, the results demonstrate the effectiveness of this methodology in creating detailed SOC maps.

La quantità di carbonio organico nel suolo (SOC) è un parametro di fondamentale importanza che riflette la salute e la qualità del suolo. Essa svolge un ruolo importante per mitigare e adattarci ai cambiamenti climatici e per sviluppare politiche ambientali efficaci. Tuttavia, ottenere dati precisi sulla distribuzione spaziale del SOC è una sfida, specialmente in ambienti montani, dove la raccolta di dati è difficile. L'obiettivo principale di questa tesi è utilizzare modelli e algoritmi “machine learning” per prevedere e modellare la distribuzione spaziale del SOC in diversi paesaggi, concentrandosi in particolare sugli ambienti montani ad alta quota. Questo approccio è "mappatura digitale del suolo". La tesi comprende una serie di studi di casi condotti su diversi siti, con diverse risoluzioni spaziali, al fine di prevedere la distribuzione spaziale del SOC utilizzando diversi modelli e variabili ambientali. Sono stati impiegati quattro modelli diversi: le regressioni multiple adattive (MARS), il random forest (RF), la regressione a vettori di supporto (SVR) e rete elastica (ENET). Questi studi di caso sono stati condotti in due aree delle Alpi italiane: la Valle di Valchiavenna e l'Altopiano di Andossi (Alpegio), e in una regione collinare della Repubblica Ceca, denominata Krasna Hora Nad Valtavu. Le mappe prodotte si concentrano su due profondità del suolo: da 0-10 cm e da 0-30 cm. Per valutare l'accuratezza dei modelli, è stata utilizzata la tecnica di "n-fold 10 Cross Validation", e sono stati calcolati tre indicatori: R2, errore assoluto medio (MAE) e radice dell'errore quadratico medio (RMSE). Il modello migliore è stato selezionato in base ai migliori resultati di validazione. Nel primo caso di studio condotto in Valchiavenna, è stata creata una mappa dettagliata della distribuzione del stoccaggio dell carbonio organico SOC stock a una risoluzione di 20 metri, basata su dati del suolo provenienti da 110 profili di suolo. Sono state utilizzate variabili ambientali, tra cui parametri geomorfometrici derivati da un Modello Digitale del Terreno (DTM), dati climatici e una mappa della copertura vegetale. Il modello RF ha dimostrato le migliori prestazioni, con un alto R2 e un basso RMSE. Per valutare l'incertezza e creare una mappa di questa incertezza, abbiamo analizzato la deviazione standard (SD) derivante da 50 iterazioni del modello RF. Questa analisi ha efficacemente messo in evidenza l'alta precisione raggiunta nelle nostre mappe del suolo. In questo lavoro. Il secondo caso è sull'Altopiano di Andossi, dove l'obiettivo e mappare il SOC stock e pH in un prato alpino 350 ettari, le mappe finale sono di una alta risoluzione spaziale (4 m). Il dataset comprendeva dati da 126 punti di campionamento, Sono state utilizzate covariante come parametri geomorfometrici e mappe di vegetazione. Anche in questo caso, il modello RF è stato il migliore modello nella creazione delle mappe finali.Il terzo studio di caso, nella regione di Krasna Hora Nad Valtavu, sono stati impiegati gli stessi quattro modelli di per mappare il contenuto dell SOC. Anche qui, il modello RF si è confermato come il migliore, mostrando elevateresultati di validazione. In sintesi, questa tesi si propone di predire la distribuzione spaziale del carbonio organico del suolo in ambienti diversi utilizzando modelli di apprendimento automatico e variabili ambientali. I risultati dimostrano l'efficacia di questa metodologia nella creazione di mappe dettagliate del SOC, con il modello RF di alta percezione e alta qualita.

Mapping Soil Organic Carbon using different machine learning models as an application of Digital Soil Mapping

SARA, AGABA
2024

Abstract

Soil Organic Carbon (SOC) is a crucial parameter for assessing soil quality and serves as a vital indicator of environmental sustainability. Access to detailed information about SOC and its spatial distribution is of utmost importance for addressing climate change and effective environmental policies, but obtaining such data presents a challenge, especially in mountainous environments. The main objective of this thesis is to apply machine learning models to predict and model the spatial distribution of SOC in different landscapes, with a specific focus on mountainous areas. This approach is called Digital Soil Mapping (DSM). The thesis covers a series of case studies conducted at various locations, employing different spatial resolutions, all aimed at predicting the spatial distribution of SOC using distinct machine learning models and environmental covariates, including four different machine learning models: Multivariate Adaptive Regression Splines (MARS), Random Forest (RF), Support Vector Regression (SVR), and Elastic Net (ENET). These case studies were conducted in two locations in the Italian Alps: Valchiavenna Valley and Andossi Plateau (Alpine Pasture). Another case study was carried out in the Bohemian uplands of the Czech Republic, specifically in Krasna Hora Nad Valtavu. All the resulting maps in this thesis focus on two soil layers: 0-10 cm and 0-30 cm. For model validation, we used 10-fold cross-validation and calculated the following metrics: R2, Mean Absolute Error (MAE), and Root Mean Square Error (RMSE). The SOC mapping utilized the best-performing model based on the best validation results. In our first study, focusing on Valchiavenna, an alpine valley in northern Italy, we created a detailed map with a 20-meter spatial resolution showing the distribution of SOC stock and the associated uncertainties for two soil layers. To achieve this, we employed the (DSM) approach and the several ML models. The used dataset contains soil data collected from 110 different soil profiles. In this case study, we used various environmental variables as covariates. These included geomorphometric parameters derived from a Digital Terrain Model (DTM), climatic maps, and a land cover map. The results of the DSM showed that the RF model has the best validation results, with the highest R2 and the lowest RMSE. For uncertainty assessment and mapping, we analyzed the standard deviation (SD) from 50 iterations of the best-performing RF model. This analysis effectively highlighted the high accuracy achieved in our soil maps. The second case study of the thesis takes place in the Andossi Plateau, an alpine grassland situated in the northern part of Valchiavenna. Covering an area of 350 hectares, our goal here is to map the SOC stock and Soil pH of this alpine grassland using various ML models to obtain a high-resolution map (4 m). Our dataset comprises data from 126 soil sampling points. By applying the DSM approach, we incorporated covariates such as geomorphometric parameters and vegetation maps, once again, the RF model outperformed the others and was employed to create the final maps. Our last study, we employed the same four machine learning models: MARS, RF, SVR, and ENET to map SOC content in the Bohemian uplands of Krasna Hora Nad Valtavu, located in the Czech Republic. This region covers an area, and the resulting map from our research exhibits a spatial resolution of 10 meters. Our dataset was drawn from 105 soil profiles. We validated our models, and the RF model emerged as the top performer. In summary, the results demonstrate the effectiveness of this methodology in creating detailed SOC maps.
12-set-2024
Italiano
La quantità di carbonio organico nel suolo (SOC) è un parametro di fondamentale importanza che riflette la salute e la qualità del suolo. Essa svolge un ruolo importante per mitigare e adattarci ai cambiamenti climatici e per sviluppare politiche ambientali efficaci. Tuttavia, ottenere dati precisi sulla distribuzione spaziale del SOC è una sfida, specialmente in ambienti montani, dove la raccolta di dati è difficile. L'obiettivo principale di questa tesi è utilizzare modelli e algoritmi “machine learning” per prevedere e modellare la distribuzione spaziale del SOC in diversi paesaggi, concentrandosi in particolare sugli ambienti montani ad alta quota. Questo approccio è "mappatura digitale del suolo". La tesi comprende una serie di studi di casi condotti su diversi siti, con diverse risoluzioni spaziali, al fine di prevedere la distribuzione spaziale del SOC utilizzando diversi modelli e variabili ambientali. Sono stati impiegati quattro modelli diversi: le regressioni multiple adattive (MARS), il random forest (RF), la regressione a vettori di supporto (SVR) e rete elastica (ENET). Questi studi di caso sono stati condotti in due aree delle Alpi italiane: la Valle di Valchiavenna e l'Altopiano di Andossi (Alpegio), e in una regione collinare della Repubblica Ceca, denominata Krasna Hora Nad Valtavu. Le mappe prodotte si concentrano su due profondità del suolo: da 0-10 cm e da 0-30 cm. Per valutare l'accuratezza dei modelli, è stata utilizzata la tecnica di "n-fold 10 Cross Validation", e sono stati calcolati tre indicatori: R2, errore assoluto medio (MAE) e radice dell'errore quadratico medio (RMSE). Il modello migliore è stato selezionato in base ai migliori resultati di validazione. Nel primo caso di studio condotto in Valchiavenna, è stata creata una mappa dettagliata della distribuzione del stoccaggio dell carbonio organico SOC stock a una risoluzione di 20 metri, basata su dati del suolo provenienti da 110 profili di suolo. Sono state utilizzate variabili ambientali, tra cui parametri geomorfometrici derivati da un Modello Digitale del Terreno (DTM), dati climatici e una mappa della copertura vegetale. Il modello RF ha dimostrato le migliori prestazioni, con un alto R2 e un basso RMSE. Per valutare l'incertezza e creare una mappa di questa incertezza, abbiamo analizzato la deviazione standard (SD) derivante da 50 iterazioni del modello RF. Questa analisi ha efficacemente messo in evidenza l'alta precisione raggiunta nelle nostre mappe del suolo. In questo lavoro. Il secondo caso è sull'Altopiano di Andossi, dove l'obiettivo e mappare il SOC stock e pH in un prato alpino 350 ettari, le mappe finale sono di una alta risoluzione spaziale (4 m). Il dataset comprendeva dati da 126 punti di campionamento, Sono state utilizzate covariante come parametri geomorfometrici e mappe di vegetazione. Anche in questo caso, il modello RF è stato il migliore modello nella creazione delle mappe finali.Il terzo studio di caso, nella regione di Krasna Hora Nad Valtavu, sono stati impiegati gli stessi quattro modelli di per mappare il contenuto dell SOC. Anche qui, il modello RF si è confermato come il migliore, mostrando elevateresultati di validazione. In sintesi, questa tesi si propone di predire la distribuzione spaziale del carbonio organico del suolo in ambienti diversi utilizzando modelli di apprendimento automatico e variabili ambientali. I risultati dimostrano l'efficacia di questa metodologia nella creazione di mappe dettagliate del SOC, con il modello RF di alta percezione e alta qualita.
Carbonio organico; Mappatura Digitale; Machine Learning; spazializzazione; Random Forest
File in questo prodotto:
File Dimensione Formato  
phd_unimib_869042.pdf

accesso aperto

Dimensione 6.6 MB
Formato Adobe PDF
6.6 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/161744
Il codice NBN di questa tesi è URN:NBN:IT:UNIMIB-161744