Nowadays, air quality has become a significant concern due to rising pollution levels, particularly in urban areas, making it a key focus of the 2030 Sustainable Development Goals. According to the European Environment Agency, air pollution causes over 1,200 premature deaths annually among children under 18 in the 32 EEA member countries. Pollution poses serious risks to both human health and the environment. One of the most hazardous pollutants is particulate matter, consisting of tiny solid or liquid particles that can enter the bloodstream when inhaled. To reduce pollution levels, policymakers implement various countermeasures, such as restricting vehicle circulation in certain urban areas. While these actions are important, it is essential to evaluate their effectiveness and measure their significant impact on pollution levels. To monitor pollution at the urban scale, various types of sensors are employed to detect harmful substances. The concentration levels of particulate detected by sensors could be very accurate if measured by legal stations, developed and installed by environmental agencies; unfortunately, they are also cumbersome and expensive. For this reason, in order to build a finer detection network, cheaper sensors, the so-called low-cost sensors, are used today. This type of technology uses a laser scattering technique to detect the number and concentration of particles, having the advance of requiring a small amount of energy and space. On the other hand, cheaper technology also produces data of lower quality; for instance, because it is not able to reduce the effect of humidity, which, when certain percentages are reached in terms of relative humidity, magnifies the size of the detected particles because they bind to the water vapour present; this problem is called the hygroscopic effect. This thesis aims to address inaccuracies in data collected by low-cost sensors by leveraging artificial intelligence techniques, in particular by improving anomalous observations resulting from sensor limitations and environmental factors. The literature lacks the ability to cleanse low-cost sensor data of the hygroscopicity problem dynamically with respect to the context and without a legal station as ground truth. In addition, there is a shortage of studies involving different datasets collected in different contexts to explore the capabilities of such models to cleanse data locally but also to generalise air quality properties based on the surrounding environment. To achieve this, machine learning techniques, neural networks, and fuzzy logic are employed to improve the accuracy of the collected data and compensate for these deficiencies. These methods are used to develop models capable of refining the raw data provided by low-cost sensors, ultimately enhancing their reliability for air quality monitoring in various contexts. In addition, a framework capable of reducing the hygroscopic effect, based on past observations has been developed and released as open-source software. An extensive collection of datasets from multiple cities has been created and made available online for the scientific community. These datasets consist of data from low-cost sensors that have been aligned with legal stations. The data were gathered through collaborations with Italian Environmental Agencies and supplemented by online sources. This comprehensive data collection has facilitated the study of the models' ability to generalise across various contexts. The results are presented in terms of R2, RMSE, MSE and MAE compared to co-located legal stations. The MitH framework improves data quality by 0.3 in R2. While, general-purpose adjustment models can achieve R2 improvements of over 0.5, depending on the location and model used.

Al giorno d'oggi, la qualità dell'aria è diventata una preoccupazione significativa a causa dell'aumento dei livelli di inquinamento, in particolare nelle aree urbane, rendendola un punto chiave degli SDG del 2030. Secondo l'EEA, l'inquinamento atmosferico causa ogni anno oltre 1.200 morti premature tra i bambini sotto i 18 anni nei 32 Paesi membri del SEE. L'inquinamento comporta gravi rischi sia per la salute umana che per l'ambiente. Uno degli inquinanti più pericolosi è il particolato, costituito da minuscole particelle che possono entrare nel flusso sanguigno se inalate. Per ridurre i livelli di inquinamento, vengono attuate diverse contromisure, come la limitazione della circolazione dei veicoli. Sebbene queste azioni siano importanti, è fondamentale valutarne l'efficacia e misurarne l'impatto significativo sui livelli di inquinamento. Per monitorare l'inquinamento su scala urbana, vengono impiegati vari tipi di sensori. I livelli di concentrazione del particolato rilevati dai sensori potrebbero essere molto accurati se misurati da stazioni legali, sviluppate ed installate dalle agenzie ambientali; purtroppo, sono anche ingombranti e costose. Per questo motivo, al fine di costruire una rete di rilevamento più densa, oggi si utilizzano sensori più economici, i cosiddetti sensori low-cost, o LCS. Questo tipo di tecnologia utilizza una tecnica laser-scattering per rilevare il numero e la concentrazione di particelle, con il vantaggio di richiedere una minor quantità di energia e di spazio. D'altra parte, la tecnologia più economica produce anche dati di qualità inferiore; ad esempio, perché non è in grado di ridurre l'effetto dell'umidità che, quando raggiunti determinati livelli di umidità relativa, ingrandisce le dimensioni delle particelle rilevate, perché queste si legano al vapore acqueo presente, il cosiddetto effetto igroscopico. Questa tesi si propone di risolvere le imprecisioni dei dati raccolti da sensori low-cost sfruttando tecniche di intelligenza artificiale, in particolare migliorando le osservazioni anomale derivanti dalle limitazioni dei sensori e dai fattori ambientali. In letteratura mancano studi per ridurre il problema dell'igroscopicità in modo dinamico rispetto al contesto e senza una stazione legale come riferimento. Inoltre, ci sono pochi lavori che coinvolgano dati raccolti in contesti differenti per esplorare le capacità di tali modelli di ripulire i dati localmente ma anche di generalizzare le proprietà della qualità dell'aria in base all'ambiente circostante. Per raggiungere questo obiettivo, sono state impiegate tecniche di machine learning, reti neurali e logica fuzzy per migliorare l'accuratezza dei dati raccolti. Questi metodi vengono utilizzati per sviluppare modelli in grado di affinare i dati grezzi forniti dai LCS, migliorandone l'affidabilità per il monitoraggio della qualità dell'aria in vari contesti. Inoltre, è stato sviluppato un framework in grado di ridurre l'effetto igroscopico, basato su osservazioni passate e rilasciato come software open-source. È stata creata e resa disponibile online per la comunità scientifica un'ampia raccolta di dataset provenienti da diverse città. Questi dati provengono da LCS che sono stati allineati con le stazioni legali. I dati sono stati raccolti grazie alla collaborazione con le Agenzie ambientali italiane e integrati da fonti online. Questa raccolta dati ha facilitato lo studio della capacità dei modelli di generalizzare in vari contesti. I risultati sono presentati in termini di R2, RMSE, MSE e MAE rispetto alle stazioni legali co-locate. Il framework MitH migliora la qualità dei dati di 0.3 in R2. Mentre i modelli di aggiustamento generici possono ottenere miglioramenti dell'R2 di oltre 0.5, a seconda del luogo e del modello utilizzato.

Tecniche di intelligenza artificiale per gestire l'inquinamento atmosferico urbano

CASARI, MARTINA
2025

Abstract

Nowadays, air quality has become a significant concern due to rising pollution levels, particularly in urban areas, making it a key focus of the 2030 Sustainable Development Goals. According to the European Environment Agency, air pollution causes over 1,200 premature deaths annually among children under 18 in the 32 EEA member countries. Pollution poses serious risks to both human health and the environment. One of the most hazardous pollutants is particulate matter, consisting of tiny solid or liquid particles that can enter the bloodstream when inhaled. To reduce pollution levels, policymakers implement various countermeasures, such as restricting vehicle circulation in certain urban areas. While these actions are important, it is essential to evaluate their effectiveness and measure their significant impact on pollution levels. To monitor pollution at the urban scale, various types of sensors are employed to detect harmful substances. The concentration levels of particulate detected by sensors could be very accurate if measured by legal stations, developed and installed by environmental agencies; unfortunately, they are also cumbersome and expensive. For this reason, in order to build a finer detection network, cheaper sensors, the so-called low-cost sensors, are used today. This type of technology uses a laser scattering technique to detect the number and concentration of particles, having the advance of requiring a small amount of energy and space. On the other hand, cheaper technology also produces data of lower quality; for instance, because it is not able to reduce the effect of humidity, which, when certain percentages are reached in terms of relative humidity, magnifies the size of the detected particles because they bind to the water vapour present; this problem is called the hygroscopic effect. This thesis aims to address inaccuracies in data collected by low-cost sensors by leveraging artificial intelligence techniques, in particular by improving anomalous observations resulting from sensor limitations and environmental factors. The literature lacks the ability to cleanse low-cost sensor data of the hygroscopicity problem dynamically with respect to the context and without a legal station as ground truth. In addition, there is a shortage of studies involving different datasets collected in different contexts to explore the capabilities of such models to cleanse data locally but also to generalise air quality properties based on the surrounding environment. To achieve this, machine learning techniques, neural networks, and fuzzy logic are employed to improve the accuracy of the collected data and compensate for these deficiencies. These methods are used to develop models capable of refining the raw data provided by low-cost sensors, ultimately enhancing their reliability for air quality monitoring in various contexts. In addition, a framework capable of reducing the hygroscopic effect, based on past observations has been developed and released as open-source software. An extensive collection of datasets from multiple cities has been created and made available online for the scientific community. These datasets consist of data from low-cost sensors that have been aligned with legal stations. The data were gathered through collaborations with Italian Environmental Agencies and supplemented by online sources. This comprehensive data collection has facilitated the study of the models' ability to generalise across various contexts. The results are presented in terms of R2, RMSE, MSE and MAE compared to co-located legal stations. The MitH framework improves data quality by 0.3 in R2. While, general-purpose adjustment models can achieve R2 improvements of over 0.5, depending on the location and model used.
7-apr-2025
Inglese
Al giorno d'oggi, la qualità dell'aria è diventata una preoccupazione significativa a causa dell'aumento dei livelli di inquinamento, in particolare nelle aree urbane, rendendola un punto chiave degli SDG del 2030. Secondo l'EEA, l'inquinamento atmosferico causa ogni anno oltre 1.200 morti premature tra i bambini sotto i 18 anni nei 32 Paesi membri del SEE. L'inquinamento comporta gravi rischi sia per la salute umana che per l'ambiente. Uno degli inquinanti più pericolosi è il particolato, costituito da minuscole particelle che possono entrare nel flusso sanguigno se inalate. Per ridurre i livelli di inquinamento, vengono attuate diverse contromisure, come la limitazione della circolazione dei veicoli. Sebbene queste azioni siano importanti, è fondamentale valutarne l'efficacia e misurarne l'impatto significativo sui livelli di inquinamento. Per monitorare l'inquinamento su scala urbana, vengono impiegati vari tipi di sensori. I livelli di concentrazione del particolato rilevati dai sensori potrebbero essere molto accurati se misurati da stazioni legali, sviluppate ed installate dalle agenzie ambientali; purtroppo, sono anche ingombranti e costose. Per questo motivo, al fine di costruire una rete di rilevamento più densa, oggi si utilizzano sensori più economici, i cosiddetti sensori low-cost, o LCS. Questo tipo di tecnologia utilizza una tecnica laser-scattering per rilevare il numero e la concentrazione di particelle, con il vantaggio di richiedere una minor quantità di energia e di spazio. D'altra parte, la tecnologia più economica produce anche dati di qualità inferiore; ad esempio, perché non è in grado di ridurre l'effetto dell'umidità che, quando raggiunti determinati livelli di umidità relativa, ingrandisce le dimensioni delle particelle rilevate, perché queste si legano al vapore acqueo presente, il cosiddetto effetto igroscopico. Questa tesi si propone di risolvere le imprecisioni dei dati raccolti da sensori low-cost sfruttando tecniche di intelligenza artificiale, in particolare migliorando le osservazioni anomale derivanti dalle limitazioni dei sensori e dai fattori ambientali. In letteratura mancano studi per ridurre il problema dell'igroscopicità in modo dinamico rispetto al contesto e senza una stazione legale come riferimento. Inoltre, ci sono pochi lavori che coinvolgano dati raccolti in contesti differenti per esplorare le capacità di tali modelli di ripulire i dati localmente ma anche di generalizzare le proprietà della qualità dell'aria in base all'ambiente circostante. Per raggiungere questo obiettivo, sono state impiegate tecniche di machine learning, reti neurali e logica fuzzy per migliorare l'accuratezza dei dati raccolti. Questi metodi vengono utilizzati per sviluppare modelli in grado di affinare i dati grezzi forniti dai LCS, migliorandone l'affidabilità per il monitoraggio della qualità dell'aria in vari contesti. Inoltre, è stato sviluppato un framework in grado di ridurre l'effetto igroscopico, basato su osservazioni passate e rilasciato come software open-source. È stata creata e resa disponibile online per la comunità scientifica un'ampia raccolta di dataset provenienti da diverse città. Questi dati provengono da LCS che sono stati allineati con le stazioni legali. I dati sono stati raccolti grazie alla collaborazione con le Agenzie ambientali italiane e integrati da fonti online. Questa raccolta dati ha facilitato lo studio della capacità dei modelli di generalizzare in vari contesti. I risultati sono presentati in termini di R2, RMSE, MSE e MAE rispetto alle stazioni legali co-locate. Il framework MitH migliora la qualità dei dati di 0.3 in R2. Mentre i modelli di aggiustamento generici possono ottenere miglioramenti dell'R2 di oltre 0.5, a seconda del luogo e del modello utilizzato.
qualità dell'aria; AI; igroscopia; inquinamento; machine learning
PO, Laura
ROVATI, Luigi
Università degli studi di Modena e Reggio Emilia
File in questo prodotto:
File Dimensione Formato  
Thesis___PON__Artificial_intelligence_techniques_to_tackle_urban_air_pollution.pdf

accesso aperto

Dimensione 6.45 MB
Formato Adobe PDF
6.45 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14242/202177
Il codice NBN di questa tesi è URN:NBN:IT:UNIMORE-202177