Application of deep machine learning in multi-scale building energy audit

Khayatian, Fazel

Considering the vast amount of data that is produced and collected in the context of building energy modelling, resorting to machine learning and data mining tools for processing the information is becoming inevitable. This study is an attempt to benefit from large databases to reduce the gap between building energy prediction and building energy performance. The objectives are met by moving from analytical and numerical based analyses to data-driven models. The process of collecting buildings’ energy performance data, has become an integral part of building energy audit research. Therefore, the recent advancements in machine learning merit to be thoroughly studied from building energy auditors’ perspective, while their compatibility as well as application should be validated on databases of building energy performance. This research is an attempt to close the gap between the state-of-the-art in deep machine learning and building energy audit, specifically, when dealing with large noisy databases. It has been more than a decade since regional and national administrations initiated data collection on buildings’ energy performance. This led to large databases of building properties containing information on the geometry, envelope properties, systems characteristics, and occasionally actual patterns of energy consumption. The number of buildings in a single dataset is often in the magnitude of millions, as each category of “destination of use” consists of hundreds of thousands of entries. Analyzing such large databases is often associated with reliability assessment as a prerequisite. Considering that these databases are created by manual data collection, they are prone to contain anomalous data that may not be simply separable by resorting to filtering techniques. As a first attempt, this research develops a reliable approximator that can highlight outliers with acceptable confidence, using a blackbox perceptron. It is perceived that even without detailed information on the properties of a building, it is possible to detect anomalies in a dataset by assigning a value of confidence to each entry. The main objective of collecting such vast data on building properties and their corresponding energy performance is to provide decision-makers with viable knowledge. Therefore, the second step of the research extracts useful information from the dataset to support energy efficiency policies. In particular, the second section is aimed at regional scale policies for building energy retrofit, as there are no attempts to explicitly rank buildings based on their retrofitable characteristics. Therefore, a pipeline of machine learning tools are developed to create a distinctive ranking system for building energy retrofit potential. The pipeline extracts nonlinear features that faithfully represent the correlation between retrofitable building characteristics and the energy consumption. A new indicator is introduced, dubbed “Building Energy Retrofit Index”, to replace the conventional energy performance measure with an index that is tailored for retrofit-based policies. It is observed that the newly introduced index can successfully rank buildings solely based on retrofitable characteristics. Also, the new index contrasts the inapplicability of traditional indicators for policy makers who deal with large scale building energy retrofit. The final step of the research is focused on obtaining more realistic realizations of the multi-scale building energy model. There are various attempts on addressing the issue of multi-scale building energy calibration, yet, all studies either focus on peak loads, or the cumulative annual energy performance. Consequently, there is a notable research gap in the context of calibrating urban energy models in hourly or sub-hourly intervals. The main barrier of the aforementioned challenge is the computational cost of running energy simulations. This study proposes a surrogate estimator (multi-layer neural network), coupled with Markov Chain Monte Carlo sampling technique (subset-sampling) to overcome this issue. The surrogate model replicates the time intensive calculations of the hourly energy loads, while the sampling engine efficiently generates random inputs from the area of interest by rejecting unwanted outputs. Results show that the newly introduced framework can condense the computational cost by 99.6%, reducing the overall calibration time from +500 days to approximately two days. Such reduction in the computational burden comes at the cost of trivial loss in the estimation accuracy. Validating the calibrated inputs on the energy simulator reveal that the actual calibration accuracy is approximately 1% lower than that of the surrogate model, yet, is acknowledged as a reasonable tradeoff when considering the magnitude of reduction in the computational cost. Since the accumulation of data on building energy performance is inevitable, resorting to data-driven models will become an integral part of research. The common key component that enables the application of deep learning in various fields is the “magnitude of the collected data”, a factor that started to affect the context of building energy performance just recently. Therefore, plenty of ground is yet to be covered, to fully adapt the state-of-the-art in deep learning to building energy audit. The PhD research “Application of Deep Machine Learning in Multi-Scale Building Energy Audit” is a first attempt to explore the territory of deep learning from the perspective of an energy auditor, overcoming the challenge of thoroughly assessing and validating the applicability of various deep networks in building energy audit problems, amidst varied data granularities.

Considerando la grande quantità di dati che vengono prodotti e raccolti nel contesto della modellizzazione energetica degli edifici, il ricorso a strumenti di apprendimento automatico e di data mining per l'elaborazione delle informazioni sta diventando inevitabile. Questo studio è un tentativo di beneficiare di database di grandi dimensioni per ridurre il divario tra la previsione energetica dell'edificio e la prestazione energetica dell'edificio. Gli obiettivi sono soddisfatti passando da analisi analitiche e numeriche a modelli basati sui dati. Il processo di raccolta dei dati sulle prestazioni energetiche degli edifici è diventato parte integrante della ricerca di audit energetico degli edifici. Pertanto, i recenti progressi nell'apprendimento automatico meritano di essere studiati approfonditamente dal punto di vista della costruzione di revisori di energia, mentre la loro compatibilità e l'applicazione dovrebbero essere convalidati sui database delle prestazioni energetiche degli edifici. Questa ricerca è un tentativo di colmare il divario tra lo stato dell'arte nel deep machine learning e la costruzione di audit energetici, in particolare, quando si tratta di database rumorosi di grandi dimensioni. È passato più di un decennio da quando le amministrazioni regionali e nazionali hanno avviato la raccolta di dati sulle prestazioni energetiche degli edifici. Ciò ha portato a grandi database di proprietà degli edifici contenenti informazioni sulla geometria, proprietà dell'involucro, caratteristiche dei sistemi e, occasionalmente, modelli reali di consumo energetico. Il numero di edifici in un singolo set di dati è spesso dell'ordine di milioni, poiché ogni categoria di "destinazione d'uso" è composta da centinaia di migliaia di voci. L'analisi di tali grandi database è spesso associata alla valutazione dell'affidabilità come prerequisito. Considerando che questi database sono creati dalla raccolta manuale dei dati, sono inclini a contenere dati anomali che potrebbero non essere semplicemente separabili ricorrendo a tecniche di filtraggio. Come primo tentativo, questa ricerca sviluppa un approssimatore affidabile che può evidenziare valori anomali con una fiducia accettabile, utilizzando un percettore di blackbox. Si percepisce che anche senza informazioni dettagliate sulle proprietà di un edificio, è possibile rilevare le anomalie in un set di dati assegnando un valore di confidenza ad ogni voce. L'obiettivo principale della raccolta di dati così vasti sulle proprietà degli edifici e il loro corrispondente rendimento energetico è quello di fornire ai decisori conoscenze percorribili. Pertanto, la seconda fase della ricerca estrae informazioni utili dal set di dati per supportare le politiche di efficienza energetica. In particolare, la seconda sezione è finalizzata a politiche su scala regionale per la riqualificazione energetica degli edifici, in quanto non vi sono tentativi di classificare esplicitamente gli edifici in base alle loro caratteristiche retrofit. Pertanto, viene sviluppata una pipeline di strumenti di apprendimento automatico per creare un sistema di classificazione distintivo per la costruzione del potenziale di retrofit energetico. La pipeline estrae caratteristiche non lineari che rappresentano fedelmente la correlazione tra le caratteristiche dell'edificio retrofit e il consumo di energia. Viene introdotto un nuovo indicatore, soprannominato "Building Energy Retrofit Index", per rimpiazzare la misura convenzionale di rendimento energetico con un indice adeguato alle politiche basate sul retrofit. Si osserva che l'indice appena introdotto può classificare gli edifici con successo esclusivamente sulla base di caratteristiche retrofit. Inoltre, il nuovo indice mette in contrasto l'inapplicabilità degli indicatori tradizionali per i decisori politici che si occupano di retrofit di energia di edifici su larga scala. Il passo finale della ricerca è focalizzato sull'ottenimento di realizzazioni più realistiche del modello energetico su scala multi-scala. Ci sono vari tentativi di affrontare il problema della calibrazione dell'energia su scala multi-scala, tuttavia, tutti gli studi si concentrano sui carichi di picco o sulla prestazione energetica annuale cumulativa. Di conseguenza, vi è un notevole divario di ricerca nel contesto della calibrazione dei modelli di energia urbana in intervalli orari o sub-orari. La principale barriera della sfida di cui sopra è il costo computazionale dell'esecuzione di simulazioni energetiche. Questo studio propone uno stimatore surrogato (rete neuronale multistrato), abbinato alla tecnica di campionamento Monte Carlo a catena di Markov (sottogruppo-campionamento) per superare questo problema. Il modello surrogato replica i calcoli intensivi del tempo dei carichi di energia orari, mentre il motore di campionamento genera in modo efficiente gli input casuali dall'area di interesse rifiutando le uscite indesiderate. I risultati mostrano che il framework recentemente introdotto può condensare il costo computazionale del 99,6%, riducendo il tempo di calibrazione complessivo da +500 giorni a circa due giorni. Tale riduzione dell'onere computazionale ha il costo di una perdita insignificante dell'accuratezza della stima. La convalida degli input calibrati sul simulatore di energia rivela che l'accuratezza della calibrazione effettiva è inferiore di circa l'1% rispetto a quella del modello surrogato, tuttavia, è riconosciuta come un compromesso ragionevole quando si considera l'entità della riduzione del costo computazionale. Poiché l'accumulo di dati sulla prestazione energetica dell'edificio è inevitabile, il ricorso a modelli basati sui dati diventerà parte integrante della ricerca. La componente chiave comune che consente l'applicazione dell'apprendimento approfondito in vari campi è la "grandezza dei dati raccolti", un fattore che ha iniziato a influenzare il contesto della costruzione di prestazioni energetiche solo di recente. Pertanto, non è ancora stato affrontato un ampio spazio per adeguare completamente lo stato dell'arte all'apprendimento approfondito alla costruzione di audit energetici. La ricerca di dottorato "Application of Deep Machine Learning in Multi-Scale Energy Audit" è un primo tentativo di esplorare il territorio del deep learning dal punto di vista di un auditor energetico, superando la sfida di valutare e validare l'applicabilità di varie reti profonde nella costruzione di problemi di audit energetico, tra varie granularità di dati.