PROGETTAZIONE DI ACCELERATORI HARDWARE PER RETI NEURALI MINIATURIZZATI E A ULTRA-BASSO CONSUMO PER L’IN-SENSOR COMPUTING

Vitolo, Paola

THE EXPLOSIVE GROWTH OF IOT DEVICES DEMANDS ON-SENSOR INTELLIGENCE THAT IS ACCURATE AND RADICALLY ENERGY-EFFICIENT. THIS DISSERTATION INVESTIGATES IN-SENSOR COMPUTING (ISC) THROUGH A CONSTRAINTS-FIRST HARDWARE–SOFTWARE CO-DESIGN METHODOLOGY TO REALIZE TINY, ULTRA-LOW-POWER NEURAL ACCELERATORS TIGHTLY COUPLED TO MEMS SENSORS. THE APPROACH SHAPES NETWORK TOPOLOGY, QUANTIZATION, AND FIXED-POINT ARITHMETIC FROM THE OUTSET TO MEET STRINGENT LIMITS IN AREA, POWER, AND MEMORY, AND VALIDATES DESIGNS THROUGH FPGA PROTOTYPING AND CMOS SYNTHESIS. THREE APPLICATION-DRIVEN CASE STUDIES, DEVELOPED IN COLLABORATION WITH STMICROELECTRONICS, SUBSTANTIATE THE METHODOLOGY. THE FIRST ADDRESSES AUDIO PROCESSING FOR KEYWORD SPOTTING, WHERE A LEARNED 1D-CNN REPLACES THE CONVENTIONAL CIC+FIR PDM-TO-PCM CHAIN, FUSING FILTERING AND DECIMATION AND DELIVERING 8-BIT/16 KHZ PCM WITH 48 DB SNR WHILE PRESERVING DOWNSTREAM ACCURACY OF 89%. THE SYNTHESIZED CORE IN 130 NM CMOS ACHIEVES 128.7 ΜW/MHZ WITHIN LESS THAN 1 MM^2. THE SECOND FOCUSES ON VIBRATION-BASED PREDICTIVE MAINTENANCE, EMPLOYING A HYBRID, EVENT-DRIVEN PIPELINE THAT COMBINES AN ALWAYS-ON, PARTIALLY BINARIZED IN-SENSOR AUTOENCODER FOR ANOMALY DETECTION (AUC = 0.99; 99.61% ACCURACY) WITH AN ON-DEMAND MCU CLASSIFIER (UP TO 94.83%). THE IN-SENSOR ACCELERATOR SUSTAINS SENSOR OUTPUT DATA RATES UP TO 365 KHZ AND EXHIBITS 333 ΜW/MHZ DYNAMIC POWER ON FPGA, WHILE STANDARD-CELL SYNTHESIS IN 65 NM REPORTS 0.49 MM^2 AND 138.6 ΜW/MHZ DYNAMIC POWER. THE THIRD CASE CONCERNS THERMAL-STRESS COMPENSATION FOR MEMS PRESSURE SENSORS: THE PROPOSED AI-BASED RECONFIGURABLE SENSOR COMPENSATION UNIT (AI-RESCU) COUPLES A RECONFIGURABLE TRIGGER WITH AN ITERATIVE NEURAL ERROR ESTIMATOR WITH BINARIZED WEIGHTS AND FIXED-POINT ACTIVATIONS TO RESTORE ACCURACY WITHIN ±0.5 HPA, RECOVERING UP TO 1.6 HPA, WITH 4.46 NW DYNAMIC POWER IN 0.55 MM^2. TAKEN TOGETHER, THESE DIVERSE STUDIES CONFIRM THE GENERAL APPLICABILITY OF THE PROPOSED DESIGN FLOW: DESPITE THEIR DIFFERENT SENSING DOMAINS AND PERFORMANCE TARGETS, EACH ACHIEVES STATE-OF-THE-ART ACCURACY AND EFFICIENCY. THE DISSERTATION DISTILLS GENERALIZABLE ISC DESIGN PRINCIPLES—EARLY CONSTRAINT PROPAGATION, AGGRESSIVE RESOURCE SHARING WITH SERIALIZED COMPUTE, SELECTIVE BINARIZATION AND LOW-BIT QUANTIZATION, AND EVENT-TRIGGERED OPERATION WITH DEEP SLEEP—SHOWING THAT COMPETITIVE MACHINE-LEARNING ACCURACY AND REAL-TIME THROUGHPUT CAN BE ACHIEVED AT MILLIWATT-TO-NANOWATT POWER AND SUB-MM^2 AREA, ENABLING PRACTICAL IN-SENSOR AI. FINALLY, DURING A 6-MONTH RESEARCH PERIOD AT JOHNS HOPKINS UNIVERSITY, AN EXPLORATORY STUDY INVESTIGATED LARGE LANGUAGE MODELS (LLMS)-ASSISTED HARDWARE-DESCRIPTION GENERATION, INCLUDING SYNTHESIZABLE VERILOG, TESTBENCHES, AND DOCUMENTATION FOR A RECURRENT SPIKING NEURAL NETWORK VALIDATED ON FPGA AND IMPLEMENTED WITH AN OPEN-SOURCE SKYWATER 130 NM FLOW, AS A COMPLEMENTARY PERSPECTIVE ON HOW THE PROPOSED CO-DESIGN WORKFLOW COULD BE ACCELERATED.

LA RAPIDA DIFFUSIONE DEI DISPOSITIVI IOT PONE LA NECESSITÀ DI INTEGRARE CAPACITÀ DI INTELLIGENZA DIRETTAMENTE A LIVELLO DI SENSORE, GARANTENDO AL CONTEMPO ELEVATA ACCURATEZZA E CONSUMI ENERGETICI ESTREMAMENTE RIDOTTI. QUESTA TESI DI DOTTORATO ANALIZZA IL PARADIGMA DELL’IN-SENSOR COMPUTING (ISC) ATTRAVERSO UNA METODOLOGIA DI CO-PROGETTAZIONE HARDWARE–SOFTWARE GUIDATA DAI VINCOLI HARDWARE, FINALIZZATA ALLA REALIZZAZIONE DI ACCELERATORI NEURALI MINIATURIZZATI E A BASSISSIMA POTENZA, STRETTAMENTE INTEGRATI CON SENSORI MEMS. L’APPROCCIO PROPOSTO DEFINISCE FIN DALLE PRIME FASI DI PROGETTO LA TOPOLOGIA DELLE RETI NEURALI, LE STRATEGIE DI QUANTIZZAZIONE E L’ARITMETICA A PUNTO FISSO, AL FINE DI RISPETTARE STRINGENTI VINCOLI DI AREA, POTENZA E MEMORIA. LE SOLUZIONI SVILUPPATE SONO VALIDATE MEDIANTE PROTOTIPAZIONE SU FPGA E SINTESI CMOS. LA VALIDITÀ DELLA METODOLOGIA È DIMOSTRATA ATTRAVERSO TRE CASI DI STUDIO APPLICATIVI, SVILUPPATI IN COLLABORAZIONE CON STMICROELECTRONICS. IL PRIMO RIGUARDA L’ELABORAZIONE AUDIO PER APPLICAZIONI DI KEYWORD SPOTTING, IN CUI UNA RETE NEURALE CONVOLUZIONALE 1D SOSTITUISCE LA TRADIZIONALE CATENA CIC+FIR PER LA CONVERSIONE PDM–PCM, INTEGRANDO FILTRAGGIO E DECIMAZIONE IN UN UNICO BLOCCO NEURALE. LA SOLUZIONE PRODUCE SEGNALI PCM A 8 BIT E 16 KHZ CON UN RAPPORTO SEGNALE-RUMORE DI 48 DB, MANTENENDO UN’ACCURATEZZA COMPLESSIVA DELL’89%. IL CORE SINTETIZZATO IN TECNOLOGIA CMOS A 130 NM RAGGIUNGE UNA POTENZA DI 128,7 ΜW/MHZ IN UN’AREA INFERIORE A 1 MM^2. IL SECONDO CASO DI STUDIO AFFRONTA LA MANUTENZIONE PREDITTIVA BASATA SU SEGNALI VIBRAZIONALI MEDIANTE UNA PIPELINE IBRIDA ED EVENT-DRIVEN, CHE COMBINA UN AUTOENCODER IN-SENSOR SEMPRE ATTIVO, PARZIALMENTE BINARIZZATO, PER IL RILEVAMENTO DI ANOMALIE, CON UN CLASSIFICATORE SU MICROCONTROLLORE ATTIVATO SU RICHIESTA. L’APPROCCIO CONSENTE DI OTTENERE PRESTAZIONI DI RILEVAMENTO DI ANOMALIE PROSSIME ALLO STATO DELL’ARTE (AUC PARI A 0,99) E UN’ACCURATEZZA DI CLASSIFICAZIONE FINO AL 94,83%, SOSTENENDO RATE DI DATI IN USCITA DAL SENSORE FINO A 365 KHZ. I RISULTATI DI SINTESI RIPORTANO UN’AREA DI 0,49 MM^2 IN TECNOLOGIA CMOS A 65 NM E UNA POTENZA DINAMICA DI 138,6 ΜW/MHZ. IL TERZO CASO DI STUDIO È DEDICATO ALLA COMPENSAZIONE DELLO STRESS TERMICO NEI SENSORI DI PRESSIONE MEMS. VIENE PROPOSTA UN’UNITÀ DI COMPENSAZIONE RICONFIGURABILE BASATA SU INTELLIGENZA ARTIFICIALE (AI-RESCU), CHE COMBINA UN MECCANISMO DI TRIGGER ADATTIVO CON UNO STIMATORE NEURALE ITERATIVO DELL’ERRORE, CARATTERIZZATO DA PESI BINARIZZATI E ATTIVAZIONI A PUNTO FISSO. LA SOLUZIONE CONSENTE DI RIPRISTINARE L’ACCURATEZZA DEL SENSORE ENTRO ±0,5 HPA, RECUPERANDO FINO A 1,6 HPA, CON UNA POTENZA DINAMICA DELL’ORDINE DEI NANOWATT E UN’AREA DI 0,55 MM^2. NEL LORO INSIEME, I RISULTATI DIMOSTRANO LA GENERALITÀ E L’EFFICACIA DEL FLUSSO DI PROGETTAZIONE PROPOSTO, MOSTRANDO COME, NONOSTANTE LA DIVERSITÀ DEI DOMINI APPLICATIVI E DEI REQUISITI PRESTAZIONALI, SIA POSSIBILE OTTENERE SOLUZIONI AD ALTA EFFICIENZA ENERGETICA E ACCURATEZZA COMPETITIVA. LA TESI DISTILLA INOLTRE PRINCIPI DI PROGETTAZIONE ISC GENERALIZZABILI, QUALI LA PROPAGAZIONE PRECOCE DEI VINCOLI, LA CONDIVISIONE AGGRESSIVA DELLE RISORSE CON CALCOLO SERIALIZZATO, LA QUANTIZZAZIONE A POCHI BIT E LA BINARIZZAZIONE SELETTIVA, NONCHÉ L’ADOZIONE DI MECCANISMI EVENT-TRIGGERED CON MODALITÀ DI DEEP SLEEP. INFINE, DURANTE UN PERIODO DI RICERCA DI SEI MESI PRESSO LA JOHNS HOPKINS UNIVERSITY, È STATO CONDOTTO UNO STUDIO ESPLORATIVO SULL’IMPIEGO DI LARGE LANGUAGE MODELS (LLM) PER LA GENERAZIONE AUTOMATICA DI DESCRIZIONI HARDWARE, INCLUDENDO CODICE VERILOG SINTETIZZABILE, TESTBENCH E DOCUMENTAZIONE, APPLICATI ALLA PROGETTAZIONE DI UNA RETE NEURALE SPIKING RICORRENTE VALIDATA SU FPGA E IMPLEMENTATA TRAMITE UN FLUSSO OPEN-SOURCE IN TECNOLOGIA SKYWATER A 130 NM. TALE STUDIO FORNISCE UNA PROSPETTIVA COMPLEMENTARE SU COME IL WORKFLOW DI CO-PROGETTAZIONE PROPOSTO POSSA ESSERE ULTERIORMENTE ACCELERATO.