ADVANCES IN MEAN-FIELD OPTIMAL CONTROL VIA DYNAMIC PROGRAMMING EQUATIONS

Ruda', Silvia

This Thesis is devoted to the study of several classes of optimal control problems of the McKean-Vlasov type via an analytic approach, which consists in characterizing the value of each problem by means of a suitable partial differential equation, called Hamilton-Jacobi-Bellman (HJB) equation. As the coefficients of a McKean-Vlasov stochastic differential equation depend on the state process also through its law, the associated HJB equation is defined on the Wasserstein space of probability measures with finite second moment P₂(ℝᵈ). It is our purpose to discuss the well-posedness of this PDE in a suitable viscosity sense directly on the Wasserstein space, without lifting it to a Hilbert space of square-integrable random variables L², in contrast with previous contributions. The first chapter of this Thesis focuses on the formulation and the analysis of a general optimal control problem of the McKean-Vlasov type with infinite time horizon and discounted gain functional. Under standard assumptions on the coefficients of the state equation, the gain function and the discount rate β, the optimization problem is well-posed. We firstly prove that the value function does not depend on the initial time of the dynamics. This property, which is often considered natural for discounted control problems over an unbounded time interval, is not trivial when mean-field effects occur: we provide an example where the property fails, due to the non-linear dependence of the gain function on the law of the state process. Nonetheless, assuming that the gain function is sufficiently smooth, we extend this time invariance property to our McKean-Vlasov type problem. We then show that the value function depends on the initial condition of the dynamics only through its law. The value of the problem can thus be identified with a time-independent function v defined on P₂(ℝᵈ). Hence, a suitable elliptic Hamilton-Jacobi-Bellman equation is derived on the same space; the value v is completely characterized as its unique solution in a suitable viscosity sense. The second Chapter presents a different optimal control problem with the same McKean-Vlasov dynamics, infinite time horizon but gain functional in ergodic (long time average) form. Under suitable dissipativity assumptions, we derive strong stability properties of the solutions to the state equation, called ergodic estimates. We use the vanishing discount method, relying on auxiliary control problems with discounted gain functional, to construct a real value λ and a function ϕ: P₂(ℝᵈ) → ℝ, which provide a viscosity solution to an ergodic HJB equation on the space P₂(ℝᵈ). Moreover, the pair (λ,ϕ) is proved to characterize the asymptotic behaviour of the value functions of finite horizontal mean-field control problems when the time horizon tends to infinity and of infinite horizontal mean-field control problems with discounted gain when the discount rate tends to 0. We eventually identify λ with the value function of the ergodic control problem, thus showing that it is constant. We also present a verification theorem to construct optimal controls for the ergodic optimal control problem by means of a solution to the ergodic HJB equation in closed-loop form. In contrast with previous contributions, we do not derive the ergodic HJB equation using stability properties of solutions to elliptic PDEs, but our main results follow from a fundamental functional relation involving ϕ and λ. The third chapter presents some preliminary results concerning an optimal control problem of the McKean-Vlasov type with partial observation: the mean-field dynamics is influenced by a continuous-time Markov chain M with finite state space which can not be observed by the representative agent. The analysis of the problem thus requires filtering techniques, relying on a fully observable auxiliary control problem, called separated problem, with a measure-valued controlled state equation (Zakai equation); this SDE can be rewritten as an ℝᴺ-valued state equation as M can only assume N values. It is then proved that the separated control problem is equivalent to the original control problem with partial observation in a weak form. Adopting this approach, due to the presence of mean-field effects in the original state equation, we obtain a non-standard optimal control problem of the McKean-Vlasov type, whose coefficients depend on the joint law of the state equation and the Brownian noise. We thus study its well-posedness and stability properties. We also discuss future research with the aim of adopting the analytic approach, eventually leading to a suitable HJB equation on a Wasserstein space.

In questa tesi di dottorato ci proponiamo di analizzare varie classi di problemi di controllo ottimo di tipo McKean-Vlasov con un approccio analitico, che consiste nella caratterizzazione della funzione valore di ciascun problema mediante un'opportuna equazione alle derivate parziali, detta equazione di Hamilton-Jacobi-Bellman (HJB). Poiché i coefficienti di un'equazione stocastica di McKean-Vlasov dipendono non solo dalle traiettorie della soluzione, ma anche dalla sua legge, l'equazione di HJB associata è definita sullo spazio di Wasserstein delle misure di probabilità di momento secondo finito P₂(ℝᵈ). In questa tesi, la buona positura di tale equazione in senso viscoso è sempre analizzata direttamente sullo spazio di Wasserstein; non ricorriamo pertanto al lifting dell'equazione su uno spazio di Hilbert di variabili aleatorie di quadrato sommabili, in contrasto con una parte della letteratura su questo argomento. Nel primo capitolo della tesi, formuliamo e analizziamo un problema di controllo ottimo di tipo McKean-Vlasov con orizzonte temporale infinito e funzionale di guadagno scontato. Il problema è ben posto sotto ipotesi standard per i coefficienti dell'equazione di stato, la funzione di guadagno e il fattore di sconto β. Innanzitutto, dimostriamo che la funzione valore non dipende dal tempo iniziale della dinamica. Questa proprietà, spesso considerata naturale per problemi con orizzonte temporale infinito e fattore di sconto, non è invece banale in presenza di effetti di campo medio: in particolare, esibiamo un esempio in cui la proprietà non vale a causa della dipendenza non lineare della funzione di guadagno dalla legge del processo di stato. Tuttavia, assumendo che la funzione di guadagno sia sufficientemente regolare, estendiamo questa proprietà di invarianza temporale al nostro problema di tipo McKean-Vlasov. Successivamente, mostriamo che la funzione valore dipende dalla condizione iniziale della dinamica solo mediante la sua legge. Il valore del problema può dunque essere identificato con una funzione v indipendente dal tempo e definita su P₂(ℝᵈ). Infine, sullo stesso spazio deriviamo un'opportuna equazione ellittica di Hamilton-Jacobi-Bellman e caratterizziamo completamente la funzione valore v come l'unica soluzione viscosa di tale equazione. Il secondo capitolo presenta un problema di controllo ottimo con la stessa dinamica di tipo McKean-Vlasov su orizzonte temporale infinito, ma un funzionale di guadagno in forma ergodica. Sotto opportune ipotesi di dissipatività, le soluzioni dell'equazione di stato soddisfano condizioni forti di stabilità rispetto alle condizioni iniziali, dette stime ergodiche. Basandoci su una famiglia di problemi di controllo ausiliari con funzionale di guadagno scontato, costruiamo un valore reale λ e una funzione ϕ: P₂(ℝᵈ) → ℝ che costituiscono una soluzione viscosa di un'equazione ellittica, detta equazione ergodica di HJB, sullo spazio P₂(ℝᵈ). Inoltre, dimostriamo che la coppia (λ,ϕ) caratterizza il comportamento asintotico delle funzioni valore associate a problemi di controllo ottimo di tipo McKean-Vlasov ad orizzonte temporale finito quando quest'ultimo tende all'infinito e delle funzioni valore associate a problemi di controllo ottimo di tipo McKean-Vlasov ad orizzonte temporale infinito con fattore di sconto quando questo tende a 0. Infine, identifichiamo λ con il valore del problema di controllo ergodico, dimostrando che esso è costante. Presentiamo poi un teorema di verifica che permette di costruire controlli ottimi per il problema ergodico a partire da soluzioni dell'equazione di HJB ergodica. A differenza di quanto proposto da altri autori, non deriviamo l'equazione ergodica di HJB usando proprietà di stabilità di soluzioni viscose di PDE ellittiche, ma tutti i nostri risultati principali seguono da una relazione funzionale soddisfatta dalla coppia (λ,ϕ). Il terzo capitolo presenta alcuni risultati preliminari riguardanti un problema di controllo ottimo di tipo McKean-Vlasov con osservazione parziale: la dinamica è infatti influenzata da ua catena di Markov M a tempo continuo e spazio degli stati finito che non è osservata dall'agente. L'analisi del problema richiede dunque tecniche di filtraggio, basate su un problema di controllo ausiliario, detto problema separato, con un'equazione di stato controllata a valori nello spazio delle misure positive (l'equazione di Zakai). Tale equazione si può poi riscrivere come una SDE a valori in ℝᴺ, dal momento che la catena può assumere solo un numero finito N di valori. Adottando questo approccio, a causa della presenza di effetti di campo medio nel problema originale, otteniamo un problema di controllo di tipo McKean-Vlasov non standard, i cui coefficienti dipendono dalla legge congiunta del processo di stato e del moto Browniano. Studiamo dunque la buona positura di tale problema e la stabilità delle soluzioni dell'equazione di stato rispetto alle condizioni iniziali e dimostriamo che esso è equivalente ad una versione debole del problema originale. Presentiamo infine gli sviluppi futuri di questa ricerca, ricordando che intendiamo adottare un approccio di tipo analitico al problema, che porti alla caratterizzazione del valore mediante un'opportuna equazione di HJB su uno spazio di Wasserstein.