Diffusion models e generazione controllata: architetture probabilistiche per contenuti sintetici
Negli ultimi anni, i modelli a diffusione (diffusion models) si sono affermati come uno degli approcci più all’avanguardia per la generazione di contenuti sintetici ad alta qualità, in particolare nel campo delle immagini, ma con estensioni anche ad audio e altri domini. Si tratta di modelli generativi probabilistici che si ispirano a processi fisici di diffusione: l’idea chiave è di definire un processo stocastico in due fasi opposte. In fase di addestramento (diffusione “diretta”), si aggiunge progressivamente rumore gaussiano ai dati reali, passo dopo passo, finché i dati originali non diventano poco distinguibili da puro rumore. Poi il modello impara a invertire questo processo, cioè a partire da rumore casuale cercare di toglierlo passo dopo passo ricostruendo dati plausibili (fase di “denoising”). In pratica, si stabilisce una catena di Markov di T piccoli passi di corruzione del dato e il modello di rete neurale è addestrato a realizzare l’operazione inversa: prevedere, dato un input rumoroso, la distribuzione del dato un passo prima (leggermente meno rumoroso). Iterando questo procedimento inverso, il modello può iniziare da input completamente casuali e generare campioni nuovi che assomigliano ai dati di addestramento. A differenza di altre famiglie di modelli generativi (come le GAN – Generative Adversarial Networks), i diffusion models hanno il vantaggio di una procedura di apprendimento più stabile e di offrire un controllo più esplicito sul processo generativo, a costo però di un maggiore sforzo computazionale per produrre un campione (poiché deve passare attraverso molti passi di denoising).