Extended abstract 
L’approvvigionamento idrico della città di Milano avviene tramite un sistema di pozzi di 
captazione dell’acqua di falda, che fanno capo a 27 stazioni di rilancio. Ogni stazione opera 
attraverso 12 - 24 pozzi, per un totale di circa 400. L’intero sistema è gestito dall’ente MM 
(Metropolitana Milanese) responsabile anche dell’estesa rete di monitoraggio sia dell’acqua di 
falda che di quella distribuita nella rete a seguito dei trattamenti di potabilizzazione. 
Scopo del presente progetto di tesi è l’analisi esplorativa dei dati di qualità dell’acqua di 
falda, resi disponibili dalla rete di monitoraggio gestita da MM. 
La distribuzione spaziale dei pozzi, e le diverse caratteristiche di ciascuno di essi fanno 
sì che l’acqua emunta presenti caratteristiche chimiche variabili; ulteriore variabilità è 
introdotta su scala temporale dall’andamento della falda e da una serie di fenomeni 
meteorologici, chimico-fisici e biologici. La struttura dei dati di monitoraggio chimico risulta 
quindi particolarmente complessa: essi consistono in campioni prelevati negli anni 2007-2013 
in punti diversi del territorio di interesse (il comune di Milano) e a diverse profondità e 
comprendono un numero molto significativo di parametri. Per lo studio di un dataset di tale 
natura si è ritenuto opportuno avvalersi del potere di sintesi di tecniche di analisi 
multivariata. Esse offrono infatti la possibilità di sintetizzare in modo efficace l’informazione 
ridondante, descrivendo i dati attarverso un numero ridotto di variabili. 
L’approccio, essenzialmente di tipo “bottom-up” (ovvero basato sulle misure 
disponibili, senza aver definito a priori un modello dinamico), consente di ricavare 
i
Extended abstract 
informazioni sul tipo di contaminazione presente e sulle tipologie di sorgente inquinante che 
potrebbero averlo determinato, utilizzando strumenti appartenenti alla famiglia delle tecniche 
chemiometriche. 
Al fine di meglio interpretare i risultati delle analisi statistiche, è stata condotta, 
parallelamente alle analisi statistiche, una caratterizzazione idrogeologica dell’area milanese. 
In particolare è stato ricostruito un modello tridimensionale, che mostrasse la struttura del 
sottosuolo nei 195 metri sottostanti al comune di Milano, permettendo una migliore 
comprensione del sistema di acquiferi e della distribuzione di lenti di argilla di separazione 
degli stessi. Un confronto delle sezioni stratigrafiche con le caratteristiche tecniche dei pozzi 
(profondità e fenestrature) ha permesso quindi di chiarire le ragioni di almeno una parte della 
variabilità riscontrata nei dati, rendendo maggiormente interpretabili i risultati delle 
sopracitate analisi. 
La prima fase, di sintesi, è consistita in una riduzione del numero di variabili tramite 
Factor Analysis (FA). Questa tecnica, fondata sullo studio delle correlazioni tra i descrittori 
chimici disponibili, permette di individuare un numero ristretto di fattori latenti in grado di 
spiegare la maggior parte della variabilità dei dati, tralasciandone quindi solo una percentuale 
trascurabile. La struttura di tali fattori permette già di per sé di ricavare informazioni 
specifiche sui dati e di individuare, tramite la loro interpretazione, tipologie specifiche di 
contaminazione e plausibilmente di fare ipotesi sulla loro sorgente. 
I fattori individuati nella prima fase sono stati la base di partenza per ricavare ulteriori 
informazioni dal dataset tramite l’applicazione di altre tecniche di analisi. Tramite la Cluster 
analysis (svolta in questo studio con la tecnica K-Means) è stato possibile individuare nelle 
singole misure profili comuni di distribuzione spaziale e temporale degli inquinanti. 
L’elaborazione di Self Organizing Map (Mappe di Kohonen) ha permesso invece di indagare 
la naturale distribuzione dei dati in termini di similarità e diversità; queste due analisi 
costituiscono il secondo step del presente studio. Nell’ultima fase del lavoro di tesi ci si è 
invece avvalsi di tecniche di analisi multicriteri per il supporto alle decisioni (MCDM) allo 
scopo di elaborare indici che evidenziassero la qualità dell’acqua emunta dai vari pozzi (sotto 
forma di un ordinamento migliore-peggiore – rank analysis) sulla più recente finestra 
ii
Extended abstract 
temporale 2011-2012-2013. Sono stati elaborati parallelamente due ordinamenti: sulla base 
dei factor scores legati a solventi e BTEX da un lato, fitofarmaci dall’altro. Per entrambi 
sono riportati indici elaborati secondo le funzioni di desiderabilità, utilità e dominanza. 
La prima informazione importante ottenuta dai dati disponibili è stata l’individuazione 
dei fattori latenti: l’analisi ha evidenziato 19 fattori, in grado di spiegare il 75% della varianza 
totale dei dati. Il primo fattore racchiude i parametri chimici legati all’interazione dell’acqua 
con la matrice del suolo, ma anche inquinanti come nitrati, cloruri e solfati ovvero quei 
contaminanti di origine antropica caratterizzati da una diffusione più areale, opposta quindi 
ai fenomeni di contaminazione puntuale, legati a singole fonti inquinanti  che determinano le 
concentrazioni degli altri composti oggetto di studio.I fattori successivi raggruppano le 
variabili chimiche, sulla base delle fonti e dei comportamenti ambientali: alcuni fattori 
rappresentano quindi gruppi di pesticidi, o di solventi organici. Troviamo gli IPA suddivisi in 
due fattori sulla base del peso molecolare, i metalli in un unico fattore (con la sola eccezione 
del cromo che appare slegato) e i BTEX di maggiore rilievo, presenti in falda a seguito di 
sversamenti/perdite di materiali di origine fossile, in un ulteriore fattore. 
Un secondo livello di informazione è stato ricostruito per mezzo della cluster analysis e 
delle Self Organizing Maps. Esse evidenziano come, dal punto di vista macroscopico, si 
possa individuare un profilo di contaminazione da solventi e BTEX riguardante la fascia 
nord della città ed un secondo profilo, associato a fitofarmaci, caratterizzante le zone del 
centro-sud.Ad una scala a maggiore dettaglio, difficilmente troviamo in una stessa centrale 
valori significativamente alti di più di un fattore, fatto salvo alcune eccezioni tra cui spicca la 
centrale Armi fortemente contaminata da diversi pesticidi, solventi e cromo. 
Tali considerazioni, oltre al numero di fattori particolarmente elevato, hanno portato 
alla necessità di elaborare due rank analysis separate: soventi e BTEX e, separatamente, 
fitofarmaci. Si riportano di seguito le mappe rappresentanti  l’ordinamento secondo la 
funzione di desiderabilità, per i solventi in alto, e per i pesticidi in basso. Si possono 
osservare in esse andamenti generali per le varie centrali, ma rimangono allo stesso tempo 
evidenti differenti comportamenti di pozzi vicini, spiegabili alla luce di un confronto con il 
modello tridimensionale della struttura dell’acquifero e delle caratteristiche tecniche dei 
iii
Extended abstract 
singoli pozzi. Le tecniche chemometriche utilizzate hanno quindi permesso di ricavare 
agilmente informazioni di tipo e grado di dettaglio diverso, evidenziando criticità nella qualità 
dei dati, e informazioni rilevanti sullo stato ambientale del comparto studiato, mantenendo al 
contempo carattere di sinteticità e immediatezza di comprensione. 
Figura 1 – Classificazione dei pozzi del comune di Milano, secondo l’ordinamento elaborato sui fattori 
legati a solventi e BTEX 
Figura 2 – Classificazione dei pozzi del comune di Milano, secondo l’ordinamento elaborato sui fattori 
legati a fitofarmaci 
iv
Capitolo 1 
 Introduzione 
Scopo del presente progetto di tesi è un’analisi esplorativa dei dati disponibili dalla rete 
di monitoraggio gestita da MM (Metropolitana Milanese, gestore dell’Acquedotto di Milano) 
riguardanti la qualità degli acquiferi del milanese. L’approvvigionamento idrico della città di 
Milano avviene tramite captazione dell’acqua di falda, attraverso un sistema di pozzi, che 
fanno capo a 27 stazioni di rilancio. Ogni stazione opera attraverso 12 - 24 pozzi, per un 
totale di circa 400 pozzi.  
La distribuzione spaziale dei pozzi, e le diverse caratteristiche di ciascuno di essi fanno 
sì che l’acqua emunta presenti caratteristiche chimiche variabili; un’ulteriore variabilità è 
introdotta su scala temporale dal flusso della falda e da una serie di fenomeni meteorologici, 
chimico-fisici e biologici. La struttura dei dati di monitoraggio risulta quindi particolarmente 
complessa: essi consistono in campioni prelevati negli anni 2007-2013 in punti diversi del 
territorio di interesse (il comune di Milano) e a diverse profondità e  comprendono un 
numero notevole di parametri. Per lo studio di un dataset di tale natura si è optato per 
tecniche di analisi statistica multivariata. Esse offrono infatti la possibilità di sintetizzare 
l’informazione, descrivendo i dati con un numero ridotto di variabili, eliminando nel 
contempo l’informazione spuria.  
I dati provenienti dalla rete di monitoraggio del comune e della provincia di Milano 
sono stati rielaborati negli ultimi anni secondo un approccio “univariato” fondato sullo 
studio di ogni singola variabile chimica (progetto qualfalda, 2002 Rapporto annuale 2012 
1
Introduzione 
sullo stato delle acque sotterranee, ARPA) puntando ad identificarne i plume di 
contaminazione. Le analisi statistiche utilizzate in questo studio consentono una visione 
integrata e multivariata del sistema, basata sull’individuazione dei fattori latenti (es. medesima 
origine, analoghe caratteristiche di mobilità ambientale e caratteristiche chimiche) che 
sottendono alle variabili chimiche e che ne spiegano la variabilità sul territorio.   
L’approccio, essenzialmente di tipo “bottom-up” (ovvero basato sulle misure 
disponibili, senza l’elaborazione di un modello concettuale dinamico), utilizzando strumenti 
appartenenti alla famiglia delle tecniche chemometriche, consente di ricavare informazioni 
sul tipo di contaminazioni presenti, sulla loro evoluzione nel tempo e sulle tipologie di 
sorgente inquinante che potrebbero averle determinate,  
La prima fase, di sintesi, consiste in una riduzione del numero di variabili tramite Factor 
Analysis (FA). Questa tecnica, fondata sullo studio delle correlazioni tra i descrittori chimici 
disponibili, permette di individuare un numero ristretto di fattori latenti in grado di spiegare 
la maggior parte della variabilità dei dati, tralasciando quindi una percentuale ridotta di 
varianza generalmente considerata trascurabile (Williams et al., 2012). La struttura di tali 
fattori permette già di per sé di ricavare informazioni specifiche sui dati e di individuare, 
tramite la loro interpretazione, tipologie specifiche di contaminazione e la loro plausibile 
sorgente. Permette inoltre di quantificare l’importanza di ciascuno di essi rispetto alla totale 
variabilità dei dati, di identificare quindi quelli di maggiore rilievo. 
L’approccio tradizionale punta ad esaminare il maggior numero possibile di variabili 
singole, studiandone andamenti temporali e spaziali. Questo approccio particolarmente 
laborioso porta talvolta all’esigenza, in fase di elaborazione dei dati, di raggruppare le variabili 
chimiche in famiglie di contaminanti accumunate generalmente sulla base della tipologia di 
sorgente. Questo studio permette invece di identificare fattori latenti in grado di raggruppare 
al loro interno variabili tra loro correlate, prescindendo da una suddivisione a priori, ed 
elaborando invece una più efficace sintesi dei dati fondata sull’informazione che essi stessi 
portano. 
I fattori di contaminazione individuati nella prima fase sono stati ulteriormente indagati 
attraverso tecniche di segmentazione (Cluster Analysis, Self Organizing Maps) finalizzati ad 
2
Introduzione 
individuare   nelle singole misure profili comuni di distribuzione spaziale e temporale degli 
inquinanti.  
Determinati i fenomeni di contaminazione presenti sul territorio e i profili ricorrenti su 
scala spaziale e temporale, ci si è proposti in questo studio di rielaborare le informazioni 
raccolte, rendendole maggiormente funzionali alla pianificazione della rete di monitoraggio. 
 Per questa ultima fase ci si è avvalsi di tecniche di analisi multicriteri per il supporto alle 
decisioni (MCDM) allo scopo di elaborare indici che evidenziassero la qualità dell’acqua 
emunta dai vari pozzi (sotto forma di un ordinamento migliore-peggiore) sulla più recente 
finestra temporale 2011-2012-2013. Tali indici permettono quindi di identificare quali pozzi 
valga la pena campionare e monitorare più frequentemente. Al fine di meglio interpretare i 
risultati delle analisi statistiche, e osservarne l’efficacia è stata condotta, parallelamente alle 
altre analisi, una caratterizzazione idrogeologica dell’area milanese. In particolare è stato 
ricostruito un modello tridimensionale, che mostrasse la struttura del sottosuolo nei 195 
metri sottostanti al comune di Milano, permettendo una migliore comprensione del sistema 
di acquiferi e della distribuzione di lenti di argilla. Un confronto delle sezioni stratigrafiche 
con le caratteristiche tecniche dei pozzi (profondità e fenestrature) permette quindi di 
chiarire parte della variabilità dei dati, rendendo maggiormente interpretabili i risultati delle 
sopracitate analisi. 
La presente trattazione illustra le tecniche utilizzate e i risultati che hanno prodotto. In 
particolare, nel secondo capitolo sono riportati dei cenni teorici di statistica multivariata e di 
geostatistica. Nei capitoli 3 e 4 sono esplicitati gli strumenti informatici utilizzati e le scelte 
operative effettuate in fase di elaborazione rispettivamente per la ricostruzione delle 
stratigrafie e per l’analisi esplorativa dei dati. Il quinto capitolo illustra invece i risultati e 
l’interpretazione che di essi è stata formulata.  
1.1 Inquadramento territoriale 
La Pianura lombarda dispone di un ricco patrimonio che consiste nelle proprie acque 
sotterranee che garantiscono la gran parte dell’approvvigionamento idrico del territorio. 
L’area metropolitana a nord di Milano che si estende tra il torrente Seveso a ovest e il fiume 
Adda a est, deve buona parte della propria crescita economica e sociale alla presenza, alla 
3