2
trasformazione delle variabili, il trattamento dei valori anomali, i pesi e 
la funzione aggregatrice, la confrontabilità dei dati, conclusioni. 
La seconda sezione è puramente teorica e descrive l’Analisi 
Fattoriale Multipla; è divisa in quattro sezioni: analisi in Kℜ : gli 
individui, analisi in Iℜ : le variabili, analisi in 2Iℜ : i gruppi di 
variabili, conclusioni. 
La terza sezione, anch’essa esclusivamente teorica, descrive il PLS 
Path Modeling, e si divide in altri quattro paragrafi: specificazione, la 
stima, la validazione, conclusioni. 
La quarta sezione è invece di stampo empirico, in quanto vi sono 
descritte le due analisi effettuate (la cui metodologia è discussa 
teoricamente nelle due sezioni precedenti). Il capitolo è diviso in tre 
parti: Analisi Fattoriale Multipla, PLS Path Modeling, un confronto con 
la classifica del Sole24Ore, conclusioni. 
La quinta sezione infine riporta le conclusioni del lavoro svolto, 
con particolare riferimento all’analisi svolta dal noto quotidiano 
economico ed ai vantaggi e svantaggi delle metodologie proposte in 
questo lavoro. 
L’intera analisi è stata effettuata attraverso l’impiego di diversi 
software statistici specialistici: SPSS 15.0 è stato utilizzato per i calcoli 
semplici, le trasformazioni dei dati ed il trattamento dei valori anomali; 
XLSTAT 2007 è stato utilizzato per l’Analisi Fattoriale Multipla e per 
alcune applicazioni PLS Path Modeling; SPAD 6.0 è stato utilizzato per 
il PLS Path Modeling. 
PDF created with pdfFactory Pro trial version www.pdffactory.com
                                                                     3
CAPITOLO 1 
La sintesi degli indicatori 
 
 
 
 
 
 
Ogni anno il Sole24Ore conduce un’indagine sulla Qualità della 
Vita (QdV) delle province italiane al fine di realizzare una classifica che 
possa essere letta anche in relazione agli anni precedenti. Lo studio si 
basa sulla divisione della QdV in sei aree tematiche che a loro volta 
sono misurate da sei indicatori ciascuna, per un totale di 36. 
La metodologia statistica utilizzata, a partire dalla definizione del 
problema e dalla raccolta dei dati, non sembra essere adeguata allo 
studio di un fenomeno tanto complesso; d’altra parte la costruzione di 
un indicatore composto deve passare attraverso una serie di fasi che 
portano ad una definizione scientifica del problema. In questo capitolo 
si discuterà proprio dell’analisi di queste fasi e del confronto parallelo 
con l’analisi del Sole24Ore. 
 
 
 
 
 
PDF created with pdfFactory Pro trial version www.pdffactory.com
                                                                     4
1.1 Definizione del problema e selezione delle 
variabili 
 
Il punto di partenza nella costruzione di un indicatore composto è 
la definizione del problema: appare chiaro che ciò che è mal definito 
sarà anche mal misurato. Ovviamente questo processo è basato sul 
concetto che si vuole misurare, e non sugli indicatori disponibili. 
Tuttavia non tutti i concetti multidimensionali hanno una base 
teorica ed empirica già definita scientificamente ed accettata come tale. 
In questa fase del lavoro la trasparenza è essenziale, e richiede: 
• La definizione del concetto 
• La determinazione di sottogruppi 
• L’identificazione del criterio di selezione delle variabili 
In generale la forza e la debolezza di un indicatore composto 
derivano dalla qualità delle variabili sottostanti; questa va intesa 
innanzi tutto come dimensioni di qualità delle variabili di base, che 
prevedono che i dati siano attinenti, esatti, rilevati in tempi brevi e 
definiti, accessibili, interpretabili e coerenti; va poi intesa come 
dimensioni di qualità della procedura utilizzata per costruirli: 
chiaramente la bontà della struttura risulta scadente se non viene 
utilizzata la giusta tecnica multivariata, o se si ricorre ad una 
normalizzazione errata o ad una funzione aggregatrice inidonea, 
oppure se i risultati siano mal presentati. 
Dal lato suo il Sole24Ore non fornisce una definizione di QdV 
precisa, ma passa direttamente all’identificazione di sei sottogruppi, 
come già detto, ognuno dei quali è a sua volta diviso in sei variabili: 
PDF created with pdfFactory Pro trial version www.pdffactory.com
                                                                     5
• Tenore di vita: Valore aggiunto per abitante in euro (2006); 
Depositi bancari per abitante in euro (2006); Importo medio 
mensile pensioni in euro (2006); Spesa/abit. Mobili-
elettrodomestici in euro (2006); Indice ponderato aliquote Ici 
(2007); Costo mq in semicentro in euro (ottobre 2007). 
• Affari e lavoro: Imprese registrate/100 abitanti (sett. 2007); 
Iscrizioni/cancellaz. Cdc (ott. 06-sett. 07); In cerca di 
lavoro/forza lavoro in % (2006); Persone 25-34 anni occupate in 
% (2006); Tassi d'interesse su prestiti a breve (2006); Protesti 
pro capite in euro (ott. 06- sett. 07). 
• Servizi, ambiente e salute: Indice Tagliacarne su dotazione 
infrastr.; Differenza gradi mese più caldo e più freddo; Indice 
Legambiente su ecosistema urbano 2007; Sezioni scuole 
dell'infanzia/1000 bambino età pr; Cause esaurite su nuove 
pendenti (2006); Emigrazione ospedaliera in % (2004). 
• Ordine pubblico: Furti d'auto denunciati/100.000 abitanti 2006; 
Furti in casa denunciati/100mila abit. (2006); Scippi e borseggi 
denunciati/100.000 abitanti 20; Rapine denunciate/100mila 
abit. (2006); Minori denunciati/mille punibili (2006); Var. del 
trend dei delitti totali (2002=100). 
• Popolazione: Numero abitanti per kmq (2006); Nati/1000 
abitanti in rapporto indice 2002; Trasferimenti ogni 100 
cancellazioni (2006); Laureati/1000 giovani 19-25 anni (2006); 
Persone 15-29 anni rispetto a over 65 (2006); Immigrati regolari 
in % su popolazione (2006). 
• Tempo libero: Attività culturali ricreative/100mila 
abitanti(2007); Indice 2007 enogastronomia di qualità; Cinema 
PDF created with pdfFactory Pro trial version www.pdffactory.com
                                                                     6
ogni 100mila abitanti (sett. 2007); Mostre ogni 100mila abitanti 
(2006); Indice di sportività (2006); Indice assorb. Libri % su 
popolazione (sett. 2007). 
Nonostante la difficoltà nel definire l’oggetto di studio, che ha una 
connotazione altamente soggettiva, è possibile trovare in letteratura 
studi che possono aiutare in questa direzione. Il dibattito sollevato è 
antico: fu trattato già da Aristotele, che introdusse il concetto di 
eudaimonia (dal greco “buon spirito”), e lo stesso Platone dedicò vari 
anni della sua vita ad organizzare praticamente il governo e la città 
perfetta. 
 Secondo Joachim Vogel la QdV “comprende la possibilità di godere di 
salute e di sicurezza personale, di realizzare la propria personalità mediante 
un processo di crescita culturale nell’arco della vita, di soddisfazione 
lavorativa e di sviluppo professionale, di autorealizzazione nel godimento del 
tempo libero, di disporre in misura sufficiente di beni materiali e di servizi, di 
contatti umani, di comunicazione e di tutela della sfera intima, della libertà 
personale, di partecipazione nel settore politico”. 
Lo United Nation Research Institut for Social Developments, 
organismo dell’ONU, nell’intento di comparare le condizioni di vita 
dei paesi membri ha definito la QdV come l’espressione del grado di 
soddisfacimento di tre ordini di bisogni dei cittadini: bisogni fisici, 
bisogni culturali e bisogni superiori. Questi a loro volta sono 
rispettivamente articolati nelle seguenti aree tematiche: alimentazione, 
riparo e ambiente, salute e sanità; istruzione, tempo libero, sicurezza; 
infrastrutture, servizi, tenore di vita. 
Se da un lato potrebbe sembrare che questa prima fase sia stata 
sviluppata con cura dai ricercatori del Sole24Ore, ad una lettura critica 
PDF created with pdfFactory Pro trial version www.pdffactory.com
                                                                     7
più approfondita è possibile imbattersi in errori che comportano una 
falsificazione dell’intera analisi. Si pensi ad esempio alla sanità: il noto 
giornale economico inserisce un solo indicatore, l’Emigrazione 
ospedaliera, che di fatto poco riesce a spiegare del fenomeno. 
Inoltre, per fini di comparabilità territoriale, gli indicatori devono 
essere costruiti come rapporti statistici che hanno al denominatore la 
causa del dato posto al numeratore; tuttavia questo non avviene 
sempre: si pensi ai furti in casa denunciati, che sono rapportati agli 
abitanti e non alle case occupate. 
Vi è poi il problema della disomogeneità delle aree territoriali: 
bisogna sempre tener conto che i dati si riferiscono alle province e non 
alle città (come spesso viene erroneamente titolato dallo stesso 
giornale); l’importanza di questa chiarificazione sta nel fatto che la 
percentuale dei residenti nel capoluogo è invero molto variabile da 
provincia a provincia, e questo tipo di dati viene spesso influenzato da 
un hinterland molto eterogeneo rispetto alle città. 
 
 
1.2 La trasformazione delle variabili 
 
Il passo successivo nella costruzione di un indicatore sintetico 
consiste nel trasformare le variabili di partenza in indicatori semplici, 
dimensionali e quindi aggregabili. 
Esistono numerosi metodi di normalizzazione.  
Posto che sia osservata una variabile X  che caratterizzi in positivo 
la QdV (ovvero che sia positivamente correlata con essa), posto che si 
PDF created with pdfFactory Pro trial version www.pdffactory.com
                                                                     8
voglia assegnare il valore 1 (o 1000) all’unità con la performance 
migliore, la trasformazione applicata dal Sole24Ore è la seguente: 
 
()x
x
t
i
i max
=+
 
 
Per quanto riguarda le variabili che caratterizzano in negativo la 
QdV (negativamente correlate), la trasformazione utilizzata dal 
quotidiano è: 
 
( )
i
i
x
x
t
min
=−
 
 
La logica di questa seconda trasformazione è che le variabili 
negativamente correlate con la QdV vengono prima trasformate nei 
loro reciproci e successivamente normalizzate secondo la +t . 
Tuttavia la trasformazione −t  modifica la forma della 
distribuzione ed altera la struttura di correlazione originaria delle 
variabili non solo nel segno. Per notare graficamente alcune sue 
caratteristiche, fra cui principalmente la non linearità, si supponga di 
aver rilevato una variabile X  su una popolazione di 10 unità e che 
disponendo le xi in ordine non decrescente sia risultato:  
 
ix
i
= , 10,...,1=i  
 
PDF created with pdfFactory Pro trial version www.pdffactory.com
                                                                     9
Si creano quindi tre popolazioni, ottenute ponendo la 1x  uguale, 
rispettivamente, a 0.5, 1 e 1.5; le tre serie trasformate sono 
rappresentate nella Figura 1. 
 
Figura 1.1: Trasformata −t  al variare del minimo 
 
 
Si può notare come tale trasformazione espande la parte alta della 
distribuzione e comprime la coda destra, esaltando le differenze tra le 
prestazioni migliori e riducendo quelle tra le prestazioni peggiori. Si 
veda poi come la trasformazione sia sensibile a piccole variazioni nel 
minimo della distribuzione di partenza: una diminuzione del minimo 
ha un effetto nettamente maggiore sulla parte alta della distribuzione 
che non sulla coda destra (quindi una variazione nella performance 
PDF created with pdfFactory Pro trial version www.pdffactory.com
                                                                     10
migliore si riflette maggiormente sulle prestazioni buone che non su 
quelle meno buone). 
Una trasformata lineare per le variabili negativamente correlate 
alla QdV e che, al contrario di −t , appartiene alla stessa famiglia di +t  è 
la seguente: 
 
()
( )
()x
x
x
x
u i
i max
min
max
1 +−=−
 
 
che assume valori nello stesso intervallo di +t : ( )
()
1,
max
min
x
x
; tale 
conclusione rende la trasformata −
i
u  la più naturale alternativa a −t . 
Tuttavia le trasformazioni −
i
u  e 
+
t  differiscono per un importante 
aspetto: l’influenza degli outlier. Si pensi, ad esempio, di osservare una 
performance particolarmente negativa (positiva) per una variabile X ; 
la trasformata avrà, a seconda del segno della correlazione tra la X  e la 
QdV, un minimo particolarmente basso o un massimo particolarmente 
alto; se però un decremento del minimo (incremento del massimo) non 
indurrà alcuna variazione negli altri valori della +t , un incremento del 
massimo (decremento del minimo) modificherà tutti i valori della −
i
u . 
Dal momento che delle 36 variabili selezionate numerose 
presentano valori anomali, è preferibile utilizzare una trasformazione 
invariante per traslazione ed a range costante. Viene qui proposta una 
famiglia di trasformazioni che assegnano il valore 1 (o 1000) all’unità 
con la performance migliore, e 0 a quella peggiore.  
Per le variabili correlate positivamente alla QdV: 
PDF created with pdfFactory Pro trial version www.pdffactory.com
                                                                     11
( )
() ()xx
xxw i
i minmax
min
−
−
=+
 
 
Per le variabili correlate negativamente con la QdV: 
 
( )
() ()xx
xxw i
i minmax
max
−
−
=−
 
 
Il vantaggio di tali trasformate sta nel fatto che, oltre ad 
appartenere alla stessa famiglia, assumendo lo stesso range e gli stessi 
momenti, non presentano asimmetria nell’effetto di outlier grandi e 
piccoli. 
Un altro tipo di trasformazione, molto utilizzata in statistica, è la 
standardizzazione, che converte gli indicatori in una scala di misura 
comune con media zero e deviazione standard uno: 
 
s
m−
= i
i
x
z
 
 
Indicatori con valori estremi risultano avere un grande effetto 
nella costruzione degli indicatori composti. 
 
 
 
 
 
PDF created with pdfFactory Pro trial version www.pdffactory.com
                                                                     12
1.3 Il trattamento dei valori anomali 
 
Un altro limite dell’analisi del Sole24Ore riguarda il trattamento 
dei dati anomali. Oltre agli effetti dovuti al tipo di trasformata 
applicata (l’analisi degli outlier è stata eseguita successivamente alla 
trasformazione), bisogna fare delle considerazioni sull’uniformità di 
tale trattamento. 
Di fatto i ricercatori del quotidiano attribuiscono un punteggio 
d’ufficio nei casi di eccessivo distacco fra due province successive. 
Dalle analisi degli scorsi anni e dalle elaborazioni presenti in 
letteratura si nota come la trasformata viene corretta ogni qual volta si 
ha () ( ) 25.01 >− +ii tt 1, ponendo ( ) () 25.01 −=+ ii tt , definendo di conseguenza 
un nuovo minimo tramite cui trasformare le restanti osservazioni. 
Tuttavia analizzando i valori trasformati si può facilmente vedere 
come questo tipo di trattamento viene effettuato solo per alcune 
variabili (ad esempio per la variabile Scippi e borseggi), mentre altre 
sono lasciate invariate rispetto alle trasformazioni effettuate (si vede 
subito, ad esempio, per la variabile Attività culturali e ricreative, dove il 
valore massimo supera di quasi 400 punti il secondo valore). 
Inutile ricordare l’importanza del trattamento dei dati anomali, 
che consente di ridurre il divario fra unità “troppo” distanti fra loro, e, 
soprattutto, deve possedere un carattere uniforme. 
L’individuazione dei valori anomali qui proposta è ben nota in 
letteratura. Si tratta di individuare quei valori che differiscono troppo 
                                            
1
 A titolo di esempio ci si è riferiti al caso della trasformata per le variabili negativamente correlate 
con la QdV; ovviamente lo stesso tipo di ragionamento è applicato anche per la trasformata per le 
variabili positivamente correlate. 
PDF created with pdfFactory Pro trial version www.pdffactory.com
                                                                     13
dagli altri nella distribuzione; dunque un valore 
i
x  è definito anomalo 
se: 
 
( )
( )131
133
3
3
QQQx
QQQx
i
i
−−<
−+>
 
 
dove 1Q  e 3Q  rappresentano rispettivamente il primo ed il terzo 
quartile. In questo modo si identificano i valori troppo alti e troppo 
bassi della distribuzione, i quali condizionano non poco le 
trasformazioni attuate sulle variabili. Sostituendo agli outlier così 
identificati i valori soglia calcolati, di fatto viene ridefinito un nuovo 
massimo, o un nuovo minimo, sul quale effettuare nuovamente la 
trasformazione. 
L’idea alla base è quella di posizionare un valore soglia al di 
sopra, ed al di sotto, del quale non ha più senso aumentare, o 
diminuire, il distacco con gli altri valori della distribuzione. Un 
esempio banale chiarirà meglio il concetto: si immagini di aver 
osservato su di una popolazione di carcerati il numero di anni di 
detenzione che ogni individuo dovrà scontare; ebbene, se un 
individuo, per una qualsiasi ragione, avesse accumulato ad esempio 
quattro ergastoli, di fatto resterebbe in prigione tutta la vita, 
esattamente come se un individuo di ergastoli né avesse accumulati 
due; è dunque inutile penalizzare in modo diverso i due individui. 
 
 
 
PDF created with pdfFactory Pro trial version www.pdffactory.com