Skip to content

Formule per calcolare la regressione

Y = a + bX
b = COV(X,Y)/Var(X)
a = M(Y) – bM(X)
indice di adattamento = :2 = [COV(X,Y)]2/Var(X)*Var(Y)
Y = C
min M [(Y-C)2]
C = M(Y)
x – variabile indipendente (in questo caso è il peso)
IN EXCEL
COVARIANZA =COVARIANZA(peso;accelerazione)
Un altro modo per calcolare le variabili a e b:
parametro b =pendenza(Y,X)
parametro a =intercetta(Y,X)
Andare sul grafico e aggiungere LINEA DI TENDENZA
Ha senso calcolare :2 solo se non viene fatta una trasformazione della x.
IN EXCEL
STRUMENTI – ANALISI DATI – REGRESSIONE
(si tiene dentro anche il titolo, quindi selezionare anche etichette)
L’output si compone:
- STATISTICA DELLA REGRESSIONE : R multiplo; R al quadrato (esprime l’indice di adattamento); R quadrato corretto che tiene conto della complessità del modello, nel senso che tiene conto anche delle variabili che non sono state inserite nel modello; Errore standard, ma non si guarda; Osservazioni.
- ANALISI DELLA VARIANZA : SQ = somma dei quadrati, MQ = media dei quadrati; F = SQ/MQ.
- Coefficienti; Errore standard viene utilizzato per calcolare la statistica t; valore di significatività, in excel viene chiamata significatività il p-value; dopo sono indicati gli intervalli di confidenza.
Quando la significatività è alta vuol dire che le variabili non spiegano la X.
Quando le variabili non sono significative, quindi non contribuiscono all’interpretazione di Y, quindi vanno eliminate, il modello finale è Y* = costante. La stima della costante = M(Y). L’indice di adattamento vale 0.
Quando anche l’intercetta non è significativa, bisogna ristimare il modello e farlo passare per l’origine.
REGRESSIONE
y variabile dipendente
x1, x2 variabili indipendenti
Strumenti – analisi dati – regressione
p-value :probabilità di commettere un errore affermando che il coefficiente è diverso da 0.
OUTPUT RESIDUI
VALORE PREVISTO Y = intercetta + coefficiente * x1 + coefficiente * x2
Devo bloccare l’intercetta e i coefficienti.
TENDENZA = valori y + valori x1 e x2 + valori x1 e x2 + intercetta
Il valore previsto prende in considerazione solo le variabili significative, mentre la funzione tendenza bisogna applicarla con riferimento alle colonne contigue che siano tutte significative.
RESIDUI = Y – Y^ = Y - [intercetta + coefficiente * x1 + coefficiente * x2]
Sono dati da una valutazione di una componente di errore. Sono gli scarti tra i valori Y e i valori stimati
CARATTERISTICHE DELLA VARIABILE DI ERRORE
- la media deve essere nulla (zero);
- non deve presentare alcuna sistematicità
La componente di errore è identificata come residui. I residui sono dati dalla differenza tra il vero valore Y e il valore stimato.
Se le osservazioni sono effettuate in funzione del tempo, è importante che i residui non operino una certa sistematicità, i residui devono presentare una sua casualità.
Excel mostra i grafici dei residui in funzione delle variabili, per capire se l’andamento dei residui rispetto alle variabili è più o meno casuale. Anche in questo caso non ci deve essere sistematicità.
Se i residui crescono al crescere di x1, si ha una presenza di una relazione di tipo moltiplicativo rispetto all’errore (eteroschedasticità). La variabilità dell’errore non è costante. In questo caso il modello opportuno sarebbe:
Y = Y^ * E
lnY = ln Y^ + ln E
TRACCIATO DELLE APPROSSIMAZIONI : sono riportati i valori della Y e i valori previsti in base al modello. In funzione di x1 e x2 sono riportati i valori della Y e i valori previsti. C’è un confronto tra Y e i suoi valori stimati. Sono sovrapposti quando l’R2 è alto.
TRACCIATO DELLA PROBABILITÀ NORMALE : non lo consideriamo
TRACCIATO DEI RESIDUI : per interpretarlo solitamente si aggiunge una parabola.
In questo caso il modello migliore è
Y = ß0 + ß1X1 + ß2X2 + ß3f(X1) + E
ERRORE DI TIPO AUTOCORRELATO
Rappresento graficamente i residui.
E’ presente la cosiddetta situazione di correlazione seriale tra gli errori (errori grandi positivi sono seguiti da errori grandi negativi e errori piccoli positivi sono seguiti da errori piccoli negativi). Occorrerebbe utilizzare un processo auto regressivo per depurare gli errori da questa situazione (questo toglierebbe questa correlazione).
Quando la variabile X2 è il doppio della variabile X1, vuol dire che una delle due variabili è ridondante, perché sono fortemente correlate tra loro. Possiamo guardare la correlazione tra i regressori. Esiste una funzione di correlazione all’interno degli strumenti analisi dati. Questa funzione calcola la matrice di correlazione.
Come intervallo di input vanno tutte le variabili comprese le etichette.
Intervallo di output è la cella a caso.
Si ottiene così la matrice di correlazione che calcola la correlazione tra le diverse componenti. La correlazione di Y con se stessa è 1.
Per evidenziare il fatto che X1 e X2 sono correlate bisogna vedere se c’è il valore 1. Quindi bisogna andare a vedere se le variabili sono tra loro fortemente correlate. Quando la correlazione è esattamente uguale a 1 excel scarta direttamente una variabile, se invece fosse pari a 0,95 le stime sarebbero molto instabili.
Per trattare questa problematica dal punto di vista teorico abbiamo una situazione di questo tipo:
Vi è presenza di COLLINEARITÀ tra i repressori quando i regressori sono tra loro fortemente correlati.
Ad esempio nel modello al posto di X1 e X2, possiamo inserire X2 = 2 X1 e X1 = 0,5X2
Il modello diventa:
Y = a + ß2 X2 + d X3 + E
ß2 contiene b e c che non posso stimare.
Valuta questi appunti:

Continua a leggere:

Per approfondire questo argomento, consulta le Tesi:

Puoi scaricare gratuitamente questo appunto in versione integrale.