Nella scorsa lezione abbiamo ottenuto i risultati incorniciati che saranno di grande utilità per determinare l'intervallo di confidenza per la media μ e l'intervallo di previsione per la variabile y con n+1, osservazione futura di nostro interesse. Tuttavia questi risultati si basano sull'ipotesi di σ nota, ossia di conoscenza della vera deviazione standard della popolazione, ipotesi che nelle applicazioni non è mai verificata. È necessario quindi fare un ulteriore passo avanti e sostituire a σ una sua stima S. Anche se una trattazione puramente teorica esula dagli obiettivi di questo corso, ho la necessità di farti osservare che se al posto di σ io sostituisco S, al posto delle variabili normali standard troviamo la variabile aleatoria T di student, student è lo pseudonimo dello statistico inglese William Sealy Gosset che ha per la prima volta introdotto questa variabile aleatoria. In particolare la T di student viene definita da un parametro chiamato gradi di libertà . Per entrambe le T di student in questione tale parametro è pari ad n-1, ossia pari all'ampiezza del campione y su cui abbiamo calcolato la media campionaria y barra, meno il numero di equazioni utilizzate per stimare la media μ. Nel nostro caso l'unica equazione utilizzata è l'equazione y barra uguale 1 su N sommatoria per i che va da 1 a N nelle Y con i, e quindi è pari a N-1. Anche la T di student ha una funzione densità di probabilità , come la normale standard, simmetrica intorno all'origine, anzi, possiamo affermare che per N che tende all'infinito questa distribuzione tende a quella di una normale standard. Pertanto anche per la T di student dobbiamo aspettarci una funzione densità di probabilità con un andamento a campana, così come era avvenuto nella variabile aleatoria normale standard. In R possiamo, analogamente a quanto fatto nel reading sulla normale, attraverso la funzione curve possiamo al posto di dnorm utilizzare dt in cui t sta per T di student, al posto di media ed sd dobbiamo definire i gradi di libertà , in inglese degrees of freedom e in questo caso sono 36-1 ossia 35 e il gioco è fatto e se vogliamo possiamo vedere qual è l'andamento della curva all'aumentare dei gradi di libertà . Per poterlo vedere meglio aggiungiamo delle curve con un numero di gradi di libertà crescente e ci accorgiamo che sono praticamente indistinguibili dalle curve di densità di probabilità di una normale standard che per esempio possiamo diagrammare in rosso sullo stesso grafico. Tornando al nostro problema iniziale possiamo finalmente definire l'intervallo di confidenza al livello di fiducia 1-α, un tipico valore per 1-α che dev'essere compreso tra 0 e 1 è 0,95 per la media μ definito come quell'intervallo che con una fiducia pari ad 1-α contiene il valore vero del parametro ossia μ. Questo intervallo si ottiene facilmente dalla corrispondente relazione riquadrata in rosso. È un intervallo ovviamente centrato su y barra ossia sulla stima puntuale, ha una semiampiezza regolata dall'incertezza S su radice di N ed è moltiplicata questa semiampiezza per il quantile della T di student 1-α mezzi. Come calcoliamo in R questo quantile? Basta utilizzare la funzione q di t che, come vedete dalla guida, ha come primo argomento il livello di probabilità 1-α mezzi, quindi nel nostro caso 1-0,05 diviso 2 e come secondo argomento i gradi di libertà che nel nostro caso sono 35, quindi è un moltiplicatore pari a 2. Il nostro intervallo di confidenza sarà quindi pari a media meno percentile moltiplicato deviazione standard diviso radice di N. Questo è il primo estremo. Ovviamente devo dare ad N il numero di righe del nostro dataframe e ottenere l'estremo inferiore e l'estremo superiore semplicemente sostituendo ad un meno più. Quindi avendo stimato attraverso la media campionaria pari a 138.11 il valore di μ quantifico l'incertezza associata a tale stima attraverso un intervallo, una forchetta di valori che oscilla tra 133 e 142, io ripongo una fiducia pari al 95% che questo intervallo contenga il valore vero del parametro μ. Lo stesso ragionamento si può fare per la previsione e quindi per l'intervallo di previsione. Definiamo intervallo di previsione a livello 1-α per un'osservazione futura Y con N+1 l'intervallo che con una fiducia pari ad 1-α contiene il valore futuro Y con N+1. Nota che l'intervallo di previsione è riferito ad una variabile aleatoria Y con N+1, mentre l'intervallo di confidenza è riferito a un parametro μ incognito, ma non aleatorio. L'intervallo di previsione è molto simile all'intervallo di confidenza, sarà sempre centrato sulla previsione Y barra, ma regolato da una semi-ampiezza che è S che moltiplica 1+1 su N quindi una semiampiezza maggiore moltiplicata sempre attraverso il quantile 1-α mezzi della T di student. Quindi da un semplice confronto puoi notare subito che l'intervallo di previsione per un valore futuro è più ampio di un intervallo di confidenza per il parametro μ poiché all'incertezza che si quantifica in questo termine 1 su N sotto radice, si associa l'incertezza legata al fatto che Y con N+1 a differenza di μ è essa stessa una variabile aleatoria. In R quindi possiamo calcolare così come fatto per gli intervalli di confidenza anche gli intervalli di previsione sostituendo alla quantità 1 diviso radice quadrata di N la quantità radice quadrata di 1+1 su N. Otteniamo, come vedi, un intervallo di previsione che ha come estremo inferiore 109, come estremo superiore 167, sensibilmente più largo dell'intervallo di confidenza sulla media che invece aveva come limite inferiore 133 e come limite superiore 142,8. Prima di terminare vorrei fornirti un ultimo dettaglio che rimuova l'ipotesi di normalità della Y quando l'ampiezza campionaria a disposizione N è molto elevata. Per N elevato, oltre ad avere il risultato già anticipato ossia che la T di student tende ad una normale standard, abbiamo anche un altro importante risultato ossia che la quantità S quadro calcolata con 1/N-1 al demominatore tende al valore σ quadro ed inoltre la quantità Y barra meno μ diviso σ su radice di N, che già sappiamo essere una variabile aleatoria normale standard, tende a distribuirsi come una variabile aleatoria normale standard anche se Y con 1, Y con N non sono delle variabili aleatorie normali. Questo risultato prende il nome di teorema centrale del limite e spiega l'importanza che la variabile aleatoria normale assuma nella quantificazione dell'incertezza e in generale nella statistica.