Analisi della varianza - Analysis of variance

L'analisi della varianza ( ANOVA ) è una raccolta di modelli statistici e le relative procedure di stima (come la "variazione" tra e tra gruppi) utilizzata per analizzare le differenze tra le medie. ANOVA è stato sviluppato dallo statistico Ronald Fisher . ANOVA si basa sulla legge della varianza totale , in cui la varianza osservata in una particolare variabile è suddivisa in componenti attribuibili a diverse fonti di variazione. Nella sua forma più semplice, ANOVA fornisce un test statistico di se due o più popolazioni mezzi sono uguali, e quindi generalizza il t -test oltre due mezzi.

Storia

Mentre l'analisi della varianza ha raggiunto i suoi frutti nel XX secolo, secondo Stigler gli antecedenti si estendono secoli nel passato. Questi includono la verifica delle ipotesi, la partizione delle somme dei quadrati, le tecniche sperimentali e il modello additivo. Laplace stava eseguendo test di ipotesi nel 1770. Intorno al 1800, Laplace e Gauss svilupparono il metodo dei minimi quadrati per combinare le osservazioni, che migliorò i metodi allora usati in astronomia e geodesia. Ha inoltre avviato molti studi sui contributi alle somme dei quadrati. Laplace sapeva come stimare una varianza da una somma dei quadrati residua (piuttosto che totale). Nel 1827, Laplace utilizzava i metodi dei minimi quadrati per affrontare i problemi ANOVA relativi alle misurazioni delle maree atmosferiche. Prima del 1800, gli astronomi avevano isolato gli errori di osservazione derivanti dai tempi di reazione (l'" equazione personale ") e avevano sviluppato metodi per ridurre gli errori. I metodi sperimentali utilizzati nello studio dell'equazione personale furono successivamente accettati dal campo emergente della psicologia che sviluppò metodi sperimentali forti (pieni fattoriali) a cui furono presto aggiunti la randomizzazione e l'accecamento. Un'eloquente spiegazione non matematica del modello degli effetti additivi era disponibile nel 1885.

Ronald Fisher ha introdotto il termine varianza e ha proposto la sua analisi formale in un articolo del 1918 The Correlation Between Relatives on the Supposition of Mendelian Inheritance . La sua prima applicazione dell'analisi della varianza fu pubblicata nel 1921. L'analisi della varianza divenne ampiamente nota dopo essere stata inclusa nel libro di Fisher del 1925 Statistical Methods for Research Workers .

I modelli di randomizzazione sono stati sviluppati da diversi ricercatori. Il primo fu pubblicato in polacco da Jerzy Neyman nel 1923.

Esempio

Non adatto: giovani contro vecchi e capelli corti contro capelli lunghi
Vestibilità equa: Pet vs razza da lavoro e meno atletico vs più atletico
Ottima vestibilità: peso per razza

L'analisi della varianza può essere utilizzata per descrivere relazioni altrimenti complesse tra variabili. Una mostra canina fornisce un esempio. Una mostra canina non è un campionamento casuale della razza: è tipicamente limitato a cani adulti, di razza pura ed esemplari. Un istogramma dei pesi dei cani di uno spettacolo potrebbe plausibilmente essere piuttosto complesso, come la distribuzione giallo-arancio mostrata nelle illustrazioni. Supponiamo di voler prevedere il peso di un cane in base a un certo insieme di caratteristiche di ciascun cane. Un modo per farlo è spiegare la distribuzione dei pesi dividendo la popolazione canina in gruppi in base a tali caratteristiche. Un raggruppamento di successo dividerà i cani in modo tale che (a) ogni gruppo abbia una bassa varianza dei pesi dei cani (il che significa che il gruppo è relativamente omogeneo) e (b) la media di ciascun gruppo è distinta (se due gruppi hanno la stessa media, allora non è ragionevole concludere che i gruppi siano, di fatto, separati in modo significativo).

Nelle illustrazioni a destra, i gruppi sono identificati come X 1 , X 2 , ecc. Nella prima illustrazione, i cani sono divisi in base al prodotto (interazione) di due raggruppamenti binari: giovani vs anziani e pelo corto vs lungo -a pelo (ad es. il gruppo 1 è giovane, i cani a pelo corto, il gruppo 2 è giovane, i cani a pelo lungo, ecc.). Poiché le distribuzioni del peso del cane all'interno di ciascuno dei gruppi (mostrate in blu) hanno una varianza relativamente ampia e poiché le medie sono molto simili tra i gruppi, raggruppare i cani in base a queste caratteristiche non produce un modo efficace per spiegare la variazione del peso dei cani : sapere in quale gruppo appartiene un cane non ci permette di prevederne il peso molto meglio del semplice sapere che il cane è in una mostra canina. Pertanto, questo raggruppamento non riesce a spiegare la variazione nella distribuzione complessiva (giallo-arancio).

Un tentativo di spiegare la distribuzione del peso raggruppando i cani come animali da compagnia vs razza da lavoro e meno atletici vs più atletici avrebbe probabilmente un po' più di successo (giusto adattamento). I cani da esposizione più pesanti sono probabilmente razze grandi, forti e da lavoro, mentre le razze tenute come animali domestici tendono ad essere più piccole e quindi più leggere. Come mostrato dalla seconda illustrazione, le distribuzioni hanno varianze notevolmente inferiori rispetto al primo caso e le medie sono più distinguibili. Tuttavia, la significativa sovrapposizione delle distribuzioni, ad esempio, significa che non possiamo distinguere X 1 e X 2 in modo affidabile. Raggruppare i cani in base al lancio di una moneta potrebbe produrre distribuzioni che sembrano simili.

È probabile che un tentativo di spiegare il peso in base alla razza produca un'ottima vestibilità. Tutti i Chihuahua sono leggeri e tutti i San Bernardo sono pesanti. La differenza di peso tra Setter e Pointer non giustifica razze separate. L'analisi della varianza fornisce gli strumenti formali per giustificare questi giudizi intuitivi. Un uso comune del metodo è l'analisi di dati sperimentali o lo sviluppo di modelli. Il metodo presenta alcuni vantaggi rispetto alla correlazione: non tutti i dati devono essere numerici e un risultato del metodo è un giudizio sulla fiducia in una relazione esplicativa.

Classi di modelli

Ci sono tre classi di modelli utilizzati nell'analisi della varianza, e questi sono descritti qui.

Modelli a effetti fissi

Il modello a effetti fissi (classe I) di analisi della varianza si applica a situazioni in cui lo sperimentatore applica uno o più trattamenti ai soggetti dell'esperimento per vedere se i valori della variabile di risposta cambiano. Ciò consente allo sperimentatore di stimare gli intervalli di valori delle variabili di risposta che il trattamento genererebbe nella popolazione nel suo insieme.

Modelli a effetti casuali

Il modello ad effetti casuali (classe II) viene utilizzato quando i trattamenti non sono fissi. Ciò si verifica quando i vari livelli di fattori vengono campionati da una popolazione più ampia. Poiché i livelli stessi sono variabili casuali , alcune ipotesi e il metodo di contrasto dei trattamenti (una generalizzazione multivariabile di semplici differenze) differiscono dal modello a effetti fissi.

Modelli con effetti misti

Un modello a effetti misti (classe III) contiene fattori sperimentali di tipo sia a effetti fissi che casuali, con interpretazioni e analisi opportunamente diverse per i due tipi.

Esempio: gli esperimenti di insegnamento potrebbero essere eseguiti da un college o un dipartimento universitario per trovare un buon libro di testo introduttivo, con ogni testo considerato un trattamento. Il modello a effetti fissi confronterebbe un elenco di testi candidati. Il modello a effetti casuali determinerebbe se esistono differenze importanti tra un elenco di testi selezionati casualmente. Il modello a effetti misti confronterebbe i testi storici (fissi) con alternative selezionate casualmente.

La definizione di effetti fissi e casuali si è dimostrata elusiva, con definizioni in competizione che probabilmente portano verso un pantano linguistico.

Ipotesi

L'analisi della varianza è stata studiata da diversi approcci, il più comune dei quali utilizza un modello lineare che mette in relazione la risposta ai trattamenti e ai blocchi. Si noti che il modello è lineare nei parametri, ma può essere non lineare tra i livelli dei fattori. L'interpretazione è facile quando i dati sono bilanciati tra fattori, ma è necessaria una comprensione molto più profonda per i dati sbilanciati.

Analisi dei libri di testo utilizzando una distribuzione normale

L'analisi della varianza può essere presentata in termini di un modello lineare , che fa le seguenti ipotesi sulla distribuzione di probabilità delle risposte:

  • Indipendenza delle osservazioni – questa è un'assunzione del modello che semplifica l'analisi statistica.
  • Normalità – le distribuzioni dei residui sono normali .
  • Uguaglianza (o "omogeneità") delle varianze, chiamata omoschedasticità : la varianza dei dati nei gruppi dovrebbe essere la stessa.

Le assunzioni separate del modello da manuale implicano che gli errori siano indipendentemente, identicamente e normalmente distribuiti per i modelli a effetti fissi, cioè che gli errori ( ) siano indipendenti e

Analisi basata sulla randomizzazione

In un esperimento controllato randomizzato , i trattamenti sono assegnati casualmente alle unità sperimentali, seguendo il protocollo sperimentale. Questa randomizzazione è oggettiva e dichiarata prima dell'esecuzione dell'esperimento. L'assegnazione casuale oggettiva viene utilizzata per testare la significatività dell'ipotesi nulla , seguendo le idee di CS Peirce e Ronald Fisher . Questa analisi basata sulla progettazione è stata discussa e sviluppata da Francis J. Anscombe presso la Rothamsted Experimental Station e da Oscar Kempthorne presso la Iowa State University . Kempthorne ei suoi studenti fanno un'assunzione di additività del trattamento unitario , che è discussa nei libri di Kempthorne e David R. Cox .

Additività del trattamento unitario

Nella sua forma più semplice, l'assunzione dell'additività del trattamento unitario afferma che la risposta osservata dall'unità sperimentale durante la ricezione del trattamento può essere scritta come la somma della risposta dell'unità e dell'effetto del trattamento , cioè

L'assunzione dell'additività del trattamento unitario implica che, per ogni trattamento , il trattamento th ha esattamente lo stesso effetto su ogni unità sperimentale.

L'assunzione dell'additività del trattamento unitario di solito non può essere direttamente falsificata , secondo Cox e Kempthorne. Tuttavia, molte conseguenze dell'additività dell'unità di trattamento possono essere falsificate. Per un esperimento randomizzato, l'assunzione dell'additività del trattamento unitario implica che la varianza sia costante per tutti i trattamenti. Pertanto, per contrapposizione , una condizione necessaria per l'additività del trattamento unitario è che la varianza sia costante.

L'uso dell'additività e della randomizzazione del trattamento unitario è simile all'inferenza basata sul design che è standard nel campionamento dell'indagine a popolazione finita .

Modello lineare derivato

Kempthorne utilizza la randomizzazione-distribuzione e l'assunzione dell'additività del trattamento unitario per produrre un modello lineare derivato , molto simile al modello da manuale discusso in precedenza. Le statistiche di test di questo modello lineare derivato sono strettamente approssimate dalle statistiche di test di un modello lineare normale appropriato, secondo teoremi di approssimazione e studi di simulazione. Tuttavia, ci sono differenze. Ad esempio, l'analisi basata sulla randomizzazione risulta in una piccola ma (strettamente) correlazione negativa tra le osservazioni. Nell'analisi basata sulla randomizzazione, non c'è assunzione di una distribuzione normale e certamente nessuna ipotesi di indipendenza . Al contrario, le osservazioni sono dipendenti !

L'analisi basata sulla randomizzazione ha lo svantaggio che la sua esposizione comporta un'algebra noiosa e tempi lunghi. Poiché l'analisi basata sulla randomizzazione è complicata ed è strettamente approssimata dall'approccio che utilizza un modello lineare normale, la maggior parte degli insegnanti enfatizza l'approccio del modello lineare normale. Pochi statistici si oppongono all'analisi basata su modelli di esperimenti randomizzati bilanciati.

Modelli statistici per dati osservativi

Tuttavia, quando applicata a dati provenienti da esperimenti non randomizzati o studi osservazionali , l'analisi basata su modelli non ha la garanzia della randomizzazione. Per i dati osservativi, la derivazione degli intervalli di confidenza deve utilizzare modelli soggettivi , come sottolineato da Ronald Fisher e dai suoi seguaci. In pratica, le stime degli effetti del trattamento dagli studi osservazionali sono generalmente spesso incoerenti. In pratica, "modelli statistici" e dati osservativi sono utili per suggerire ipotesi che dovrebbero essere trattate con molta cautela dal pubblico.

Riepilogo delle ipotesi

L'analisi ANOVA basata sul modello normale presuppone l'indipendenza, la normalità e l'omogeneità delle varianze dei residui. L'analisi basata sulla randomizzazione assume solo l'omogeneità delle varianze dei residui (come conseguenza dell'additività del trattamento unitario) e utilizza la procedura di randomizzazione dell'esperimento. Entrambe queste analisi richiedono l' omoschedasticità , come presupposto per l'analisi del modello normale e come conseguenza della randomizzazione e dell'additività per l'analisi basata sulla randomizzazione.

Tuttavia, gli studi sui processi che cambiano le varianze piuttosto che i mezzi (chiamati effetti di dispersione) sono stati condotti con successo utilizzando ANOVA. Non ci sono nessun presupposti necessari per ANOVA in tutta la sua generalità, ma la F -test utilizzato per il test ANOVA ipotesi è ipotesi e limitazioni pratiche che sono di continuo interesse.

I problemi che non soddisfano le ipotesi di ANOVA possono spesso essere trasformati per soddisfare le ipotesi. La proprietà dell'additività del trattamento unitario non è invariante sotto un "cambio di scala", quindi gli statistici usano spesso le trasformazioni per ottenere l'additività del trattamento unitario. Se si prevede che la variabile di risposta segua una famiglia parametrica di distribuzioni di probabilità, allora lo statistico può specificare (nel protocollo dell'esperimento o dello studio osservazionale) che le risposte devono essere trasformate per stabilizzare la varianza. Inoltre, uno statistico può specificare che le trasformazioni logaritmiche vengano applicate alle risposte, che si ritiene seguano un modello moltiplicativo. Secondo il teorema dell'equazione funzionale di Cauchy , il logaritmo è l'unica trasformazione continua che trasforma la moltiplicazione reale in addizione.

Caratteristiche

ANOVA viene utilizzato nell'analisi di esperimenti comparativi, quelli in cui solo la differenza nei risultati è di interesse. La significatività statistica dell'esperimento è determinata da un rapporto di due varianze. Questo rapporto è indipendente da diverse possibili alterazioni alle osservazioni sperimentali: l'aggiunta di una costante a tutte le osservazioni non altera il significato. Moltiplicare tutte le osservazioni per una costante non altera il significato. Quindi il risultato della significatività statistica ANOVA è indipendente dalla distorsione costante e dagli errori di ridimensionamento, nonché dalle unità utilizzate nell'esprimere le osservazioni. Nell'era del calcolo meccanico era comune sottrarre una costante da tutte le osservazioni (quando equivale a far cadere le cifre iniziali) per semplificare l'immissione dei dati. Questo è un esempio di codifica dei dati .

Logica

I calcoli di ANOVA possono essere caratterizzati come il calcolo di un numero di medie e varianze, dividendo due varianze e confrontando il rapporto con un valore manuale per determinare la significatività statistica. Il calcolo dell'effetto di un trattamento è quindi banale: "l'effetto di qualsiasi trattamento è stimato facendo la differenza tra la media delle osservazioni che ricevono il trattamento e la media generale".

Partizionamento della somma dei quadrati

ANOVA utilizza la terminologia standardizzata tradizionale. L'equazione di definizione della varianza campionaria è , dove il divisore è chiamato i gradi di libertà (DF), la somma è chiamata la somma dei quadrati (SS), il risultato è chiamato il quadrato medio (MS) e i termini al quadrato sono deviazioni da la media campionaria. ANOVA stima 3 varianze campionarie: una varianza totale basata su tutte le deviazioni di osservazione dalla media generale, una varianza di errore basata su tutte le deviazioni di osservazione dai loro mezzi di trattamento appropriati e una varianza di trattamento. La varianza del trattamento si basa sulle deviazioni delle medie di trattamento dalla media generale, moltiplicando il risultato per il numero di osservazioni in ciascun trattamento per tenere conto della differenza tra la varianza delle osservazioni e la varianza delle medie.

La tecnica fondamentale è una partizione della somma totale dei quadrati SS in componenti relative agli effetti utilizzati nel modello. Ad esempio, il modello per un'ANOVA semplificata con un tipo di trattamento a diversi livelli.

Il numero di gradi di libertà DF può essere partizionato in modo analogo: una di queste componenti (quella per errore) specifica una distribuzione chi quadrato che descrive la somma dei quadrati associata, mentre lo stesso vale per i "trattamenti" se c'è nessun effetto del trattamento.

Vedi anche Somma dei quadrati mancante .

Il test F

Il test F viene utilizzato per confrontare i fattori della deviazione totale. Ad esempio, in ANOVA unidirezionale o a fattore singolo, la significatività statistica viene verificata confrontando la statistica del test F

dove MS è il quadrato medio, = numero di trattamenti e = numero totale di casi

la F -distribuzione con , gradi di libertà. L'uso della distribuzione F è un candidato naturale perché la statistica del test è il rapporto tra due somme di quadrati in scala, ciascuna delle quali segue una distribuzione chi quadrato in scala .

Il valore atteso di F è (dove è la dimensione del campione del trattamento) che è 1 per nessun effetto del trattamento. Man mano che i valori di F aumentano al di sopra di 1, l'evidenza è sempre più incoerente con l'ipotesi nulla. Due metodi sperimentali apparenti per aumentare F stanno aumentando la dimensione del campione e riducendo la varianza dell'errore mediante stretti controlli sperimentali.

Esistono due metodi per concludere il test di ipotesi ANOVA, entrambi i quali producono lo stesso risultato:

  • Il metodo da manuale consiste nel confrontare il valore osservato di F con il valore critico di F determinato dalle tabelle. Il valore critico di F è funzione dei gradi di libertà del numeratore e del denominatore e del livello di significatività (α). Se F ≥ F Critical , l'ipotesi nulla è respinta.
  • Il metodo informatico calcola la probabilità (p-value) di un valore di F maggiore o uguale al valore osservato. L'ipotesi nulla viene rifiutata se tale probabilità è minore o uguale al livello di significatività (α).

Il test ANOVA F è noto per essere quasi ottimale nel senso di minimizzare gli errori falsi negativi per un tasso fisso di errori falsi positivi (cioè massimizzare la potenza per un livello di significatività fisso). Ad esempio, per verificare l'ipotesi che i vari trattamenti medici hanno esattamente lo stesso effetto, il F -test 's p -Valori molto vicini alla prova permutazione ' s valori p : L'approssimazione è particolarmente vicino quando il disegno è bilanciato. Tali test di permutazione caratterizzano i test con la massima potenza contro tutte le ipotesi alternative , come osservato da Rosenbaum. Il test ANOVA F (dell'ipotesi nulla che tutti i trattamenti abbiano esattamente lo stesso effetto) è consigliato come test pratico, a causa della sua robustezza rispetto a molte distribuzioni alternative.

Logica estesa

ANOVA è costituito da parti separabili; le fonti di partizionamento della varianza e la verifica delle ipotesi possono essere utilizzate singolarmente. ANOVA viene utilizzato per supportare altri strumenti statistici. La regressione viene prima utilizzata per adattare modelli più complessi ai dati, quindi ANOVA viene utilizzata per confrontare i modelli con l'obiettivo di selezionare modelli semplici (r) che descrivano adeguatamente i dati. "Tali modelli potrebbero essere adattati senza alcun riferimento ad ANOVA, ma gli strumenti ANOVA potrebbero quindi essere utilizzati per dare un senso ai modelli adattati e per testare ipotesi su lotti di coefficienti". "[Noi] pensiamo all'analisi della varianza come a un modo per comprendere e strutturare modelli multilivello, non come un'alternativa alla regressione ma come uno strumento per riassumere complesse inferenze ad alta dimensione..."

Per un solo fattore

L'esperimento più semplice adatto per l'analisi ANOVA è l'esperimento completamente randomizzato con un singolo fattore. Esperimenti più complessi con un singolo fattore comportano vincoli alla randomizzazione e includono blocchi completamente randomizzati e quadrati latini (e varianti: quadrati greco-latini, ecc.). Gli esperimenti più complessi condividono molte delle complessità di molteplici fattori. Una discussione relativamente completo delle analisi (modelli, sintesi di dati, tabella ANOVA) dell'esperimento completamente randomizzato è disponibile .

Per un singolo fattore, esistono alcune alternative all'analisi della varianza unidirezionale; vale a dire, test F eteroschedastico di Welch, test F eteroschedastico di Welch con medie troncate e varianze Winsorized, test Brown-Forsythe, test Alexander-Govern, test del secondo ordine di James e test Kruskal-Wallis, disponibili nel pacchetto R onewaytests .

Per molteplici fattori

ANOVA generalizza allo studio degli effetti di molteplici fattori. Quando l'esperimento include osservazioni a tutte le combinazioni di livelli di ciascun fattore, viene chiamato fattoriale . Gli esperimenti fattoriali sono più efficienti di una serie di esperimenti a fattore singolo e l'efficienza cresce all'aumentare del numero di fattori. Di conseguenza, i disegni fattoriali sono ampiamente utilizzati.

L'uso di ANOVA per studiare gli effetti di più fattori ha una complicazione. In un'ANOVA a 3 vie con fattori x, yez, il modello ANOVA include termini per gli effetti principali (x, y, z) e termini per le interazioni (xy, xz, yz, xyz). Tutti i termini richiedono test di ipotesi. La proliferazione dei termini di interazione aumenta il rischio che qualche test di ipotesi produca un falso positivo per caso. Fortunatamente, l'esperienza dice che le interazioni di alto livello sono rare. La capacità di rilevare le interazioni è uno dei principali vantaggi dell'ANOVA a più fattori. Testare un fattore alla volta nasconde le interazioni, ma produce risultati sperimentali apparentemente inconsistenti.

Si consiglia cautela quando si incontrano interazioni; Testare prima i termini di interazione ed espandere l'analisi oltre ANOVA se vengono trovate interazioni. I testi variano nelle loro raccomandazioni in merito alla continuazione della procedura ANOVA dopo aver incontrato un'interazione. Le interazioni complicano l'interpretazione dei dati sperimentali. Né i calcoli di significatività né gli effetti stimati del trattamento possono essere presi al valore nominale. "Un'interazione significativa spesso maschera il significato degli effetti principali". Si raccomandano metodi grafici per migliorare la comprensione. La regressione è spesso utile. Una lunga discussione sulle interazioni è disponibile in Cox (1958). Alcune interazioni possono essere rimosse (mediante trasformazioni) mentre altre no.

Viene utilizzata una varietà di tecniche con ANOVA a più fattori per ridurre le spese. Una tecnica utilizzata nei disegni fattoriali è quella di ridurre al minimo la replica (possibilmente nessuna replica con il supporto di trucchi analitici ) e di combinare i gruppi quando gli effetti risultano statisticamente (o praticamente) insignificanti. Un esperimento con molti fattori insignificanti può collassare in uno con pochi fattori supportati da molte repliche.

Analisi associata

Alcune analisi sono necessarie a supporto della progettazione dell'esperimento, mentre altre analisi vengono eseguite dopo che si è verificato formalmente che i cambiamenti nei fattori producono cambiamenti statisticamente significativi nelle risposte. Poiché la sperimentazione è iterativa, i risultati di un esperimento alterano i piani per gli esperimenti successivi.

Analisi preparatoria

Il numero di unità sperimentali

Nella progettazione di un esperimento, il numero di unità sperimentali è pianificato per soddisfare gli obiettivi dell'esperimento. La sperimentazione è spesso sequenziale.

I primi esperimenti sono spesso progettati per fornire stime imparziali sulla media degli effetti del trattamento e dell'errore sperimentale. Gli esperimenti successivi sono spesso progettati per verificare l'ipotesi che un effetto del trattamento abbia una grandezza importante; in questo caso, il numero di unità sperimentali è scelto in modo che l'esperimento sia all'interno del budget e abbia una potenza adeguata, tra gli altri obiettivi.

La segnalazione dell'analisi della dimensione del campione è generalmente richiesta in psicologia. "Fornire informazioni sulla dimensione del campione e sul processo che ha portato alle decisioni sulla dimensione del campione". L'analisi, che è scritta nel protocollo sperimentale prima che l'esperimento sia condotto, viene esaminata nelle domande di sovvenzione e nei comitati di revisione amministrativa.

Oltre all'analisi della potenza, esistono metodi meno formali per la selezione del numero di unità sperimentali. Questi includono metodi grafici basati sulla limitazione della probabilità di errori falsi negativi, metodi grafici basati su un aumento di variazione previsto (sopra i residui) e metodi basati sul raggiungimento di un intervallo di confidenza desiderato.

Analisi della potenza

L'analisi della potenza viene spesso applicata nel contesto dell'ANOVA al fine di valutare la probabilità di rifiutare con successo l'ipotesi nulla se assumiamo un certo disegno ANOVA, dimensione dell'effetto nella popolazione, dimensione del campione e livello di significatività. L'analisi della potenza può aiutare nella progettazione dello studio determinando quale dimensione del campione sarebbe necessaria per avere una ragionevole possibilità di rifiutare l'ipotesi nulla quando l'ipotesi alternativa è vera.

Dimensione dell'effetto

Sono state proposte diverse misure standardizzate di effetto per ANOVA per riassumere la forza dell'associazione tra uno o più predittori e la variabile dipendente o la differenza standardizzata complessiva del modello completo. Le stime standardizzate delle dimensioni dell'effetto facilitano il confronto dei risultati tra studi e discipline. Tuttavia, mentre le dimensioni dell'effetto standardizzate sono comunemente usate in gran parte della letteratura professionale, una misura non standardizzata dell'entità dell'effetto che abbia immediatamente unità "significative" può essere preferibile ai fini della segnalazione.

Conferma del modello

A volte vengono condotti test per determinare se i presupposti di ANOVA sembrano essere violati. I residui vengono esaminati o analizzati per confermare l' omoschedasticità e la normalità grossolana. I residui dovrebbero avere l'aspetto di un rumore (distribuzione normale media zero) quando tracciati in funzione di qualsiasi cosa, compreso il tempo e i valori dei dati modellati. Le tendenze suggeriscono interazioni tra fattori o tra osservazioni.

Test di follow-up

Un effetto statisticamente significativo in ANOVA è spesso seguito da ulteriori test. Questo può essere fatto per valutare quali gruppi sono diversi da quali altri gruppi o per testare varie altre ipotesi mirate. I test di follow-up sono spesso distinti in base al fatto che siano "pianificati" ( a priori ) o "post hoc ". I test pianificati vengono determinati prima di esaminare i dati e i test post hoc sono concepiti solo dopo aver esaminato i dati (sebbene il termine "post hoc" sia utilizzato in modo incoerente).

I test di follow-up possono essere confronti a coppie "semplici" di medie di gruppi individuali o possono essere confronti "composti" (ad esempio, confrontare il pooling medio tra i gruppi A, B e C con la media del gruppo D). I confronti possono anche esaminare i test di tendenza, come le relazioni lineari e quadratiche, quando la variabile indipendente coinvolge livelli ordinati. Spesso i test di follow-up incorporano un metodo di aggiustamento per il problema dei confronti multipli .

Disegni di studio

Esistono diversi tipi di ANOVA. Molti statistici basano ANOVA sul disegno dell'esperimento , in particolare sul protocollo che specifica l' assegnazione casuale dei trattamenti ai soggetti; la descrizione del protocollo del meccanismo di assegnazione dovrebbe includere una specificazione della struttura dei trattamenti e di eventuali blocchi . È anche comune applicare ANOVA ai dati osservativi utilizzando un modello statistico appropriato.

Alcuni design popolari utilizzano i seguenti tipi di ANOVA:

  • L'ANOVA unidirezionale viene utilizzata per testare le differenze tra due o più gruppi indipendenti (mezzi), ad esempio diversi livelli di applicazione dell'urea in una coltura, o diversi livelli di azione antibiotica su diverse specie batteriche, o diversi livelli di effetto di alcuni farmaci su gruppi di pazienti. Tuttavia, se questi gruppi non sono indipendenti e c'è un ordine nei gruppi (come malattia lieve, moderata e grave) o nella dose di un farmaco (come 5 mg/mL, 10 mg/mL, 20 mg /mL) somministrato allo stesso gruppo di pazienti, dovrebbe essere utilizzata una stima del trend lineare . Tipicamente, tuttavia, l'ANOVA unidirezionale viene utilizzato per verificare le differenze tra almeno tre gruppi, poiché il caso a due gruppi può essere coperto da un t-test . Quando ci sono solo due mezzi per confrontare, il t-test e ANOVA F -test sono equivalenti; la relazione tra ANOVA e t è data da F  =  t 2 .

Avvertenze

Gli esperimenti bilanciati (quelli con un campione uguale per ogni trattamento) sono relativamente facili da interpretare; esperimenti sbilanciati offrono maggiore complessità. Per ANOVA a fattore singolo (unidirezionale), la regolazione per i dati sbilanciati è facile, ma l'analisi sbilanciata manca sia di robustezza che di potenza. Per i progetti più complessi la mancanza di equilibrio porta a ulteriori complicazioni. "La proprietà di ortogonalità dei principali effetti e interazioni presenti nei dati bilanciati non si estende al caso sbilanciato. Ciò significa che non si applicano le consuete tecniche di analisi della varianza. Di conseguenza, l'analisi dei fattoriali sbilanciati è molto più difficile di quella per i fattori bilanciati disegni." Nel caso generale, "L'analisi della varianza può essere applicata anche a dati sbilanciati, ma le somme dei quadrati, dei quadrati medi e dei rapporti F dipenderanno dall'ordine in cui vengono considerate le fonti di variazione".

ANOVA è (in parte) un test di significatività statistica. L'American Psychological Association (e molte altre organizzazioni) ritiene che la semplice segnalazione della significatività statistica sia insufficiente e che sia preferibile segnalare i limiti di fiducia.

generalizzazioni

ANOVA è considerato un caso speciale di regressione lineare che a sua volta è un caso speciale del modello lineare generale . Tutti considerano le osservazioni come la somma di un modello (fit) e di un residuo (errore) da minimizzare.

Il test di Kruskal-Wallis e il test di Friedman sono test non parametrici , che non si basano su un'assunzione di normalità.

Connessione alla regressione lineare

Di seguito chiariamo la connessione tra ANOVA a più vie e regressione lineare.

Riordina linearmente i dati in modo che l' osservazione sia associata a una risposta e fattori dove denota i diversi fattori ed è il numero totale di fattori. In ANOVA a una via e in ANOVA a due vie . Inoltre, assumiamo che il fattore abbia livelli, vale a dire . Ora, possiamo codificare one-hot i fattori nel vettore dimensionale .

La funzione di codifica one-hot è definita in modo tale che l' ingresso di is

Il vettore è la concatenazione di tutti i vettori di cui sopra per tutti . Così, . Per ottenere un'ANOVA di interazione completamente generale dobbiamo anche concatenare ogni ulteriore termine di interazione nel vettore e quindi aggiungere un termine di intercetta. Sia quel vettore .

Con questa notazione in atto, ora abbiamo l'esatta connessione con la regressione lineare. Regrediamo semplicemente la risposta contro il vettore . Tuttavia, c'è una preoccupazione per l' identificabilità . Per superare tali problemi assumiamo che la somma dei parametri all'interno di ciascun insieme di interazioni sia uguale a zero. Da qui, è possibile utilizzare le statistiche F o altri metodi per determinare la rilevanza dei singoli fattori.

Esempio

Possiamo considerare l'esempio di interazione a 2 vie in cui assumiamo che il primo fattore abbia 2 livelli e il secondo fattore abbia 3 livelli.

Definire se e se , cioè è la codifica one-hot del primo fattore ed è la codifica one-hot del secondo fattore.

Con quello,

dove l'ultimo termine è un termine di intercettazione. Per un esempio più concreto supponiamo che
Quindi,

Guarda anche

Note a piè di pagina

Appunti

Riferimenti

Ulteriori letture

link esterno