Qual è una spiegazione intuitiva per il compromesso della variazione di bias?

Answers

04/29/2024
Agnes

Il compromesso Bias-Variance è correlato alla decomposizione Bias-Variance. Quella decomposizione è una delle nostre intuizioni più utili nel compito estremamente difficile di generalizzazione. Quel compito: dato un campione di dati, come si costruisce un modello che preveda bene un altro, ancora invisibile campione di dati?

Mi spiego.

Innanzitutto, cosa stiamo assumendo?

Assumiamo [Matematica] y [/ math] è una variabile di risposta scalare a valore reale e [Matematica] \ mathbf {x} [/ math] è un vettore di predittori. Sono in relazione con alcune funzioni "vere" sconosciute [Matematica] f (\ cdot) [/ math] come:

where [Matematica] \ epsilon [/ math] è un rumore irriducibile nato da una distribuzione di errori in cui [Matematica] \ mathbb {E} [\ epsilon] = 0 [/ math] ed [Matematica] \ textrm {var} (\ epsilon) = \ sigma _ {\ epsilon} ^ 2 [/ math]. Quindi un osservato [Matematica] y_0 [/ math] viene generato collegando il associato [Matematica] \ mathbf {x} _0 [/ math] fra le [Matematica] f (\ cdot) [/ math] e aggiungendo un [Matematica] \ epsilon_0 [/ math] campionato dalla distribuzione degli errori.

In generale, il nostro obiettivo è di indovinare [Matematica] f (\ cdot) [/ math] dai nostri dati. Chiamiamo la nostra funzione stimata [Matematica] f _ {\ {textrm est}} (\ cdot) [/ math] e l'algoritmo che ingerisce i nostri dati di addestramento e produce questa funzione come "procedura di stima".

Prima di caricare in avanti, sarà utile considerare un ambiente a cui non abbiamo accesso in applicazioni reali. Questo è l'ambiente in cui possiamo ripetutamente campione [Matematica] y [/ math]E 'dalla vera funzione per lo stesso [Matematica] \ mathbf {x} [/ math]. Se abbiamo [Matematica] N [/ math] punti di dati in un set di dati campionati e ripetutamente campioniamo [Matematica] S [/ math] volte (dove [Matematica] S [/ math] è grande), quindi possiamo rappresentare tutti i nostri [Matematica] y [/ math]è come un [Matematica] N [/ math]-By-[Matematica] S [/ math] matrice [Matematica] \ mathbf {Y} [/ math]. Quindi la voce [Matematica] y_ {i, j} [/ math] Monteverede vecchio è [Matematica] j [/ math]-th campione usando [Matematica] \ mathbf {x} _i [/ ​​math]. In altre parole, una colonna è un insieme di [Matematica] y [/ math] valori che otterremmo in un singolo set di dati. Una riga è un insieme di campioni [Matematica] y [/ math]è per un particolare [Matematica] \ mathbf {x} _i [/ ​​math].

Supponiamo ora che ci occupiamo di ridurre al minimo la perdita di errore quadrata prevista in un punto di arrivo ancora invisibile [Matematica] \ mathbf {x} _1 [/ math]. Cioè, ci preoccupiamo per questo valore [1]:

dove l'attesa è fatta rispetto alla distribuzione dell'errore (si pensi a una riga dentro [Matematica] \ mathbf {Y} [/ math]).

Questa è una forma specifica del compito di generalizzazione. Vediamo come la decomposizione Bias-Variance rivela i livelli.

Cos'è il trade-off di Bias-Variance?

Il trade-off di Bias-Variance si basa sulla scomposizione del valore di errore in tre componenti, valori positivi [2]:

Parliamo di ogni pezzo:

  1. Errore irriducibile: Questa è la varianza della nostra distribuzione degli errori che è emersa nei nostri presupposti. Con tali ipotesi, questo termine di errore non può essere previsto, quindi non abbiamo alcuna speranza di ridurre la varianza ad esso associata.
  2. Pregiudizio[Matematica] ^ 2 [/ math]: Pensiamo al nostro [Matematica] \ mathbf {Y} [/ math] matrice dai precedenti. Come ho già detto, ogni colonna rappresenta il [Matematica] y [/ math]-vettore potremmo ottenere in un singolo set di dati di allenamento. Immagina di adattarci [Matematica] S [/ math] modelli per ciascuna di queste colonne (insieme agli associati [Matematica] \ mathbf {x} [/ math]'s), fornendo funzioni stimate [matematica] f _ {\ textrm {est}} ^ {(1)} (\ cdot), f _ {\ textrm {est}} ^ {(2)} (\ cdot), \ cdots, f _ {\ textrm {est }} ^ {(S)} (\ cdot) [/ math]. Valutiamo ciascuno di questi [Matematica] \ mathbf {x} _1 [/ math], dandoci una serie di previsioni [math]\hat{y}_1^{(1)},\hat{y}_1^{(2)},\cdots,\hat{y}_1^{(S)}[/math]. Se dovessi prendere la media di questi, sottrarre [Matematica] f (\ mathbf {x} _1) [/ math] e quadrato quello, ciò ti darebbe un bias-quadrato [3]. Se questo numero è alto, la previsione media tra i campioni è disattivata. In altre parole, la tua procedura è "distorta" in modo tale che sei costantemente fuori dal segno in una direzione, non una proprietà desiderabile!
  3. Varianza: Considera lo stesso insieme di previsioni. La varianza è solo la varianza di queste previsioni. Se la varianza è elevata, la nostra procedura di stima dice cose molto diverse per campioni diversi allo stesso tempo [Matematica] \ mathbf {x} _1 [/ math] - un'altra proprietà indesiderabile!

Poiché il nostro obiettivo è la riduzione al minimo della loro somma, desideriamo rendere ciascuno il più piccolo possibile. Per ipotesi, il n. 1 è senza speranza, quindi ci concentriamo su n. 2 e n. 3. Il compromesso di Bias-Variance ci dice questi due compensare - una procedura di stima che fa bene in uno tende a fare male nell'altro.

Ma ci sono buone notizie!

L'ho chiamato utile, no? In che modo tutto ciò ci aiuta nel compito di generalizzazione? Bene, lo fa.

Per spiegare come, consideriamo una procedura di stima che è parametrizzata da un parametro che ci consente di attraversare questo compromesso. La scelta di un valore a un'estremità ci darà una procedura di stima che funziona molto bene in Bias ma scarsamente in Variance. Una scelta all'altra estremità ha l'effetto opposto. Da questo punto di vista, consideriamo due buone notizie:

  1. Il compromesso non è un compromesso perfetto. Esiste una "via di mezzo felice" in cui l'errore totale è ridotto al minimo. Potremmo scegliere il nostro parametro (usando quella classica procedura di validazione incrociata che conosciamo tutti) per colpire quella via di mezzo.
  2. La felice via di mezzo persiste fuori dal campione. Questo è generalmente vero in tutti i set di dati! Questo è un grosso affare! La ragione di ciò è l'idea pervasiva di complessità. Quella via di mezzo felice parla al livello di complessità del meccanismo sottostante dei dati e quella complessità è relativamente costante su diversi campioni [4]. Ora possiamo fare qualche progresso!

A causa di questa notizia, quasi tutti i modelli che hai incontrato hanno "iperparametri" che fanno esattamente questo. Questo è lo scopo generico della "regolarizzazione". Penalizzazione di coefficienti nella regressione della cresta, regressione del lazo e regressione logistica? Quelli servono per attraversare il trade-off di Bias-Variance. Profondità degli alberi nelle foreste casuali? Stessa cosa! Numero di vicini in k-vicini più vicini? La stessa cosa di nuovo!

Dal momento che questo ha guidato la nostra intuizione per la progettazione di così tanti modelli ML, non è chiaro perché è un grosso problema?

Vediamolo!

Ho parlato molto - facciamo un esempio. Dire [Matematica] \ mathbf {x} [/ math] è uno scalare nel tempo. In questo modo, possiamo immaginare la nostra vera funzione e un campione da essa come:

Questi punti rappresentano a singolo campionato set di dati. Il nostro compito è di usarli per indovinare quella vera curva di funzione.

Quindi, usiamo una versione smussata dell'algoritmo vicino k-più vicino per fare esattamente questo. Per rimanere in linea con quanto sopra, facciamolo su molti campioni e sovrapponiamo ciascuna curva di previsione sulla funzione reale.

Quindi sceglieremo un particolare [Matematica] x [/ math]-value (chiamalo [Matematica] x_1 [/ math]) e guarda l'istogramma delle previsioni per quel punto. Qui, possiamo sottolineare Bias and Variance.

Facciamo anche questo per vari punti all'interno del trade-off Bias-Variance, che può essere ottenuto variando la larghezza del nostro algoritmo vicino più vicino.

Tutto questo lavoro può essere rappresentato con un aspetto:

Quindi vediamo: una procedura di stima ottimizzata per Bias è veloce nell'accettare il modello wave-y dominante, ma è spesso fuorviante dal rumore. Una procedura di stima ottimizzata per la varianza esita ad accettare tali onde, proteggendosi dal rumore, ma mancando di tutto il meccanismo sottostante. Da qualche parte nel mezzo c'è una procedura di stima che si esibirà meglio fuori campione, in modo coerente.

Ora per alcuni commenti non organizzati

  • La decomposizione di Bias-Variance è più utile delle ipotesi fatte valere. Si generalizza a diverse perdite e persino a problemi di classificazione. Così sempre tienilo a mente, anche se il tuo problema sembra diverso.
  • In realtà, abbiamo solo una colonna da [Matematica] \ mathbf {Y} [/ math] - come possiamo ottimizzare in pratica tra le colonne? Nel modulo sopra in cui trattiamo un singolo punto dati e molti campioni, non possiamo dal momento che non abbiamo mai quel lusso. Ma la validazione incrociata in realtà produce un iperparametro similmente sintonizzato come se lo facessimo. Questo perché una precisa sovrapposizione in [Matematica] \ mathbf {x} [/ math](come faresti in una singola riga di [Matematica] \ mathbf {Y} [/ math]) non è necessario.

Le note

[1] Solo un punto? Che cosa? Ok, in realtà, abbiamo una media di molti di questi punti fuori campione. Ma per questa spiegazione, dobbiamo solo considerare un singolo punto.

[2] Vuoi vedere l'algebra? Ecco qui:

[3] OK, questo non lo è di preciso vero. Bias è un calcolo delle aspettative fatto rispetto alla distribuzione degli errori. Prendo la media associata ai campioni da quella distribuzione. Se [Matematica] S [/ math] è grande, questi due saranno vicini. Vado con questo approccio perché è più facile da capire. C'è un problema minore simile anche con la varianza.

[4] Potresti anche argomentare che parla al livello di rumore nel set di dati. Vedo questo come l'altro lato della stessa medaglia. Se conosci la complessità della vera funzione e hai alcuni dati osservati, hai anche un'idea del livello di rumore.

fonti

[1] L'ho trovato per la prima volta nel Elemento di apprendimento statistico. Hanno una spiegazione diversa e probabilmente migliore di questa idea nel capitolo 7.

Pietro
Se sei in Australia, hai molte scelte e puoi utilizzare le aziende statunitensi. Ero con una società molto importante negli Stati Uniti e clienti in Australia, in alcuni paesi in cui non potevo avviare un'attività commerciale, ma l'Australia non era una di queste. Avrai voglia di investire all'estero, il mercato azionario australiano è pieno di materie prime, quindi prendine un paio. N...

Lascia la tua risposta