http://www.deeplearningbook.org/contents/ml.html Side 116 forklarer bayes feil som nedenfor
Den ideelle modellen er et orakel som ganske enkelt kjenner til den virkelige sannsynlighetsfordelingen som genererer dataene. Selv en slik modell vil fremdeles medføre noen feil på mange problemer, fordi det fortsatt kan være noe støy i distribusjonen. I tilfelle overvåket læring kan kartleggingen fra x til y være iboende stokastisk, eller y kan være en deterministisk funksjon som involverer andre variabler i tillegg til de som er inkludert i x. Feilen påført av et orakel som forutsier fra den sanne fordelingen p (x, y) kalles Bayes-feilen.
Spørsmål
- Vennligst forklar Bayes-feil intuitivt?
- Hvordan er det forskjellig fra irreduserbar feil?
- Kan jeg si total error = Bias + Variance + Bayes error?
- Hva betyr «y kan være iboende stokastisk «?
Svar
Bayes-feil er den lavest mulige prediksjonsfeilen som kan oppnås og er den samme som irredusible feil. Hvis man ville vite nøyaktig hvilken prosess som genererer dataene, vil det fortsatt bli gjort feil hvis prosessen er tilfeldig. Dette er også det som menes med «$ y $ er iboende stokastisk».
For eksempel, når vi snur en god mynt, vet vi nøyaktig hvilken prosess som genererer utfallet (en binomial fordeling). Imidlertid, hvis vi skulle forutsi utfallet av en serie myntslipp, ville vi fortsatt gjøre feil, fordi prosessen iboende er tilfeldig (dvs. stokastisk).
For å svare på det andre spørsmålet ditt, har du rett i om at den totale feilen er summen av (kvadrat) bias, varians og irredusibel feil. Se også denne artikkelen for en lettfattelig forklaring på disse tre begrepene.
Svar
det essensielle ved statistikken er mangel på informasjon: eks: for å bestemme utgangen av flipmynt, må vi kjenne jordgravitasjon ved testpunktet, myntkurvatur, vindhastighet, håndstilling,. .. Hvis det er bestemt, vil det sikkert vite resultatet av det eksperimentet. Men vi kan ikke bestemme det hele. Eller når vi bestemmer prisen på huset, må vi vite plasseringen, markedet, makroøkonomisk, .. ikke bare avstanden til sentrum og størrelsen på huset. = > I ML, hvis vi bare har treningssettet, inkluderer avstanden til sentrum og størrelsen på huset, er produksjonen fortsatt stokastisk, ikke bestemmbar, – > har også feilen, selv med oraklet (i Deep Learning-boken: «y kan være en deterministisk funksjon som involverer andre variabler i tillegg til de som er inkludert i x»)
Svar
Fra https://www.cs.helsinki.fi/u/jkivinen/opetus/iml/2013/Bayes.pdf . For klassifiseringsoppgave, bayes feil er definert som:
$ min_f = Kostnad (f) $
Bayes Classifier er definert som: $ argmin_f = Kostnad (f) $
Så total feil = bayes feil + hvor mye modellen din er verre enn bayes feil $ \ not \ equiv $ Bias + Variance + Bayes feil som kan avhenge av modellen din og den iboende naturen til» distribusjonsstøy «
Hva som betyr» y kan være iboende stokastisk «? For eksempel $ y = f (x) = sin (x) $ . Men det du samler inn som y er alltid forurenset som $ \ tilde {y} = y + t $ , der $ t \ sim N (0, \ sigma ^ 2) $ Så du har ingen måte å kjenne ekte y, og kostnadsestimatet du har er forurenset. Selv Oracle gir deg det riktige svaret, du tror de tar feil.