Mi a Bayes-hiba a gépi tanulásban?

http://www.deeplearningbook.org/contents/ml.html hiba az alábbiak szerint

Az ideális modell egy orákulum, amely egyszerűen ismeri az adatokat generáló valós valószínűség-eloszlást. Még egy ilyen modell is sok hibát követ el, mert még mindig előfordulhat némi zaj az elosztásban. Felügyelt tanulás esetén az x-től y-ig történő leképezés eredendően sztochasztikus lehet, vagy y lehet olyan determinisztikus függvény, amely az x-ben szereplőkön kívül más változókat is bevon. A valódi p (x, y) eloszlásból előrejelzéseket előidéző orákulum hibáját Bayes-hibának nevezzük.

Kérdések

  1. Kérem, magyarázza meg Bayes hibáját intuitívan?
  2. Miben különbözik az irreducibilis hibától?
  3. Mondhatok-e totális hibát = Előítélet + Variancia + Bayes hiba?
  4. Mit jelent az “y” jelentése eredendően sztochasztikus “?

Válasz

A Bayes-hiba a lehető legalacsonyabb lehetséges előrejelzési hiba, amely a ugyanaz, mint az irreducibilis hiba. Ha valaki pontosan tudná, hogy melyik folyamat generálja az adatokat, akkor is hibákat követnek el, ha a folyamat véletlenszerű. Ezt kell érteni a “$ y $ eredendően sztochasztikus” kifejezéssel is.

Például egy tisztességes érme megfordításakor pontosan tudjuk, hogy milyen folyamat generálja az eredményt (binomiális eloszlás). Ha azonban megjósolnánk egy érmefordítás sorozatának eredményét, akkor is hibákat követnénk el, mert a folyamat eleve véletlenszerű (azaz sztochasztikus).

A másik kérdés megválaszolásához igaza van megállapítva, hogy az összhiba a (négyzet) torzítás, variancia és irreducibilis hiba összege. Lásd még ezt a cikket a három fogalom könnyen érthető magyarázatához.

Válasz

A statisztika lényege az információ hiánya: például: a flip érme kimenetének meghatározásához ismerni kell a föld gravitációját a vizsgálati pontban, az érme görbületét, a szél sebességét, a kéz testtartását. .. Ha meghatározzák, akkor biztosan meg fogja tudni a kísérlet eredményét. De nem tudjuk meghatározni az egészet. Vagy a ház meghatározó árában meg kell ismernünk a helyszínt, a piacot, a makrogazdasági tényezőket, és nem csak a ház közepétől való távolságot és a ház méretét. = > Ezért az ML-ben, ha az edzéskészlet csak a középponttól való távolságot és a ház méretét tartalmazza, a kimenet továbbra is sztochasztikus, nem határozható meg, – > nek is megvan a hibája, még az orákulumnál is (a Deep Learning könyvben: „y lehet egy determinisztikus függvény, amely az x-ben szereplőkön kívül más változókat is magában foglal”)

Válasz

From https://www.cs.helsinki.fi/u/jkivinen/opetus/iml/2013/Bayes.pdf . Osztályozási feladathoz bayes A hiba a következő:

$ min_f = Költség (f) $

A Bayes osztályozó a következő: $ argmin_f = Költség (f) $

Tehát totális hiba = bayes hiba + mennyivel rosszabb a modelled, mint a bayes hiba $ \ not \ equiv $ Bias + Variance + Bayes hiba, amely függhet a modelljétől és az” elosztási zaj “eredendő természetétől

Az” y “jelentése magában rejtheti sztochasztikus “? Például: $ y = f (x) = sin (x) $ . De amit y-ként gyűjtesz, az mindig $ \ tilde {y} = y + t $ , ahol $ t \ sim N (0, \ sigma ^ 2) $ Tehát nincs módod megismerni a valódi y-t, és a költségbecslésed eredendően szennyezett. Még az Oracle is megadja a helyes választ, szerinted tévednek.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük