Mikä on Bayesin virhe koneoppimisessa?

http://www.deeplearningbook.org/contents/ml.html Sivu 116 selittää bayes virhe kuten alla

Ihanteellinen malli on oraakkeli, joka yksinkertaisesti tietää datan tuottavan todellisen todennäköisyysjakauman. Jopa tällainen malli aiheuttaa silti jonkin verran virheitä monissa ongelmissa, koska jakelussa saattaa silti olla jonkin verran melua. Valvotun oppimisen tapauksessa kartoitus x: stä y: een voi olla luonnostaan stokastinen, tai y voi olla deterministinen funktio, joka sisältää muita muuttujia lukuun ottamatta x: ään sisältyviä. Virhettä, joka syntyy oraakkelista, joka tekee ennusteita todellisesta jakaumasta p (x, y), kutsutaan Bayesin virheeksi.

Kysymykset

  1. Selittäkää Bayesin virhe intuitiivisesti?
  2. Miten se eroaa pelkistämättömästä virheestä?
  3. Voinko sanoa kokonaisvirhe = Bias + Varianssi + Bayes -virhe?
  4. Mitä y tarkoittaa? luonnostaan stokastinen ”?

vastaus

Bayesin virhe on pienin mahdollinen ennustevirhe, joka voidaan saavuttaa ja on sama kuin pelkistämätön virhe. Jos tiedetään tarkalleen, mikä prosessi tuottaa datan, virheitä tehdään silti, jos prosessi on satunnainen. Tätä tarkoitetaan myös sanalla ”$ y $ on luonnostaan stokastinen”.

Esimerkiksi kun käännämme reilua kolikkoa, tiedämme tarkalleen, mikä prosessi tuottaa lopputuloksen (binomijakauma). Jos kuitenkin ennustaisimme kolikkosarjojen sarjan tuloksen, tekisimme silti virheitä, koska prosessi on luonnostaan satunnainen (ts. Stokastinen).

Jos haluat vastata toiseen kysymykseesi, olet oikeassa toteamalla, että kokonaisvirhe on (neliön) esijännityksen, varianssin ja pelkistämättömän virheen summa. Katso myös tämä artikkeli, josta löydät helposti ymmärrettävän selityksen näistä kolmesta käsitteestä.

Vastaa

Tilastojen olennainen osa on tiedon puute: esim. kääntörahan tuotoksen määrittämiseksi meidän on tiedettävä maan painovoima testipisteessä, kolikon kaarevuus, tuulen nopeus, käden asento. .. Jos se määritetään, se tietää varmasti kyseisen kokeen tuotoksen. Mutta emme voi määritellä kaikkea. Tai talon määräävässä hinnassa meidän on tiedettävä sijainti, markkinat, makrotaloudellinen .. paitsi etäisyys keskustaan ja talon koko. = > Siksi ML: ssä, jos koulutussarja sisältää vain etäisyyden keskustaan ja talon koon, tulos on edelleen stokastinen, ei määritettävissä, – > myös virhe, jopa oraakkelin kanssa (Deep Learning -kirjassa: ”y voi olla deterministinen funktio, joka sisältää muita muuttujia x: n sisältämien lisäksi”)

Vastaus

Lähettäjä https://www.cs.helsinki.fi/u/jkivinen/opetus/iml/2013/Bayes.pdf . Luokitustehtävässä bayes virhe määritellään seuraavasti:

$ min_f = Kustannukset (f) $

Bayes-luokittelija määritellään seuraavasti: $ argmin_f = Kustannukset (f) $

Joten yhteensä virhe = bayes virhe + kuinka paljon mallisi on huonompi kuin bayes virhe $ \ not \ equiv $ Bias + Variance + Bayes -virhe, joka voi riippua mallistasi ja” jakeluhälyn ”luonteesta.

” y ”: n merkitys voi olla luonnostaan stokastinen ”? Esimerkiksi $ y = f (x) = sin (x) $ . Mutta y-keräämäsi on aina saastunut nimellä $ \ tilde {y} = y + t $ , missä $ t \ sim N (0, \ sigma ^ 2) $ Joten sinulla ei ole tapaa tietää todellista y: tä, ja sinulla oleva kustannusarvio on saastunut. Jopa Oracle antaa sinulle oikean vastauksen, luulet heidän olevan väärässä.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *