Opiskelen koneoppimista Andrew Ng Stanfordin luennoilla ja törmäsin juuri VC-ulottuvuuksien teoriaan. Luentojen ja ymmärrykseni mukaan määritelmä VC-ulottuvuudesta voidaan antaa muodossa,
Jos löydät joukon $ n $ pistettä, jotta luokittelija voi rikkoa sen luokittele kaikki mahdolliset $ 2 ^ n $ -merkinnät oikein) etkä löydä yhtään $ n + 1 $ -pistejoukkoa, joka voi olla pirstoutunut (eli missä tahansa $ n + 1 $ -pisteryhmässä on vähintään yksi merkintäjärjestys, jotta luokittelija ei voi erottaa kaikkia pisteitä oikein), niin VC-ulottuvuus on $ n $.
Myös professori otti esimerkin ja selitti tämän hienosti. / p>
Let,
$ H = \ {{set \ of \ linear \ luokittelijat \ in \ 2 \ Dimensions \}} $
Sitten kaikki 3 pistettä voivat luokitellaan $ H $: lla oikein erottamalla hypertaso seuraavan kuvan mukaisesti.
Ja siksi $ H $: n VC-ulottuvuus on 3. Koska 2D-tason 4 pisteelle lineaarinen luokittelija voi ei hajota kaikkia pisteiden yhdistelmiä. Esimerkiksi
tämä pistejoukko, ei ole olemassa erottavaa hypertasoa, voidaan piirtää tämän ryhmän luokittelemiseksi. Joten VC-ulottuvuus on 3.
Saan idean tähän asti. Mutta entä jos noudatamme mallityyppiä?
Tai kuvio, jossa kolme pistettä yhtyy toisiinsa, tässä ei myöskään voida piirtää erottavaa hypertasoa 3 pisteen välille. Mutta silti tätä mallia ei oteta huomioon VC-ulottuvuuden määritelmässä. Miksi? samasta asiasta keskustellaan myös luennoista, joita ”katselen täällä kello 16:24 , mutta professori ei mainitse tarkkaa syytä tähän.
Jokainen intuitiivinen esimerkki selityksestä arvostetaan. Kiitos
Kommentit
- otettu osoitteesta datascience.stackexchange.com/a/16146/23305
vastaus
VC-ulottuvuuden määritelmä on: if on joukko n pistettä, jotka luokittelija voi murskata ja ei ole n + 1 pisteen joukko, jonka luokittelija voi pirstata, luokittelijan VC-ulottuvuus on n.
Määritelmä ei sano: jos mikä tahansa n pisteen joukko voi hajottaa luokittelija. ..
Jos luokittelijan VC-ulottuvuus on 3, sen ei tarvitse hajottaa kaikkia mahdollisia 3 pisteen järjestelyt.
Jos kaikista 3 pisteen järjestelyistä löytyy ainakin yksi sellainen järjestely, jonka luokittelija voi pirstoa eikä löydä 4 pistettä, jotka voidaan murtaa, VC-ulottuvuus on 3.
Kommentit
- Sitten tässä tapauksessa voimme saada ainakin yhden kuvion mistä tahansa pisteiden lukumäärästä, jotka voidaan luokitella suoralla viivalla. Ajattele esimerkiksi 4 pistettä. Kaksi punaista pistettä vasemmalla puolella ja kaksi sinistä pistettä oikealla puolella mahdollistaisi luokittelun, ja VC-ulottuvuus olisi 4. Joten miksi tätä ei otettaisi huomioon?
- Luokiteltu – kyllä. Särkynyt – ei
- Mikä on murskaamalla pisteiden järjestelyä? Olen ' hämmentynyt täällä. Kiitos
- Pistejärjestely voi hajota, jos mikä tahansa tämän järjestelyn osajoukko voidaan eristää ja laittaa yhteen luokkaan. Sano, haluatko testata, voiko tietyn tyyppiset luokittelijat hajottaa tietyn n pisteen järjestelyn (ei kaikki mahdolliset järjestelyt, mutta vain yhden tietyn järjestelyn). Sitten testaat ensin, voidaanko yksittäinen piste eristää. Sitten, jos 2 pistettä voidaan eristää, niin jos 3 pistettä jne., Kunnes kaikki n-1 pistettä kyseisestä järjestelystä. Katso täältä fi.wikipedia.org/wiki/Shattered_set
- Kuvio, jossa on 8 alakohtaa, on erittäin hyvä esimerkki murtavasta. Tässä sinulla on 3 pistettä, 2 luokkaa, joten 2 ^ 3 = 8 mahdollista näiden 3 pisteen merkintää. Kaikki 8 leimaa voidaan tehdä ja eristää viivalla, joten tämä sarja voidaan hajottaa viivalla. Kuva, jossa on 4 pistettä: siinä on joitain merkintöjä, jotka voidaan eristää viivalla (esimerkiksi kaksi vasenta on punaista, kaksi oikeaa on sininen), mutta siinä on myös merkintä, jota ei voida eristää viivalla (kuten kuvassa: ylempi ja alempi sininen; vasen ja oikea ovat vasemmalla). Koska sillä on merkintä, jota ei voida eristää viivalla, tämä sarja ei hajoa.