Jeg studerer maskinlæring fra Andrew Ng Stanford-forelesninger og kom nettopp over teorien om VC-dimensjoner. Ifølge forelesningene og det jeg forsto, definisjonen av VC-dimensjon kan gis som,
Hvis du finner et sett med $ n $ poeng, slik at det kan knuses av klassifisereren (dvs. klassifiser alle mulige $ 2 ^ n $ merkinger riktig) og du kan ikke finne noe sett med $ n + 1 $ poeng som kan knuses (dvs. for ethvert sett med $ n + 1 $ poeng er det minst en merkingsordre slik at klassifisereren kan ikke skille alle punkter riktig), så er VC-dimensjonen $ n $.
Også professor tok et eksempel og forklarte dette pent. Hvilket er:
La,
$ H = \ {{sett \ av \ lineære \ klassifiseringsapparater \ i \ 2 \ Dimensjoner \}} $
Så kan noen 3 poeng klassifiseres med $ H $ riktig med separerende hyperplan som vist i figuren nedenfor.
Og det er derfor VC-dimensjonen på $ H $ er 3. Fordi for et hvilket som helst 4 poeng i 2D-plan, kan en lineær klassifikator ikke knuse alle kombinasjonene av poengene. For eksempel
For dette settet med punkter, det er ingen separerende hyperplan kan tegnes for å klassifisere dette settet. Så VC-dimensjonen er 3.
Jeg får ideen til her. Men hva om vi følger typen mønster?
Eller mønsteret der tre punkter faller sammen, Her kan vi heller ikke tegne skille mellom hyperplan mellom 3 punkter. Men fremdeles blir dette mønsteret ikke vurdert i definisjonen av VC-dimensjonen. Hvorfor? samme punkt diskuteres også forelesningene Jeg ser på Her klokka 16:24 , men professor nevner ikke den eksakte årsaken bak dette.
Ethvert intuitivt eksempel på forklaring vil bli verdsatt. Takk
Kommentarer
- hentet fra datascience.stackexchange.com/a/16146/23305
Svar
Definisjonen av VC-dimensjon er: hvis det finnes et sett med n-punkter som kan knuses av klassifisereren og det er ingen sett med n + 1 poeng som kan knuses av klassifisereren, så er VC-dimensjonen til klassifisereren n.
Definisjonen sier ikke: hvis noe sett av n poeng kan knuses av klassifisereren. ..
Hvis en klassifiserings VC-dimensjon er 3, trenger den ikke å knuse alle mulige ordninger med 3 poeng.
Hvis av alle ordninger med 3 poeng, kan du finne minst en et slikt arrangement som kan knuses av klassifisereren, og som ikke finner 4 punkter som kan knuses, så er VC-dimensjonen 3.
Kommentarer
- Da i dette tilfellet kan vi få minst ett mønster av et hvilket som helst antall punkter som kan klassifiseres etter rett linje. Tenk for eksempel på 4 poeng. To røde punkter i venstre side og to blå punkter på høyre side vil gjøre det mulig å klassifisere, og VC-dimensjon ville være 4. Så hvorfor ikke dette vurdert?
- Klassifisert – ja. knust – nei
- Så hva er meningen med knuse en ordning med poeng? Jeg ' er veldig forvirret her. Takk
- En poengordning kan knuses hvis noen delmengde av dette arrangementet kan isoleres og settes i en klasse. Si at du vil teste om et bestemt arrangement (ikke alle mulige ordninger, men bare ett bestemt arrangement) av n poeng kan knuses av en bestemt type klassifiserere. Deretter tester du først om et enkelt punkt kan isoleres. Så, hvis noen 2 poeng kan isoleres, så hvis noen 3 poeng osv., Til noen n-1 poeng i det aktuelle arrangementet. Se her no.wikipedia.org/wiki/Shattered_set
- Figur med 8 delplott er en veldig god illustrasjon av hva som knuser. Her har du 3 poeng, 2 klasser, så 2 ^ 3 = 8 mulige merkinger av disse 3 poengene. Alle de 8 merkingene kan gjøres og isoleres med en linje, derfor kan dette settet knuses av en linje. Figuren med 4 poeng: den har noen merkinger som kan isoleres med en linje (for eksempel to venstre er røde, to høyre er blå), men har også en merking som ikke kan isoleres med en linje (som i figuren: øvre og nedre blå; venstre og høyre er venstre). Ettersom den har en merking som ikke kan isoleres med en linje, knuses ikke dette settet.