Vad är den exakta definitionen av VC-dimension?

Jag studerar maskininlärning från Andrew Ng Stanford-föreläsningar och kom bara över teorin om VC-dimensioner. Enligt föreläsningarna och vad jag förstod, definitionen av VC-dimension kan ges som,

Om du kan hitta en uppsättning $ n $ poäng så att den kan splittras av klassificeraren (dvs. klassificera alla möjliga $ 2 ^ n $ -märkning korrekt) och du kan inte hitta någon uppsättning $ n + 1 $ poäng som kan splittras (dvs. för någon uppsättning $ n + 1 $ poäng finns det minst en märkningsordning så att klassificeraren kan inte separera alla punkter korrekt), då är VC-dimensionen $ n $.

Professor tog också ett exempel och förklarade detta snyggt. Vilket är:

Låt,

$ H = \ {{uppsättning \ av \ linjära \ klassificeringsapparater \ i \ 2 \ Dimensioner \}} $

Sedan kan alla 3 punkter klassificeras med $ H $ korrekt med separerande hyperplan som visas i följande bild.

Och det är därför VC-dimensionen på $ H $ är 3. För alla 4 punkter i 2D-plan kan en linjär klassificering krossa inte alla kombinationer av poängen. Till exempel

ange bildbeskrivning här

För den här uppsättningen punkter, det finns inget separerande hyperplan som kan ritas för att klassificera denna uppsättning. Så VC-dimensionen är 3.

Jag får idén fram till här. Men vad händer om vi följer typ av mönster?

ange bildbeskrivning här

Eller mönstret där en tre punkter sammanfaller med varandra, här kan vi inte heller rita separera hyperplan mellan 3 punkter. Men ändå betraktas detta mönster inte i definitionen av VC-dimensionen. Varför? samma punkt diskuteras också föreläsningarna Jag tittar på Här klockan 16:24 men professor nämner inte den exakta orsaken bakom detta.

Alla intuitiva exempel på förklaringar kommer att uppskattas. Tack

Kommentarer

Svar

Definitionen av VC-dimension är: om det finns en uppsättning n-punkter som kan splittras av klassificatorn och det finns ingen uppsättning av n + 1 punkter som kan splittras av klassificeraren, då klassificerarens VC-dimension är n.

Definitionen säger inte: om någon uppsättning av n-punkter kan splittras av klassificeraren. ..

Om en klassificerings VC-dimension är 3 behöver den inte krossa alla möjliga arrangemang av 3 poäng.

Om av alla arrangemang med 3 poäng kan du hitta minst en ett sådant arrangemang som kan krossas av klassificeraren och inte kan hitta 4 punkter som kan krossas, då är VC-dimensionen 3.

Kommentarer

  • Sedan i det här fallet kan vi få åtminstone ett mönster av valfritt antal punkter som kan klassificeras med rak linje. Tänk till exempel på fyra poäng. Två röda punkter i vänster sida och två blå punkter på höger sida skulle göra det möjligt att klassificera, och VC-dimension skulle vara 4. Så varför inte detta övervägas?
  • Klassificerad – ja. splittrad – nej
  • Så vad är meningen med krossa ett arrangemang av poäng? Jag ' är verkligen förvirrad här. Tack
  • Ett poängarrangemang kan krossas om någon delmängd av detta arrangemang kan isoleras och placeras i en klass. Säg, du vill testa om ett visst arrangemang (inte alla möjliga arrangemang utan bara ett visst arrangemang) av n-punkter kan krossas av en viss typ av klassificerare. Då testar du först om någon enskild punkt kan isoleras. Sedan, om någon 2 poäng kan isoleras, sedan om någon 3 poäng, etc, tills någon n-1 poäng i det specifika arrangemanget. Se här sv.wikipedia.org/wiki/Shattered_set
  • Figur med 8 delplottar är en mycket bra illustration av vad som krossar. Här har du 3 poäng, 2 klasser, så 2 ^ 3 = 8 möjliga märkningar av dessa 3 poäng. Alla 8 etiketter kan göras och isoleras med en linje, därför kan denna uppsättning krossas av en linje. Figuren med fyra punkter: den har några märkningar som kan isoleras med en linje (säg, två vänster är röda, två till höger är blåa) men har också en märkning som inte kan isoleras med en linje (som i figuren: övre och nedre blå; vänster och höger är vänster). Eftersom den har en märkning som inte kan isoleras med en linje splittras inte denna uppsättning.

Svar

Poängen ska uppfylla poäng i allmänt skick innan man överväger VC-dimension. ange bildbeskrivning här

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *