Jeg studerer maskinindlæring fra Andrew Ng Stanford-forelæsninger og kom lige over teorien om VC-dimensioner. Ifølge forelæsningerne og hvad jeg forstod, definitionen af VC-dimension kan angives som,
Hvis du kan finde et sæt $ n $ point, så det kan knuses af klassifikatoren (dvs. klassificer alle mulige $ 2 ^ n $ -mærkning korrekt), og du kan ikke finde noget sæt $ n + 1 $ point, der kan knuses (dvs. for ethvert sæt $ n + 1 $ point er der mindst en mærkningsrækkefølge, så klassifikatoren kan ikke adskille alle punkter korrekt), så er VC-dimensionen $ n $.
Også professor tog et eksempel og forklarede dette pænt. Hvilket er:
Lad,
$ H = \ {{sæt \ af \ lineære \ klassifikatorer \ i \ 2 \ Dimensioner \}} $
Så kan 3 punkter klassificeres med $ H $ korrekt med adskillelse af hyperplan som vist i følgende figur.
Og det er derfor, at VC-dimensionen på $ H $ er 3. Fordi for et hvilket som helst 4 point i 2D-plan kan en lineær klassifikator ikke knuse alle kombinationerne af punkterne. For eksempel
For dette sæt punkter, der er ingen adskillende hyperplan, der kan tegnes for at klassificere dette sæt. Så VC-dimensionen er 3.
Jeg får ideen indtil her. Men hvad hvis vi følger type mønster?
Eller det mønster, hvor tre punkter falder sammen, Her kan vi heller ikke tegne adskillelse af hyperplan mellem 3 punkter. Men stadig betragtes dette mønster ikke i definitionen af VC-dimensionen. Hvorfor? samme punkt diskuteres også foredragene Jeg ser Her kl. 16:24 , men professor nævner ikke den nøjagtige årsag bag dette.
Ethvert intuitivt eksempel på forklaring vil blive værdsat. Tak
Kommentarer
- taget fra datascience.stackexchange.com/a/16146/23305
Svar
Definitionen af VC-dimension er: hvis der findes et sæt n-punkter, der kan knuses af klassifikatoren, og der er ingen sæt med n + 1 punkter, der kan knuses af klassificeringen, så klassifikatorens VC-dimension er n.
Definitionen siger ikke: hvis ethvert sæt af n point kan knuses af klassifikatoren. ..
Hvis en klassificerings VC-dimension er 3, behøver den ikke at knuse alle mulige arrangementer med 3 point.
Hvis af alle arrangementer med 3 point, kan du finde mindst en et sådant arrangement, der kan knuses af klassifikatoren og ikke kan finde 4 punkter, der kan knuses, så er VC-dimensionen 3.
Kommentarer
- Så i dette tilfælde kan vi få mindst et mønster af et hvilket som helst antal punkter, der kan klassificeres efter lige linje. For eksempel tænk på 4 point. To røde punkter i venstre side og to blå punkter i højre side ville gøre det muligt at klassificere, og VC-dimension ville være 4. Så hvorfor betragtes dette ikke?
- Klassificeret – ja. knust – nej
- Så hvad er meningen med knuse et arrangement af point? Jeg ' er virkelig forvirret her. Tak
- Et arrangement af punkter kan knuses, hvis en delmængde af dette arrangement kan isoleres og placeres i en klasse. Sig, du vil teste, om et bestemt arrangement (ikke alle mulige arrangementer, men kun et bestemt arrangement) af n point kan knuses af en bestemt type klassifikatorer. Derefter tester du først, om et enkelt punkt kan isoleres. Derefter, hvis nogen 2 point kan isoleres, så hvis der er 3 point osv., Indtil nogen n-1 point i det pågældende arrangement. Se her da.wikipedia.org/wiki/Shattered_set
- Figur med 8 delplot er en meget god illustration af, hvad der knuses. Her har du 3 point, 2 klasser, så 2 ^ 3 = 8 mulige mærkning af disse 3 point. Alle 8 mærkninger kan udføres og isoleres med en linje, derfor kan dette sæt knuses af en linje. Figuren med 4 punkter: den har nogle mærker, der kan isoleres med en linje (f.eks. To venstre er røde, to højre er blå), men har også en mærkning, der ikke kan isoleres med en linje (som i figuren: øvre og nedre blå; venstre og højre er venstre). Da det har en mærkning, der ikke kan isoleres med en linje, knuses dette sæt ikke.