Andrew Ng Stanford előadásokból tanulok gépi tanulást, és most találkoztam a VC dimenzióinak elméletével. Az előadások és az általam megértettek szerint a meghatározás A VC dimenziója a következő formában adható meg:
Ha $ n $ pont készletet talál, hogy az osztályozó összetörhesse (azaz az összes lehetséges $ 2 ^ n $ címkézést helyesen osztályozza), és nem található egyetlen $ n + 1 $ pont halmaz sem, amely széttörhető (azaz bármely $ n + 1 $ pont halmaz esetén legalább egy címkézési sorrend létezik, így az osztályozó nem tudja minden pontot elválasztani helyesen), akkor a VC dimenzió $ n $.
A professzor is vett egy példát, és ezt szépen elmagyarázta. Ami:
Let,
$ H = \ {{lineáris \ osztályozók \ set \ of 2 \ dimenziók \}} $
Ezután bármelyik 3 pont helyesen kell osztályozni a $ H $ alapján, elválasztva a hipersíkot az alábbi ábrán látható módon.
És ezért a $ H $ VC dimenziója 3. Mivel a 2D sík bármely 4 pontjára egy lineáris osztályozó képes ne törje szét a pontok összes kombinációját. Például
ez a pontkészlet, nincs elválasztó hipersík, amely e halmaz osztályozásához megrajzolható. Tehát a VC dimenzió a 3.
Ideiglenem kaptam az ötletet. De mi van, ha követünk egy mintatípust?
Vagy az a minta, ahol három pont egybeesik egymással. Itt sem rajzolhatunk elválasztó hipersíkot 3 pont közé. De mégsem ezt a mintát veszik figyelembe a VC dimenzió meghatározása. Miért? ugyanezt a pontot tárgyaljuk azokról az előadásokról is, amelyeket “nézek itt 16: 24-kor , de a professzor nem említi ennek pontos okát.
Bármely intuitív példát a magyarázatra értékelni fogunk. Köszönet
Megjegyzések
- a datascience.stackexchange.com/a/16146/23305
Válasz
A VC dimenzió meghatározása: if létezik n pont halmaza, amelyet az osztályozó összetörhet, és nincs n + 1 pont halmaz, amelyet az osztályozó széttörhet, akkor az osztályozó VC dimenziója n.
A meghatározás nem mondja ki: ha n osztály bármelyik csoportját szétzúzhatja az osztályozó. ..
Ha egy osztályozó VC dimenziója 3, akkor nem kell összetörnie az összes lehetséges 3 pontos elrendezés.
Ha a 3 pontos elrendezés közül az összes található legalább egy ilyen elrendezés, amelyet az osztályozó széttörhet, és nem talál 4 összetörhető pontot, akkor a VC dimenzió 3.
Megjegyzések
- Ezután ebben az esetben a tetszőleges számú pontról legalább egy mintát kaphatunk, amelyeket egyenesen lehet osztályozni. Például gondoljunk 4 pontra. Két piros pont a bal oldalon és két kék pont a jobb oldalon lehetővé tenné a besorolást, és a VC dimenzió 4 lenne. Tehát miért nem veszik ezt figyelembe?
- Besorolva – igen. Összetört – nem
- Tehát mi a jelentése szétzúzza a pontok elrendezését? Én ' itt nagyon összezavarodtam. Köszönet
- A pontok elrendezése széttörhető, ha ennek az elrendezésnek bármely részhalmaza elkülöníthető és egy osztályba sorolható. Tegyük fel, hogy tesztelni akarja, hogy az n pont egy bizonyos elrendezését (nem minden lehetséges elrendezést, hanem csak egy adott elrendezését) szétfoszthatja-e egy bizonyos típusú osztályozó. Ezután először tesztelje, hogy egyetlen pont elkülöníthető-e. Ezután, ha bármelyik 2 pont elkülöníthető, akkor ha van 3 pont stb., Addig az adott elrendezés n-1 pontjáig. Lásd itt: hu.wikipedia.org/wiki/Shattered_set
- A 8 alsávos ábra nagyon jól szemlélteti, hogy mi rombol. Itt van 3 pont, 2 osztály, tehát 2 ^ 3 = 8 lehetséges címkézése ennek a 3 pontnak. Mind a 8 címkézés elvégezhető és elkülöníthető egy vonallal, ezért ezt a készletet egy széttörheti. A 4 pontos ábra: van rajta néhány vonallal elkülöníthető címke (mondjuk, két bal piros, kettő jobb kék), de van olyan címkéje is, amelyet nem lehet vonallal elkülöníteni (mint az ábrán: felső és alsó kék; bal és jobb bal). Mivel van olyan címkéje, amelyet nem lehet elválasztani egy vonallal, ez a készlet nem törik össze.