Waarom wordt de RBF-kernel gebruikt in SVM?

Ik heb geleerd dat als gevolg van de oneindige reeksuitbreiding van de exponentiële functie Radiale Basis Kernel de input feature ruimte projecteert naar oneindige feature ruimte. Is het vanwege dit feit dat we deze kernel vaak gebruiken in SVM.? Maakt projecteren in oneindig dimensionale ruimte de gegevens altijd lineair scheidbaar.?

Opmerkingen

Antwoord

RUser4512 gaf het juiste antwoord: RBF-kernel werkt goed in de praktijk en is relatief eenvoudig stemmen. Het is het SVM-equivalent van niemand is ooit ontslagen voor het schatten van een OLS-regressie: het wordt geaccepteerd als een redelijke standaardmethode. Het is duidelijk dat OLS niet perfect is in alle (of zelfs veel) scenarios, maar het is een goed bestudeerde methode en wordt algemeen begrepen. Evenzo is de RBF-kernel goed bestudeerd en algemeen begrepen, en veel SVM-pakketten bevatten het als een standaardmethode.

Maar de RBF-kernel heeft een aantal andere eigenschappen. Als iemand bij dit soort vragen vraagt “waarom doen we dingen op deze manier”, dan denk ik dat het belangrijk is om ook contrasten te trekken met andere methoden om context te ontwikkelen.

Het is een stationaire kernel, wat betekent dat het onveranderlijk is voor vertaling. Stel dat u $ K (x, y) berekent. $ Een stationaire kernel levert dezelfde waarde $ K (x, y) $ op voor $ K (x + c, y + c) $, waarbij $ c $ een vector kan zijn -gewaardeerd van dimensie om te passen bij de inputs Voor de RBF wordt dit bereikt door te werken aan het verschil van de twee vectoren. Merk voor contrast op dat de lineaire kernel niet de stationariteitseigenschap heeft.

De versie met één parameter van de RBF-kernel heeft de eigenschap dat deze isotroop is. , dwz de schaalvergroting met $ \ gamma $ vindt in alle richtingen even veel plaats. Dit kan echter gemakkelijk worden gegeneraliseerd door de RBF-kernel enigszins aan te passen naar $ K (x, y) = \ exp \ left (- (xy) “\ Gamma (xy) \ right) $ waar $ \ Gamma $ een psd is matrix.

Een andere eigenschap van de RBF-kernel is dat deze oneindig glad is. Dit is esthetisch aangenaam , en visueel enigszins bevredigend, maar misschien is het niet de belangrijkste eigenschap. Vergelijk de RBF-kernel met de Matern-kernel en je zult zien dat sommige kernels behoorlijk wat grilliger zijn!

De moraal van het verhaal is dat op kernel gebaseerde methoden erg rijk zijn, en met een beetje werk is het erg praktisch om een kernel te ontwikkelen die geschikt is voor jouw specifieke behoeften. Maar als je een RBF-kernel als standaard gebruikt, zul je een redelijke benchmark hebben voor vergelijking.

Answer

Ik denk dat de goede redenen om de RBF-kernel te gebruiken zijn dat ze in de praktijk goed werken en ze zijn relatief eenvoudig te kalibreren, in tegenstelling tot andere kernels.

De polynoomkernel heeft drie parameters (offset, schaalverdeling, graad). De RBF-kernel heeft één parameter en er zijn goede heuristieken om deze te vinden. Zie bijvoorbeeld: SVM rbf kernel – heuristische methode voor het schatten van gamma

Lineaire scheidbaarheid in de feature-ruimte is misschien niet de reden. Inderdaad, het is gemakkelijk, met een Gaussische kernel, om scheidbaarheid en een perfecte nauwkeurigheid af te dwingen op de treinset ($ \ gamma $ instellen op een hoge waarde). Deze modellen hebben echter een zeer slechte generalisatie.

Bewerken.

Deze korte video toont de invloed van de toename van de bandbreedteparameter op de beslissingsgrens.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *