Warum wird der RBF-Kernel in SVM verwendet?

Ich habe erfahren, dass der Radial Basis Kernel aufgrund der unendlichen Reihenerweiterung der Exponentialfunktion den Eingabe-Feature-Space in den unendlichen Feature-Raum projiziert. Liegt es an dieser Tatsache, dass wir diesen Kernel häufig in SVM verwenden? Macht das Projizieren im unendlich dimensionalen Raum die Daten immer linear trennbar?

Kommentare

Antwort

RUser4512 gab die richtige Antwort: Der RBF-Kernel funktioniert in der Praxis gut und ist relativ einfach Stimmen. Es ist das SVM-Äquivalent zu „niemand wurde jemals für die Schätzung einer OLS-Regression entlassen:“ Es wird als vernünftige Standardmethode akzeptiert. Natürlich ist OLS nicht in jedem (oder sogar vielen) Szenario perfekt, aber es ist “ Eine gut untersuchte und weithin verstandene Methode. Ebenso ist der RBF-Kernel gut untersucht und weithin verstanden, und viele SVM-Pakete enthalten ihn als Standardmethode.

Der RBF-Kernel verfügt jedoch über eine Reihe anderer Methoden Eigenschaften. Bei solchen Fragen ist es meiner Meinung nach wichtig, auch Kontraste zu anderen Methoden zur Kontextentwicklung zu ziehen, wenn jemand nach „Warum machen wir die Dinge so?“ fragt.

Es ist eine stationärer Kernel, was bedeutet, dass er für die Übersetzung unveränderlich ist. Angenommen, Sie berechnen $ K (x, y). $ Ein stationärer Kernel liefert den gleichen Wert $ K (x, y) $ für $ K (x + c, y + c) $, wobei $ c $ ein Vektor sein kann -bewertet von Dimension, um den Eingaben zu entsprechen. Für den RBF wird dies erreicht, indem an der Differenz der beiden Vektoren gearbeitet wird. Beachten Sie im Gegensatz dazu, dass der lineare Kernel nicht über die Stationaritätseigenschaft verfügt.

Die Einzelparameterversion des RBF-Kernels hat die Eigenschaft, dass er isotrop ist , dh die Skalierung um $ \ gamma $ erfolgt in alle Richtungen gleich viel. Dies kann jedoch leicht verallgemeinert werden, indem der RBF-Kernel leicht auf $ K (x, y) = \ exp \ left (- (xy) „\ Gamma (xy) \ right) $ angepasst wird, wobei $ \ Gamma $ ein psd ist Matrix.

Eine weitere Eigenschaft des RBF-Kernels ist, dass er unendlich glatt ist. Dies ist ästhetisch ansprechend und visuell etwas befriedigend, aber vielleicht ist es nicht die wichtigste Eigenschaft. Vergleichen Sie den RBF-Kernel mit dem Matern-Kernel, und Sie werden sehen, dass einige Kernel etwas gezackter sind!

Die Moral von Die Geschichte ist, dass kernelbasierte Methoden sehr umfangreich sind und es mit ein wenig Arbeit sehr praktisch ist, einen Kernel zu entwickeln, der Ihren speziellen Anforderungen entspricht. Wenn Sie jedoch standardmäßig einen RBF-Kernel verwenden, werden Sie dies tun haben einen vernünftigen Benchmark zum Vergleich.

Antwort

Ich denke, die guten Gründe für die Verwendung des RBF-Kernels sind, dass sie in der Praxis gut funktionieren und sie sind im Gegensatz zu anderen Kerneln relativ einfach zu kalibrieren.

Der Polynomkern hat drei Parameter (Offset, Skalierung, Grad). Der RBF-Kernel hat einen Parameter und es gibt gute Heuristiken, um ihn zu finden. Siehe Beispiel: SVM-rbf-Kernel – heuristische Methode zur Schätzung von Gamma

Die lineare Trennbarkeit im Merkmalsraum ist möglicherweise nicht der Grund. In der Tat ist es mit einem Gaußschen Kernel einfach, die Trennbarkeit und eine perfekte Genauigkeit des Zugsatzes zu erzwingen (indem $ \ gamma $ auf einen großen Wert gesetzt wird). Diese Modelle weisen jedoch eine sehr schlechte Verallgemeinerung auf.

Bearbeiten.

Dieses kurze Video zeigt den Einfluss der Erhöhung des Bandbreitenparameters auf die Entscheidungsgrenze.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.