Por que o kernel RBF é usado no SVM?

Eu aprendi que, devido à expansão de série infinita da função exponencial, o Kernel de Base Radial projeta espaço de recurso de entrada para espaço de recurso infinito. É devido a esse fato que usamos esse kernel com freqüência no SVM.? A projeção em um espaço dimensional infinito sempre torna os dados linearmente separáveis?

Comentários

talvez isso possa ajudar: stats.stackexchange.com/questions/80398/…
Na verdade, você precisa adicionar a dimensão +1 para formar duas classes dados separáveis.
consulte stats.stackexchange.com/questions/131138/… para explicação intuitiva

Resposta

RUser4512 deu a resposta correta: o kernel RBF funciona bem na prática e é relativamente fácil sintonizar. É o SVM equivalente a “ninguém” nunca foi demitido para estimar uma regressão OLS: “é aceito como um método padrão razoável. Claramente, OLS não é perfeito em todos (ou mesmo em muitos) cenários, mas” um método bem estudado e amplamente compreendido. Da mesma forma, o kernel RBF é bem estudado e amplamente compreendido, e muitos pacotes SVM o incluem como um método padrão.

Mas o kernel RBF tem vários outros propriedades. Nesses tipos de perguntas, quando alguém pergunta “por que fazemos as coisas dessa maneira”, acho “importante também traçar contrastes com outros métodos para desenvolver o contexto.

É um kernel estacionário, o que significa que é invariante à tradução. Suponha que você esteja computando $ K (x, y). $ Um kernel estacionário renderá o mesmo valor $ K (x, y) $ para $ K (x + c, y + c) $, onde $ c $ pode ser o vetor -valorizado de dimensão para corresponder às entradas. Para o RBF, isso é feito trabalhando na diferença dos dois vetores. Para contraste, observe que o kernel linear não possui a propriedade estacionariedade.

A versão de parâmetro único do kernel RBF tem a propriedade de ser isotrópico , ou seja, a escala por $ \ gamma $ ocorre na mesma quantidade em todas as direções. Isso pode ser facilmente generalizado, no entanto, ajustando levemente o kernel RBF para $ K (x, y) = \ exp \ left (- (xy) “\ Gamma (xy) \ right) $ onde $ \ Gamma $ é um psd matriz.

Outra propriedade do kernel RBF é que ele é infinitamente suave . Isso é esteticamente agradável , e visualmente satisfatório, mas talvez não seja a propriedade mais importante. Compare o kernel RBF com o kernel Matern e você verá que alguns kernels são um pouco mais irregulares!

A moral de a história é que os métodos baseados em kernel são muito ricos e com um pouco de trabalho, é muito prático desenvolver um kernel adequado às suas necessidades particulares. Mas se alguém estiver usando um kernel RBF como padrão, você tenha um benchmark razoável para comparação.

Resposta

Acho que as boas razões para usar o kernel RBF é que eles funcionam bem na prática e são relativamente fáceis de calibrar, ao contrário de outros kernels.

O kernel polinomial tem três parâmetros (deslocamento, escala, grau). O kernel RBF tem um parâmetro e existem boas heurísticas para encontrá-lo. Veja, por exemplo: SVM rbf kernel – método heurístico para estimar gama

Separabilidade linear no espaço de recurso pode não ser o motivo. De fato, é fácil, com um kernel gaussiano, impor separabilidade e uma precisão perfeita no conjunto de trem (definindo $ \ gamma $ com um valor alto). No entanto, esses modelos têm uma generalização muito ruim.

Editar.

Este breve vídeo mostra a influência do aumento do parâmetro de largura de banda no limite de decisão.

Comentários

Resposta

Resposta

Deixe uma resposta Cancelar resposta