¿Por qué se usa el kernel RBF en SVM?

Aprendí que debido a la expansión en serie infinita de la función exponencial, el núcleo de base radial proyecta el espacio de características de entrada al espacio de características infinito. ¿Es por este hecho que usamos este kernel a menudo en SVM? ¿Proyectar en un espacio dimensional infinito siempre hace que los datos sean linealmente separables?

Comentarios

tal vez esto pueda ayudar: stats.stackexchange.com/questions/80398/…
En realidad, debe agregar una dimensión +1 para hacer dos clases datos separables.
consulte stats.stackexchange.com/questions/131138/… para explicación intuitiva

Respuesta

RUser4512 dio la respuesta correcta: el kernel RBF funciona bien en la práctica y es relativamente fácil para sintonizar. Es el equivalente de SVM a «nadie» ha sido despedido por estimar una regresión de OLS: «se acepta como un método predeterminado razonable. Claramente, OLS no es perfecto en todos (o incluso en muchos) escenarios, pero» Es un método bien estudiado y ampliamente comprendido. Asimismo, el kernel RBF está bien estudiado y ampliamente comprendido, y muchos paquetes SVM lo incluyen como método predeterminado.

Pero el kernel RBF tiene varios otros propiedades. En este tipo de preguntas, cuando alguien pregunta «por qué hacemos las cosas de esta manera», creo que es importante también establecer contrastes con otros métodos para desarrollar el contexto.

Es una estacionario kernel, lo que significa que es invariable a la traducción. Suponga que está calculando $ K (x, y). $ Un núcleo estacionario producirá el mismo valor $ K (x, y) $ para $ K (x + c, y + c) $, donde $ c $ puede ser un vector -valuado de dimensión para que coincida con las entradas. Para el RBF, esto se logra trabajando en la diferencia de los dos vectores. Por el contrario, tenga en cuenta que el kernel lineal no tiene la propiedad de estacionariedad.

La versión de parámetro único del kernel RBF tiene la propiedad de que es isotrópico , es decir, la escala de $ \ gamma $ ocurre la misma cantidad en todas las direcciones. Sin embargo, esto se puede generalizar fácilmente ajustando ligeramente el kernel RBF a $ K (x, y) = \ exp \ left (- (xy) «\ Gamma (xy) \ right) $ donde $ \ Gamma $ es un archivo psd matriz.

Otra propiedad del kernel RBF es que es infinitamente suave . Esto es estéticamente agradable , y algo satisfactorio visualmente, pero quizás no sea la propiedad más importante. Compare el kernel RBF con el kernel de Matern y verá que algunos kernels son un poco más irregulares.

La moraleja de la historia es que los métodos basados en el kernel son muy ricos, y con un poco de trabajo, es muy práctico desarrollar un kernel que se adapte a sus necesidades particulares. Pero si uno está usando un kernel RBF por defecto, tienen un punto de referencia razonable para comparar.

Respuesta

Creo que las buenas razones para usar el kernel RBF son que funcionan bien en la práctica y son relativamente fáciles de calibrar, a diferencia de otros núcleos.

El núcleo polinomial tiene tres parámetros (desplazamiento, escala, grado). El kernel RBF tiene un parámetro y hay buenas heurísticas para encontrarlo. Ver, por ejemplo: SVM rbf kernel – método heurístico para estimar gamma

La separabilidad lineal en el espacio de características puede no ser la razón. De hecho, es fácil, con un kernel gaussiano, hacer cumplir la separabilidad y una precisión perfecta en el conjunto de trenes (estableciendo $ \ gamma $ en un valor alto). Sin embargo, estos modelos tienen una generalización muy mala.

Edit.

Este breve video muestra la influencia del aumento del parámetro de ancho de banda en el límite de decisión.

Comentarios

Respuesta

Respuesta

Deja una respuesta Cancelar la respuesta