Ho imparato che a causa dellespansione in serie infinita della funzione esponenziale, il kernel a base radiale progetta lo spazio delle caratteristiche di input in uno spazio delle caratteristiche infinite. È per questo che usiamo spesso questo kernel in SVM.? La proiezione nello spazio dimensionale infinito rende sempre i dati separabili linearmente.?
Commenti
- forse questo può aiutare: stats.stackexchange.com/questions/80398/…
- In realtà devi aggiungere +1 dimensione per creare due classi qualsiasi dati separabili.
- consulta stats.stackexchange.com/questions/131138/… per spiegazione intuitiva
Risposta
RUser4512 ha dato la risposta corretta: il kernel RBF funziona bene in pratica ed è relativamente facile sintonizzare. È lequivalente SVM di “nessuno” è mai stato licenziato per stimare una regressione OLS: “è accettato come un metodo predefinito ragionevole. Chiaramente OLS non è perfetto in ogni (o anche molti) scenari, ma” è un metodo ben studiato e ampiamente compreso. Allo stesso modo, il kernel RBF è ben studiato e ampiamente compreso e molti pacchetti SVM lo includono come metodo predefinito.
Ma il kernel RBF ha una serie di altri proprietà. In questo tipo di domande, quando qualcuno chiede “perché facciamo le cose in questo modo”, penso che sia importante tracciare anche contrasti con altri metodi per sviluppare il contesto.
È un kernel stazionario , il che significa che è invariante alla traduzione. Supponiamo che tu stia calcolando $ K (x, y). $ Un kernel stazionario produrrà lo stesso valore $ K (x, y) $ per $ K (x + c, y + c) $, dove $ c $ può essere vettore -valutato di dimensione per abbinare gli input. Per lRBF, ciò si ottiene lavorando sulla differenza dei due vettori. Per contrasto, nota che il kernel lineare non ha la proprietà stazionarietà.
La versione a parametro singolo del kernel RBF ha la proprietà che è isotropica , ovvero il ridimensionamento di $ \ gamma $ si verifica nella stessa quantità in tutte le direzioni. Questo può essere facilmente generalizzato, tuttavia, modificando leggermente il kernel RBF in $ K (x, y) = \ exp \ left (- (xy) “\ Gamma (xy) \ right) $ dove $ \ Gamma $ è un psd matrice.
Unaltra proprietà del kernel RBF è che è infinitamente smooth . Questo è esteticamente gradevole , e in qualche modo soddisfacente visivamente, ma forse non è la proprietà più importante Confronta il kernel RBF con il kernel Matern e vedrai che alcuni kernel sono un po più frastagliati!
La morale di la storia è che i metodi basati sul kernel sono molto ricchi e, con un po di lavoro, è molto pratico sviluppare un kernel adatto alle tue esigenze particolari. Ma se uno usa un kernel RBF come predefinito, lo farai avere un benchmark ragionevole per il confronto.
Risposta
Penso che le buone ragioni per usare il kernel RBF siano che funzionano bene nella pratica e sono relativamente facili da calibrare, a differenza di altri kernel.
Il kernel polinomiale ha tre parametri (offset, ridimensionamento, grado). Il kernel RBF ha un parametro e ci sono buone euristiche per trovarlo. Vedi, per esempio: SVM rbf kernel – metodo euristico per stimare gamma
La separabilità lineare nello spazio delle caratteristiche potrebbe non essere il motivo. In effetti, è facile, con un kernel gaussiano, imporre la separabilità e una precisione perfetta sul set di treni (impostando $ \ gamma $ su un valore grande). Tuttavia, questi modelli hanno una pessima generalizzazione.
Modifica.
Questo breve video mostra linfluenza dellaumento del parametro di larghezza di banda sul confine decisionale.