Ce înseamnă „de bază” în contextul învățării automate și a științei datelor?
Cineva mi-a scris:
Sugestie: o linie de bază adecvată va da un RMSE de aproximativ 200.
Eu nu „t obține asta. Vrea să spună că dacă modelul meu predictiv din datele de instruire are un RMSE sub 500, este bine?
Și ce ar putea fi o „abordare de bază”?
Răspuns
O linie de bază este rezultatul unui model / soluție foarte de bază. În general, creați o linie de bază și apoi încercați să faceți soluții mai complexe pentru a obține un rezultat mai bun. Dacă obțineți un scor mai bun decât linia de bază, este bine.
Comentarii
- bine, dar ce înseamnă asta exact pentru punctul meu de vedere? Pentru cele două ghilimele mele
- Deoarece linia de bază este 200, doriți un scor mai bun. În cazul dvs., un scor mai bun înseamnă cu cât este mai mic, cu atât mai bine. Doriți să ajungeți sub 200. Îmi ' m presupunând că aveți de-a face cu o regresie. Primul lucru de utilizat pentru o linie de bază ar fi o regresie obișnuită a celor mai mici pătrate.
Răspuns
O linie de bază este o metodă care utilizează euristică, statistici sumare simple, aleatoriu sau învățare automată pentru a crea predicții pentru un set de date. Puteți utiliza aceste predicții pentru a măsura performanța liniei de bază (de exemplu, acuratețea) – această valoare va deveni apoi comparată cu orice alt algoritm de învățare automată.
Mai detaliat:
Un algoritm de învățare automată încearcă să învețe o funcție care modelează relația dintre datele de intrare (caracteristică) și variabila țintă (sau eticheta). Când o testați, veți măsura de obicei performanța într-un fel sau altul. De exemplu, algoritmul dvs. poate fi 75% precis. Dar ce înseamnă acest lucru? Puteți deduce acest sens comparând cu performanța unei linii de bază.
Liniile de bază tipice includ cele acceptate de estimatori scikit-learn „s” dummy „:
Clasificare linii de bază:
- „stratificat”: generează predicții respectând distribuția clasei setului de antrenament.
- „most_frequent”: prezice întotdeauna cea mai frecventă etichetă din setul de antrenament.
- „anterior”: prezice întotdeauna clasul s care maximizează clasa anterioară.
- „uniform”: generează predicții uniform la întâmplare.
- „constantă”: prezice întotdeauna o etichetă constantă oferită de utilizator.
Acest lucru este util pentru valorile care evaluează o clasă care nu este majoritară.
Regresie linii de bază:
- „mediană”: prezice întotdeauna mediana setului de antrenament
- „cuantil”: prezice întotdeauna o cuantilă specificată a setului de antrenament, furnizată cu parametrul cuantil.
- „constantă”: prezice întotdeauna o valoare constantă furnizată de utilizator.
În general, veți dori ca abordarea dvs. să depășească liniile de bază selectate. În exemplul de mai sus, ați dori ca precizia de 75% să fie mai mare decât orice linie de bază pe care ați rulat-o pe aceleași date.
În cele din urmă, dacă aveți de-a face cu un domeniu specific de învățare automată (cum ar fi recomandarea sisteme), atunci veți alege în mod obișnuit linii de bază care sunt abordări actuale de ultimă generație (SoTA) – deoarece de obicei veți dori să demonstrați că abordarea dvs. funcționează mai bine decât acestea. De exemplu, în timp ce evaluați un nou algoritm de filtrare colaborativă, vă recomandăm să îl comparați cu factorizarea matricială – care în sine este un algoritm de învățare, dar este acum o linie de bază populară, deoarece a avut atât de mult succes în cercetarea sistemului de recomandare.
Răspuns
Deoarece avem mulți algoritmi de învățare automată, trebuie să știm care algoritm ML se potrivește cel mai bine pentru problema noastră. Acest lucru va fi identificat de algoritmul de predicție de bază,
Un algoritm de predicție de bază oferă un set de predicții pe care le puteți evalua așa cum ați face orice predicții pentru problema dvs., cum ar fi precizia clasificării sau RMSE.
Scorurile din acești algoritmi oferă punctul de comparație necesar atunci când evaluăm toți ceilalți algoritmi de învățare automată a problemei dvs.
pentru informații suplimentare avem un blog foarte bun pe ML: Ce înseamnă " linia de bază " în contextul învățării automate?