Hva betyr “ baseline ” i sammenheng med maskinlæring?

Hva betyr «baseline» i sammenheng med maskinlæring og datavitenskap?

Noen skrev til meg:

Tips: En passende grunnlinje vil gi en RMSE på omtrent 200.

Jeg har ikke t får dette. Mener han at hvis den prediktive modellen min på treningsdataene har en RMSE under 500, er det bra?

Og hva kan være en «baseline approach»?

Svar

En grunnlinje er resultatet av en veldig grunnleggende modell / løsning. Du oppretter vanligvis en grunnlinje og prøver deretter å lage mer komplekse løsninger for å få et bedre resultat. Hvis du oppnår en bedre poengsum enn utgangspunktet, er det bra.

Kommentarer

  • vel, men hva betyr det akkurat for mitt poeng? For mine to sitater
  • Siden grunnlinjen er 200, vil du ha en bedre poengsum. I ditt tilfelle betyr en bedre score jo lavere jo bedre. Du vil komme under 200. Jeg ' antar at du har å gjøre med en regresjon. Det første du skal bruke for en grunnlinje, vil være en vanlig regresjon med minste kvadrat.

Svar

En grunnlinje er en metode som bruker heuristikk, enkel oppsummeringsstatistikk, tilfeldighet eller maskinlæring for å lage spådommer for et datasett. Du kan bruke disse spådommene til å måle ytelsen til grunnlinjen (f.eks. Nøyaktighet) – denne beregningen blir da det du sammenligner enhver annen maskinlæringsalgoritme mot.

Mer detaljert:

En maskinlæringsalgoritme prøver å lære en funksjon som modellerer forholdet mellom inngangsdata (funksjonsdata) og målvariabelen (eller etiketten). Når du tester den, måler du vanligvis ytelsen på en eller annen måte. For eksempel algoritmen din kan være 75% nøyaktig. Men hva betyr dette? Du kan utlede denne betydningen ved å sammenligne ytelsen til grunnlinjen.

Typiske grunnlinjer inkluderer de som støttes av scikit-learn «s» dummy «estimatorer :

Klassifisering grunnlinjer:

  • “stratifisert”: genererer spådommer ved å respektere treningssettets klassedistribusjon.
  • “most_frequent”: forutsier alltid den hyppigste etiketten i treningssettet.
  • “prior”: spår alltid clas s som maksimerer klassen før.
  • “uniform”: genererer spådommer jevnt tilfeldig.
  • “konstant”: forutsier alltid en konstant etikett som leveres av brukeren.

Dette er nyttig for beregninger som vurderer en ikke-majoritetsklasse.

Regresjon grunnlinjer:

  • “median”: Forutsier alltid medianen til treningssettet
  • “kvantil”: Forutsier alltid en spesifisert kvantil av treningssettet, utstyrt med kvantilparameteren.
  • “konstant”: Forutsier alltid en konstant verdi som blir gitt av brukeren.

Generelt vil du at tilnærmingen din skal overgå de grunnleggende linjene du har valgt. I eksemplet ovenfor vil du at 75% nøyaktighet skal være høyere enn noen grunnlinje du har kjørt på de samme dataene.

Til slutt, hvis du har å gjøre med et bestemt domene for maskinlæring (for eksempel anbefaler systemer), så vil du vanligvis velge grunnlinjer som er gjeldende state-of-the-art (SoTA) tilnærminger – siden du vanligvis vil ønske å demonstrere at din tilnærming gjør det bedre enn disse. For eksempel, mens du evaluerer en ny samarbeidsfiltreringsalgoritme, vil du kanskje sammenligne den med matrisefaktorisering – som i seg selv er en læringsalgoritme, men nå er en populær grunnlinje siden den har vært så vellykket i anbefaling av systemforskning.

Svar

Ettersom vi har mange maskinlæringsalgoritmer, må vi vite hvilken ML-algoritme som passer best for vårt problem. Dette vil bli identifisert av baseline prediksjonsalgoritme,

En algoritme for baseline prediksjon gir et sett med spådommer som du kan evaluere som du ville spådd for ditt problem, for eksempel klassifiseringsnøyaktighet eller RMSE.

Resultatene fra disse algoritmene gir det nødvendige sammenligningspunktet når du vurderer alle andre maskinlæringsalgoritmer på problemet ditt.

for ytterligere informasjon har vi en veldig god blogg på ML: Hva betyr " baseline " i sammenheng med maskinlæring?

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *