Hvad betyder “ baseline ” i forbindelse med maskinindlæring?

Hvad betyder “baseline” i forbindelse med maskinlæring og datalogi?

Nogen skrev til mig:

Tip: En passende baseline giver en RMSE på ca. 200.

Jeg har ikke t forstå dette. Mener han, at hvis min forudsigende model på træningsdataene har en RMSE under 500, er det godt?

Og hvad kan en “baseline tilgang” være?

Svar

En baseline er resultatet af en meget grundlæggende model / løsning. Du opretter generelt en basislinje og prøver derefter at lave mere komplekse løsninger for at få et bedre resultat. Hvis du opnår en bedre score end basislinjen, er den god.

Kommentarer

  • godt, men hvad betyder det præcist for mit punkt? For mine to citater
  • Da basislinjen er 200, vil du have en bedre score. I dit tilfælde betyder en bedre score, jo lavere jo bedre. Du vil komme under 200. Jeg ' antager, at du har at gøre med en regression. Den første ting, der skal bruges til en baseline, ville være en almindelig mindste kvadraters regression.

Svar

En baseline er en metode, der bruger heuristik, enkel oversigtsstatistik, tilfældighed eller maskinindlæring til at skabe forudsigelser for et datasæt. Du kan bruge disse forudsigelser til at måle basislinjens ydeevne (f.eks. Nøjagtighed) – denne metric bliver derefter, hvad du sammenligner enhver anden maskinlæringsalgoritme mod.

Mere detaljeret:

En maskinlæringsalgoritme forsøger at lære en funktion, der modellerer forholdet mellem inputdata (funktionsdata) og målvariablen (eller etiketten). Når du tester den, måler du typisk ydeevne på en eller anden måde. For eksempel din algoritme kan være 75% nøjagtig. Men hvad betyder dette? Du kan udlede denne betydning ved at sammenligne med en basislinjes ydeevne.

Typiske basislinjer inkluderer dem, der understøttes af scikit-learn “s” dummy “estimatorer :

Klassificering basislinjer:

  • “stratificeret”: genererer forudsigelser ved at respektere træningssættets klassefordeling.
  • “mest_frekvent”: forudsiger altid den hyppigste etiket i træningssættet.
  • “prior”: forudsiger altid clas s, der maksimerer klassen før.
  • “ensartet”: genererer forudsigelser ensartet tilfældigt.
  • “konstant”: forudsiger altid en konstant etiket, der leveres af brugeren.

Dette er nyttigt for metrics, der vurderer en ikke-majoritetsklasse.

Regression grundlinjer:

  • “median”: forudsiger altid medianen af træningssættet
  • “kvantil”: forudsiger altid en specificeret kvantil af træningssættet forsynet med kvantilparameteren.
  • “konstant”: forudsiger altid en konstant værdi, der leveres af brugeren.

Generelt vil du have, at din tilgang overgår de basislinjer, du har valgt. I eksemplet ovenfor ønsker du, at din nøjagtighed på 75% skal være højere end enhver baseline, du har kørt på de samme data.

Endelig, hvis du har at gøre med et specifikt domæne inden for maskinindlæring (såsom anbefaler systemer), så vælger du typisk basislinjer, der er aktuelle state-of-the-art (SoTA) -tilgange – da du normalt vil demonstrere, at din tilgang klarer sig bedre end disse. For eksempel, mens du evaluerer en ny samarbejdsfiltreringsalgoritme, vil du muligvis sammenligne den med matrixfaktorisering – som i sig selv er en læringsalgoritme, men nu er en populær grundlinje, da den har været så succesrig med systemanalyser til anbefaling. >

Svar

Da vi har mange maskinlæringsalgoritmer, er vi nødt til at vide, hvilken ML-algoritme der passer bedst til vores problem. Dette identificeres ved hjælp af baseline-forudsigelsesalgoritme,

En baseline-forudsigelsesalgoritme giver et sæt forudsigelser, som du kan evaluere, som du ville have forudsigelser for dit problem, såsom klassifikationsnøjagtighed eller RMSE.

Scorerne fra disse algoritmer giver det krævede sammenligningspunkt, når man evaluerer alle andre maskinlæringsalgoritmer på dit problem.

For yderligere information har vi en meget god blog på ML: Hvad betyder " baseline " i forbindelse med maskinindlæring?

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *