Was bedeutet „Baseline“ im Kontext von maschinellem Lernen und Datenwissenschaft?
Jemand hat mir geschrieben:
Hinweis: Eine geeignete Basislinie ergibt einen RMSE von ungefähr 200.
Ich nicht Erhält das. Bedeutet er, dass es gut ist, wenn mein Vorhersagemodell für die Trainingsdaten einen RMSE unter 500 hat?
Und was könnte ein „Basisansatz“ sein?
Antwort
Eine Basislinie ist das Ergebnis eines sehr einfachen Modells / einer sehr einfachen Lösung. Sie erstellen im Allgemeinen eine Basislinie und versuchen dann, komplexere Lösungen zu finden, um ein besseres Ergebnis zu erzielen. Wenn Sie eine bessere Punktzahl als die Grundlinie erzielen, ist dies gut.
Kommentare
- Nun, aber was bedeutet das genau für meinen Punkt? Für meine beiden Zitate
- Da die Basislinie 200 ist, möchten Sie eine bessere Punktzahl. In Ihrem Fall bedeutet eine bessere Punktzahl, je niedriger desto besser. Sie möchten unter 200 kommen. Ich ' gehe davon aus, dass es sich um eine Regression handelt. Das erste, was für eine Basislinie verwendet werden muss, ist eine gewöhnliche Regression der kleinsten Quadrate.
Antwort
Eine Basislinie ist Eine Methode, die Heuristiken, einfache zusammenfassende Statistiken, Zufälligkeit oder maschinelles Lernen verwendet, um Vorhersagen für einen Datensatz zu erstellen. Sie können diese Vorhersagen verwenden, um die Leistung der Basislinie (z. B. Genauigkeit) zu messen. Diese Metrik wird dann zu dem, mit dem Sie jeden anderen Algorithmus für maschinelles Lernen vergleichen.
Im Detail:
Ein Algorithmus für maschinelles Lernen versucht, eine Funktion zu lernen, die die Beziehung zwischen den Eingabedaten (Feature-Daten) und der Zielvariablen (oder Beschriftung) modelliert. Wenn Sie sie testen, messen Sie die Leistung normalerweise auf die eine oder andere Weise. Ihr Algorithmus ist möglicherweise zu 75% genau. Aber was bedeutet das? Sie können diese Bedeutung durch Vergleich mit der Leistung einer Baseline ableiten.
Typische Baselines sind diejenigen, die von scikit-learn „s“ Dummy „-Schätzer :
Klassifizierung Basislinien:
- „geschichtet“: Erzeugt Vorhersagen unter Berücksichtigung der Klassenverteilung des Trainingssatzes.
- „am häufigsten“: Prognostiziert immer die häufigste Bezeichnung im Trainingssatz.
- „vor“: sagt immer die Klassen voraus s, das die vorherige Klasse maximiert.
- „einheitlich“: Erzeugt Vorhersagen gleichmäßig zufällig.
- „konstant“: Sagt immer eine vom Benutzer bereitgestellte konstante Bezeichnung voraus.
Dies ist nützlich für Metriken, die eine Nicht-Mehrheitsklasse auswerten.
Regression Baselines:
- „Median“: sagt immer den Median des Trainingssatzes voraus
- „Quantil“: sagt immer ein bestimmtes Quantil des Trainingssatzes voraus, das mit dem Quantilparameter versehen ist.
- „Konstante“: Sagt immer einen konstanten Wert voraus, der vom Benutzer bereitgestellt wird.
Im Allgemeinen möchten Sie, dass Ihr Ansatz die von Ihnen ausgewählten Basislinien übertrifft. Im obigen Beispiel möchten Sie, dass Ihre Genauigkeit von 75% höher ist als jede Basislinie, die Sie mit denselben Daten ausgeführt haben.
Wenn Sie sich schließlich mit einem bestimmten Bereich des maschinellen Lernens befassen (z. B. Empfehlung) Systeme), dann wählen Sie in der Regel Baselines aus, bei denen es sich um aktuelle SoTA-Ansätze handelt, da Sie in der Regel nachweisen möchten, dass Ihr Ansatz besser ist als diese. Wenn Sie beispielsweise einen neuen kollaborativen Filteralgorithmus evaluieren, möchten Sie ihn möglicherweise mit der Matrixfaktorisierung vergleichen – die selbst ein Lernalgorithmus ist, aber jetzt eine beliebte Basis ist, da sie in der Empfehlungssystemforschung so erfolgreich war. P. >
Antwort
Da wir viele Algorithmen für maschinelles Lernen haben, müssen wir wissen, welcher ML-Algorithmus für unser Problem am besten geeignet ist. Dies wird durch den Baseline-Vorhersagealgorithmus identifiziert.
Ein Baseline-Vorhersagealgorithmus bietet eine Reihe von Vorhersagen, die Sie wie alle Vorhersagen für Ihr Problem auswerten können, z. B. Klassifizierungsgenauigkeit oder RMSE.
Die Ergebnisse dieser Algorithmen bieten den erforderlichen Vergleichspunkt bei der Bewertung aller anderen Algorithmen für maschinelles Lernen zu Ihrem Problem.
Für weitere Informationen haben wir einen sehr guten Blog zu ML: Was bedeutet " Baseline " im Kontext des maschinellen Lernens?