Mit jelent az “alapvonal” a gépi tanulás és az adattudomány összefüggésében?
Valaki írt nekem:
Tipp: Egy megfelelő kiindulási érték hozzávetőlegesen 200 RMSE-értéket ad.
Nem “t” Arra gondol, hogy ha az edzésadatokra vonatkozó prediktív modellem RMSE értéke 500 alatt van, akkor az jó?
És mi lehet az “alapszintű megközelítés”?
Válasz
Az alapvonal egy nagyon alapos modell / megoldás eredménye. Általában létrehoz egy alapvonalat, majd megpróbál összetettebb megoldásokat készíteni a jobb eredmény elérése érdekében. Ha az alapvonalnál jobb pontszámot érsz el, akkor az jó.
Megjegyzések
- jól, de mit jelent ez pontosan az én véleményem szempontjából? Két idézetemhez
- Mivel az alapvonal 200, jobb pontszámot szeretne. Az Ön esetében a jobb pontszám azt jelenti, hogy minél alacsonyabb, annál jobb. 200 alá akarsz kerülni. I ' m feltételezve, hogy regresszióval van dolgod. Az alapvonallal kapcsolatban először a normál legkisebb négyzetek regresszióját kell használni.
Válasz
Az alapvonal olyan módszer, amely heurisztikát, egyszerű összefoglaló statisztikákat, véletlenszerűséget vagy gépi tanulást használ az előrejelzések létrehozására egy adatkészlet számára. Ezekkel a jóslatokkal mérheti az alap teljesítményét (pl. Pontosság) – ez a mutató akkor válik azzá, amellyel összehasonlítja bármely más gépi tanulási algoritmust.
További részletek:
A gépi tanulási algoritmus megpróbál megtanulni egy olyan függvényt, amely modellezi a bemeneti (jellemző) adatok és a célváltozó (vagy címke) kapcsolatát. Amikor teszteli, jellemzően ilyen vagy olyan módon méri a teljesítményt. Például algoritmusa 75% -ban pontos lehet. De mit jelent ez? Ezt a jelentést kikövetkeztetheti az összehasonlítással az alapvonal teljesítményével.
A tipikus alapvonalak közé tartoznak azok, amelyeket scikit-learn “s” dummy “becslők :
Besorolás alapvonalak:
- „rétegzett”: előrejelzéseket generál az edzéskészlet osztályeloszlásának tiszteletben tartásával.
- „leggyakrabban”: mindig megjósolja a gyakoriság leggyakoribb címkéjét.
- „előzetes”: mindig megjósolja a klasszist s amelyek maximalizálják az osztályelőzményeket.
- „egyenletes”: véletlenszerűen egységesen generál előrejelzéseket.
- „állandó”: mindig megjósol egy állandó címkét, amelyet a felhasználó biztosít.
Ez olyan mutatóknál hasznos, amelyek egy nem többségi osztályt értékelnek.
Regresszió alapvonalak:
- „medián”: mindig megjósolja az edzéskészlet mediánját.
- „kvantilis”: mindig megjósolja az edzéskészlet egy meghatározott kvantilját, amelyet a kvantilis paraméter ad meg.
- „konstans”: mindig megjósol egy állandó értéket, amelyet a felhasználó ad meg.
Általában azt szeretné, ha megközelítése felülmúlná a kiválasztott alapvonalakat. A fenti példában azt szeretné, ha a 75% -os pontossága magasabb lenne, mint bármely ugyanazon adatokon futtatott alapvonal.
Végül, ha a gépi tanulás egy meghatározott területével foglalkozik (például ajánlóval) rendszerek), akkor általában az alapvonalakat választja, amelyek a legkorszerűbb (SoTA) megközelítések – mivel általában be akarja mutatni, hogy a megközelítése jobb, mint ezek. Például, miközben értékel egy új együttműködési szűrési algoritmust, érdemes összehasonlítani azt a mátrixfaktorizációval – ami maga is egy tanulási algoritmus, de ma már népszerű kiindulópont, mivel annyira sikeres az ajánló rendszerkutatásban.
Válasz
Mivel sok gépi tanulási algoritmussal rendelkezünk, tudnunk kell, hogy melyik ML algoritmus felel meg a problémánknak a legjobban. Ezt az Baseline Prediction algoritmus fogja azonosítani.
Az alapvonal predikciós algoritmus olyan előrejelzéseket tartalmaz, amelyeket ki lehet értékelni, akárcsak a problémára vonatkozó bármilyen előrejelzést, például osztályozási pontosságot vagy RMSE-t.
Ezeknek az algoritmusoknak a pontszáma biztosítja a szükséges összehasonlítási pontot az összes többi gépi tanulási algoritmus kiértékelésekor.
További információkért nagyon jó blogunk van az ML-en: Mit jelent a " alapvonal " a gépi tanulás kontextusában?