Co znamená „baseline“ v kontextu strojového učení a datové vědy?
Někdo mi napsal:
Tip: Vhodný základ poskytne RMSE přibližně 200.
Nebudu Myslí to tím, že pokud má můj prediktivní model na tréninkových datech RMSE pod 500, je to dobré?
A jaký by mohl být „základní přístup“?
Odpověď
Základna je výsledkem velmi základního modelu / řešení. Obecně vytvoříte základnu a poté se pokusíte vytvořit složitější řešení, abyste dosáhli lepšího výsledku. Pokud dosáhnete lepšího skóre než základní úroveň, je to dobré.
Komentáře
- no, ale co to přesně znamená pro můj názor? K mým dvěma citátům
- Protože výchozí hodnota je 200, chcete lepší skóre. Lepší skóre ve vašem případě znamená, čím nižší, tím lépe. Chcete se dostat pod 200. I ' m za předpokladu, že máte co do činění s regresí. První věcí, kterou lze použít pro základní linii, je obyčejná regrese nejmenších čtverců.
Odpověď
Základní linie je metoda, která k vytváření předpovědí pro datovou sadu využívá heuristiku, jednoduchou souhrnnou statistiku, náhodnost nebo strojové učení. Tyto předpovědi můžete použít k měření výkonu základní linie (např. Přesnosti) – tato metrika se poté stane tím, čím porovnáte jakýkoli jiný algoritmus strojového učení.
Podrobněji:
Algoritmus strojového učení se pokouší naučit funkci, která modeluje vztah mezi vstupními (vlastnostmi) daty a cílovou proměnnou (nebo štítkem). Když jej otestujete, budete obvykle měřit výkon tak či onak. Například váš algoritmus může být přesný na 75%. Co to ale znamená? Tento význam můžete odvodit porovnáním s výkonem základní linie.
Typické základní linie zahrnují ty, které podporuje scikit-learn „s“ fiktivní „odhady :
Klasifikace základní hodnoty:
- „stratifikovaný“: generuje předpovědi respektováním distribuce tříd tréninkové sady.
- „most_frequent“: vždy předpovídá nejběžnější označení v tréninkové sadě.
- „prior“: vždy předpovídá třídu s, který maximalizuje třídu před.
- „uniformní“: generuje předpovědi rovnoměrně náhodně.
- „konstantní“: vždy předpovídá konstantní štítek, který poskytuje uživatel.
To je užitečné pro metriky, které vyhodnocují třídu, která není většinovou.
- „medián“: vždy předpovídá medián tréninkové sady
- „kvantil“: vždy předpovídá specifikovaný kvantil tréninkové sady s parametrem kvantilu.
- „konstantní“: vždy předpovídá konstantní hodnotu, kterou poskytuje uživatel.
Obecně budete chtít, aby váš přístup překonal základní linie, které jste vybrali. Ve výše uvedeném příkladu byste chtěli, aby vaše 75% přesnost byla vyšší než jakákoli základní úroveň, kterou jste spustili na stejných datech.
Nakonec, pokud máte co do činění se specifickou doménou strojového učení (například doporučujícím) systémy), pak si obvykle vyberete základní linie, které jsou aktuálními nejmodernějšími přístupy (SoTA) – protože obvykle budete chtít prokázat, že váš přístup funguje lépe než tyto. Například když hodnotíte nový algoritmus pro filtrování spolupráce, můžete jej porovnat s maticovou faktorizací – což je samo o sobě učící se algoritmus, ale nyní je populární základnou, protože byl tak úspěšný při doporučování výzkumu systému.
Odpověď
Protože máme mnoho algoritmů strojového učení, musíme vědět, který ML algoritmus nejlépe vyhovuje našemu problému. Toto bude identifikováno algoritmem Predikce základní úrovně,
Algoritmus predikce základní úrovně poskytuje sadu předpovědí, které můžete vyhodnotit stejně jako jakékoli předpovědi pro váš problém, například přesnost klasifikace nebo RMSE.
Skóre z těchto algoritmů poskytují požadovaný bod srovnání při hodnocení všech ostatních algoritmů strojového učení týkajících se vašeho problému.
Pro další informace máme velmi dobrý blog o ML: Co znamená " základní linie " v kontextu strojového učení?