Co oznacza „podstawa” w kontekście uczenia maszynowego i nauki o danych?
Ktoś do mnie napisał:
Wskazówka: odpowiednia linia bazowa zapewni RMSE około 200.
Nie Czy on ma na myśli, że jeśli mój model predykcyjny na danych uczących ma RMSE poniżej 500, to dobrze?
A co mogłoby być „podejściem podstawowym”?
Odpowiedź
Linia bazowa jest wynikiem bardzo podstawowego modelu / rozwiązania. Generalnie tworzysz punkt odniesienia, a następnie próbujesz stworzyć bardziej złożone rozwiązania, aby uzyskać lepszy wynik. Jeśli osiągniesz lepszy wynik niż punkt odniesienia, to dobrze.
Komentarze
- Cóż, ale co to dokładnie oznacza dla mojego punktu? Moje dwa cudzysłowy
- Ponieważ linia bazowa to 200, chcesz uzyskać lepszy wynik. W twoim przypadku lepszy wynik oznacza, że im niższy, tym lepiej. Chcesz zejść poniżej 200. ' m zakładam, że masz do czynienia z regresją. Pierwszą rzeczą, której należy użyć w przypadku linii bazowej, byłaby zwykła regresja metodą najmniejszych kwadratów.
Odpowiedź
Linia bazowa to metoda wykorzystująca heurystykę, proste statystyki podsumowujące, losowość lub uczenie maszynowe do tworzenia prognoz dla zbioru danych. Możesz użyć tych prognoz do pomiaru wydajności linii bazowej (np. Dokładności) – te dane staną się wtedy tym, z czym porównujesz każdy inny algorytm uczenia maszynowego.
Bardziej szczegółowo:
Algorytm uczenia maszynowego próbuje nauczyć się funkcji, która modeluje relację między danymi wejściowymi (cechami) a zmienną docelową (lub etykietą). Podczas testowania zazwyczaj mierzy się wydajność w taki czy inny sposób. Na przykład, Twój algorytm może być dokładny w 75%. Ale co to oznacza? Możesz wywnioskować to znaczenie, porównując z wydajnością linii bazowej.
Typowe poziomy bazowe obejmują te obsługiwane przez scikit-learn „s” fałszywe „estymatory :
Klasyfikacja linie bazowe:
- „stratyfikowany”: generuje prognozy, przestrzegając rozkładu klas zbioru uczącego.
- „most_frequent”: zawsze przewiduje najczęstszą etykietę w zbiorze uczącym.
- „poprzedni”: zawsze przewiduje klasy s, która maksymalizuje poprzednią klasę.
- „uniform”: generuje prognozy równomiernie i losowo.
- „stała”: zawsze przewiduje stałą etykietę dostarczaną przez użytkownika.
Jest to przydatne w przypadku wskaźników oceniających klasę niebędącą większością.
Regresja wartości bazowe:
- „mediana”: zawsze przewiduje medianę zbioru uczącego
- „kwantyl”: zawsze przewiduje określony kwantyl zbioru uczącego, zaopatrzony w parametr kwanylu.
- „stała”: zawsze przewiduje stałą wartość dostarczaną przez użytkownika.
Ogólnie rzecz biorąc, chcesz, aby Twoje podejście było lepsze od wybranych przez Ciebie linii bazowych. W powyższym przykładzie chciałbyś, aby Twoja 75% dokładność była wyższa niż jakakolwiek linia bazowa, którą przeprowadziłeś dla tych samych danych.
Wreszcie, jeśli masz do czynienia z określoną domeną uczenia maszynowego (np. systemy), wtedy zazwyczaj wybierasz linie bazowe, które są najnowocześniejszymi podejściami (SoTA) – ponieważ zazwyczaj będziesz chciał wykazać, że twoje podejście jest lepsze od tych. Na przykład, podczas oceny nowego algorytmu filtrowania opartego na współpracy, możesz chcieć porównać go do faktoryzacji macierzy – która sama w sobie jest algorytmem uczącym się, ale jest teraz popularną podstawą, ponieważ odniosła tak duży sukces w badaniach systemów rekomendujących.
Odpowiedź
Ponieważ mamy wiele algorytmów uczenia maszynowego, musimy wiedzieć, który algorytm ML najlepiej pasuje do naszego problemu. Zostanie to zidentyfikowane przez algorytm przewidywania linii bazowej,
Algorytm przewidywania linii bazowej zapewnia zestaw prognoz, które można ocenić tak, jak wszelkie przewidywania dotyczące problemu, takie jak dokładność klasyfikacji lub RMSE.
Wyniki z tych algorytmów zapewniają wymagany punkt porównania podczas oceny wszystkich innych algorytmów uczenia maszynowego w Twoim problemie.
Aby uzyskać więcej informacji, mamy bardzo dobry blog na temat ML: Co oznacza " poziom podstawowy " w kontekście uczenia maszynowego?