Co je regularizace v obyčejné angličtině?

Na rozdíl od jiných článků jsem našel položku wikipedia pro toto téma nečitelnou pro – matematik (jako já).

Pochopil jsem základní myšlenku, že dáváte přednost modelům s méně pravidly. To, co nezískám, je to, jak se dostanete od sady pravidel k „regularizačnímu skóre“, které můžete použít k seřazení modelů od nejméně po většinu.

Můžete popsat jednoduchou regularizační metodu ?

Zajímám se o kontext analýzy statistických obchodních systémů. Bylo by skvělé, kdybyste mohli popsat, zda / jak mohu použít regularizaci k analýze následujících dvou prediktivních modelů:

Model 1 – cena stoupá, když:

  • exp_moving_avg ( cena, období = 50)> exp_moving_avg (cena, období = 200)

Model 2 – cena stoupá, když:

  • cena [n] < cena [n-1] 10krát za sebou
  • exp_moving_avg (cena, období = 200) stoupá

Ale Více mě zajímá, jak děláte regularizaci. Pokud tedy znáte lepší modely pro její vysvětlení, udělejte to.

Komentáře

  • Příkladem je hřebenová regrese, což je OLS s vazbou na součet čtvercových koeficientů. Tím se do modelu vloží zkreslení, ale někdy se podstatně sníží rozptyl koeficientů. LASSO je další související metoda, ale dá L1 omezení velikosti koeficientů. Výhodou je snižování koeficientů. To je užitečné pro p > n situací Regularizace svým způsobem znamená “ zmenšování “ model, aby nedocházelo k přílišnému přizpůsobení (a aby se snížila odchylka koeficientu), což obvykle zlepšuje prediktivní výkon modelu ‚.
  • @HairyBeast Měli byste napište svůj milý komentář jako odpověď. Pokud je to možné, zkuste přidat ilustrativní příklad, aby OP mohl zjistit, jak se překládá k danému problému.
  • @HairyBeast, takže mohu říci, že regularizace je jen metoda implementace myšlenky kompromis bias-variance ?
  • Považoval jsem toto video za velmi užitečné, zejména při vizualizaci různých forem regularizace Lp: youtube. com / watch? v = sO4ZirJh9ds
  • Regularizace je určena k řešení overfit v modelu, který se naučíte. Snažil jsem se vysvětlit čistou angličtinou a vizuálně. Následuje odkaz na článek medium.com/@vamsi149/…

Odpověď

Jednoduše řečeno, regularizace je vyladění nebo výběr preferované úrovně složitosti modelu, aby vaše modely lépe předpovídaly (zobecňovaly). Pokud to neuděláte, vaše modely mohou být příliš složité a nadměrné nebo příliš jednoduché a nedostatečné, ať už dáváte špatné předpovědi.

Pokud nejmenší čtverce vejdou složitý model do malé sady tréninkových dat pravděpodobně přeplníte, jedná se o nejběžnější situaci. Optimální složitost modelu závisí na druhu procesu, který modelujete, a na kvalitě dat, takže neexistuje a-a priori správná složitost modelu.

K regularizaci potřebujete dvě věci:

  1. Způsob testování toho, jak dobré jsou vaše modely v predikci, například pomocí křížové validace nebo sady ověřovacích dat (vy k tomu nelze použít chybu přizpůsobení ).
  2. Ladicí parametr, který umožňuje změnit složitost nebo plynulost modelu nebo výběr modelů s různou složitostí / hladkostí.

V zásadě upravíte parametr složitosti (nebo změníte model) a najdete hodnotu, která poskytuje nejlepší předpovědi modelu.

Všimněte si, že optimalizovaná chyba regularizace nebude přesným odhadem celkové predikce. chyba, takže po regularizaci budete konečně muset použít další datový soubor pro ověření nebo provést nějakou další statistickou analýzu, abyste získali nestrannou chybu predikce.

Alternativou k použití (křížového) ověření je použití Bayesian Priors nebo jiné metody k potrestání složitosti nebo nehladkosti, které však vyžadují větší statistickou propracovanost a znalost problému a modelových funkcí.

Komentáře

  • +1 ode mě. Líbí se mi, že tato odpověď začíná na začátku a je tak snadno pochopitelná …
  • Je regularizace skutečně někdy použita ke snížení nedostatečného vybavení? Podle mých zkušeností se regularizace aplikuje na komplexní / citlivý model ke snížení složitosti / citlivosti, ale nikdy na jednoduchý / necitlivý model ke zvýšení složitosti / citlivosti.
  • Tato odpověď je nyní docela stará, ale předpokládám, že Toby měl na mysli, že regularizace je principiální způsob, jak přizpůsobit model odpovídající složitosti vzhledem k množství dat; je to alternativa jak k výběru a priori modelu s příliš malým počtem parametrů (nebo nesprávných), tak také k výběru modelu, který je příliš složitý a převyšuje.

Odpověď

Předpokládejme, že provádíte učení pomocí empirické minimalizace rizik.

Přesněji:

  • máte nezápornou ztrátu $ L (\ text {skutečná hodnota}, \ text {predikovaná hodnota}) $, která charakterizuje jak špatné jsou vaše předpovědi
  • chcete svůj model přizpůsobit takovým způsobem, aby jeho předpovědi minimalizovaly funkci střední ztráty, počítanou pouze z tréninkových dat (jediná data, která máte)

Cílem procesu učení je pak najít $ \ text {Model} = \ text {argmin} \ sum L (\ text {actual}, \ text {predikovaný} (\ text {Model})) $ (tento metoda se nazývá empirická minimalizace rizik).

Pokud ale nemáte dostatek dat a ve vašem modelu je obrovské množství proměnných, je velmi pravděpodobné, že najdete takový model, který nejen vysvětlí vzorce ale také vysvětluje náhodný šum ve vašich datech. Tento efekt se nazývá overfitting a vede k degradaci generalizační schopnosti vašeho modelu.

Aby se zabránilo nadměrnému použití, je do cílové funkce zaveden regularizační výraz: $ \ text {Model} = \ text {argmin} \ součet L (\ text {actua l}, \ text {predikovaný} (\ text {Model})) + \ lambda R (\ text {Model}) $

Obvykle tento výraz $ R (\ text {Model}) $ ukládá speciální trest pro složité modely. Například na modelech s velkými koeficienty (regularizace L2, $ R $ = součet čtverců koeficientů) nebo se spoustou, pokud jsou nenulové koeficienty (regularizace L1, $ R $ = součet absolutních hodnot koeficientů). Pokud trénujeme rozhodovací strom, může být $ R $ jeho hloubkou.

Dalším hlediskem je, že $ R $ zavádí naše předchozí znalosti o formě nejlepšího modelu („také nemá“ velké koeficienty „,“ je téměř ortogonální vůči $ \ bar a $ „)

Odpověď

Zjednodušeně řečeno, regularizace jde o prospěch z řešení, která byste očekávali. Jak jste zmínili, můžete například využít „jednoduchá“ řešení pro určitou definici jednoduchosti. Pokud váš problém má pravidla, jednou definicí může být méně pravidel. Ale to je závislé na problému.

Ptáte se však na správnou otázku. Například v Support Vector Machines tato „jednoduchost“ pochází z přetržení vazeb ve směru „maximální marže“. něco, co lze jasně definovat z hlediska problému. V článku SVM na Wikipedii je velmi dobrá geometrická derivace. Ukazuje se, že regularizační termín je , přinejmenším pravděpodobně „tajná omáčka“ SVM.

Jak provádíte regularizaci? Obecně se jedná o metodu, kterou používáte, pokud používáte SVM, děláte regularizaci L2, pokud používáte LASSO děláte regularizaci L1 (podívejte se, co říká hairybeast). Pokud však vyvíjíte vlastní metodu, musíte vědět, jak poznat žádoucí řešení od nežádoucích a mají funkci, která to kvantifikuje. Nakonec budete mít termín nákladů a termín pro regularizaci a chcete optimalizovat součet obou.

Odpovědět

Regularizační techniky jsou techniky aplikované na modely strojového učení, díky nimž je hranice rozhodnutí / přizpůsobený model plynulejší. Tyto techniky pomáhají předcházet nadměrnému vybavení.

Příklady: L1, L2, Dropout, úbytek hmotnosti v neuronových sítích. $ C $ v SVM.

Odpověď

Zjednodušeně řečeno, Regularizace je technika, která se při trénování strojového učení vyhne přesile. Pokud máte algoritmus s dostatkem volných parametrů, můžete svůj vzorek interpolovat s velmi podrobnými údaji, ale příklady přicházející mimo vzorek nemusí tuto podrobnou interpolaci sledovat, protože namísto skutečného trendu zachytil pouze šum nebo náhodné nepravidelnosti ve vzorku.

Přeplnění se zabrání omezením absolutní hodnoty parametrů v modelu. Toho lze dosáhnout přidáním výrazu do nákladová funkce, která ukládá pokutu na základě velikosti parametrů modelu. Pokud se velikost měří v normě L1, nazývá se to „regularizace L1“ (a obvykle vede k řídkým modelům), pokud se měří v normě L2, nazývá se to „regularizace L2“ atd.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *