Hvad er regulering på almindeligt engelsk?

I modsætning til andre artikler fandt jeg wikipedia posten for dette emne ulæselig for en ikke -med person (som mig).

Jeg forstod den grundlæggende idé, at du foretrækker modeller med færre regler. Hvad jeg ikke får, er hvordan man kommer fra et sæt regler til en “regulariseringsscore”, som du kan bruge til at sortere modellerne fra mindst til mest overfit.

Kan du beskrive en simpel reguleringsmetode ?

Jeg er interesseret i analysen af statistiske handelssystemer. Det ville være dejligt, hvis du kunne beskrive, om / hvordan jeg kan anvende regulering til at analysere følgende to forudsigelige modeller:

Model 1 – prisen stiger, når:

  • exp_moving_avg ( pris, periode = 50)> exp_moving_avg (pris, periode = 200)

Model 2 – pris stiger, når:

  • pris [n] < pris [n-1] 10 gange i træk
  • exp_moving_avg (pris, periode = 200) går op

Men Jeg er mere interesseret i at få en fornemmelse for, hvordan du foretager regulering. Så hvis du kender bedre modeller til at forklare det, skal du gøre det.

Kommentarer

  • Et eksempel er højderygsregression, som er OLS med en bundet på summen af de kvadratiske koefficienter. Dette vil introducere bias i modellen, men reducerer variationen i koefficienterne, undertiden væsentligt. LASSO er en anden relateret metode, men sætter en L1 begrænsning af størrelsen på koefficienterne. Det har fordelen ved at droppe koefficienter. Dette er nyttigt for p > n situationer Regulering betyder på en måde ” skrumpende ” modellen for at undgå overmontering (og for at reducere koefficientvariansen), hvilket normalt forbedrer modelens ‘ prædiktive ydeevne.
  • @HairyBeast Du skal sæt din gode kommentar som svar. Hvis det er muligt, så prøv at tilføje et illustrativt eksempel, så OP kan finde ud af, hvordan det oversættes til det aktuelle problem.
  • @HairyBeast, så kan jeg sige, at regulering kun er en metode til at implementere ideen om bias-varians tradeoff ?
  • Jeg fandt denne video meget nyttig, især i visualisering af de forskellige former for Lp-regulering: youtube. com / watch? v = sO4ZirJh9ds
  • Regularisering er til at adressere overfit i den model, der læres. Forsøgte at forklare på almindelig engelsk og visuelt. Følgende er linket til artiklen medium.com/@vamsi149/…

Svar

I enkle vendinger er regulering tuning eller valg af det foretrukne niveau af modelkompleksitet, så dine modeller er bedre til at forudsige (generalisere). Hvis du ikke gør dette, kan dine modeller være for komplekse og overfit eller for enkle og underfit, uanset hvad der giver dårlige forudsigelser.

Hvis du har mindst kvadrater, passer en kompleks model til et lille sæt træningsdata du vil sandsynligvis overfit, dette er den mest almindelige situation. Den optimale kompleksitet af modellen afhænger af den slags proces, du modellerer, og kvaliteten af dataene, så der er ingen a-priori korrekt kompleksitet af en model.

For at normalisere har du brug for to ting:

  1. En måde at teste, hvor gode dine modeller er til forudsigelse, for eksempel ved hjælp af krydsvalidering eller et sæt valideringsdata (du kan ikke bruge tilpasningsfejl til dette).
  2. En indstillingsparameter, som lader dig ændre modelens kompleksitet eller glathed eller et udvalg af modeller med forskellig kompleksitet / glathed.

Dybest set justerer du kompleksitetsparameteren (eller ændrer modellen) og finder den værdi, der giver de bedste modelforudsigelser.

Bemærk, at den optimerede reguleringsfejl ikke vil være et nøjagtigt skøn over den samlede forudsigelse fejl så efter regulering bliver du endelig nødt til at bruge et ekstra valideringsdatasæt eller udføre nogle yderligere statistiske analyser for at få en upartisk forudsigelsesfejl.

Et alternativ til at bruge (kryds-) valideringstest er at bruge Bayesian Priors eller andre metoder til at straffe kompleksitet eller ikke-glathed, men disse kræver mere statistisk sofistikering og viden om problem- og modelfunktionerne.

Kommentarer

  • +1 fra mig. Jeg kan godt lide, at dette svar starter i begyndelsen og er så let at forstå …
  • Bruges regularisering nogensinde til at reducere underudstyr? Efter min erfaring anvendes regulering på en kompleks / følsom model for at reducere kompleksitet / følsomhed, men aldrig på en simpel / ufølsom model for at øge kompleksitet / følsomhed.
  • Dette svar er nu ret gammelt, men jeg antager, hvad Toby henviste til, er at regulering er en principiel måde at passe til en model med passende kompleksitet i betragtning af datamængden; det er et alternativ både til at vælge en model med for få parametre (eller de forkerte) på forhånd og også til at vælge en model, der er for kompleks og overpasser.

Svar

Antag at du udfører læring via empirisk risikominimering.

Mere præcist:

  • du har din ikke-negative tabsfunktion $ L (\ text {faktisk værdi}, \ tekst {forudsagt værdi}) $, som karakteriserer hvordan dårligt dine forudsigelser er
  • du vil tilpasse din model på en sådan måde, at dens forudsigelser minimerer middelværdien af tabsfunktion, kun beregnet på træningsdata (de eneste data, du har)

Derefter er formålet med læringsprocessen at finde $ \ text {Model} = \ text {argmin} \ sum L (\ text {actual}, \ text {predicted} (\ text {Model})) $ (dette metode kaldes empirisk risikominimering).

Men hvis du ikke har nok data, og der er en enorm mængde variabler i din model, er det meget sandsynligt at finde en sådan model, der ikke kun forklarer mønstre men forklarer også tilfældig støj i dine data. Denne effekt kaldes overfitting og det fører til nedbrydning af din models generaliseringsevne.

For at undgå overfitting introduceres en reguleringsperiode i målfunktionen: $ \ tekst {Model} = \ text {argmin} \ sum L (\ text {actua l}, \ text {forudsagt} (\ text {Model})) + \ lambda R (\ text {Model}) $

Normalt pålægger dette udtryk $ R (\ text {Model}) $ en særlig straf på komplekse modeller. For eksempel på modeller med store koefficienter (L2-regulering, $ R $ = sum af kvadrater af koefficienter) eller med meget, hvis ikke-nul-koefficienter (L1-regulering, $ R $ = sum af absolutte værdier af koefficienter). Hvis vi træner beslutningstræ, kan $ R $ være dens dybde.

Et andet synspunkt er, at $ R $ introducerer vores forudgående kendskab til en form for den bedste model (“det har ikke også store koefficienter “,” det er næsten retvinklet til $ \ bar a $ “)

Svar

Sæt i enkle vendinger, regulering handler om at drage fordel af de løsninger, du forventer at få. Som du nævner, kan du for eksempel drage fordel af “enkle” løsninger til en eller anden definition af enkelhed. Hvis dit problem har regler, kan en definition være færre regler. Men dette er problemafhængigt.

Du spørger dog det rigtige spørgsmål. For eksempel i Support Vector Machines kommer denne “enkelhed” fra at bryde bånd i retning af “maksimal margin”. Denne margin er noget, der kan defineres tydeligt med hensyn til problemet. Der er en meget god geometrisk afledning i SVM-artiklen i Wikipedia . Det viser sig, at reguleringsudtrykket er , uden tvivl i det mindste, den “hemmelige sauce” af SVMer.

Hvordan laver du normalisering? Generelt følger det med den metode, du bruger, hvis du bruger SVMer, laver du L2-regulering, hvis du bruger LASSO du laver L1-regulering (se hvad hairybeast siger). Men hvis du udvikler din egen metode, skal du vide, hvordan du fortæller ønskeligt løsninger fra ikke-ønskelige, og har en funktion, der kvantificerer dette. I sidste ende har du en omkostningsbetegnelse og en reguleringsperiode, og du vil optimere summen af begge.

Svar

Regulariseringsteknikker er teknikker, der anvendes til maskinindlæringsmodeller, der gør beslutningens grænser / monteret model glattere. Disse teknikker hjælper med at forhindre overmontering.

Eksempler: L1, L2, frafald, vægttab i neurale netværk. Parameter $ C $ i SVMer.

Svar

Regulering er på en enkel måde en teknik, der undgår overmontering, når man træner maskinindlæring algoritmer. Hvis du har en algoritme med nok gratis parametre, kan du interpolere med stor detalje din prøve, men eksempler, der kommer uden for prøven, følger muligvis ikke denne detaljerede interpolering, da den bare fangede støj eller tilfældige uregelmæssigheder i prøven i stedet for den sande tendens. / p>

Overtilpasning undgås ved at begrænse den absolutte værdi af parametrene i modellen. Dette kan gøres ved at tilføje et udtryk til omkostningsfunktion, der pålægger en sanktion baseret på størrelsen af modelparametrene. Hvis størrelsen måles i L1-norm kaldes dette “L1-regulering” (og normalt resulterer i sparsomme modeller), hvis det måles i L2-norm kaldes dette “L2-regulering” osv.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *