Quest-ce que la régularisation en anglais simple?

Contrairement à dautres articles, jai trouvé lentrée wikipedia pour ce sujet illisible pour un non -math personne (comme moi).

Jai compris lidée de base, que vous privilégiez les modèles avec moins de règles. Ce que je ne comprends pas, cest comment passer dun ensemble de règles à un « score de régularisation » que vous pouvez utiliser pour trier les modèles du moins au plus surajustement.

Pouvez-vous décrire une méthode de régularisation simple ?

Je suis intéressé par le contexte de lanalyse des systèmes de trading statistique. Ce serait bien si vous pouviez décrire si / comment je peux appliquer la régularisation pour analyser les deux modèles prédictifs suivants:

Modèle 1 – le prix augmente quand:

  • exp_moving_avg ( price, period = 50)> exp_moving_avg (price, period = 200)

Modèle 2 – le prix augmente lorsque:

  • price [n] < price [n-1] 10 fois de suite
  • exp_moving_avg (price, period = 200) en hausse

Mais Je suis plus intéressé à avoir une idée de la façon dont vous faites la régularisation. Donc, si vous connaissez de meilleurs modèles pour lexpliquer, faites-le.

Commentaires

  • Un exemple est la régression de crête, qui est OLS avec une limite sur la somme des coefficients au carré. Cela introduira un biais dans le modèle, mais réduira parfois considérablement la variance des coefficients. LASSO est une autre méthode connexe, mais met un contrainte sur la taille des coefficients. Elle présente l’avantage d’abaisser les coefficients. Ceci est utile pour p > n situations Régulariser, en quelque sorte, signifie  » réduire  » le modèle pour éviter le surajustement (et pour réduire la variance des coefficients), ce qui améliore généralement les performances prédictives du modèle ‘.
  • @HairyBeast Vous devriez mettez votre gentil commentaire comme réponse. Si possible, essayez dajouter un exemple illustratif afin que lOP puisse comprendre comment cela se traduit par le problème en question.
  • @HairyBeast, alors puis-je dire que la régularisation est juste une méthode pour mettre en œuvre lidée de compromis biais-variance ?
  • Jai trouvé cette vidéo très utile, en particulier pour visualiser les différentes formes de régularisation Lp: youtube. com / watch? v = sO4ZirJh9ds
  • La régularisation sert à résoudre le surajustement dans le modèle appris. Jai essayé dexpliquer en anglais simple et visuellement. Voici le lien vers larticle medium.com/@vamsi149/…

Réponse

En termes simples, la régularisation consiste à ajuster ou à sélectionner le niveau préféré de complexité du modèle afin que vos modèles soient meilleurs pour prédire (généraliser). Si vous ne le faites pas, vos modèles peuvent être trop complexes et sur-ajustés ou trop simples et insuffisants, ce qui donne de mauvaises prédictions.

Si vous ajustez un modèle complexe à un petit ensemble de données dentraînement vous allez probablement surajouter, cest la situation la plus courante. La complexité optimale du modèle dépend du type de processus que vous modélisez et de la qualité des données, il ny a donc pas de complexité a priori correcte dun modèle.

Pour régulariser, vous avez besoin de 2 choses:

  1. Un moyen de tester la qualité de vos modèles en prédiction, par exemple en utilisant la validation croisée ou un ensemble de données de validation (vous ne peut pas utiliser l erreur de montage pour cela).
  2. Un paramètre de réglage qui vous permet de modifier la complexité ou la douceur du modèle, ou une sélection de modèles de complexité / douceur différentes.

En gros, vous ajustez le paramètre de complexité (ou modifiez le modèle) et trouvez la valeur qui donne les meilleures prévisions de modèle.

Notez que lerreur de régularisation optimisée ne sera pas une estimation précise de la prédiction globale erreur donc après la régularisation, vous devrez enfin utiliser un ensemble de données de validation supplémentaire ou effectuer une analyse statistique supplémentaire pour obtenir une erreur de prédiction impartiale.

Une alternative à lutilisation des tests de validation (croisée) consiste à utiliser des prieurs bayésiens ou dautres méthodes pour pénaliser la complexité ou le non-lissage, mais celles-ci nécessitent plus de sophistication statistique et de connaissance du problème et des caractéristiques du modèle.

Commentaires

  • +1 de moi. Jaime le fait que cette réponse commence par le début et soit si simple à comprendre …
  • La régularisation est-elle vraiment utilisée pour réduire le sous-ajustement? Daprès mon expérience, la régularisation est appliquée sur un modèle complexe / sensible pour réduire la complexité / sensibilité, mais jamais sur un modèle simple / insensible pour augmenter la complexité / sensibilité.
  • Cette réponse est maintenant assez ancienne, mais je suppose que ce à quoi Toby faisait allusion est que la régularisation est une manière raisonnée dajuster un modèle de complexité appropriée étant donné la quantité de données; cest une alternative à la fois à la sélection a priori dun modèle avec trop peu de paramètres (ou les mauvais), et aussi à la sélection dun modèle trop complexe et sur-ajusté.

Réponse

Supposons que vous effectuez un apprentissage via la minimisation empirique des risques.

Plus précisément:

  • vous avez votre fonction de perte non négative $ L (\ text {valeur réelle}, \ text {valeur prédite}) $ qui caractérise comment mauvais vos prédictions sont
  • vous voulez adapter votre modèle de telle manière que ses prédictions minimisent la fonction de moyenne de perte, calculée uniquement sur les données dentraînement (les seules données dont vous disposez)

Ensuite, le but du processus dapprentissage est de trouver $ \ text {Model} = \ text {argmin} \ sum L (\ text {actual}, \ text {preded} (\ text {Model})) $ (this est appelée minimisation empirique des risques).

Mais si vous navez pas assez de données et quil y a une énorme quantité de variables dans votre modèle, il est très probable de trouver un tel modèle qui non seulement explique les modèles mais explique également le bruit aléatoire dans vos données. Cet effet est appelé surajustement et conduit à une dégradation de la capacité de généralisation de votre modèle.

Afin déviter le surajustement, un terme de régularisation est introduit dans la fonction cible: $ \ text {Model} = \ text {argmin} \ sum L (\ text {actua l}, \ text {preded} (\ text {Model})) + \ lambda R (\ text {Model}) $

Habituellement, ce terme $ R (\ text {Model}) $ impose une pénalité spéciale sur les modèles complexes. Par exemple, sur des modèles à gros coefficients (régularisation L2, $ R $ = somme des carrés de coefficients) ou avec beaucoup si coefficients non nuls (régularisation L1, $ R $ = somme des valeurs absolues des coefficients). Si nous formons un arbre de décision, $ R $ peut être sa profondeur.

Un autre point de vue est que $ R $ introduit nos connaissances préalables sur une forme du meilleur modèle (« il na » pas trop grands coefficients « , » il est presque orthogonal à $ \ bar a $ « )

Réponse

En termes simples, régularisation est de bénéficier des solutions que vous espérez obtenir. Comme vous le mentionnez, par exemple, vous pouvez bénéficier de solutions «simples», pour une certaine définition de la simplicité. Si votre problème a des règles, une définition peut être moins de règles. Mais cela dépend du problème.

Vous posez la bonne question, cependant. Par exemple, dans Support Vector Machines, cette « simplicité » vient de la rupture des liens dans le sens de la « marge maximale ». Cette marge est quelque chose qui peut être clairement défini en fonction du problème. Il existe une très bonne dérivation géométrique dans l article SVM de Wikipédia . Il savère que le terme de régularisation est , sans doute du moins, la « sauce secrète » des SVM.

Comment faites-vous la régularisation? En général, cela vient avec la méthode que vous utilisez, si vous utilisez des SVM, vous faites une régularisation L2, si vous utilisez LASSO vous faites une régularisation L1 (voyez ce que dit hairybeast). Cependant, si vous développez votre propre méthode, vous devez savoir comment dire « désirable » solutions de ceux qui ne sont pas souhaitables, et ont une fonction qui quantifie cela. En fin de compte, vous aurez un terme de coût et un terme de régularisation, et vous souhaiterez optimiser la somme des deux.

Réponse

Les techniques de régularisation sont des techniques appliquées aux modèles dapprentissage automatique qui rendent la limite de décision / modèle ajusté plus fluide. Ces techniques aident à éviter le surajustement.

Exemples: L1, L2, Dropout, Weight Decay in Neural Networks. Paramètre $ C $ en SVM.

Réponse

En termes simples, la régularisation est une technique pour éviter le sur-ajustement lors de la formation du machine learning Si vous disposez dun algorithme avec suffisamment de paramètres libres, vous pouvez interpoler avec beaucoup de détails votre échantillon, mais les exemples sortant de léchantillon peuvent ne pas suivre cette interpolation détaillée car ils ne font que capturer du bruit ou des irrégularités aléatoires dans léchantillon au lieu de la vraie tendance.

Le sur-ajustement est évité en limitant la valeur absolue des paramètres dans le modèle. Cela peut être fait en ajoutant un terme au fonction de coût qui impose une pénalité basée sur lampleur des paramètres du modèle. Si la grandeur est mesurée dans la norme L1, cela sappelle «régularisation L1» (et aboutit généralement à des modèles épars), si elle est mesurée dans la norme L2, cela sappelle «régularisation L2», et ainsi de suite.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *