Explication simple de Baum Welch / Viterbi

Je recherche une explication très simple possible pour Baum Welch et Viterbi pour les HMM avec un exemple simple et bien annoté. Presque toutes les explications que je trouve sur le net sautent invariablement depuis le début dans une explication presque entièrement basée sur le jargon / symbole. Les rares fois où ils ont un exemple, il est généralement mis de côté ou mal annoté (cest-à-dire que la façon dont les symboles et les exemples sont liés les uns aux autres). Jai entendu des trucs comme certaines sources affirmant que Baum Welch est basé sur lalgorithme EM et dautres disant quil est basé sur lalgorithme avant en arrière et certains disent les deux, alors jaimerais obtenir des détails comme Cela sest éclairci.

La vidéo la plus proche que jai trouvée jusquà présent est une vidéo dune heure postée ici que les gens ont dit que cétait génial, mais quelle est injouable parce que le flash est interdit et une explication sur wikipedia qui a une note à côté disant que cest faux .

Réponse

Je « cherche une explication très simple possible pour Baum Welch et Viterbi pour les HMM …

  • Compte tenu des données observées, lalgorithme de Baum-Welch trouve les paramètres maximisant la vraisemblance.

  • Compte tenu des données observées et des paramètres, le Lalgorithme de Viterbi trouve la séquence détats cachés la plus probable.

Jai entendu des trucs comme certaines sources affirmant que Baum Welch est basé sur lalgorithme EM …

Lalgorithme Baum-Welch est un cas particulier de lalgorithme EM.

… et dautres disent que cest basé sur lalgorithme avant-arrière

La décomposition avant-arrière est la façon dont vous effectuez létape «E-» (en utilisant la terminologie EM). Cest spécifique aux modèles de Markov cachés.

Les rares fois où ils ont un exemple, il est généralement mis de côté ou mal annoté (cest-à-dire quil nest pas clair comment les symboles et lexemple sont liés les uns aux autres)

Je ne sais pas quels exemples vous regardez, mais je peux vous dire que là sont beaucoup de bons là-bas. Noubliez pas que ces méthodes ont été inventées il y a très longtemps et quelles « sont encore largement utilisées . Celui de Rabiner lié à ci-dessus est probablement le plus connu, mais vous devez en trouver un que vous aimez et sur lequel vous continuerez de travailler. Je vous recommanderais den trouver un avec un exemple qui contient des données qui vous intéressent et une notation qui vous intéresse la sensation est apprenable. Tout ce que vous trouverez aura beaucoup de notation. Il ny a aucun moyen de contourner cela, donc vous devez simplement trouver quelque chose dans lequel vous pouvez vous installer.

Réponse

Jai le papier parfait pour vous: http://www.stat.columbia.edu/~liam/teaching/neurostat-fall17/papers/hmm/rabiner.pdf

Notez quil existe de nouvelles méthodes BW.

Tentative dexplication simple pour Viterbi: le but de viterbi est de trouver une séquence optimale détats pendant une période de temps discrète.
Commencez par les probabilités initiales dêtre dans un état $ s $ à la fois $ t = 0 $. Puis augmentez $ t $ et pour chaque état à ce moment ($ t = 1 $), trouvez le meilleur état $ s $ à $ t-1 $ (meilleur comme dans la séquence qui donne la probabilité la plus élevée ). Enregistrez ces informations. Cela signifie que pour chaque état $ s $ à $ t = 1 $, enregistrez le meilleur état $ s $ à $ t = 0 $. Enregistrez également la probabilité de cette séquence (optimale).
Puis augmentez $ t $ à $ t = 2 $ et répétez la procédure (avec les probabilités pour chaque état $ s $ à $ t-1 $ étant les meilleures probabilités calculées juste pour cet état). At som Le point où vous atteindrez $ t = T $ (dernier point dans le temps). Ensuite, vous choisissez simplement létat avec la probabilité la plus élevée, et rappelez-vous pour chaque état à chaque fois que vous avez enregistré le meilleur état pour $ t-1 $, alors prenez le meilleur état à $ t = T $, puis revenez toujours en arrière choisir cet état optimal enregistré.

Pour élaborer sur ce quil fait à un niveau plus général: Si vous avez un ensemble détats $ S $ qui peuvent tous être sélectionnés sur une certaine durée $ T $, a Une solution naïve pour trouver la meilleure séquence serait dénumérer toutes les séquences possibles, puis de calculer la probabilité pour chacune delles (cest-à-dire calculer le produit de létat et des probabilités de transition). Lerreur que lon fait ici est que beaucoup de calculs sont dupliqués, par exemple vous pourriez avoir deux séquences $ p_1, p_2 $ ($ p $ est une séquence détats) où la seule différence est létat final, mais avec cette approche vous calculez les probabilités des états partagés pour $ P (p_1) $ et $ P (p_2) $.
En adoptant lapproche itérative utilisée dans viterbi, il ny a pas de calculs dupliqués, donc évidemment ce sera beaucoup plus efficace.

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *