الگوریتم باوم-ولچ

در مهندسی برق، علوم کامپیوتر، محاسبات آماری و بیوانفورماتیک، الگوریتم باوم-ولچ برای محاسبه پارامترهای مجهول مدل پنهان مارکوف بکار می‌رود.

مقدمه

این الگوریتم می‌تواند درست‌نمایی بیشینه (Maximum likelihood) را برای پارامترهای انتقال و انتشار یک مدل پنهان مارکوف محاسبه کند. این الگوریتم جزو الگوریتم‌های یادگیری ماشین دسته‌بندی می‌شود. یعنی یک مجموعه داده از مشاهدات به عنوان داده های آموزشی در دسترس است و الگوریتم از روی این داده‌ها، پارامترهای مدل را تخمین می‌زند.

این الگوریتم به داده‌هایی که توسط الگوریتم‌های Forward و Backward تولید می‌شوند نیاز دارد. پارامترهای مدل را به صورت زیر در نظر می‌گیریم:

$p_{kl}$ : احتمال انتقال از حالت k به حالت l

$e_{l}(\alpha )$ : احتمال مشاهده الفبای $\alpha$ در حالت l

الگوریتم forward

ایده الگوریتم اینگونه است که:

$P(X|M)=\sum _{\pi }P(X,\pi |M)$

یعنی احتمال دیده شدن توالی X در مدل M برابر است با جمع احتمال دیده شدن توالی به شرط تمامی مسیرها که آن هم برابر است با

$=\sum _{\pi }P(X|\pi ,M)P(\pi |M)$

بنابر این می‌توانیم روابط بازگشتی زیر را حساب کنیم:

$f_{k}(i)=P(x_{1}\dots x_{i},\pi _{i}=k)$

$f_{k}(i+1)=e_{l}(x_{i+1})\sum _{k\in Q}f_{k}(i)p_{kl}$

ورودی این الگوریتم: مدل M با الفبای $\Sigma$ احتمال‌های انتفال p و احتمال تولید الفبای e همچنین توالی‌ای از نشانه‌ها X

خروجی: احتمال تولید این توالی توسط مدل

این الگوریتم به صورت پویا متغیر $f_{l}(i)$ را می‌سازد، که به معنی احتمال زیرتوالی $X_{1}$ تا $X_{i}$ در حالت l است.

Input: HMM M = (

\Sigma

، Q, P, e) and sequence of symbols X

Output: probability P(X|M)

Initialization: (i=0): $f_{0}(0)=1,f_{k}(0)=0$ for k>0.

For all $i=1\dots ,L,l\in Q:$

$f_{l}(i)=e_{l}(x_{i})\sum _{k\in Q}f_{k}(i-1)p_{kl}$

Termination:P(X|M)= $\sum _{k\in Q}f_{k}(L)p_{k0}$

الگوریتم backward

در الگوریتم backward رابطه بازگشتی برای محاسبه احتمال به صورت زیر است:

$b_{k}(i)=P(x_{i+1}\dots x_{L},\pi _{i}=k)$ $b_{k}(i)=\sum _{l\in Q}e_{l}(x_{i+1})b_{l}(i+1)p_{kl}$

متغیر $b_{k}(i)$ احتمال مشاهدی زیرتوالی $X_{i}$ تا $X_{L}$ است در صورتی که در حالت k قرار داشته باشیم.

Input: HMM M = ( $\Sigma$ ، Q, P, e) and sequence of symbols X

Output: probability P(X|M)

Initialization: (i=L): $b_{k}(L)=p_{k0}$ for all k.

For all i= $L-1\dots ,1,k\in Q$ :

$b_{k}(i)=\sum _{l\in Q}e_{l}(x_{i+1})b_{l}(i+1)p_{kl}$

Termination:P(X|M)= $\sum _{l\in Q}(p_{0l}.e_{l}(x_{1}).b_{l}(1))$

شبه‌شماره

وقتی با داده‌های آموزش سر و کار داریم، گاهی اوقات داده ها همه حالات را پوشش نمی‌دهند مثلاً در مورد مسایل مدل پنهان مارکوف، احتمال دارد در مجموعه داده‌های آموزشی ما به دلایل مختلف انتقال از حالت i به حالت j مشاهده نشود در صورتی که این یک انتقال ممکن باشد، بنابراین احتمال این انتقال صفر محاسبه می‌شود که می‌تواند الگوریتم را به سمت جواب غلط پیش ببرد.

برای رفع این مشکل از شبه‌شماره‌ها( Pseudocount s) استفاده می‌کنیم. به این صورت که یک عدد کوچک را جای احتمال صفر، جایگزین می‌کنیم.

الگوریتم baum-welch

الگوریتم باوم-ولچ یک الگوریتم تکرار شونده است. ابتدا پارامترهای مدل به صورت تصادفی انتخاب می‌شوند و سپس در هر تکرار سعی می‌شود این پارامترها طوری اصلاح شوند که مدل به داده‌های آموزشی نزدیک شود. می‌توان آنقدر الگوریتم را تکرار کرد که تغییر قابل ملاحظه‌ای در پارامترهای بدست آمده رخ ندهد.

ورودی: مدل و داده‌های آموزشی $x^{1},x^{2},\dots ,x^{n}$

خروجی: مدل با پارامترهای انطباق یافته

شروع: ماتریس‌های P و E را به صورت دلخواه مقداردهی می‌کنیم.

بازگشت

قرار می‌دهیم: $P_{kl}=0,E_{k}(b)=0$ یا اینکه با شبه‌شماره جایگزین می‌کنیم

برای تمامی توالی‌های $x^{j}$ :

f^{j},b^{j},P(x^{j})

را محاسبه می‌کنیم

P_{kl}

را به صورت روبرو بهبود می‌بخشیم

{\frac {1}{P(x^{j})}}\sum _{i}f_{k}^{j}(i)p_{lk}e_{l}(x_{i+1}^{j})b_{l}^{j}(i+1)

E_{k}(b)

را نیز اینگونه بهبود می‌دهیم:

{\frac {1}{P(x^{j})}}\sum _{\{i|x_{i}^{j}=b}f_{k}^{j}(i)b_{l}^{j}(i)

شبه‌شماره‌ها را در صورت لزوم اعمال می‌کنیم.

قرار می‌دهیم: $p_{kl}={\frac {P_{kl}}{\sum _{q\in Q}P_{kq}}},e_{k}(b)={\frac {E_{k}(b)}{\sum _{s\in \Sigma }E_{k}(s)}}$

پایان: درجه درست‌نمایی بیشینه را محاسبه می‌کنیم، اگر تغییر چندانی نکرد یا اینکه به تعداد مشخصی از تکرار رسیدیم، به الگوریتم خاتمه می‌دهیم.

پیوند به بیرون

An Interactive Spreadsheet for Teaching the Forward-Backward Algorithm (spreadsheet and article with step-by-step walkthrough)
Formal derivation of the Baum-Welch algorithm
Implementation of the Baum-Welch algorithm

منابع

L. E. Baum, T. Petrie, G. Soules, and N. Weiss, <164:AMTOIT>2.0.CO;2-V "A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains", Ann. Math. Statist., vol. 41, no. 1, pp. 164–171, 1970.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.