توزیع مزدوج پیشین
در تئوری احتمال بیزی، اگر توزیعات احتمال پسین با توزیع احتمال پیشین خانواده ای یکسان داشته باشد آن گاه به توزیعات پیشین و پسین توزیعات مزدوج گفته شده و توزیع پیشین را توزیع مزدوج پیشین برای تابع درستنمایی (likelihood) مینامند. به عنوان مثال، خانوادهٔ گاوسی مزدوج خودش (یا خود مزدوج) نسبت به یک تابع درستنمایی گاوسی است: اگر تابع درستنمایی گوسی باشد، انتخاب توزیع پیشین گاوسی برای میانگین تضمین میکند که توزیع پسین نیز گاوسی خواهد بود. این به این معناست که توزیع گاوسی، تابع مزدوج پیشین تابع درستنمایی گوسی است. این مفهوم و عبارت «مزدوج پیشین» توسط هاوارد رایفا و رابرت اشلایفر در کارشان روی تئوری انتخاب بیزی معرفی شدند. مفهوم مشابهی نیز بهطور مستقل توسط جورج آلفرد بارنارد کشف شده بود.[1]
توزیع مزدوج پیشین (انگلیسی: Conjugate prior)
مسئلهٔ کلی یافتن توزیع برای یک پارامتر θ به شرط یک داده یا مجموعه دادههای x را در نظر بگیرید. از قضیه بیز میدانیم که توزیع پسین برابر با حاصلضرب تابع درستنمایی و توزیع پیشین نرمالیزه شده با (تقسیم بر) احتمال دادهٔ است:
فرض میکنیم تابع درستنمایی ثابت است. تابع درستنمایی معمولاً به خوبی از بیانی از فرایند تولید داده مشخص میگردد. واضح است که انتخابهای متفاوت برای توزیع پیشین محاسبهٔ انتگرال را سختتر یا آسانتر میکند و حاصل ضرب فرم جبری متفاوتی بگیرد. برای انتخابهای مشخصی از توزیع پیشین، توزیع پسین فرم جبری مشابه توزیع پیشین خواهد داشت (عموماً با مقادیر پارامترهای متفاوت). چنین انتخابی یک توزیع مزدوج پیشین است.
یک توزیع مزدوج پیشین یک آسودگی جبری است که توصیف بسته ای برای توزیع پسین ارائه میدهد. در غیر این صورت ممکن است انتگرال عددی لازم باشد. علاوه بر این، توزیعات پیشین مزدوج با بیشتر و شفاف نشان دادن اینکه چگونه یک تابع درستنمایی یک توزیع پیشین را به روز میکند درکی مستقیم ارائه میدهند.
تمام اعضای خانواده نمایی توزیعات پیشین مزدوج دارند.[2]
مثال
فرم توزیع پیشین مزدوج عموماً میتواند با بررسی تابع چگالی احتمال یا تابع جرم احتمال آن توزیع مشخص گردد. به عنوان مثال، یک متغیر تصادفی را در نظر بگیرید که شامل تعداد موفقیتهای در آزمایش برنولی با احتمال موفقیت نامعلوم در بازهٔ [۰٬۱] است. این متغیر تصادفی با تابع جرم احتمال زیر از توزیع دوجمله ای تبعیت میکند:
توزیع مزدوج پیشین معمول توزیع بتا با پارامترهای (, ):
که در آن و برای نمایش هرگونه باور یا اطلاعات به کار میرود (۱ = و ۲ = توزیع یکنواخت را به دست میدهند) و B(α, β) تابع بتا است که به عنوان ثابت نرمالیزه کننده استفاده میشود.
در اینجا و ابرپارامتر خوانده میشوند (پارامترهای توزیع پیشین) تا از پارامترهای مدل اساسی (در اینجا q) متمایز گردند. یکی از ویژگیهای معمول توزیعات پیشین مزدوج این است که ابعاد ابرپارامترها یک واحد بزرگتر از ابعاد پارامترهای توزیع اصلیاند. اگر همهٔ پارامترها مقادیر اسکالر باشند آنگاه به این معناست که یک ابرپارامتر بیشتر از پارامتر خواهیم داشت. البته این نکته دربارهٔ پارامترهای با مقادیر برداری و ماتریسی نیز صدق میکند. (به مقالهٔ کلی دربارهٔ خانواده نمایی رجوع کنید و توزیع ویشارت را که مزدوج پیشین ماتریس کوواریانس توزیع نرمال چند متغیره است به عنوان مثالی برای ابعاد بزرگ در نظر بگیرید)
آن گاه اگر از این متغیر تصادفی نمونه برداری کنیم و s موفقیت و p شکست به دست آوریم داریم:
که توزیع بتای دیگری با پارامترهای (s + , + f) است. این توزیع پسین نیز میتواند به عنوان توزیع پیشین نمونههای بیشتر با اضافه کردن هر چه بیشتر اطلاعات توسط ابرپارامترها مورد استفاده قرار گیرد.
شبه مشاهدات
اغلب سودمند است که هایپرپارامترهای توزیع مزدوج پیشین را متناظر با انجام تعدادی شبه مشاهده با ویژگیهایی که توسط پارامترها مشخص میشود در نظر بگیریم. به عنوان مثال، مقادیر و برای یک توزیع بتا را میتوان متناظر با ۱ - موفقیت و ۱ - شکست در نظر گرفت اگر مد توزیع پسین برای انتخاب یک تنظیمات پارامتر بهینه انتخاب شود یا موفقیت و شکست اگر میانگین توزیع پسین برای انتخاب یک تنظیمات پارامتر بهینه انتخاب شود. در حالت کلی، برای تقریباً تمام توزیعات مزدوج پیشین هایپر پارامترها میتوانند بر حسب شبه مشاهدات تفسیر شوند. این عمل میتواند هم به فراهم آوردن درکی برای معادلات بهروزرسانی اغلب درهم و شلوغ و هم برای انتخاب هایپرپارامترهای معقول برای یک توزیع پیشین کمک میکند.
تفسیرها
شباهت با توابع ویژه
توزیعات مزدوج پیشین مشابه تابع ویژه در نظریه عملگرها هستند از این جهت که توزیعاتی هستند که در آنها «عملگر شرطی سازی»، در صورت در نظر گرفتن فرایند تغییر از توزیع پیشین به پسین به عنوان یک عملگر، به روشی کاملاً قابل درک عمل میکند.
در هر دو توابع ویژه و توزیعات مزدوج پیشین فضایی با بعد متناهی وجود دارد که توسط عملگر حفظ و نگهداری میشود: خروجی فرمی مشابه (فضایی مشابه) ورودی دارد. این عمل به شدت تجزیه و تحلیل را ساده میکند چون در غیر این صورت فضایی با بعد نامتناهی (فضای تمام توابع، فضای تمام توزیعها) را در نظر میگیرد.
با این وجود، فرایندها تنها مشابه و نه یکسان هستند: شرطی سازی خطی نیست زیرا فضای توزیعات تحت ترکیب خطی بسته نمیشود بلکه تحت ترکیب محدب بسته میشود و توزیع پسین تنها فرمی مشابه توزیع پیشین دارد و ضریبی اسکالر از آن نیست.
همانطور که به راحتی میتوان تجزیه و تحلیل کرد که چگونه ترکیبی خطی از توابع ویژه تحت استفاده از یک عملگر تکامل مییابد (چون عملگر نسبت به این توابع، قطری شده است)، به راحتی میتوان تجزیه و تحلیل کرد که چگونه یک ترکیب محدب از توزیعات مزدوج پیشین تحت شرط سازی کامل مییابد؛ این عمل به وسیلهٔ یک توزیع هایپرپیشین صورت میگیرد و متناظر با استفاده از چگالی مخلوط توزیعات مزدوج پیشین به جای تک توزیع مزدوج پیشین است.
سیستم دینامیکی
میتوان عمل شرطی سازی روی توزیعات مزدوج پیشین را تعریف کردن نوعی سیستم دینامیکی (زمان گسسته) در نظر گرفت: به ازای مجموعه ای داده شدهای از هایپرپارامترها، دادهٔ ورودی این هایپرپارامترها را به روز میکند. پس میتوان تغییر در هایپرپارامترها را به نوعی «تکامل زمانی» تعبیر کرد که با «یادگیری» متناظر است. شروع در نقاط متفاوت جریانهایی متفاوت در طول زمان را سبب میگردد. این نیز مشابه سیستم دینامیکی است که با یک عملگر خطی تعریف میشود ولی توجه کنید چون نمونههای متفاوت به استنتاجهای متفاوت ختم میشود، این عمل به تنهایی وابسته به زمان نیست بلکه بیشتر وابسته به دادهاست. برای رویکردهای مرتبط، تخمین بیزی بازگشتی و داده گواری را ببینید.
جدول توزیعات مزدوج
فرض کنید n نشان دهندهٔ تعداد مشاهدات باشد. در تمام موارد زیر، فرض میشود که داده از n نقطهٔ (که در موارد چند متغیره بردارهای تصادفی خواهند بود) تشکیل شود.
اگر تابع شباهت متعلق به خانواده نمایی باشد آن گاه توزیع مزدوج پیشین وجود دارد که اغلب اوقات آن نیز عضو خانوادهٔ نمایی است. به خانواده نمایی: توزیعات مزدوج رجوع کنید.
توزیعات گسسته
شباهت | پارامترهای مدل | توزیع مزدوج پیشین | هایپرپارامترهای پیشین | هایپرپارامترهای پسین | تفسیر هایپر پارامترها | توزیع پسین پیشگویانه[note 1] |
---|---|---|---|---|---|---|
برنولی | p (احتمال) | بتا | موفقیت، شکست | |||
دوجملهای | p (احتمال) | بتا | موفقیت، شکست | (بتا-دوجملهای) | ||
دوجملهای منفی با تعداد شکستهای معلوم، r | p (احتمال) | بتا | total موفقیت، شکست (یعنی، آزمایش، با فرض اینکه ثابت بماند) | |||
پواسون | λ (نرخ) | گاما | (دوجملهای منفی) | |||
[note 2] | تعداد رخدادها در بازه | (دوجملهای منفی) | ||||
مطلق | p (بردار احتمال), k (تعداد دستهبندی ها؛ یعنی، اندازهٔ p) | دیریکله | که تعداد مشاهدات در دستهبندی i است. | رخداد در دستهبندی | ||
چندجملهای | p (بردار احتمال), k (تعداد دستهبندی های؛ یعنی، اندازهٔ p) | دیریکله | رخدادهای دستهبندی | (دیریکله—چندجملهای) | ||
فوقهندسی با اندازهٔ جمعیت کل معلوم، N | M (تعداد اعضای هدف) | بتا-دوجملهای | موفقیت، شکست | |||
هندسی | p0 (احتمال) | بتا | آزمایش، کل شکستها |
توزیعات پیوسته
شباهت | پارامترهای مدل | توزیع مزدوج پیشین | هایپرپارامترهای پیشین | هایپرپارامترهای پسین | تفسیر هایپرپارامترها | توزیع پسین پیشگویانه[note 3] |
---|---|---|---|---|---|---|
نرمال با واریانس معلوم σ2 | μ (میانگین) | نرمال | میانگین از مشاهدات با دقت کل (مجموع تمام دقتهای منفرد) و میانگین نمونهٔ تحمین زده شدهاست. | [3] | ||
نرمال با دقت معلوم τ | μ (mean) | نرمال | میانگین از مشاهدات با دقت کل (مجموع تمام دقتهای منفرد) و میانگین نمونهٔ تخمین زده شدهاست. | [3] | ||
نرمال با میانگین معلوم μ | σ2 (واریانس) | گامای وارونه | [note 4] | واریانس از مشاهدات با واریانس نمونهٔ (یعنی جمع مجذور انحرافات , که انحرافات از میانگین معلوم هستند) تخمین زده شدهاست. | [3] | |
نرمال با میانگین معلوم μ | σ2 (واریانس) | کی دو وارونهٔ مقیاس شده | واریانس از مشاهدات با واریانس نمونهٔ تخمین زده شدهاست. | [3] | ||
نرمال با میانگین معلوم μ | τ (دقت) | گاما | [note 2] | دقت از مشاهدات با واریانس نمونهٔ (یعنی جمع مجذور انحرافات , که انحرافات از میانگین معلوم هستند) تخمین زده شدهاست. | [3] | |
نرمال[note 5] | μ و σ2 با این فرض که تعویض پذیری دارند | گامای نرمال وارونه |
|
میانگین از مشاهدات با میانگین نمونهٔ تخمین زده شدهاست؛ واریانس از مشاهدات با میانگین نمونهٔ و مجموع مجذور انحرافات تخمین زده شدهاست. | [3] | |
نرمال | μ و τ با فرض اینکه تعویض پذیری دارند | نرمال-گاما |
|
میانگین از مشاهدات با میانگین نمونهٔ , و دقت از مشاهدات با میانگین نمونهٔ و مجموع مجذور انحرافات تخمین زده شدهاست. | [3] | |
نرمال چندمتغیره با ماتریس کوواریانس معلوم Σ | μ (بردار میانگین) | نرمال چند متغیره |
|
میانگین از مشاهداتی با دقت کل (مجموع تمام دقتهای منفرد) و میانگین نمونهٔ تخمین زده شدهاست. | [3] | |
نرمال چندمتغیره با ماتریس دقت معلوم Λ | μ (بردار میانگین) | نرمال چندمتغیره |
|
میانگین از مشاهداتی با دقت کل (مجموع تمام دقتهای منفرد) و میانگین نمونهٔ تخمین زده شدهاست. | [3] | |
نرمال چندمتغیره با میانگین معلوم μ | Σ (ماتریس کوواریانس) | ویشارت وارون | ماتریس کوواریانس از مشاهدات با مجموع حاصلضربهای انحراف دو به دو تخمین زده شدهاست. | [3] | ||
نرمال چندمتغیره با میانگین معلوم μ | Λ (ماتریس دقت) | ویشارت | ماتریس کوواریانس از مشاهدات با مجموع حاصلضربهای انحراف دو به دو تخمین زده شدهاست. | [3] | ||
نرمال چندمتغیره | μ (بردار میانگین) و Σ (ماتریس کوواریانس) | وارون نرمال-ویشارت |
|
میانگین از مشاهدات با میانگین نمونهٔ تخمین زده شدهاست؛ ماتریس کوواریانس از مشاهدات با میانگین نمونهٔ و با مجموع حاصلضربهای انحراف دو به دو تخمین زده شدهاست. | [3] | |
نرمال چندمتغیره | μ (بردار میانگین) and Λ (ماتریس دقت) | نرمال-ویشارت |
|
میانگین از مشاهدات با میانگین نمونهٔ تخمین زده شدهاست؛ ماتریس کوواریانس از مشاهدات با میانگین نمونهٔ و با مجموع حاصلضربهای انحراف دو به دو تخمین زده شدهاست. | [3] | |
یکنواخت | پارتو | مشاهدات با مقدار بیشینهٔ | ||||
پارتو با کمینهٔ معلوم xm | k (شکل) | گاما | مشاهدات با مجموع مرتبه بزرگی هر مشاهده (یعنی لگاریتم نسبت هر مشاهده به کمینهٔ ) | |||
توزیع وایبول با شکل معلوم β | θ (مقیاس) | توزیع گامای وارونه | مشاهدات با مجموع β'امین توان هر مشاهده | |||
توزیع لگاریتمی نرمال با دقت معلوم τ | μ (میانگین) | نرمال | «میانگین» از مشاهداتی با دقت کل (مجموع تمام دقتهای منفرد) و با میانگین نمونهٔ تخمین زده شدهاست. | |||
توزیع لگاریتمی نرمال با میانگین معلوم μ | τ (دقت) | گاما | [note 2] | دقت از مشاهدات با واریانس نمونهٔ (یعنی مجموع مجذور انحرافات لگاریتمی — یعنی انحرافات لگاریتم نقاط داده از "میانگین") | ||
نمایی | λ (نرخ) | گاما | [note 2] | مشاهدات با مجموع [4] | (توزیع لوماکس) | |
گاما با شکل معلوم α | β (نرخ) | گاما | مشاهدات با مجموع | [note 6] | ||
توزیع گامای وارونه با شکل معلوم α | β (نرخ معکوس) | گاما | مشاهدات با مجموع | |||
گاما با نرخ معلوم β | α (شکل) | or مشاهدات ( برای تخمین , برای تخمین ) با حاصلضرب | ||||
گاما | α (شکل), β (نرخ معکوس) | از مشاهدات با حاصلضرب تخمین زده شدهاست؛ از مشاهدات با مجموع تخمین زده شدهاست. | ||||
جستارهای وابسته
نکات
- این توزیع پسین پیشگویانه یک نقطهٔ دادهٔ جدید با فرض نقاط دادهٔ مشاهده شدهاست که پارامترهای آن حاشیه سازی شدهاست. متغیرهای پریم دار مقادیر پسین پارامترها را نشان میدهند.
- β نرخ یا معکوس مقیاس است. در پارامتر سازی توزیع گاما، θ = 1/β و k = α.
- این توزیع پسین پیشگویانه نقطهٔ دادهٔ جدید با فرض نقاط دادهٔ مشاهده شدهاست که پارامترهای آن حاشیه سازی شدهاست. متغیرهای پریم دار مقادیر پسین پارامترها را نشان میدهند. و به ترتیب به توزیع نرمال و توزیع تی-استیودنت، یا در موارد چند متغیره به توزیع نرمال چند متغیره و توزیع تی چند متغیره اشاره دارند.
- برحسب گامای وارونه، پارامتر مقیاس است.
- توزیع مزدوج پیشینی متفاوت برای میانگین و واریانس نامعلومی با رابطه ای خطی و ثابت میان آنها در مخلوط نرمال واریانس-میانگین یافت میشود که گاوسی معکوس تعمیمیافته توزیع مخلوط مزدوج آن است.
- یک توزیع گامای مرکب است؛ در اینجا یک توزیع بتا پریم تعمیم یافته است.
منابع
- Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics, "conjugate prior distributions". Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
- For a catalog, see Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2003). Bayesian Data Analysis (2nd ed.). CRC Press. ISBN 1-58488-388-X.
- Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution" (PDF).
- Statistical Machine Learning, by Han Liu and Larry Wasserman, 2014, pg. 314: http://www.stat.cmu.edu/~larry/=sml/Bayes.pdf