توزیع مزدوج پیشین

در تئوری احتمال بیزی، اگر توزیعات احتمال پسین با توزیع احتمال پیشین خانواده ای یکسان داشته باشد آن گاه به توزیعات پیشین و پسین توزیعات مزدوج گفته شده و توزیع پیشین را توزیع مزدوج پیشین برای تابع درست‌نمایی (likelihood) می‌نامند. به عنوان مثال، خانوادهٔ گاوسی مزدوج خودش (یا خود مزدوج) نسبت به یک تابع درست‌نمایی گاوسی است: اگر تابع درست‌نمایی گوسی باشد، انتخاب توزیع پیشین گاوسی برای میانگین تضمین می‌کند که توزیع پسین نیز گاوسی خواهد بود. این به این معناست که توزیع گاوسی، تابع مزدوج پیشین تابع درست‌نمایی گوسی است. این مفهوم و عبارت «مزدوج پیشین» توسط هاوارد رایفا و رابرت اشلایفر در کارشان روی تئوری انتخاب بیزی معرفی شدند. مفهوم مشابهی نیز به‌طور مستقل توسط جورج آلفرد بارنارد کشف شده بود.[1]

توزیع مزدوج پیشین (انگلیسی: Conjugate prior)

مسئلهٔ کلی یافتن توزیع برای یک پارامتر θ به شرط یک داده یا مجموعه داده‌های x را در نظر بگیرید. از قضیه بیز می‌دانیم که توزیع پسین برابر با حاصلضرب تابع درست‌نمایی و توزیع پیشین نرمالیزه شده با (تقسیم بر) احتمال دادهٔ است:

فرض می‌کنیم تابع درست‌نمایی ثابت است. تابع درست‌نمایی معمولاً به خوبی از بیانی از فرایند تولید داده مشخص می‌گردد. واضح است که انتخاب‌های متفاوت برای توزیع پیشین محاسبهٔ انتگرال را سخت‌تر یا آسان‌تر می‌کند و حاصل ضرب فرم جبری متفاوتی بگیرد. برای انتخاب‌های مشخصی از توزیع پیشین، توزیع پسین فرم جبری مشابه توزیع پیشین خواهد داشت (عموماً با مقادیر پارامترهای متفاوت). چنین انتخابی یک توزیع مزدوج پیشین است.

یک توزیع مزدوج پیشین یک آسودگی جبری است که توصیف بسته ای برای توزیع پسین ارائه می‌دهد. در غیر این صورت ممکن است انتگرال عددی لازم باشد. علاوه بر این، توزیعات پیشین مزدوج با بیشتر و شفاف نشان دادن اینکه چگونه یک تابع درست‌نمایی یک توزیع پیشین را به روز می‌کند درکی مستقیم ارائه می‌دهند.

تمام اعضای خانواده نمایی توزیعات پیشین مزدوج دارند.[2]

مثال

فرم توزیع پیشین مزدوج عموماً می‌تواند با بررسی تابع چگالی احتمال یا تابع جرم احتمال آن توزیع مشخص گردد. به عنوان مثال، یک متغیر تصادفی را در نظر بگیرید که شامل تعداد موفقیت‌های در آزمایش برنولی با احتمال موفقیت نامعلوم در بازهٔ [۰٬۱] است. این متغیر تصادفی با تابع جرم احتمال زیر از توزیع دوجمله ای تبعیت می‌کند:

توزیع مزدوج پیشین معمول توزیع بتا با پارامترهای (, ):

که در آن و برای نمایش هرگونه باور یا اطلاعات به کار می‌رود (۱ = و ۲ = توزیع یکنواخت را به دست می‌دهند) و B(α, β) تابع بتا است که به عنوان ثابت نرمالیزه کننده استفاده می‌شود.

در اینجا و ابرپارامتر خوانده می‌شوند (پارامترهای توزیع پیشین) تا از پارامترهای مدل اساسی (در اینجا q) متمایز گردند. یکی از ویژگی‌های معمول توزیعات پیشین مزدوج این است که ابعاد ابرپارامترها یک واحد بزرگتر از ابعاد پارامترهای توزیع اصلی‌اند. اگر همهٔ پارامترها مقادیر اسکالر باشند آنگاه به این معناست که یک ابرپارامتر بیشتر از پارامتر خواهیم داشت. البته این نکته دربارهٔ پارامترهای با مقادیر برداری و ماتریسی نیز صدق می‌کند. (به مقالهٔ کلی دربارهٔ خانواده نمایی رجوع کنید و توزیع ویشارت را که مزدوج پیشین ماتریس کوواریانس توزیع نرمال چند متغیره است به عنوان مثالی برای ابعاد بزرگ در نظر بگیرید)

آن گاه اگر از این متغیر تصادفی نمونه برداری کنیم و s موفقیت و p شکست به دست آوریم داریم:

که توزیع بتای دیگری با پارامترهای (s + , + f) است. این توزیع پسین نیز می‌تواند به عنوان توزیع پیشین نمونه‌های بیشتر با اضافه کردن هر چه بیشتر اطلاعات توسط ابرپارامترها مورد استفاده قرار گیرد.

شبه مشاهدات

اغلب سودمند است که هایپرپارامترهای توزیع مزدوج پیشین را متناظر با انجام تعدادی شبه مشاهده با ویژگی‌هایی که توسط پارامترها مشخص می‌شود در نظر بگیریم. به عنوان مثال، مقادیر و برای یک توزیع بتا را می‌توان متناظر با ۱ - موفقیت و ۱ - شکست در نظر گرفت اگر مد توزیع پسین برای انتخاب یک تنظیمات پارامتر بهینه انتخاب شود یا موفقیت و شکست اگر میانگین توزیع پسین برای انتخاب یک تنظیمات پارامتر بهینه انتخاب شود. در حالت کلی، برای تقریباً تمام توزیعات مزدوج پیشین هایپر پارامترها می‌توانند بر حسب شبه مشاهدات تفسیر شوند. این عمل می‌تواند هم به فراهم آوردن درکی برای معادلات به‌روزرسانی اغلب درهم و شلوغ و هم برای انتخاب هایپرپارامترهای معقول برای یک توزیع پیشین کمک می‌کند.

تفسیرها

شباهت با توابع ویژه

توزیعات مزدوج پیشین مشابه تابع ویژه در نظریه عمل‌گرها هستند از این جهت که توزیعاتی هستند که در آن‌ها «عمل‌گر شرطی سازی»، در صورت در نظر گرفتن فرایند تغییر از توزیع پیشین به پسین به عنوان یک عمل‌گر، به روشی کاملاً قابل درک عمل می‌کند.

در هر دو توابع ویژه و توزیعات مزدوج پیشین فضایی با بعد متناهی وجود دارد که توسط عمل‌گر حفظ و نگهداری می‌شود: خروجی فرمی مشابه (فضایی مشابه) ورودی دارد. این عمل به شدت تجزیه و تحلیل را ساده می‌کند چون در غیر این صورت فضایی با بعد نامتناهی (فضای تمام توابع، فضای تمام توزیع‌ها) را در نظر می‌گیرد.

با این وجود، فرایندها تنها مشابه و نه یکسان هستند: شرطی سازی خطی نیست زیرا فضای توزیعات تحت ترکیب خطی بسته نمی‌شود بلکه تحت ترکیب محدب بسته می‌شود و توزیع پسین تنها فرمی مشابه توزیع پیشین دارد و ضریبی اسکالر از آن نیست.

همان‌طور که به راحتی می‌توان تجزیه و تحلیل کرد که چگونه ترکیبی خطی از توابع ویژه تحت استفاده از یک عمل‌گر تکامل می‌یابد (چون عمل‌گر نسبت به این توابع، قطری شده است)، به راحتی می‌توان تجزیه و تحلیل کرد که چگونه یک ترکیب محدب از توزیعات مزدوج پیشین تحت شرط سازی کامل می‌یابد؛ این عمل به وسیلهٔ یک توزیع هایپرپیشین صورت می‌گیرد و متناظر با استفاده از چگالی مخلوط توزیعات مزدوج پیشین به جای تک توزیع مزدوج پیشین است.

سیستم دینامیکی

می‌توان عمل شرطی سازی روی توزیعات مزدوج پیشین را تعریف کردن نوعی سیستم دینامیکی (زمان گسسته) در نظر گرفت: به ازای مجموعه ای داده شده‌ای از هایپرپارامترها، دادهٔ ورودی این هایپرپارامترها را به روز می‌کند. پس می‌توان تغییر در هایپرپارامترها را به نوعی «تکامل زمانی» تعبیر کرد که با «یادگیری» متناظر است. شروع در نقاط متفاوت جریان‌هایی متفاوت در طول زمان را سبب می‌گردد. این نیز مشابه سیستم دینامیکی است که با یک عمل‌گر خطی تعریف می‌شود ولی توجه کنید چون نمونه‌های متفاوت به استنتاج‌های متفاوت ختم می‌شود، این عمل به تنهایی وابسته به زمان نیست بلکه بیشتر وابسته به داده‌است. برای رویکردهای مرتبط، تخمین بیزی بازگشتی و داده گواری را ببینید.

جدول توزیعات مزدوج

فرض کنید n نشان دهندهٔ تعداد مشاهدات باشد. در تمام موارد زیر، فرض می‌شود که داده از n نقطهٔ (که در موارد چند متغیره بردارهای تصادفی خواهند بود) تشکیل شود.

اگر تابع شباهت متعلق به خانواده نمایی باشد آن گاه توزیع مزدوج پیشین وجود دارد که اغلب اوقات آن نیز عضو خانوادهٔ نمایی است. به خانواده نمایی: توزیعات مزدوج رجوع کنید.

توزیعات گسسته

شباهتپارامترهای مدلتوزیع مزدوج پیشینهایپرپارامترهای پیشینهایپرپارامترهای پسینتفسیر هایپر پارامترهاتوزیع پسین پیشگویانه[note 1]
برنولیp (احتمال)بتا موفقیت، شکست
دوجمله‌ایp (احتمال)بتا موفقیت، شکست
(بتا-دوجمله‌ای)
دوجمله‌ای منفی
با تعداد شکست‌های معلوم، r
p (احتمال)بتا total موفقیت، شکست (یعنی، آزمایش، با فرض اینکه ثابت بماند)
پواسون λ (نرخ) گاما
(دوجمله‌ای منفی)
[note 2] تعداد رخدادها در بازه
(دوجمله‌ای منفی)
مطلقp (بردار احتمال), k (تعداد دسته‌بندی ها؛ یعنی، اندازهٔ p)دیریکله که تعداد مشاهدات در دسته‌بندی i است. رخداد در دسته‌بندی
چندجمله‌ایp (بردار احتمال), k (تعداد دسته‌بندی های؛ یعنی، اندازهٔ p)دیریکله رخدادهای دسته‌بندی
(دیریکله—چندجمله‌ای)
فوق‌هندسی
با اندازهٔ جمعیت کل معلوم، N
M (تعداد اعضای هدف)بتا-دوجمله‌ای موفقیت، شکست
هندسیp0 (احتمال)بتا آزمایش، کل شکست‌ها

توزیعات پیوسته

شباهتپارامترهای مدلتوزیع مزدوج پیشینهایپرپارامترهای پیشینهایپرپارامترهای پسینتفسیر هایپرپارامترهاتوزیع پسین پیشگویانه[note 3]
نرمال
با واریانس معلوم σ2
μ (میانگین)نرمال میانگین از مشاهدات با دقت کل (مجموع تمام دقت‌های منفرد) و میانگین نمونهٔ تحمین زده شده‌است. [3]
نرمال
با دقت معلوم τ
μ (mean)نرمال میانگین از مشاهدات با دقت کل (مجموع تمام دقت‌های منفرد) و میانگین نمونهٔ تخمین زده شده‌است. [3]
نرمال
با میانگین معلوم μ
σ2 (واریانس)گامای وارونه[note 4] واریانس از مشاهدات با واریانس نمونهٔ (یعنی جمع مجذور انحرافات , که انحرافات از میانگین معلوم هستند) تخمین زده شده‌است. [3]
نرمال
با میانگین معلوم μ
σ2 (واریانس)کی دو وارونهٔ مقیاس شده واریانس از مشاهدات با واریانس نمونهٔ تخمین زده شده‌است. [3]
نرمال
با میانگین معلوم μ
τ (دقت)گاما[note 2] دقت از مشاهدات با واریانس نمونهٔ (یعنی جمع مجذور انحرافات , که انحرافات از میانگین معلوم هستند) تخمین زده شده‌است. [3]
نرمال[note 5]μ و σ2
با این فرض که تعویض پذیری دارند
گامای نرمال وارونه
  • میانگین نمونه است.
میانگین از مشاهدات با میانگین نمونهٔ تخمین زده شده‌است؛ واریانس از مشاهدات با میانگین نمونهٔ و مجموع مجذور انحرافات تخمین زده شده‌است. [3]
نرمالμ و τ
با فرض اینکه تعویض پذیری دارند
نرمال-گاما
  • میانگین نمونه است.
میانگین از مشاهدات با میانگین نمونهٔ , و دقت از مشاهدات با میانگین نمونهٔ و مجموع مجذور انحرافات تخمین زده شده‌است. [3]
نرمال چندمتغیره با ماتریس کوواریانس معلوم Σμ (بردار میانگین)نرمال چند متغیره
  • میانگین نمونه است.
میانگین از مشاهداتی با دقت کل (مجموع تمام دقت‌های منفرد) و میانگین نمونهٔ تخمین زده شده‌است. [3]
نرمال چندمتغیره با ماتریس دقت معلوم Λμ (بردار میانگین)نرمال چندمتغیره
  • میانگین نمونه است.
میانگین از مشاهداتی با دقت کل (مجموع تمام دقت‌های منفرد) و میانگین نمونهٔ تخمین زده شده‌است. [3]
نرمال چندمتغیره با میانگین معلوم μΣ (ماتریس کوواریانس)ویشارت وارون ماتریس کوواریانس از مشاهدات با مجموع حاصل‌ضرب‌های انحراف دو به دو تخمین زده شده‌است. [3]
نرمال چندمتغیره با میانگین معلوم μΛ (ماتریس دقت)ویشارت ماتریس کوواریانس از مشاهدات با مجموع حاصل‌ضرب‌های انحراف دو به دو تخمین زده شده‌است. [3]
نرمال چندمتغیرهμ (بردار میانگین) و Σ (ماتریس کوواریانس)وارون نرمال-ویشارت
  • میانگین نمونه است.
میانگین از مشاهدات با میانگین نمونهٔ تخمین زده شده‌است؛ ماتریس کوواریانس از مشاهدات با میانگین نمونهٔ و با مجموع حاصل‌ضرب‌های انحراف دو به دو تخمین زده شده‌است. [3]
نرمال چندمتغیرهμ (بردار میانگین) and Λ (ماتریس دقت)نرمال-ویشارت
  • میانگین نمونه است.
میانگین از مشاهدات با میانگین نمونهٔ تخمین زده شده‌است؛ ماتریس کوواریانس از مشاهدات با میانگین نمونهٔ و با مجموع حاصل‌ضرب‌های انحراف دو به دو تخمین زده شده‌است. [3]
یکنواختپارتو مشاهدات با مقدار بیشینهٔ
پارتو
با کمینهٔ معلوم xm
k (شکل)گاما مشاهدات با مجموع مرتبه بزرگی هر مشاهده (یعنی لگاریتم نسبت هر مشاهده به کمینهٔ )
توزیع وایبول
با شکل معلوم β
θ (مقیاس)توزیع گامای وارونه مشاهدات با مجموع β'امین توان هر مشاهده
توزیع لگاریتمی نرمال
با دقت معلوم τ
μ (میانگین)نرمال «میانگین» از مشاهداتی با دقت کل (مجموع تمام دقت‌های منفرد) و با میانگین نمونهٔ تخمین زده شده‌است.
توزیع لگاریتمی نرمال
با میانگین معلوم μ
τ (دقت)گاما[note 2] دقت از مشاهدات با واریانس نمونهٔ (یعنی مجموع مجذور انحرافات لگاریتمی — یعنی انحرافات لگاریتم نقاط داده از "میانگین")
نماییλ (نرخ)گاما[note 2] مشاهدات با مجموع [4]
(توزیع لوماکس)
گاما
با شکل معلوم α
β (نرخ)گاما مشاهدات با مجموع [note 6]
توزیع گامای وارونه
با شکل معلوم α
β (نرخ معکوس)گاما مشاهدات با مجموع
گاما
با نرخ معلوم β
α (شکل) or مشاهدات ( برای تخمین , برای تخمین ) با حاصل‌ضرب
گاماα (شکل), β (نرخ معکوس) از مشاهدات با حاصل‌ضرب تخمین زده شده‌است؛ از مشاهدات با مجموع تخمین زده شده‌است.

جستارهای وابسته

نکات

  1. این توزیع پسین پیشگویانه یک نقطهٔ دادهٔ جدید با فرض نقاط دادهٔ مشاهده شده‌است که پارامترهای آن حاشیه سازی شده‌است. متغیرهای پریم دار مقادیر پسین پارامترها را نشان می‌دهند.
  2. β نرخ یا معکوس مقیاس است. در پارامتر سازی توزیع گاما، θ = 1/β و k = α.
  3. این توزیع پسین پیشگویانه نقطهٔ دادهٔ جدید با فرض نقاط دادهٔ مشاهده شده‌است که پارامترهای آن حاشیه سازی شده‌است. متغیرهای پریم دار مقادیر پسین پارامترها را نشان می‌دهند. و به ترتیب به توزیع نرمال و توزیع تی-استیودنت، یا در موارد چند متغیره به توزیع نرمال چند متغیره و توزیع تی چند متغیره اشاره دارند.
  4. برحسب گامای وارونه، پارامتر مقیاس است.
  5. توزیع مزدوج پیشینی متفاوت برای میانگین و واریانس نامعلومی با رابطه ای خطی و ثابت میان آن‌ها در مخلوط نرمال واریانس-میانگین یافت می‌شود که گاوسی معکوس تعمیم‌یافته توزیع مخلوط مزدوج آن است.
  6. یک توزیع گامای مرکب است؛ در اینجا یک توزیع بتا پریم تعمیم یافته است.

منابع

  1. Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics, "conjugate prior distributions". Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
  2. For a catalog, see Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2003). Bayesian Data Analysis (2nd ed.). CRC Press. ISBN 1-58488-388-X.
  3. Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution" (PDF).
  4. Statistical Machine Learning, by Han Liu and Larry Wasserman, 2014, pg. 314: http://www.stat.cmu.edu/~larry/=sml/Bayes.pdf
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.