معیار واگرایی کولبک-لیبلر
در آمار ریاضی از Kullback–Leibler واگرایی به عنوان معیاری برای اندازهگیری واگرایی یک توزیع احتمال از یک توزیع احتمال ثانویه، یاد میشود.[1][2] از جمله کاربردهای این مفهوم شامل توصیف آنتروپی نسبی (Shannon) در سیستمهای اطلاعاتی، رندمنس در سریهای زمانی پیوسته و بهره اطلاعاتی در زمانی که به مقایسه با مدلهای آماری استنباطی میپردازیم، میباشد. برخلاف تنوع اطلاعات، این معیار، یک معیار نامتقارن میباشد و در نتیجه نمیتوان آن را به عنوان یک معیار پراکندگی معرفی کرد. به عبارت دیگر، مقدار ۰ برای Kullback–Leibler واگرایی نشان میدهد که ما میتوانیم انتظار رفتار مشابهی (نه دقیقاً یکسان) از دو توزیع داشته باشیم در حالی که مقدار ۱ برای این معیار نشان میدهد که دو توزیع رفتارهای متضادی دارند.
ریشهشناسی
عبارت واگرایی Kullback–Leibler در اصل توسط Solomon Kullback و Richard Leibler در سال ۱۹۵۱ به عنوان واگرایی جهتدار بین دو توزیع معرفی گردید؛ هرچند که Kullback خودش نامتمییز اطلاعات را بیشتر ترجیح میداد.[3] در Kullback's historic text, Information Theory and Statistics، این معیار مورد بحث قرار گرفته است.
تفسیر
واگرایی Kullback-Leibler توزیع Q نسبت به P اغلب به صورت (DKL(P‖Q نوشته میشود.
در حوزه یادگیری ماشین از (P‖Q)DKL عموماً به نام بهره اطلاعاتی حاصله به شرطی که به جای توزیع P از توزیع Q استفاده شود، یاد میشود. از منظر تئوری اطلاعات، به این مسئله آنتروپی نسبی از توزیع P با توجه به توزیع Q نامیده میشود. در حوزه نظریه کدینگ، (DKL(P‖Q میتواند به عنوان معیاری برای اندازهگیری متوسط تعداد بیتهای اضافی مورد نیاز به منظور کد کردن نمونهای از توزیع P با استفاده از یک کد بهینهسازی شده برای توزیع Q، به جای استفاده از کد بهینهسازی شده برای P میباشد.
از منظر استنتاج بیزین (DKL(P‖Q، یک معیار اندازهگیری اطلاع کسب شده هنگامی که یک اصلاح باورهای از توزیع پیشین احتمال Q به توزیع پسین احتمال P رخ دهد. به عبارت دیگر، مقداری از اطلاع است که به واسطه تقریب زدن P در هنگامی که از Q برای آن استفاده میشود، میباشد.[4] در عمل، P به طور معمول نشان دهنده توزیع «صحیح» دادهها، مشاهدات یا یک توزیع تئوری ایست که دقیق محاسبه شده است در حالی که Q به طور معمول نشان دهنده یک نظریه، مدل، توصیف یا تقریبی از P میباشد. به منظور پیدا کردن یک توزیع Q که نزدیکترین توزیع به P باشد، میتوان به دنبال محاسبه توزیعی گشت که معیار واگرایی KL را کمینه میکند.
تعریف
برای توزیعهای احتمالاتی گسسته P و Q معیار واگرایی Kullback–Leibler واگرایی از Q به P، به صورت زیر تعریف میشود[5]
به عبارت دیگر، امید تفاوت لگاریتمی بین احتمالات P و Q در جایی که امید با استفاده از توزیع P به دست آمده باشد، میباشد. معیار واگرایی Kullback–Leibler تنها در صورتی Q(i)=0 نتیجه دهد P(i)=0 تعریف شده است، هر زمان که (P(i برابر صفر گردد سهم iمین ترم صفر تفسیر میشود و این بخاطر میباشد.
برای توزیعهای P و Q از یک متغیر تصادفی پیوسته، معیار واگرایی Kullback–Leibler به صورت انتگرال زیر تعریف میشود:[6]
به طوریکه در آن p و q به معنی چگالی احتمال P و Q میباشد.
به طور کلی، اگر P و Q احتمالهایی تعریف شده بر روی یک مجموعه X باشند و P اکیداً پیوسته نسبت به Q باشد، آنگاه معیار واگرایی Kullback–Leibler از Q به P به صورت زیر تعریف میگردد:
در این تعریف، مشتق Radon–Nikodym از P نسبت به Q میباشد و میتواند به صورت زیر بازنویسی شود:
که ما آن را به عنوان آنتروپی نسبی P نسبت به Q میشناسیم. در ادامه در این مورد، اگر هر اندازهگیری بر روی X باشد که در آن و برقرار باشد (به این معنی که p و q اکیداً نسبت به ) آنگاه معیار واگرایی Kullback–Leibler از Q به P، به صورت زیر میباشد
در صورتی که اطلاعات با واحد بیت اندازهگیری شده باشد لگاریتمها در مبنای 2 میباشند و در صورتی که از واحد nats برای سنجش اطلاعات استفاده شده باشد، پایه لگاریتمها e خواهد بود.
قراردادهای مختلفی برای اشاره به DKL(P‖Q) به صورت لفظی وجود دارد. اغلب از آن به عنوان اختلاف بین توزیعهای P و Q یاد میشود;در حالی که این توصیف با خاصیت نامتقارن بودن فرمول (یعنی واگرایی توزیع P از Q با میزان واگرایی توزیع Q از P لزوماً برابر نیست) در تعارض است. از این رو برخی مواقع، همانطور که در این مقاله هم از آن یاد شد، از آن به عنوان واگرایی توزیع P از یا نسبت به توزیع Q یاد میکنند.
خصوصیات
Arthur Hobson ثابت کرد که معیار واگرایی Kullback–Leibler تنها معیار تفاوت بین توزیعهای احتمالی است که برخی از خواص مورد نظر را در خود دارد.[7] و نتیجتاً، اطلاعات متقابل نیز تنها معیار وابستگی متقابل میان متغیرهای تصادفی است که یکسری شرایط خاص را دارا میباشد، چرا که آن میتواند از منظر معیار واگرایی مورد نظر نیز تعریف گردد.اطلاعات متقابل
همچنین خصوصیاتی از نقطه نظر بیز هم برای این معیار وجود دارد.[8]
انگیزه
در تئوری اطلاعات، قضیه Kraft–McMillan بیان میکند که هر شمای کدگذاری قابل دیکد کردنی برای کد کردن یک پیام به طوریکه بتوان مقدار xi را از مجموعه تمامی مقادیر ممکن X به صورت مستقیم دیکد کند نیاز تا احتمال نمایش هر مقدار را به صورت توزیع احتمال q(xi)=2−li در نظر گرفته شود که در آن li، طول کد برای xi در واحد بیت میباشد. بنابراین، معیار واگرایی Kullback–Leibler را میتوان به عنوان امید مقدار طول پیام اضافی به ازای هر داده دانست که در صورتی که اگر از یک کد که برای توزیع Q بهینه است (توزیع ناصحیح) برای انتقال آن استفاده گردد، باید به صورت اضافی (نسبت به حالتی که از یک کد بهینه برای توزیع صحیح استفاده شود) مخابره گردد.
در اینجا H(P,Q) آنتروپی مشترک توزیعهای P و Q میباشد و H(P) نیز آنتروپی توزیع P میباشد.
همچنین توجه داشته باشید که یک رابطه میان معیار واگرایی Kullback–Leibler و «تابع نرخ» در نظریه انحراف بزرگ وجود دارد.[9][10]
رابطه با معیارهای
ممکن است برخی معیار واگرایی Kullback–Leibler را به عنوان یک «معیار فاصله» در فضای توزیعهای احتمالی معرفی نماید اما این فرض صحیح نیست چراکه این معیار متقارن نیست، یعنی و همچنین نامساوی مثلث در مورد آن صادق نیست.
اگر دنبالهای از توزیعها باشد به صورتی که حد میزان واگرایی توزیع Pn نسبت به Q در زمانی که n به سمت بینهایت میل میکند برابر صفر باشد.
-
(
)
-
به این ترتیب میتوان گفت
-
.
(
)
به این ترتیب از نامساوی Pinsker نتیجه میگیریم
-
,
(
)
که آن به معنای همگرایی در مجموع تنوع میباشد.
جستارهای وابسته
- Akaike Information Criterion
- بیزی اطلاعات معیار
- Bregman واگرایی
- Cross-entropy
- انحراف معیار اطلاعات
- آنتروپی ارزش در معرض خطر
- آنتروپی قدرت نابرابری
- به دست آوردن اطلاعات در درختهای تصمیمگیری
- اطلاعات به دست آوردن نسبت
- اطلاعات تئوری و نظریه اندازهگیری
- جنسن–Shannon واگرایی
- کوانتومی آنتروپی نسبی
- جزایر Kullback و ریچارد Leibler
منابع
- Kullback, S.; Leibler, R.A. (1951). "On information and sufficiency". Annals of Mathematical Statistics. 22 (1): 79–86. doi:10.1214/aoms/1177729694. MR 0039968.
- Kullback, S. (1959). Information Theory and Statistics. John Wiley & Sons.
- Kullback, S. (1987). "Letter to the Editor: The Kullback–Leibler distance". The American Statistician. 41 (4): 340–341. doi:10.1080/00031305.1987.10475510. JSTOR 2684769.
- Burnham K.P. , Anderson D.R. (2002), Model Selection and Multi-Model Inference (Springer). (2nd edition), p.51
- MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms (First ed.). Cambridge University Press. p. 34.
- Bishop C. (2006).
- Hobson, Arthur (1971). Concepts in statistical mechanics. New York: Gordon and Breach. ISBN 0-677-03240-4.
- Baez, John; Fritz, Tobias (2014). "A Bayesian characterization of relative entropy". Theory and Application of Categories. 29: 421–456.
- Sanov, I.N. (1957). "On the probability of large deviations of random magnitudes". Matem. Sbornik. 42 (84): 11–44.
- Novak S.Y. (2011), Extreme Value Methods with Applications to Finance ch. 14.5 (Chapman & Hall).
- Rényi A. (1970). Probability Theory. Elsevier. Appendix, Sec.4. ISBN 0-486-45867-9.
- Rényi, A. (1961), "On measures of entropy and information" (PDF), Proceedings of the 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960, pp. 547–561