فاصله کوک
در آمار، فاصله کوک یک تخمین متداول از تأثیر یک داده هنگام انجام تحلیل رگرسیون از طریق کمترین مربعات است.[1] در کمترین مربعات، از فاصله کوک میتوان به چند روش استفاده کرد: برای نشان دادن دادههای تأثیرگذار که به خصوص ارزش اعتبارسنجی دارند یا نشان دادن مناطقی از فضای دادههای مستقل که دادههای بیشتری نیاز دارد. فاصله کوک به نام رالف دنیس کوک، آمارشناس آمریکایی نامگذاری شدهاست که این ایده را در سال ۱۹۷۷ معرفی کرد.[2][3]
تعریف
دادههایی که ماندههای بزرگ دارند (دادههای پرت) یا تأثیر زیادی بر مدل نهائی دارند ممکن است نتیجه و دقت یک رگرسیون را تحریف کنند. فاصله کوک اثر حذف یک دادهها را اندازهگیری میکند.
ابتدا رگرسیون خطی را با فرمت ماتریسی به این شکل تعریف میکنیم:
در اینجا خطای رگرسیون و پارامتر رگرسیون خطی است؛ تعداد متغیرهای مستقل یا پیشبینی کننده است و ماتریس مقادیر متغیرهای مستقل به همراه یک بردار ثابتِ یک است. تخمین کمترین مربعات عبارت است از ، و در نتیجه پیشبینی مدل رگرسیون برای با خود این بردار متناسب است:
در اینجا .
برای تعریف فاصله کوک به دو تعریف اهرم قدرت و بردار باقیمانده نیاز داریم. عنصر ام قطر اصلی که با برابر است،[4] اهرم قدرت داده ام نام دارد و تفاضل مقادیر مشاهده شده متغیر وابسته و پیشبینی آنها بردار باقیمانده نام دارد که با نشان داده میشود.
فاصله کوک برای داده ام را با نمایش میدهیم که با مقدار پایین برابر است:[5]
در اینجا پیشبینی برای داده مشاهده شده ام است زمانی که مدل رگرسیون بدون داده ام ساخته شود و میانگین خطای مربع مدل رگرسیون است.[6]
فاصله کوک را با استفاده از اهرم قدرت[5] () نیز میتوان به شکل پایین محاسبه کرد:
تشخیص دادههای تأثیرگذار
نظرات مختلفی در مورد انتخاب آستانه مناسب برای فاصله کوک ببرای کشف دادههای تأثیرگذار وجود دارد. از آنجا که فاصله کوک از توزیع اف با و درجه آزادی پیروی میکند، نقطه میانه این توزیع () میتواند به عنوان آستانه مورد استفاده قرار بگیرد.[7] از آنجا که این مقدار برای های بزرگ تقریباً ۱ است میتوان از شرط برای پیدا کردن دادههای تأثیرگذار استفاده کرد.[8] البته فاصله کوک همیشه دادههای تأثیرگذار را به درستی تشخیص نمیدهد.[9]
منابع
- Mendenhall, William; Sincich, Terry (1996). A Second Course in Statistics: Regression Analysis (5th ed.). Upper Saddle River, NJ: Prentice-Hall. p. 422. ISBN 0-13-396821-9.
A measure of overall influence an outlying observation has on the estimated coefficients was proposed by R. D. Cook (1979). Cook's distance, Di, is calculated...
- Cook, R. Dennis (February 1977). "Detection of Influential Observations in Linear Regression". Technometrics. American Statistical Association. 19 (1): 15–18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.
- Cook, R. Dennis (March 1979). "Influential Observations in Linear Regression". Journal of the American Statistical Association. American Statistical Association. 74 (365): 169–174. doi:10.2307/2286747. JSTOR 2286747. MR 0529533.
- Hayashi, Fumio (2000). Econometrics. Princeton University Press. pp. 21–23.
- "Cook's Distance".
- "Statistics 512: Applied Linear Models" (PDF). Purdue University. Archived from the original (PDF) on 2016-11-30. Retrieved 2016-03-25.
- Bollen, Kenneth A.; Jackman, Robert W. (1990). "Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases". In Fox, John; Long, J. Scott. Modern Methods of Data Analysis. Newbury Park, CA: Sage. pp. 266. ISBN 0-8039-3366-5.
- Cook, R. Dennis; Weisberg, Sanford (1982). Residuals and Influence in Regression. New York, NY: Chapman & Hall. ISBN 0-412-24280-X.
- Kim, Myung Geun (31 May 2017). "A cautionary note on the use of Cook's distance". Communications for Statistical Applications and Methods. 24 (3): 317–324. doi:10.5351/csam.2017.24.3.317. ISSN 2383-4757.