جانهی
جانهی، در آمار، فرایند جایگزینکردن دادههای گمشده با مقدارهای جایگزین است. جایگزین کردن یک نقطه دادهٔ گمشده، بهعنوان «جانهی یکه»، و یک مولفهٔ یک نقطه داده بهعنوان «جانهی موردی» شناخته میشود. دادههای گمشده منجر به سه مشکل اصلی میشوند: دادههای گمشده میتوانند منجر به سطح قابل توجهی از اریبی شوند، ساختن و مدیریتکردن دادهها را دشوار میکنند و منجر به کاهش کارایی میشوند.[1] چون دادههای گمشده میتواند منجر به بروز مشکل برای تحلیل داده ایجاد کند، جانهی بهعنوان راهی برای برای پیشگیری از اشتباهات مربوط به روش حذف لیستی در مواردی که دادههای گمشده ایجاد شده شوند. به این دلیل که، وقتی یک یا چند مقدار، برای یک مورد گمشدهاند، اکثر بستههای آماری، بهطور پیشفرض هر موردی که دادهٔ گمشده دارد را حذف میکنند، که ممکن است منجر به اریبی یا تأثیر بر مناسب بودن دادههای برای نمایندگی جامعه شوند. جانهی همهٔ موارد را با جایگزینکردن دادههای گمشده با مقدار برآوردی بر اساس دادههای موجود دیگر، حفظ میکند. وقتی که همهٔ دادههای گمشده جانهی شدند، دادگان میتوانند با استفاده از روشهای استاندارد برای دادههای کامل، تحلیل شوند.[2] نظریهٔ جانهی بهطور مداوم در حال توسعه است و بنابراین به توجه مداوم به اطلاعات جدید بهتوجه به موضوع دارد. نظریههای زیادی در مورد دادههای گمشده توسط دانشمندان ارائه شدهاست، اما عمدهٔ آنها منجر به سطح زیادی از اریبی میشوند. تعداد کمی از تلاشهای مشهور برای کار با دادههای گمشده از این قرارند: جانهی هاتدک (روش جانهی بیدرنگ) و کُلددک (روش جانهی بادرنگ)، حذف لیستی و زوجی، جانهی با میانگین، جانهی رگرسیونی، جانهی تصادفی و جانهی چندگانه.
حذف لیستی (مورد کامل)
تاکنون، رایجترین وسیلهٔ کنترل کردن دادههای گمشده حذف لیستی (که با عنوان مورد کامل هم شناخته میشود) بودهاست، که به حالتی گفته میشود که همهٔ موارد شامل دادهٔ گمشده حذف شوند. اگه دادها بهشکلی کاملاً تصادفی گمشده باشند، آنگاه حذف لیستی هیچ اریبیای ایجاد نمیکند، اما بهدلیل کاستن از اندازهٔ نمونه آماری، توان تحلیل دادهها را کاهش میدهد. برای مثال اگر ۱۰۰۰ نمونه جمعآوری شده باشد، اما ۸۰ نمونه مقدارهای گمشده داشته باشند، مقدار حجم نمونهٔ مؤثر بعد از حذف، ۹۲۰ خواهد بود. در غیر اینصورت اگر دادهها به شکل کاملاً تصادفی گمشده نباشند، آنگاه حذف لیستی منجر به بروز اریبی میشود، چون زیرنمونهٔ حاصل پس از حذف لیستی، نمایندهٔ خوبی برای نمونهٔ اصلی نیست (و اگر نمونهٔ اصلی خود نمایندهٔ مناسبی برای جمعیت باشد، موارد کامل نمایندهٔ خوبی برای جامعه نمیشوند). حالتی که دادهها کاملاً بهتصادف از دسترفته باشند، در واقعیت بهندرت رخ میدهد.[3]
حذف زوجی (یا «تحلیل موردی در دسترس») شامل حذفکردن یک مورد، هنگام از دست دادن یک متغیر مورد نیاز برای یک تحلیل و همچنین افزودن آن مورد هنگام وجود همهٔ متغیرهای آن مورد برای آن تحلیل خاص میشود. هنگام استفاده از حذف زوجی، N کلی در طول برآورد پارامتر سازگار نخواهد بود. زیرا مقدار N ناقص در یک نقطه از زمان، برای پارامتر دیگر مقایسه کامل را حفظ میکند. حذف زوجی میتوند منجر به شرایط ناممکن ریاضی، مانند همبستگی بیشتر از ۱۰۰درصد شود.[4]
یک مزیت روش مورد کامل نسبت به سایر روشها، پیادهسازی راحت و سرراست آن است. این دلیل اصلی این موضوع است که روش مورد کامل علیرغم معایب زیاد آن محبوبترین روش در مدیریت دادههای گمشدهاست.
جانهی منفرد
بیدرنگ (هاتدک)
یک روش رایج جانهی روش بیدرنگ است که پر آن یک مقدار از یک رکورد تصادفی انتخابشدهٔ مشابه انتخاب میشود. عبارت «بیدرنگ» به ذخیرهسازی دادهها روی کارتپانچها بازمیگردد و مشخص میکند که اهداکنندگان اطلاعات از یک همون دادگانی میآینده که دریافتکنندگان داده از آن میآیند. عبارت انگلیسی «هات» به معنی داغ از داغ بودن کارتپانچها، هنگام استفاده میآید.
یک حالت از جانهی بیدرنگ «آخرین مشاهدهٔ بهجلو (یا LOCF)» نامیده میشود؛ که شامل مرتبسازی مجموعه داده براساس هر تعداد متغیر و بنابراین ساخت دادگان مرتبشدهاست. این روش سپس اولین دادهٔ گمشده را پیدا میکند و اولین سلول پیشین دادهٔ گمشده را با دادهٔ گمشده جایگزین (جانهی) میکند. این فرایند برای سلولهای بعدی دارای دادهٔ گمشده بههمین شکل تکرار میشود تا تمام سلولهای دارای دادهٔ گمشده جانهی شوند. در سناریوی رایج که موردها اندازهٔ تکرارشده از متغیرهای مربوط به شخص یا موجود دیگری هستند، این نشاندهندهٔ این باور است که اگر یک مقدار گمشده باشد، بهترین حدس این است که از آخرین باری که اندازهگیری شدهاست متفاوت نباشد. این روش به افزایش خطر اریبی فزاینده و نتیجهگیری بالقوه غلط شناخته شدهاست. برای این هدف LOCF در عمل توصیه نمیشود.[5]
بادرنگ (کُلد-دک)
جانهی بادرنگ، برعکس، اهداکنندگان اطلاعات را از دادگان دیگر انتخاب میکند. بهدلیل پیشرفتها در قدرت کامپیوتر، روشهای پیچیدهتری، جایگزین روشهای جانهی تصادفی و مرتبشدهٔ بیدرنگ شدهاند.
جانشینی با میانگین
روش دیگر جانهی شامل جایگزین کردن هر مقدار گمشده با میانگین آن متغیر در سایر موارد همان متغیر است، که این مزیت را دارد که میانگین نمونهای را برای آن متغیر عوض نمیکند. بههرحال، جانهی میانگین هر همبستگیای در متغیرهای جانهی شده را نادیده میگیرد. این بهاینخاطر است که در موارد جانهی شده عملاً فرض میشود که ارتباطی بین متغیر جانهی شده و سایر متغیرهای اندازهگیریشده نیست؛ بنابراین، جانشینی با میانگین برخی خاصیتهای جذاب برای تحلیل تکمتغیره دارد، اما برای تحلیل چندمتغیره مشکلزا میشود.
رگرسیون
جانهی رگرسیونی، مسالهٔ مقابل جانهی با میانگین است. یک مدل رگرسیونی برای پیشبینی مقدار مشاهدهشدهٔ یک متغیر بر اساس یک متغیر دیگر برآورد میشود و سپس آن مدل برای جانهی مقدارها در موارد که مقدارها گمشده باشند استفاده میشود. بهعبارت دیگر اطلاعات دردسترس برای موارد کامل و ناقص برای پیشبینی مقدار یک متغیر بهخصوص استفاده میشوند. مقدارهای برازششده از مدل رگرسیونی سپس برای جانهی مقدارهای گمشده استفاده میشود. مشکل این روش این است که مقدارهای جانهیشده در خود عبارت خطایی در برآورد خود ندارند و بنابراین برآوردها بهطور بینقص در راستای خط رگرسیونی بدون هیچ ماندهٔ واریانس برازش میشوند. این باعث میشود که روابط بیشاندازه تشخیص داده شوند و دقت بالاتری نسبت به آنچه تضمین شدهاست پیشنهاد دهد. مدل رگرسیونی محتملترین مقدار برای دادههای گمشده را پیشبینی میکند، اما میزان عدم قطعیت را بیان نمیدارد.
رگرسیون تصادفی تلاشی نسبتاً موفق برای حل مشکل نبود عبارت خطا در روش جانهی رگرسیونی با افزودن متوسط واریانس رگرسیونی به جانهی رگرسیونی، برای معرفی خطا بود. رگرسیونی تصادفی مقدار کمتری اریبی نسبت به روشهای مطرحشده در بالا دارد، اما همچنان چیزی را از دست میدهد: هنگامی که دادهها جانهی شده و کسی نیاز به افزودن خطای بیشتر از ماندهٔ واریانس داشته باشد.
جانهی چندگانه
بهمنظور مدیریت مشکل افزایش نوفه حاصل از جانهی، روبین (۱۹۸۷) روشی را برای متوسط کردن نتایج در امتداد چندین مجموعهدادهٔ جانهیشده توسعه داد. همهٔ روشهای جانهی چندگانه از سه گام زیر پیروی میکنند.
- جانهی - مشابه با جانهی تکی، مقدارهای گمشده جانهی میشوند. بههرحال، مقدارهای جانهیشده بهجای یک بار، m بار از یک توزیع آماری به دست میآیند. در پایان این گام، باید m مجموعهدادهٔ کامل وجود داشته باشد.
- تحلیل - هرکدام از m مجموعهداده تحلیل میشود، در پایان این گام بایستی m تحلیل وجود داشته باشد.
- تجمیع - در این گام، m نتیجه با محاسبهٔ میانگین، واریانس و بازهٔ اطمینان متغیر مورد نظر در یک نتیجه تلفیق میشوند.[6][7]الگو:Not in source given
تنها بهاین خاطر که روشهای متعددی برای جانهی تکیوجود دارد، بههمین ترتیب روشهای متعددی نیز برای جانهی چندگانه وجود دارد. یکی از مزیتهای جانهی چندگانه به نسبت جانهی تکی و روشهای مورد کامل این است که، جانهی چندگانه انعطافپذیر است و میتواند در سناریوهای متفاوتی استفاده شود. جانهی چندگانه میتواند در مواردی که دادهها به کلی یا به تصادف گمشدهاند یا حتی مواردی که به تصادف گمنشدهاند، استفاده شود. درهرصورت، روش اصلی جانهی چندگانه، جانهی چندگانه بوسیلهٔ معادلات زنجیری (MICE) است. این روش همچنین به عنوان «تعیین کاملاً شرطی» و «جانهی چندگانهٔ رگرسیون ترتیبی» شناخته شدهاست.[8] نکتهٔ مهم لازم بهذکر این است که MICE تنها زمانی میتواند پیادهسازی شود که دادههای گمشده از سازوکاری تصادفی پیروی کند.
همانطور که در بخش قبلی اشاره شد، جانهی تکی در شرایط عدم قطعیت در جانهیها بهکار نمیآید. پس از جانهی، با دادهها مشابه حالتی که دادههای واقعی در جانهی تکی باشند رفتار میشود. غفلت از عدم قطعیت در جانهی منجر به خطا در نتیجهگیری شود.[9] با چند مرتبه جانهی، جانهی چندگاه مطمئناً شامل عدم قطعیت و بهوجود آمدی بازهای از مقدارهایی که مقدار واقعی شامل آن است میشوند.
علاوه بر اینها، در شرایطی که جانهی تکی، و مورد کامل برای پیادهسازی راحتتر هستند، جانهی چندگانه نیز پیادهسازی چندان دشواری ندارد. تعداد زیادی از بستههای آماری در نرمافزارهای آماری وجود دارند که به راحتی امکان اجرای جانهی چندگانه را امکانپذیر میسازند. برای مثال بستهٔ MICE به کاربران امکان جانهی بهروش MICE را در R میدهد.[10]
جستارهای وابسته
- Bootstrapping (آمار)
- سانسور (آمار)
- Geo-نسبت دادن
- الحاق
- انتظار–حداکثر الگوریتم
منابع
- Barnard, J.; Meng, X. L. (1999-03-01). "Applications of multiple imputation in medical studies: from AIDS to NHANES". Statistical Methods in Medical Research. 8 (1): 17–36. ISSN 0962-2802. PMID 10347858.
- Gelman, Andrew, and Jennifer Hill. Data analysis using regression and multilevel/hierarchical models. Cambridge University Press, 2006. Ch.25
- Kenward, Michael G (2013-02-26). "The handling of missing data in clinical trials". Clinical Investigation. 3 (3): 241–250. doi:10.4155/cli.13.7. ISSN 2041-6792.
- Enders, C. K. (2010). Applied Missing Data Analysis. New York: Guilford Press. ISBN 978-1-60623-639-0.
- Molnar, Frank J.; Hutton, Brian; Fergusson, Dean (2008-10-07). "Does analysis using "last observation carried forward" introduce bias in dementia research?". Canadian Medical Association Journal. 179 (8): 751–753. doi:10.1503/cmaj.080820. ISSN 0820-3946. PMC 2553855. PMID 18838445.
- Yuan, Yang C. (2010). "Multiple imputation for missing data: Concepts and new development" (PDF). SAS Institute Inc. , Rockville, MD. 49: 1–11.
- Van Buuren, Stef (2012-03-29). "2. Multiple Imputation" (PDF). Flexible Imputation of Missing Data. Chapman & Hall/CRC Interdisciplinary Statistics Series. Chapman and Hall/CRC. doi:10.1201/b11826. ISBN 978-1-4398-6824-9.
- Azur, Melissa J.; Stuart, Elizabeth A.; Frangakis, Constantine; Leaf, Philip J. (2011-03-01). "Multiple imputation by chained equations: what is it and how does it work?". International Journal of Methods in Psychiatric Research. 20 (1): 40–49. doi:10.1002/mpr.329. ISSN 1557-0657. PMC 3074241. PMID 21499542.
- Graham, John W. (2009-01-01). "Missing data analysis: making it work in the real world". Annual Review of Psychology. 60: 549–576. doi:10.1146/annurev.psych.58.110405.085530. ISSN 0066-4308. PMID 18652544.
- Horton, Nicholas J.; Kleinman, Ken P. (2007-02-01). "Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models". The American Statistician. 61 (1): 79–90. doi:10.1198/000313007X172556. ISSN 0003-1305. PMC 1839993. PMID 17401454.
پیوند به بیرون
- Missing Data: Instrument-Level Heffalumps and Item-Level Woozles
- Multiple-imputation.com
- Multiple imputation FAQs, Penn State U
- A description of hot deck imputation from Statistics Finland.
- Paper extending Rao-Shao approach and discussing problems with multiple imputation.
- Paper Fuzzy Unordered Rules Induction Algorithm Used as Missing Value Imputation Methods for K-Mean Clustering on Real Cardiovascular Data.
- Real world application of Imputation by the UK Office of National Statistics