دادههای گمشده
در آمار، دادههای گمشده یا مقدارهای گمشده زمانی رخ میدهد؛ که هیچ مقدار دادهای برای یک متغیر در یک مشاهده ذخیره نشده باشد. دادههای گمشده اتفاقی رایج است و میتواند اثر معنیداری از نتایج حاصل از دادهها داشته باشد.
دادههای گمشده میتوانند بهدلیل بیپاسخی آماری رخدهند: یعنی هیچ اطلاعاتی برای یک یا چند مورد در کل واحد («موضوع») بهدست نیامده باشد. بعضی موارد به احتمال بیشتری بیپاسخی تولید میکنند: برای مثال مواردی که در مورد مسائل خصوصی مانند درآمد هستند. ساییدگی نوعی از دسترفتن که در مطالعات جغرافیایی رخ دهد. برای نمونه مطالعهٔ توسعه که اندازهگیری بعد از دورهای از زمان تکرار شدهاست. ازدسترفتگی زمانی که یکی از شرکتکنندگان قبل از پایان مطالعه را ترک میکند، یا یک یا چند اندازهگیری از دست میرود، رخ میدهد.
دادهها اغلب در تحقیقات اقتصادی، جامعهشناسی و علوم سیاسی از بین میروند، زیرا دولت یا نهادهای خصوصی گزارشهای حساس را ناقص ارائه دهند، یا کلاً ارائه ندهند،[1] یا به این علت که دادهها در دسترس نیستند ارائه داده نمیشود. بعضی مواقع گمشده بودن دادهها بهخاطر خود محقق است، برای مثال، هنگامی که جمعآوری دادهها نامناسب است یا [در سیستمهای اطلاعاتی] به اشتباه وارد میشوند.[2]
این شکلهای بسته به نوع اثری که بر صحت نتیجهگیریهای یک تحقیق میگذارند، انواع مختلفی دارند که عبارتاند از: بهطور کامل ازدسترفته و بهطور تصادفی ازدسترفته. میتوان با دادههای گمشده همانند دادههای سانسورشده رفتار کرد.
انواع دادههای گمشده
فهمیدن دلیل اینکه چرا دادهها گمشدهاند برای مدیریت صحیح سایر دادهها مهم است. اگر دادهها کاملاً بهتصادف گمشده باشند، نمونهٔ دادهها احتمالاً هنوز نمایندهای جامعه خواهد بود. اما اگه دادهها به شکل سیستماتیک گمشده باشند. تحلیل ممکن است اریب باشد. برای مثال، در مطالعهٔ ارتباط بین IQ و درآمد، اگر شرکتکنندگان با IQ متوسط به بالا تمایل به پاسخ ندادن به سؤال «درآمد شما چقدر است؟» نداشته باشند، تحلیلی که این مسئله را بهعنوان یک الگوی گمشدن بهصورت تصادفی (الگوی MAR) در نظر نمیگیرد، ممکن است در پیدا کردن همبستگی بین حقوق و IQ شکست بخورد. بهخاطر این مشکلات، روششناسان بهطور معمول به محققان توصیه میکنند مطالعات را طراحی کنند تا وقوع دادههای گمشده را به حداقل برسانند. مدلهای گرافیکی میتوانند با جزییات، سازوکار دادههای گمشده را توصیف کنند.[3]
گمشده بهصورت کاملاً تصادفی
مقدارهای درون مجموعهدادهها بهصورت کاملاً تصادفی گمشده (MCAR) هستند، اگر رویدادهایی که منجر به گمشدن هر نوع مورد-دادهای میشوند از متغیرهای قابل مشاهده و پارامترهای مورد علاقهٔ غیرقابل مشاهده مستقل باشند و بهشکل کاملاً تصادفی رخ دهند.[4] هنگامی که دادهها MCAR هستند، تحلیل انجامشده روی دادهها نااریب است، گرچه دادهها به ندرت MCAR هستند
در مورد MCAR، از دسترفتگی دادهها، از هر متغیر دیگر مستقل است؛ بنابراین، شرکتکنندگان با دادههای کامل مشاهدهشده در اثر، یک نمونه تصادفی از همه شرکتکنندگان مربوط یک مداخلهٔ خاص هستند. با MCAR، تخصیص تصادفی تیمارها، محفوظ فرض میشود، اما معمولاً در عمل این فرضی قوی و غیرواقعبینانه است.[5]
گمشده بهطور تصادفی
گمشده بهطور تصادفی (MAR) هنگامی رخ میدهد که از دسترفتگی تصادفی نباشد، اما ازدسترفتگی میتواند به حساب متغیری که در آن اطلاعات کاملی باشد اطلاق شود.[6] MAR فرضی است که تأیید آماری آن غیرممکن است، و بر فرض معقول بودن آن اعتماد میشود.[7] یک مثال این است که مردها کمتر احتمال دارد که در یک مطالعه در مورد افسردگی شرکت کنند، حال آنکه این مسئله هیچ ربطی به سطح افسردگیشان ندارد. بسته به روش تحلیل، این دادهها بهدلیل خالیبودن شرطی سلولها منجر به اریبی در تحلیل شوند (در مردها افسردگی خیلی زیاد ممکن است هیچ ورودیای نداشته باشد). بههرحال، اگر پارامتر با برآورد درستنمایی بیشینه اطلاعات کامل برآورد شود، MAR برآوردهایی بهطور مجانبی:نظریه مجانبی نااریب ارائه میدهد.
گمشده بهصورت غیرتصادفی
گمشده بهصورت غیرتصادفی (MNAR) (که بهعنوان بیپاسخی غیرقابل چشمپوشی هم شناخته میشود) دادههایی هستند که نه MAR و نه MCAR باشند (برای مثال مقداری از متغیر که به دلیل مشخص گمشده باشد). برای توسیع مثال قبل، اگر مردان بهخاطر سطح افسردگیشان نتوانند پرسشنامهٔ افسردگی را پرکنند.
روشهای کار با دادههای گمشده
دادههای گمشده میزان نمایندهٔ جامعه بودنِ نمونه را کاهش میدهند، و بنابراین میتوانند استنباط در مورد جامعه دچار مشکل کنند. بهطور کلی، سه رویکرد کلی برای مقابله با دادههای گمشده وجود دارد: جانهی -که به پرکردن جای دادههای گمشده میگویند- حذف—که در آن نمونهها با دادههای نامعتبر از تحلیل دور انداخته میشوند و تحلیلی -بهکار بردند روشهایی بیتأثیر از دادههای گمشده-.
در برخی موارد کاربردی، آزمایشگرها میتواند سطح گمشدگی دادهها را کنترل کنند و از دسترفتگی دادهها قبل از جمعآوری دادهها پیشگیری کنند. برای مثال، در پرسشنامههای کامپیوتری، معمولاً جواب ندادن سؤالها غیرممکن است. به این شکل که یک سؤال باید جواب دادهشود وگرنه نمیتوان سؤال بعدی را جواب داد؛ بنابراین گمشدگی دادهها توسط شرکتکنندگان با این نوع پرسشنامه ممکن نیست، اگرچه این نوع پرسشنامه ممکن است این روش در مشی اخلاقی هیئت نظارت بر آن پژوهش مجاز نباشد. در تحقیقات، چندین تلاش برای تماس با شرکتکنندگان، اغلب از طریق ارسال نامه، برای ترغیب افرادی که تصمیم به شرکت نکردن در مطالعه گرفتهاند، برای تغیر تصمیمشان، در مطالعه امری مرسوم است.[8]:161–187 بااینحال، این روشها هم میتواند در کاهش آثار مخرب استنباطی دادههای گمشده کمک کند و هم آسیب بزند، زیرا نوع افرادی که قرار است بعد از رد اولیه شرکتشان در مطالعه برای شرکتکردن مجدد متقاعد شوند، بهطور معنیدار متفاوت از نوع افرادیست که پس از درخواست مجدد از آنها برای شرکت در مطالعه، درخواست را رد میکنند..:188–198
در شرایطی که وقوع دادههای گمشده محتمل است، محققان معمولاً به استفاده از روشهای آماری مقاوم در برابر گمشدگی دادهها توصیه میشوند. یک تحلیل وقتی مقاوم است که ما مطمئن باشیم تغییرات خفیف تا متوسط فرضیات تکنیکی کلیدی یا اریبی ایجاد نمیکند یا مقدار کمی اریبی ایجاد میکند، یا تحریف در نتایج در مورد جمعیت است.
جانهی
برخی روشهای تجزیه و تحلیل دادهها در برابر دادههای گمشده مقاوم نیستند و نیاز به «پر کردن»، یا جانهی مقدار گمشده دارند. روبین (۱۹۸۷) استدلال کرد که تکرار جانهی حتی برای تعداد اندک (۵ یا کمتر) تا حد زیادی کیفیت برآورد را بهبود میبخشد. برای اهداف زیادی، ۲ یا ۳ جانهی برای بسیاری از اهداف عملی ۲ یا 3 imputations تصرف بسیاری از نسبی بهرهوری است که میتواند گرفته شده با تعداد زیادی از imputations. اما بیش از حد تعداد کمی از imputations میتواند منجر به از دست دادن قابل توجهی از آماری قدرتو برخی از محققان در حال حاضر توصیه میکنند ۲۰ تا ۱۰۰ یا بیشتر.[9] هر ضرب-منسوب تجزیه و تحلیل دادهها باید تکرار برای هر یک از منسوب مجموعه داده و در برخی موارد مربوط به آمار باید ترکیب نسبتاً پیچیده در راه است.
الگوریتم امید ریاضی–بیشینه کردن (EM) رویکردی است که مقادیر آمارهها که در صورت کامل بودن یک مجموعهداده برآورد میشود (جانهی میشود)، با توجه به الگوی دادههای گمشده. در این رویکرد، مقدار دادههای گمشده تکی بهطور معمول جانهی نمیشوند.
درونیابی
در شاخهٔ ریاضیاتی آنالیز عددی، درونیابی روش ساخت روش ساخت نقطه دادههای جدید در یک بازهٔ مجموعهای گسسته از نقاط دادهای شناخته شدهاست.
در مقایسه دو نمونهٔ زوجی شامل دادههای گمشده، یک آماره آزمون که از همه دادههای موجود بدون نیاز به جانهی استفاده میکند، آزمون تی استیودنت برای نمونههای بهطور جزئی دارای همپوشانی است.[10] این آزمون تحت شرط نرمال بودن و فرض MCAR معتبر است.
حذف جزئی
روشهایی که شامل محدود کردن یک مجموعهداده به دادههایی بدون دادههای گمشدگی که شامل این موارد میشوند:
- حذف لیستی/حذف موردی
- حذف روجی
تحلیل کامل
روشهایی که از همهٔ اطلاعات موجود، بدون اعوجاج نتایج حاصل مقدارهای جانهی شده بهعنوان حالتی که در واقع مشاهده میشوند، بهکارگیری میکند.
- رویکردهای مولد:
- الگوریتم امید ریاضی–بیشینه کردن
- برآورد بیشینهٔ درستنماییی اطلاعات کامل
- رویکردهای افتراقی:
- طبقهبندی حداکثر-حاشیه دادهها با ویژگیها ناموجود[11]
روشهای مبتنی بر مدل
روشهای مبتنی بر مدل، غالباً با استفاده از نمودار، ابزارهای دیگری برای تست دادههای گمشده و برای برآورد پارامترها تحت شرایطی که دادههای گمشده وجود دارندپیشنهاد میدهند (MCAR, MAR و MNAR). برای مثال، یک تست برای رد کردن MAR/MCAR بهشرح زیر است:
برای هرکدام از سهمتغیر X, Y و Z که Z کاملاً مشاهده شدهاست و X و Y بهطور جزئی مشاهده شدهاند، دادها باید در شرط
به بیان دیگر، مشاهدهٔ جزئی X باید مستقل از وضعیت گمشدگی Y، به شرط هر مقدار Z باشد. برقرار نشدن این شرط بیانگر این است که مسئله متعلق به دستهٔ MNAR است.[12]
(نکته: این آزمونها برای MAR مبتنی بر متغیر که تغییر کمی نسبت به MAR مبتنی بر رویداد دارند لازماند.[13][14][15])
هنگامی که دادهها در دستهٔ MNAR قرار میگیرند، روشهایی برای برآورد سازگار پارامترها در شرایط خاص مدل در دسترس هستند.[16] برای مثال اگر Y که بیانگر دلیل گمشدگی در X, Y است، خود دارای دادههای گمشده باشد، هنوز هم توزیع احتمال توأم X و Y در صورتی که گمشدگی Y تصادفی باشد میتواند برآورد شود. برآورد در این حالت به این شکل خواهد بود:
که در آن و
ساختارهای متفاوت هر زمان که برآوردهای سازگار ممکن است، منجر به برآوردهای متفاوت و فرایندهای متفاوت برآورد شود. مورد برآورد قبل اول با برآورد از اطلاعات کامل و ضرب آن در
در بسیاری از موارد روشهای مبتنی بر مدل به ساختار مدل این اجازه را میدهد تا تحت آزمونهای نادرستی قرار گیرد. هر مدلی که استفلال بین متغیر بهطور جزئی مشاهده شدهٔ X و شاخص گمشدگی متغیر دیگر Y را ایجاب کند، (یعنی ) به شرط
در نهایت، برآوردشدههایی که از این روشها میآیند از فرم بسته میآیند و نیاز به فرایندههای تکراری مانند الگوریتم امید ریاضی–بیشینه کردن ندارند.[17]
یک کلاس خاص از مشکلات هنگامی که احتمال گمشدگی به زمان وابسته است ظاهر میشود. برای مثال، در پایگاه دادهٔ تروما، احتمال از دسترفتن دادههای مربوط به تروما وابسته به زمان روز بعد از تروماست. در این موارد مدلهای زنجیره ای مارکوف ناایستای متنوعی اعمال میشود.[18]
جستارهای وابسته
- سانسور (آمار)
- انتظار–حداکثر الگوریتم
- شاخص متغیر
- معکوس احتمال وزن
- مکنون
- ماتریس تکمیل
منابع
- Messner SF (1992). "Exploring the Consequences of Erratic Data Reporting for Cross-National Research on Homicide". Journal of Quantitative Criminology. 8 (2): 155–173. doi:10.1007/bf01066742.
- Hand, David J.; Adèr, Herman J.; Mellenbergh, Gideon J. (2008). Advising on Research Methods: A Consultant's Companion. Huizen, Netherlands: Johannes van Kessel. pp. 305–332. ISBN 90-79418-01-3.
- Karvanen, Juha (2015). "Study design in causal models". Scandinavian Journal of Statistics. 42 (2): 361&ndash, 377. arXiv:1211.2958. doi:10.1111/sjos.12110.
- Polit DF Beck CT (2012). Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed. Philadelphia, USA: Wolters Klower Health, Lippincott Williams & Wilkins.
- Deng. "On Biostatistics and Clinical Trials". Archived from the original on 15 March 2016. Retrieved 13 May 2016.
- "Archived copy". Archived from the original on 2015-09-10. Retrieved 2015-08-01.CS1 maint: Archived copy as title (link)
- Little, Roderick (2002). Statistical analysis with missing data. Hoboken, N.J: Wiley. ISBN 978-0-471-18386-0.
- Stoop, I.; Billiet, J.; Koch, A.; Fitzgerald, R. (2010). Reducing Survey Nonresponse: Lessons Learned from the European Social Survey. Oxford: Wiley-Blackwell. ISBN 0-470-51669-0.
- Graham J.W.; Olchowski A.E.; Gilreath T.D. (2007). "How Many Imputations Are Really Needed? Some Practical Clarifications of Multiple Imputation Theory". Preventative Science. 8 (3): 208–213. doi:10.1007/s11121-007-0070-9.
- Derrick, B; Russ, B; Toher, D; White, P (2017). "Test Statistics for the Comparison of Means for Two Samples That Include Both Paired and Independent Observations". JMASM. 16 (1): 137–157. doi:10.22237/jmasm/1493597280.
- Chechik, Gal; Heitz, Geremy; Elidan, Gal; Abbeel, Pieter; Koller, Daphne (2008-06-01). "Max-margin Classification of Data with Absent Features". The Journal of Machine Learning Research. 9: 1–21. ISSN 1532-4435.
- Mohan, Karthika; Pearl, Judea (2014). "On the testability of models with missing data". Proceedings of AISTAT-2014, Forthcoming.
- Darwiche, Adnan (2009). Modeling and Reasoning with Bayesian Networks. Cambridge University Press.
- Potthoff, R.F.; Tudor, G.E.; Pieper, K.S.; Hasselblad, V. (2006). "Can one assess whether missing data are missing at random in medical studies?". Statistical Methods in Medical Research. 15 (3): 213–234. doi:10.1191/0962280206sm448oa.
- Pearl, Judea; Mohan, Karthika (2013). Recoverability and Testability of Missing data: Introduction and Summary of Results (PDF) (Technical report). UCLA Computer Science Department, R-417.
- Mohan, Karthika; Pearl, Judea; Tian, Jin (2013). Advances in Neural Information Processing Systems 26. pp. 1277–1285.
- Mohan, K.; Van den Broeck, G.; Choi, A.; Pearl, J. (2014). "An Efficient Method for Bayesian Network Parameter Learning from Incomplete Data". Presented at Causal Modeling and Machine learning Workshop, ICML-2014.
- Mirkes, E.M.; Coats, T.J.; Levesley, J.; Gorban, A.N. (2016). "Handling missing data in large healthcare dataset: A case study of unknown trauma outcomes". Computers in Biology and Medicine. 75: 203–216. arXiv:1604.00627. doi:10.1016/j.compbiomed.2016.06.004. Archived from the original on 2016-08-05.
- Empty citation (help)
برای مطالعهٔ بیشتر
- Rubin, Donald B.; Little, Roderick J. A. (2002). Statistical analysis with missing data (2nd ed.). New York: Wiley. ISBN 0-471-18386-5.
- Enders, Craig K. (2010). Applied Missing Data Analysis (1st ed.). New York: Guildford Press. ISBN 978-1-60623-639-0.
- Allison, Paul D. (2001). Missing Data (1st ed.). Thousand Oaks: Sage Publications, Inc. ISBN 978-0-7619-1672-7.
- Acock AC (2005). "'Working With Missing Values". Journal of Marriage and Family. 67 (4): 1012–28. doi:10.1111/j.1741-3737.2005.00191.x. Archived from the original on 5 January 2013. Retrieved 9 December 2018.
- Van den Broeck J, Cunningham SA, Eeckels R, Herbst K (October 2005). "Data cleaning: detecting, diagnosing, and editing data abnormalities". PLoS Med. 2 (10): e267. doi:10.1371/journal.pmed.0020267. PMC 1198040. PMID 16138788.
- Schafer, J. L.; Graham, J. W. (2002). "Missing data: Our view of the state of the art". Psychological Methods. 7 (2): 147–177. doi:10.1037/1082-989X.7.2.147. PMID 12090408.
- Graham, John W. (2009). "Missing Data Analysis: Making It Work in the Real World". Annual Review of Psychology. 60: 549–576. doi:10.1146/annurev.psych.58.110405.085530. PMID 18652544.
- Rubin DB (1976). "Inference and missing data". Biometrika. 63 (3): 581–92. doi:10.1093/biomet/63.3.581.
پیوند به بیرون
پیشینه
- مقادیر گمشده-پیشبینی
- psychwiki.com: گم شده و ارزشهای شناسایی گم شده و ارزشو برخورد با مقادیر گمشده
- missingdata.org.زنان بریتانیا, گروه پزشکی، آمار، لندن دانشکده بهداشت و پزشکی گرمسیری