بیش‌برازش

بیش‌برازش (به انگلیسی: Overfitting)[1] به پدیدهٔ نامطلوبی در آمار گفته می‌شود که در آن درجه آزادی مدل بسیار بیشتر از درجه آزادی واقعی انتخاب شده و در نتیجه اگرچه مدل روی داده استفاده شده برای یادگیری بسیار خوب نتیجه می‌دهد، اما بر روی داده جدید دارای خطای زیاد است. انتخاب درجه آزادی مناسب به کمک وارسی اعتبار (Cross-validation) و تنظیم‌کردن (Regularization) از راه‌های مقابله با این پدیده‌است.[2]

احتمال بیش برازش به این دلیل وجود دارد که معیار برازش مدل با معیاری که برای ارزیابی آن به کار می‌رود یکسان نیست. به این مفهوم که معمولاً برای برازش مدل کارایی آن بر روی یک مجموعه نمونه‌های برازش بیشینه می‌شود. در صورتی که برای سنجش مؤثر بودن مدل نه تنها کارایی آن بر روی نمونه‌های برازش را می سنجند بلکه توانایی مدل بر روی نمونه‌هایی دیده نشده نیز در نظر گرفته می‌شود. بیش برازش زمانی اتفاق می افتد که مدل در هنگام برازش به جای "یادگیری" داده‌ها شروع به "حفظ کردن" آن‌ها می‌کند.

جستارهای وابسته

منابع

  1. معادل فارسی برگرفته از «استفاده از رگرسیون منطقی برای شناسایی اثرات متقابل برخی از پلی‌مورفیسم‌های ژنی و سایر عوامل خطر بر سطح پایین HDL: مطالعهٔ قند و لیپید تهران». غدد درون‌ریز و متابولیسم ایران. پژوهشکده غدد درون‌ریز و متابولیسم. ۱۴ (۴): ۳۵۲-۳۵۹. ۲۰۱۲.
  2. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. Springer. p. ۲۱۹.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.