بیشبرازش
بیشبرازش (به انگلیسی: Overfitting)[1] به پدیدهٔ نامطلوبی در آمار گفته میشود که در آن درجه آزادی مدل بسیار بیشتر از درجه آزادی واقعی انتخاب شده و در نتیجه اگرچه مدل روی داده استفاده شده برای یادگیری بسیار خوب نتیجه میدهد، اما بر روی داده جدید دارای خطای زیاد است. انتخاب درجه آزادی مناسب به کمک وارسی اعتبار (Cross-validation) و تنظیمکردن (Regularization) از راههای مقابله با این پدیدهاست.[2]
احتمال بیش برازش به این دلیل وجود دارد که معیار برازش مدل با معیاری که برای ارزیابی آن به کار میرود یکسان نیست. به این مفهوم که معمولاً برای برازش مدل کارایی آن بر روی یک مجموعه نمونههای برازش بیشینه میشود. در صورتی که برای سنجش مؤثر بودن مدل نه تنها کارایی آن بر روی نمونههای برازش را می سنجند بلکه توانایی مدل بر روی نمونههایی دیده نشده نیز در نظر گرفته میشود. بیش برازش زمانی اتفاق می افتد که مدل در هنگام برازش به جای "یادگیری" دادهها شروع به "حفظ کردن" آنها میکند.
جستارهای وابسته
منابع
- معادل فارسی برگرفته از «استفاده از رگرسیون منطقی برای شناسایی اثرات متقابل برخی از پلیمورفیسمهای ژنی و سایر عوامل خطر بر سطح پایین HDL: مطالعهٔ قند و لیپید تهران». غدد درونریز و متابولیسم ایران. پژوهشکده غدد درونریز و متابولیسم. ۱۴ (۴): ۳۵۲-۳۵۹. ۲۰۱۲.
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. Springer. p. ۲۱۹.