تقویت گرادیان
تقویت گرادیان یا گرادیان بوستینگ (به انگلیسی: Gradient boosting) یک روش یادگیری ماشین برای مسائل رگرسیون و طبقهبندی است. مدل تقویت گرادیان ترکیبی خطی از یک سری مدلهای ضعیف است که به صورت تناوبی برای ایجاد یک مدل نهائیِ قوی ساخته شدهاست.[1][2] این روش به خانواده الگوریتمهای یادگیری گروهی تعلق دارد و عملکرد آن همواره از الگوریتمهای اساسی یا ضعیف (مثلا درخت تصمیم) یا روشهای براساس کیسهگذاری (مانند جنگل تصادفی) بهتر است. اما صحت این گزاره تا حدی از مشخصات دادههای ورودی تأثیر میپذیرد.[3][4]
مقدمه
مانند دیگر روشهای تقویتی (بوستینگ)، تقویت گرادیان (گرادیان بوستینگ) ترکیبی خطی از یک سری از مدلهای ضعیف برای ایجاد یک مدل قوی و کارآمد است.[4] سادهترین مثال برای توضیح تقویت گرادیان، مثال کمترین مربعات در مسئله رگرسیون است که در آن هدف، یادگیری یک مدل به اسم برای کمینه کردن یا میانگین مربعات خطا است. در اینجا ، تعداد دادههای ماست و داده ام است.[4]
برای پیدا کردن به صورت مرحلهای عمل میکنیم. در مرحله به مدل که تا به حال ساختهایم یک مدل دیگر اضافه میکنیم به اسم و مدل را میسازیم،[4] به عبارت دیگر . مدل را به گونهای انتخاب میکنیم که بتواند تفاضل با پیشبینی مدلِ مرحله قبلی را پیشبینی کند یعنی را، در اینجا پیشبینی مرحله قبلی است. به عبارت دیگر هدف پیشبینی باقیماندههاست، یعنی . باقیماندهها را از یک منظر دیگر نیز میتوان دید، آنها در واقع منفی گرادیان مربع خطا هستند، یعنی منفی گرادیان تابع .
الگوریتم
فرض کنید دادههایکه مدل برای یادگیری از آنها استفاده میکند باشد و هدف از یادگیری، کمینه کردن یک تابع ضرر به اسم باشد. یعنی
در مدل تقویت گرادیان این کار به صورت متناوب انجام میشود[2][5] و مدل نهایی برابر خواهد بود با .
در اینجا ها مدلهایی هستند که از یک گروه از مدلهای به اسم انتخاب میشوند، به عنوان مثال میتواند مجموعه درختهای تصمیمگیری با عمق ۱۰ یا کمتر باشد.[2]
اولین مدل یک عدد ثابت است به اسم که به صورت ذیل انتخاب میشود:
بقیه مدلها به این صورت ساخته و فراگرفته میشوند:
برای انجام این مرحله از گرادیان تابع ضرر به این شکل استفاده میکنیم:
به عبارت دیگر ما بدنبال مدلسازی منفی گرادیان تابع ضرر در هر مرحله هستیم یعنی یک مدل به اسم از که بتواند با داده پایین تابع ضرر را کمینه کند:[5]
الگوریتم کلی را میتوان به شکل پایین خلاصه کرد:[2][5]
- برای از تا :
- برای از تا :
- برای دادههای یک مدل به اسم از انتخاب کن که تابع ضرر را به حداقل برساند، به عبارت دیگر
- برای از تا :
- مدل نهایی است.
درختِ تقویت گرادیان
در این مدل یا مجوعه مدلهای ما درختهای تصمیمگیری هستند. در مرحله ، مدل فراگرفته شده یک درخت است به اسم که توانسته منفی گرادیانها را مدلسازی کند. این درخت اگر برگ داشته باشد، فضای برداری را به زیرفضای تجزیه میکند، این زیرفضاها با هم اشتراکی ندارند و اجتماعشان کل را تشکیل میدهد. این زیرفضاها را مینامیم. برای هر کدام از این زیرفضاها یک پیشبینی جداگانه دارد به اسم . یا میانگین دادههای خروجی، اگر مسئله رگرسیون باشد، یا مُدِ دسته (دستهای که از همه بیشتر اتفاق افتاده باشد:[6]
در ضریبی به اسم ضرب میشود که تابع ضرر را کمینه کند، به عبارت دیگر و مدل در این مرحله به این شکل بهروز میشود:
به پیشنهاد فریدمن به جای اینکه در هر مرحله یک ضریب کلی به اسم فراگرفته شود، بهتر است ضریب به تعداد تمام زیرفضاهای ایجاد شده توسط فراگرفته شود و الگوریتم به این شکل تغییر کند):[5]
مشخصات درخت
اگر را اندازه تعداد برگهای درخت یا همان تعداد زیرفضاهای بگیریم معمولاً مدل خوبی ایجاد میکند.[5]
جستارهای وابسته
منابع
- Piryonesi, S. M.; El-Diraby, T. E. (2020) [Published online: December 21, 2019]. "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1). doi:10.1061/(ASCE)IS.1943-555X.0000512.
- Friedman, J. H. (February 1999). "Greedy Function Approximation: A Gradient Boosting Machine" (PDF).
- Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/jpeodx.0000175. ISSN 2573-5438. Check date values in:
|date=
(help) - Hastie, Trevor (2009). The Elements of Statistical Learning - Data Mining, Inference, and Prediction, Second Edition (به English). New York: Springer. ISBN 978-0-387-84857-0.
- Hastie, T.; Tibshirani, R.; Friedman, J. H. (2009). "10. Boosting and Additive Trees". The Elements of Statistical Learning (2nd ed.). New York: Springer. pp. 337&ndash, 384. ISBN 0-387-84857-6. Archived from the original on 2009-11-10.
- Note: in case of usual CART trees, the trees are fitted using least-squares loss, and so the coefficient for the region is equal to just the value of output variable, averaged over all training instances in .