رگرسیون مؤلفههای اصلی
رگرسیون مؤلفه اصلی [persian-alpha 1] یکی از روشهای تحلیل رگرسیون است که از تحلیل مؤلفههای اصلی استفاده میکند. در رگرسیون مؤلفه اصلی، به جای اینکه متغیر وابسته بهطور مستقیم با متغیرهای مستقل در ارتباط باشد، این ارتباط بهطور غیر مستقیم از طریق مولفههای اصلی متغیرهای مستقل انجام میگیرد. معمولاً فقط یک زیر مجموعه از این مؤلفههای اصلی با بالاترین واریاناسها برای رگرسیون مورد استفاده قرار میگیرد.[1] یکی از مشکلات اصلی در رگرسیون خطی زمانی رخ میدهد که ماتریس کوواریانس متغیرهای مستقلهای تمام رتبه نباشد به این معنی که بعضی از متغیرهای مستقل به هم همبستگی داشته باشند. رگرسیون مؤلفه اصلی با حذف مولفههای اصلی با واریانس پایین از فضای متغیرهای مستقل، این مشکل را حل میکند.[2]
رابطه ریاضی
داده و متغیر مستقل داریم که میخواهیم از طریق آنها متغیر وابسته را پیشبینی کنیم. این متغیرها را در ماتریسهای و به شکل پایین ذخیره میکنیم:
هدف از رگرسیون خطی بدست آوردن پارامتر است به شکلی که در اینجا یک متغیر تصادفی است که خطای مدل را نشان میدهد. توزیع این خطا را معمولاً طبیعی در نظر میگیرند با میانگین صفر و واریانس ثابت برای تمامی ابعاد یعنی و . از طریق روش کمترین مربعات میتوان یعنی مربع میزان خطاها را کمینه کرد و به پارامتر بهینه رسید. این پارامتر با برابر است. یکی از مشکلات اصلی این روش عدم وارونپذیری است. برای حل این مشکل رگرسیون مؤلفه اصلی، ابتدا مولفههای اصلی را پیدا میکند و بعد داده را در راستای تعدادی از این مولفههای اصلی با بالاترین واریاناسها منعکس میشوند. ابتدا از طریق تجزیه مقدارهای منفرد ماتریس به سه قسمت تقسیم میشود . در اینجا یک ماتریس قطری از مقدارهای منفرد و و ماتریسهایی از بردارهای ویژه چپ و راست هستند. مقدارهای منفرد با ترتیب نزولی در ماتریس قطری قرار دارند به این معنی که . بعد از تجزیه مقدارهای منفرد از طریق محاسبه میشود.[1] در اینجا ماتریس مقدارهای ویژه ماتریس است؛ این مقادیر با ترتیب نزولی در ماتریس قطری قرار دارند، به این معنی که ، و ماتریس بردارهای ویژه یا همان مولفههای اصلی است. رگرسیون مؤلفه اصلی ابتدا را در راستای منعکس میکند و سپس رگرسیون خطی را در این فضای جدید اعمال میکند. اگر ماتریس بردار ویژه باشد، انعکاس بر روی برابر است با . رگرسیون مؤلفه اصلی، از به عنوان متغیرهای جدید مستقل استفاده میکند و رگرسیون خطی را بر آن اعمال میکند. طبق روش کمترین مربعات، پارامتر بهینه برای این داده جدید برابر است با . حال برای داده جدید ، مدل رگرسیون ابتدا داده را با به فضای جدید منتقل میکند، سپس با مقدار متغیر وابسته را پیشبینی میکند. اگر آنگاه پیشبینی مدل خواهد بود و با استفاده از دیگر احتیاجی به انعکاس داده به یک فضای جدید نیست.[1]
یادداشتها
- principal component regression
منابع
- Jolliffe, Ian T. (1982). "A note on the Use of Principal Components in Regression". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005.
- Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. شابک ۰−۱۹−۹۲۰۶۱۳−۹