تحلیل مؤلفههای اصلی
تحلیل مؤلفههای اصلی (Principal Component Analysis - PCA) تبدیلی در فضای برداری است، که بیشتر برای کاهش ابعاد مجموعهٔ دادهها مورد استفاده قرار میگیرد.

تحلیل مؤلفههای اصلی در سال ۱۹۰۱ توسط کارل پیرسون[1] ارائه شد. این تحلیل شامل تجزیه مقدارهای ویژهٔ ماتریس کواریانس میباشد.
جزئیات
تحلیل مؤلفههای اصلی در تعریف ریاضی[2] یک تبدیل خطی متعامد است که داده را به دستگاه مختصات جدید میبرد بهطوریکه بزرگترین واریانس داده بر روی اولین محور مختصات، دومین بزرگترین واریانس بر روی دومین محور مختصات قرار میگیرد و همینطور برای بقیه. تحلیل مؤلفههای اصلی میتواند برای کاهش ابعاد داده مورد استفاده قرار بگیرد، به این ترتیب مؤلفههایی از مجموعه داده را که بیشترین تأثیر در واریانس را دارند حفظ میکند. برای ماتریس داده با میانگین تجربی صفر، که هر سطر یک مجموعه مشاهده و هر ستون دادههای مربوط به یک شاخصه است، تحلیل مؤلفههای اصلی به صورت زیر تعریف میشود:
بهطوریکه تجزیه مقدارهای منفرد ماتریس میباشد.
محدودیتهای تحلیل مولفههای اصلی
استفاده از تحلیل مؤلفههای اصلی منوط به فرضهایی است که در نظر گرفته میشود. از جمله:
- فرض خطی بودن
فرض بر این است که مجموعه داده ترکیب خطی پایههایی خاص است.
- فرض بر این که میانگین و کواریانس از نظر احتمالاتی قابل اتکا هستند.
- فرض بر این که واریانس شاخصه اصلی دادهاست.
محاسبه مولفههای اصلی با استفاده از ماتریس کواریانس
بر اساس تعریف ارائه شده از تحلیل مؤلفههای اصلی، هدف از این تحلیل انتقال مجموعه داده X با ابعاد M به داده Y با ابعاد L است. بنابرین فرض بر این است که ماتریس X از بردارهای تشکیل شدهاست که هر کدام به صورت ستونی در ماتریس قرار داده شدهاست. بنابرین با توجه به ابعاد بردارها (M) ماتریس دادهها به صورت است.
محاسبه میانگین تجربی و نرمالسازی دادهها
نتیجه میانگین تجربی، برداری است که به صورت زیر به دست میآید:
که بهطور مشخص میانگین تجربی روی سطرهای ماتریس اعمال شدهاست.
سپس ماتریس فاصله تا میانگین به صورت زیر به دست میآید:
که h برداری با اندازه با مقدار ۱ در هرکدام از درایهها است.
محاسبه ماتریس کواریانس
ماتریس کواریانس C با ابعاد به صورت زیر به دست میآید:
- بهطوری که:
- میانگین حسابی است.
- ضرب خارجی است.
- ماتریس ترانهاده مزدوج ماتریس است.
محاسبه مقادیر ویژه ماتریس کواریانس و بازچینی بردارهای ویژه
در این مرحله، مقادیر ویژه و بردارهای ویژه ماتریس کواریانس، ، به دست میآید.
V ماتریس بردارهای ویژه و D ماتریس قطری است که درایههای قطر آن مقادیر ویژه هستند. آنچنان که مشخص است، هر مقدار ویژه متناظر با یک بردار ویژه است. به این معنا که ماتریس V ماتریسی است که ستونهای آن بردارهای ویژه میباشند و بردار ویژه در ستون qام قرار دارد و مقدار ویژه qام یعنی درایهٔ متناظر با آن است. بازچینی بردارهای ویژه بر اساس اندازهٔ مقادیر ویژه متناظر با آنها صورت میگیرد. یعنی بر اساس ترتیب کاهشی مقادیر ویژه، بردارهای ویژه بازچینی میشوند. یعنی
انتخاب زیرمجموعهای از بردارهای ویژه به عنوان پایه

انتخاب زیرمجموعهای از بردارهای ویژه با تحلیل مقادیر ویژه صورت میگیرد. زیرمجموعه نهایی با توجه به بازچینی مرحله قبل به صورت انتخاب میشود. در اینجا میتوان از انرژی تجمعی استفاده کرد که طبق آن
انتخاب l باید به صورتی باشد که حداقل مقدار ممکن را داشته باشد و در عین حال g مقدار قابل قبولی داشته باشد. بهطور مثال میتوان حداقل l را انتخاب کرد که
بنابرین خواهیم داشت:
انتقال داده به فضای جدید
برای این کار ابتدا تبدیلات زیر انجام میگیرد: ماتریس انحراف معیار مجموعه دادهاست که میتواند به صورت زیر به دست بیاید:
سپس داده به صورت زیر تبدیل میشود:
- '
که ماتریسهای و در بالا توضیح داده شدهاند. دادهها میتوانند به ترتیب زیر به فضای جدید برده شوند:
نرمافزارها
- در نرمافزار متلب تابع princomp مؤلفههای اصلی را بازمیگرداند که در نسخههای جدید، تابع pca جایگزین آن شدهاست.
- Computer Vision Library
- Eviews
- در نرمافزار R تابع prcomp و princomp مؤلفههای اصلی را بازمیگرداند: تجزیه مقدارهای منفرد.
جستارهای وابسته
- تحلیل مولفههای مستقل
- تحلیل تفکیک خطی
- تجزیه مقدارهای منفرد
- فشردهسازی دادهها
- تحلیل تناظر
- فاکتورگیری نامنفی ماتریس
- حداقل مربعات جزیی
پانویس
- Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space". بایگانیشده در ۱ اکتبر ۲۰۰۷ توسط Wayback Machine Philosophical Magazine 2 (6): 559–572.
- Jolliffe I.T. Principal Component Analysis, Series: Springer Series in Statistics, 2nd ed. , Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4[javascript:]
منابع
- Lindsay I Smith, A tutorial on Principa Component Analysis