متغیر ابزاری
متغیر ابزاری (به انگلیسی: Instrumental variable) برای تخمین اثر تصادفی تعدادی از متغیرهای x روی متغیر دیگری مثل y, یک ابزار متغیر سومی است مانند z است که y را فقط از طریق اثر خودش روی x تحت تأثیر قرار میدهد.
برای مثال فرض کنید که یک پژوهشگر تمایل دارد اثر تصادفی سیگار کشیدن را روی سلامت عمومی بررسی میکند.[1] همبستگی بین سلامتی و سیگار کشیدن نشان میدهد که اثر تصادفی سیگار کشیدن روی سلامتی ضعیف نیست. دیگر متغیرها ممکن است هر دو تندرستی و سیگار کشیدن را تحت تأثیر قرار دهد. کنترل کردن آزمایشها روی سیگار کشیدن در جمعیت عمومی بسیار پرهزینه است. محقق ممکن است که برای تخمین اثر تصادفی سیگار کشیدن روی سلامتی از طریق دادههای مشاهده شده با استفاده از نرخ مالیات بر روی محصولات توتون بهعنوان ابزاری برای سیگار کشیدن در یک رگرسیون سلامتی تخمین بزند.
ازآنجایی که مالیات بر توتون روی سیگار کشیدن اثرگذار است بنابراین روی سلامتی نیز اثر دارد، همبستگی بین مالیات بر توتون و سلامتی نشان میدهد که عوامل مؤثر بر سیگار کشیدن تغییر مییابد یک تخمین از اثر سیگار کشیدن روی سلامتی ممکن است از طریق همبستگی بین پارامترهای سیگار کشیدن و مالیات ایجاد شده باشد.
کاربردها
معمولاٌ روش IV برای تخمین اثر تصادفی متغیرهایی که در آزمایشهای کنترل شده در دسترس نیستند استفاده میشود که اعتبار تخمینها اشارهای بر مجموعه ابزارهای مناسب است. اغلب ابزارهای مناسب از طریق تغییرات سیاسی ایجاد شدهاند، برای مثال لغو برنامههای کمک هزینه تحصیلی و اعطای بورس فدرال به دانشجویان ممکن است اثرش در کمک به درآمد تعدادی از دانشجویان آشکار شود. آزمایشهای طبیعی و نیمهطبیعی از انواع متفاوت به کار رفتهاند برای مثال[2]، که از شوکها به منظور تععین اثرتغغیرات در رشد درآمدی شهروندان استفاده میکنند.[3] مقالهای در مورد تاریخچه و تکنیکهای استفاده از متغیرهای ابزاری ارائه دادهاند.
تخمین
فرض کنید که دادهها از طریق یک فرآیند به شکل زیر تولید شدهاند:
i شاخص مشاهدات , yi متغیر وابسته xi, یک متغیر مستغل و عنصر خطاست , β یک پارامتر اسکالر غیرقابل مشاهدهاست. پارامتر β اثر تصادفی ناشی ازتغغیر یک واحدا xi را روی yi نشان میدهد و هدف اقتصادسنجی برآورد β است برای سادهسازی فرض کنید که عناصر خطا واریانس همسانی دارند و با یکدیگر وابستگی ندارند.
فرض کنید مدل ما به صورت مذکور ارائه شده باشد برآوردکننده معمولی حداقل مربعات برای نمونهای متشکل از T مشاهده به شکل زیر میباشد:
x, y و بردارهای ستونی با طول T هستند. x و با هم همبستگی ندارند در شرایط خاص امید ریاضی به شرط x صفر است و حد آن به سمت صفر میگراید بنابراین بدون تورش و سازگار است. زمانی که. X و با هم همبستگی داشته باشند برآوردگر OLS برای بردار β تورش دار و ناسازگار میشود در این مورد بهتر است از تخمینهایی برای پیشبینی ارزش y با استفاده از مقادیر x استفاده میکنیم اما این روش تخمین ثر تصادفی x روی y را بهبود نمیبخشد. متغیر ابزاری z با متغیر مستقل همبستگی دارد اما با جزء خطا همبستگی ندارد. با استفاده از روش گشتاوری و محاسبه امید ریاضی شرطی روی z برای پیدا کردن:
فرض میکنیم که دومین جزء سمت راست صفر است و β رابه دست میآوریم وگستره نتایج را در اصطلاح نمونه گشتاوری به دست میآوریم:
ازآنجایی که z و با هم همبستکی ندارند پس جزء آخر در نهایت به سمت صفر میگراید و یک تخمینزن سازگار ارائه میدهد. میتوان از روش دیگری استفاده کرد که از طریق آن بتوان اثرات تصادفی x روی y را بهطور سازگاری برآورد کرد رویکرد ما به یک مدل با ضریبی از متغیرهای توضیح دهنده تعمیم مییابد. فرض کنید که x یک ماتریسK T× برای متغیرهای توضیح دهندهای است که از مشاهدات T روی K متغیر نتیجه میشوند که اگر فرض کنیم Z یک ماتریسK T×از ابزارهاست برآوردگر میتواند به صورت زیر نشان داده شود:
که این تخمینزن با یک تعمیمیافتگی چندمتغیری که در بالا ذکر شد سازگار است اگر ابزارها بیش از متغیرهای مستقل در معادله هدف باشند در این صورت یک ماتریس T×M داریم کهM>Kست که با استفاده از روش گشتاوری تعمیم یافته برآورد IV به صورت زیر است:
به طوری که . زمانی که تعداد ابزارها مساوی با تعداد متغیرهای مستقل در معادله هدف باشد در این صورت قسمت دوم عبارت بالا حذف میشود.
تفسیری از حداقل مربعات دومرحلهای
یکی از روشهایی که میتوانیم یرای محاسبه تخمین IV به کار میگیریم روش دومرحلهای حداقل مربعات 2SLS است. در مرحله اول هر یک از متغیرهای کمی برونزا در معادله هدف روی همه متغیرهای برونزا در مدل رگرس میشوند ومقدار پیشبینی شده از این رگرسیون به دست میآید: مرحله ۱: رگرس کردن هر کدام از ستونهای X روی Z
- ()
و سپس ارزش پیشبینی شده را ذخیره میکنیم:
درمرحله دوم رگرسیون هدف به صورت معمول تخمین زده میشود وهر یک از متغیرهای برونزا با ارزش پیشبینیشده از اولین مرحله مدل جایگزین میشود. مرحله 2:Y را روی ارزشهای پیشبینی شده از مرحله اول رگرس میکنیم:
برآورد β در بالا از لحاظ عددی با آنچه که در بالا تشریح شد یکسان است. در مرحله دوم ممکن است بین مربعات باقیماندهها همبستگی کمی پدیدار شده باشد که باعث میشود برازش مدل در محاسبه ماتریس β درست باشد.
تعریف
در رگرسیون متغیر ابزاری اگر ما چند رگرسور برونزا و چند ابزار و ضرایب مربوط به رگرسیونهای برونزا که هستند را در نظر بگیریم گفته میشود:
Exactly identified if m = k.
Overidentified if m > k.
Underidentified if m < k.
پارامترها تعریف نشدهاند اگر تعداد ابزارها کمتر از متغیرهای کمیباشند.
تحلیلهای غیر پارامتریک
زمانی که شکل معادله ساختاری ناشناخته است یک متغیر ابزاری Z هنوز میتواند از طریق معادلات تعریف شود:
که FوZ دو تابع دلخواه هستند وz مستقل از U است. بر خلاف مدلهای خطی ارزیابی X,Y,Z برای تعیین میانگین اثرات تصادفی X روی Y مجاز نیست وACEراتعریف میکنیم به طوری که[4]
قیدهای محکمی روی ACE قرار دادهاند و بیان کرد ند که این میتواند اطلاعات ارزشمندی در مورد علامت و اندازه ACE ارائه دهد. برای تمام f,g محدودیت زیر که نا معادله ابزاری نا میده میشود باید برقرار باشد برای زمانی که z دو معادله بالا را ارضاء میکند:
تفسیری بر برآوردهای متغیر ابزاری
اثرات تصادفی مورد نظر روی مشاهدات یکسان است و β ثابت است. موضوعات متفاوت به تغییرات رویهای واکنش نشان میدهند. ممکن است که تأثیر تغییرات ناشی از یک واحد X بر روی Y در جامعه متفاوت با زیرجامعه باشد. برای مثال میانگین اثرات ناشی آموزش شغلی به گروهی که این آموزش را دریافت میکنند و گروهی که آن را دریافت نمیکنند متفاوت است7.
تخمین زن IV میتواند رویه میانگین تأثیرات موضعی LATE را بهبود میبخشد بیش از آنکه بتواند رویه میانگین تأثیرات ATE را بهبود میبخشد[5] توضیح میدهد که تخمین خطی IV میتواند تحت شروط ضعیفی به عنوان میانگین وزنی از میانگین رویه تأثیرات موضعی باشد. به طوری که وزنها به کشش رگرسور برونزا برای تغغیر در متغیرهای ابزاری بستگی دارد. این بدان معنی است تأثیر یک متغیر فقط برای زیر مجموعهای متاثر از تغییرات مشاهدهشده در ابزارها آشکار شدهاست وزیر مجموعهای که بیشترین واکنش را به تغییرات در ابزارها نشان میدهد بیشترین اثر را بر روی اندازه برآورد IV خواهد داشت.
مشکلات بالقوه
به طور کلی اگر ابزارها با جزء خطا در معادله هدف همبستگی داشته باشند در این صورت تخمینهای آنها ناسازگار خواهد بود. مشکل دیگر مربوط به ابزارهای ضعیف است که پیشبینی خوبی ارائه نمیدهند. در این صورت مقادیر پیشبینی شده تا حد کمی متفاوت هستد. در نتیجه وقتی آنها را در معادله دوم جایگزین میکنیم احتمال کمی وجود دارد که بتوان نتیجه نهایی را با موفقیت پیشبینی کنیم.
ویژگیهای نمونهگیری و آزمون فرضیه
زمانی که متغیرهای کمی برونزا باشند در این صورت میتوانیم ویژگیهای نمونه کوچک را میتوان از تخمین زن OLS بهطور مستقیم از طریق محاسبه گشتاورهای تخمین زن شرطی روی X به دست آوریم. زمانی که تعدادی از متغیرهای کمی برونزا هستند از تخمین متغیرهای ابزاری استفاده میشود وتفسیری که برای گشتاورها ی تخمینزن وجود دارد ساده نیست. بهطور کلی تخمین زن متغیرهای ابزاری در صورتی که نمونه محدود نباشد دارای مجانب مطلوبی هستند که بر اساس تقریب مجانبی در توزیع نمونهگیری تخمین زن را به دست میآوریم. حتی زمانی که ابزارها با جزء خطا در معادله هدف همبستگی ندارند و ابزارها نیز ضعیف نیستند ممکن است خصوصیات تخمین زن متغیر ابزاری در یک نمونه کوچک ضعیف باشد. برای مثال اگر نمونه کوچک باشد در این صورت آرمونهای آماری مربوط به نرمالیزه کردن با اختلال مواجه میشود وتخمینهای به دست آمده با مقدار واقعی پارامترها متفاوت خواهد بود.[6]
آزمون قدرت ابزار و محدودیتهای بیش از حد تعیین شده
قدرت ابزارها میتواند مستقیماٌ ارزیابی شود زیرا متغیرهای کمی برونزا وابزارها هر دو قابل مشاهدهاند.[7] یک قانون شست برای مدلهایی که یک رگرسور درونزا دارند استفاده از آماره F است. این فرض که ابزارها با جزء خطا در معادله هدف مرتبط نیستند در مدلهای بهطور دقیق تعریف شده قابل آزمون نیست. اگر مدل بیش از حد تعریف شده باشد در این صورت اطلاعاتی موجود است که میتوان با استفاده از آن این فرض را آزمون کرد. که رایجترین آزمونهای مربوط به محدودیتهای بیش از حد تعین شده Sargan test است که بر اساس مشاهداتی است که در آن باید باقیماندهها با مجموعه متغیرهای برونزا هم بستگی نداشته باشند اگر ابزارها واقعاٌ برونزا باشند. آماره آزمون Sargan میتواند به صورت (تعداد مشاهدات ضرب در دترمینان ضرایب) که از رگرسیون OLS باقیماندهها بر روی مجموعهای از متغیرهای برونرا به دست میآید. این آماره مشابه چی اسکور با درجه آزادی m-k است. وتحت فرض صفر در آن ابزارها با جزء خطا هم بستگی ندارند.
منابع
- Leigh, J.P. and M. Schembri (2004) Instrumental variables technique: cigarette price provided better estimate of effects of smoking on SF-12, Journal of Clinical Epidemiology 57(3), 284–293.
- Miguel, E. , Satyanath, S. and Sergenti, E. (2004) Economic shocks and civil conflict: An instrumental variable approach. Journal of Political Economy 112, 725–753.
- Angrist, J. and A. Krueger (2001) Instrumental variables and the search for identification: From supply and demand to natural experiments, Journal of Economic Perspectives, 15(4), 69–85.
- Balke, A. and Pearl, J. «Bounds on treatment effects from studies with imperfect compliance,» Journal of the American Statistical Association, 92(439):1172–1176, 1997.
- Imbens, G. and J. Angrist (1994) Identification and estimation of local average treatment effects, Econometrica 62, 467–476.
- Nelson, C.R. , and R. Startz (1990) Some further results on the small sample properties of the instrumental variable estimator. Econometrica, 58(4), 967–976.
- Stock, J., J. Wright, and M. Yogo (2002) A Survey of weak instruments and weak identification in Generalized Method of Moments, Journal of the American Statistical Association, 20(4), 518–29.
- a b Pearl, J. Causality: Models, Reasoning, and Inference, Cambridge University Press, 2000
- Heckman, J. (2008) Econometric causality. National Bureau of Economic Research working paper #13934.
- Leigh, J.P. and M. Schembri (2004) Instrumental variables technique: cigarette price provided better estimate of effects of smoking on SF-12, Journal of Clinical Epidemiology 57(3), 284–293.
- Balke, A. and Pearl, J. «Bounds on treatment effects from studies with imperfect compliance,» Journal of the American Statistical Association, 92(439):1172–1176, 1997.