معادله بلمن
معادله بلمن که به نام یابنده آن ریچارد بلمن نام گذاری شد، یک شرط ضروری در روشهای ریاضی بهینهسازیاست که با نام برنامهنویسی پویا نیز شناخته میشود. تقریباً هر مسئله را که بتوان با استفاده از نظریه کنترل بهینه حل کرد نیز میتوان با تحلیل مناسب معادله بلمن حل کرد. معادله بلمن در ابتدا در مهندسی نظریه کنترل و دیگر مباحث در ریاضیات کاربردی اعمال و متعاقباً به یک ابزار قدرتمند در نظریه اقتصاد مبدل شد.
مثال
در فراگیری پاداش/جزا، یک معادله بلمن به یک بازگشت برای مقادیر مورد انتظار اشاره میکند. برای مثال، مقدار مورد انتظار برای بودن در یک وضعیت خاص s و دنبال کردن تعدادی روش ثابت معادله بلمنی به صورت زیر دارد:
این معادله مقدار مورد انتظار برای انجام کاری که توسط چند روش تعیین شده بود را توصیف میکند.
معادله مربوط به روش بهینهسازی به عنوان معادله بهینگی بلمن بیان میشود:
این معادله پاداش برای انجام کاری که بالاترین انتظار را برآورده میکند، توصیف میکند.
روشهای حل
- روش ضرایب نامعین، یا همان روش 'حدس و بررسی'، میتواند در حل بعضی معادلات بلمن مستقل کران-بینهایت استفاده شود.
- معادله بلمن را میتوان به کمک استقرای وارونه، در بعضی موارد به صورت تحلیلی یا به صورت عددی با کامپیوتر حل کرد. استقرای وارونه عددی قابل استفاده در بسیاری از مسائل است، ولی هنگامی که تعداد متغیرهای حالت زیاد شود با توجه به مشکل بعد پذیری حل مسئله غیرممکن میشود.
با محاسبه شرایط مرتبه اول که به معادله بلمن مرتبط است، و سپس استفاده از قضیه پوش برای از بین بردن مشتقات تابع مقدار، به دست آوردن قاعده معادله تفاضلی یا معادله دیفرانسیل که 'معادله اویلر' نام دارد، ممکن میشود. روشهای استاندارد برای حل معادلات تفاضلی یا دیفرانسیل میتوانند برای محاسبه تغییرات متغیرهای حالت و متغیرهای کنترلی مسئله بهینهسازی استفاده شوند.
کاربرد در اقتصاد
اولین کاربرد اقتصادی معادله بلمن، مقاله سال ۱۹۷۳ اصلی مرتون در مدل قیمت گذاری دارایی حیاتی میان گذرا است.[1]جواب مدل نظری مرتون، که در آن سرمایه گذاران از میان درآمد امروز و درآمد آینده یا عواید دارایی انتخاب میکنند، یک صورت از معادله بلمن است. به این دلیل که کاربردهای اقتصادی برنامهنویسی پویا معمولاً به یک معادله بلمن میرسد که یک معادله تفاضلی است، اقتصاد دانان از برنامهنویسی پویا به عنوان یک «روش بازگشتی» یاد میکنند.
استوکی، لوکاس و پریسکات برنامهنویسی پویای تصادفی و غیر تصادفی را با جزئیات دقیق، با زدن مثالهای فراوان از چگونگی استفاده از برنامهنویسی پویا در نظریه اقتصاد، توصیف میکنند.[2] این کتاب به این موضوع میانجامد که برنامهنویسی پویا برای حل دامنهٔ وسیعی از مسائل نظری در اقتصاد به کار گرفته شود که این مسائل شامل رشد اقتصادی بهینه، استخراج منابع، مسائل عامل اصلی، سرمایهگذاری عمومی، تجارتسرمایهگذاری، قیمت گذاری دارایی، تدارک ضریب تولید، وسازمان دهی صنعتی میشوند.
استفاده از برنامهنویسی پویا برای حل مسائل ملموس بوسیله مشکلات اطلاعاتی، مثل انتخاب نرخ نزول غیرقابل مشاهده، پیچیده میشود. همچنین مسائل محاسباتی وجود دارند، یکی مسائل اصلی آن مشکل بعد پذیری است که از تعداد زیادی از پتانسیلهای متغیرهای حالت ناشی شدهاست که قبل از آنکه استراتژی بهینه انتخاب شود، باید مورد توجه قرار گیرد.
جستارهای وابسته
- معادله همیلتون-جاکوب-بلمن
- روند تصمیم مارکو
- نظریه کنترل بهینه
منابع
- مشارکتکنندگان ویکیپدیا. «Bellman Equation». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۹ مه ۲۰۰۹.
- Robert C. Merton, 1973, "An Intertemporal Capital Asset Pricing Model," Econometrica ۴۱: 867-887.
-
- Nancy Stokey, and روبرت امرسون لوکاس، with ادوارد پرسکات، ۱۹۸۹. Recursive Methods in Economic Dynamics. Harvard Univ. Press.