برچسب بازی‌ها

در این رساله، روش مناسبی جهت محاسبه نقطه تعادل نش در الگوریتم‌های یادگیری تقویتی چندعاملی با تعداد زیاد عامل‌ها مطرح شده‌است، که قادراست با ادغام محاسبات مربوط به نقطه تعادل نش و ایجاد مصالحه بین اکتشاف- استخراج، محاسبات را به صورت بهینه کاهش دهند. ترکیب یادگیری تقویتی تک- عاملی و تئوری بازی ایده اصلی اکثر روشهای یادگیری چندعاملی است. این روش‌ها سعی دارند تا کل فرآیند یادگیری را به تعدادی متناهی از حالت‌های تصمیم‌گیری چندعاملی با خاصیت مارکوف تقسیم کرده و با انتخاب نقطه تعادل نش در هر کدام از این مراحل به تدبیر بهینه برای هر عامل همگرا شوند. بنابراین محاسبه نقطه تعادل نش مسئله مهمی است که در حال حاضر مشکلاتی شامل پیچیدگی محاسبات در روشهای شناخته شده محاسبه نقطه تعادل نش، چندگانگی نقطه تعادل نش، و مختلط بودن نقطه تعادل نش باعث شده که اکثر روشهای پیشنهادی یادگیری تقویتی چندعاملی جایگاه مناسبی در حل مسائل دنیای واقعی پیدا نکنند. ناگفته نماند که تقریباً تمام روشهای یادگیری تقویتی چندعاملی مطرح شده، مبتنی بر روشهای off-policy بوده‌اند که نیازی به در نظر گرفتن مسئله رویه انتخاب عمل و اکتشاف در اثبات همگرایی ندارند. بنابراین در رویه‌های اجرایی پیشنهاد داده‌اند که ابتدا نقطه تعادل نش محاسبه شده و سپس با روش ϵ-greedy مصالحه بین اکتشاف و استخراج برقرار شود.

محاسبه نقطه تعادل ϵ-نش در بازی‌های نرمال در این رساله به صورت یک مسئله مینیمم‌سازی تعریف شده که جواب آن توسط الگوریتم‌های ژنتیک بدست آمده‌است. علاوه بر کاهش پیچیدگی روش محاسبه نقطه تعادل نش، با اضافه کردن جمله مناسب در محاسبه تابع برازندگی، هر عامل قادر است نقطه تعادل نش پارتو را محاسبه کند که مسئله چندگانگی نقاط تعادل نش را نیز مرتفع می‌سازد.

مقدمه

در پایان، روشهای پیشنهادی در حل مسئله بازار برق مورد استفاده قرار گرفته‌است. در ابتدای هر روز، شرکت برق با هدف کاهش هزینه و در عین حال تأمین نیازهای مصرفی با توجه به توپولوژی شبکه، به کمک برنامه‌ریزی خطی میزان خرید برق از هر ژنراتور را با توجه به قیمت‌های پیشنهادی آنها اعلام می‌کند. علاوه بر آن در پایان هر ماه با توجه به تناسب قیمت‌های پیشنهادی، مبلغی را به عنوان پاداش به هر ژنراتور می‌دهد. ژنراتورها با توجه به میزان سودی که از فروش برق بدست می‌آورند، پارامترهای مربوط به جدول ارزش‌های خود در آن روز را اصلاح می‌کنند. این جدول‌ها منعکس کننده مسئله تعیین قیمت با توجه به خواسته‌های شرکت برق و نحوه قیمت‌گذاری سایر ژنراتورها است. ژنراتور‌ها در ابتدای هر روز با توجه به این جدول به دنبال پیدا کردن بهترین پیشنهاد به شرکت برق هستند که در واقع همان مسئله تعیین نقطه تعادل نش است. با کمک یادگیری تقویتی چندعاملی، ارزش‌های این جدول‌ها به مرور اصلاح شده و عامل‌ها قادر به جمع‌آوری سود بیشتری در طول یک ماه خواهند بود. شبیه‌سازیهای انجام شده روند صعودی افزایش میزان سود را نشان می‌دهند.

ممکن است هنگام انتقال از فایل ورد به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است

متن کامل را می توانید در ادامه دانلود نمائید

چون فقط تکه هایی از متن پایان نامه برای نمونه در این صفحه درج شده است ولی در فایل دانلودی متن کامل پایان نامه همراه با تمام ضمائم (پیوست ها) با فرمت ورد word که قابل ویرایش و کپی کردن می باشند موجود است

دانلود با لینک مستقیم

بررسی سیستم‌های چند عامله با استفاده از تئوری بازی‌ها

فی فوو

پیوندها

دسته‌ها

ابر برجسب

جدیدترین یادداشت‌ها

بایگانی

جستجو

بررسی سیستم‌های چند عامله با استفاده از تئوری بازی‌ها