معرفی و دانلود کتاب یادگیری تقویتی
برای دانلود قانونی کتاب یادگیری تقویتی و دسترسی به هزاران کتاب و کتاب صوتی دیگر، اپلیکیشن کتابراه را رایگان نصب کنید.
معرفی کتاب یادگیری تقویتی
کتاب یادگیری تقویتی نوشتهی ولی درهمی، فریناز اعلمیان هرندی و محمدباقر دولتشاهی به یکی از مهمترین روشهای یادگیری ماشین یعنی یادگیری تقویتی میپردازد و نوع کارکرد و روشهای بهرهجویی حداکثری از آن را به دانشجویان و فعالان علوم مهندسی و دیگر رشتهها از جمله ریاضیات، اقتصاد، علوم اعصاب و روانشناسی آموخته است.
دربارهی کتاب یادگیری تقویتی
یادگیری تقویتی یک الگوی یادگیری است که یک عامل را در تعامل با یک محیط وارد وضعیت تصمیم متوالی میکند. عامل براساس عملکرد خود بازخوردی را در قالب جریمه یا پاداش دریافت میکند. کتاب یادگیری تقویتی نوشتهی ولی درهمی، فریناز اعلمیان هرندی و محمدباقر دولتشاهی با بررسی عناوینی از جمله، رسمیسازی مسئلهی یادگیری تقویتی، ویژگی مارکوف، روشهای انتخاب عمل، تعادل میان کاوش و بهرهگیری، برنامهریزی پویا، روشهای مونت کارلو، روشهای یادگیری تفاضل موقتی، الگوریتمها، معماری نقاد- تنها، معماری عملگر- نقاد، کاوش در فضای عمل و... به آموزش یکی از کاربردیترین روشهای یادگیری ماشین که یادگیری تقویتی است پرداخته و ابعاد گوناگون آن را مورد بررسی قرار داده است.
این کتاب با ارائهی جداول، تصاویر و فرمولهای مورد نیاز، توضیحات دقیقی درمورد هر مبحث فراهم کرده و در اختیار دانشجویان علوم مهندسی از جمله مهندسی کامپیوتر، برق، صنایع، مکانیک، مکاترونیک و... قرار داده است. کتاب یادگیری تقویتی در هر فصل به معرفی، تحلیل کاربردی و آموزش فرمولهای مربوطه پرداخته است. در فصل پنجم کتاب یادگیری تقویتی، روشهای مونتکارلو بررسی شدهاند؛ روشهای مونتکارلو گونهای از روشهای یادگیری هستند که راهکارهایی مبتنی بر متوسطگیری از بازگشتهای نمونه را ارائه میدهند. همچنین نوع عملکرد و نقش آن در انجام محاسبات شرح داده شده است.
کتاب پیش رو راهنمایی جامع برای دانشجویان و متخصصان علوم مهندسی و دیگر علوم از جمله اقتصاد و علوم اعصاب و روانشناسی است که به همت انتشارات دانشگاه یزد در اختیار مخاطبان قرار گرفته است.
کتاب یادگیری تقویتی برای چه کسانی مناسب است؟
این کتاب برای دانشجویان علوم مهندسی از جمله مهندسی کامپیوتر مناسب است.
در بخشی از کتاب یادگیری تقویتی میخوانیم
یادگیری تقویتی، به معنای یادگرفتن عمل مناسب از میان مجموعه اَعمال مجاز برای یک موقعیت خاص بر اساس جایزه و جریمههای دریافتی است. به عبارت دیگر، در یادگیری تقویتی، موضوع مورد چالش عبارت است از: چگونگی نگاشت موقعیتها به عملها، به طوری که یک سیگنال پاداش عددی (که سیگنال تقویتی نامیده میشود) بیشینه گردد. نکته مهم این است که در این روش برخلاف اکثر روشهای یادگیری ماشین به یادگیرنده گفته نمیشود که در یک موقعیت خاص چه عملی را باید انجام دهد، بلکه یادگیرنده باید "خودش" با امتحان کردن عملهای مختلف در آن موقعیت، دریابد امید دریافت پاداش کدام یک از عملهایش برای آن موقعیت بیشتر است. در اغلب مواقع، عملها ممکن است نه تنها پاداشهای آنی، بلکه موقعیتهای بعدی و به تبع آن تمام پاداشهای آینده را تحتتأثیر قرار دهند. به عبارت دیگر برای دستیابی به پاداش واقعی باید سلسلهای از عملها انجام شود و این مفهوم، همان پاداش با تأخیر است. این دو مشخصه (یعنی جستجو از طریق آزمون و خطا ،و پاداش با تأخیر) مهمترین ویژگیهای متمایزکنندهی یادگیری تقویتی هستند.
فهرست مطالب کتاب
فصل اول: معرفی مسئلهی یادگیری تقویتی
یادگیری تقویتی و جایگاه آن در دنیای یادگیری
نگاهی به مسئلهی یادگیری تقویتی در زندگی روزمره
عناصر یادگیری تقویتی
نمونههایی از زمینههای کاربردی یادگیری تقویتی
تشریح یک مسئله تعلیم کبوتر
خلاصه
فصل دوم: رسمی سازی مسئلهی یادگیری تقویتی
مروری بر مبحث عاملهای هوشمند
مروری بر خصوصیات محیط وظیفه
ویژگی مارکوف
گسسته در مقابل پیوسته
قطعی در مقابل تصادفی
ایستا در مقابل غیر ایستا
انجمنی در مقابل غیر انجمنی
مرحلهای در مقابل زنجیرهای
چهارچوب مسئلهی یادگیری تقویتی
واسط عامل محیط در یادگیری تقویتی
هدف و تابع پاداش
بازگشت.
ویژگی مارکوف در مسائل یادگیری تقویتی
فرآیندهای تصمیم گیری مارکوف
توابع ارزش
تابع ارزش بهینه و سیاستهای بهینه
دقت در مقابل تقریب کارآمد
خلاصه
فصل سوم: روشهای انتخاب عمل تعادل میان کاوش و بهرهگیری
تخمین ارزش عمل
تابع ارزش عمل به عنوان پایگاه دانش عامل
روشهای کاوش مستقیم
روشهای کاوش غیر مستقیم
مقایسهی روشهای کاوش غیرمستقیم در چند مثال کاربردی
ترکیب ایدههای روشهای کاوش مستقیم با روش بیشینه نرم
روشهای ارزیابی الگوریتمهای یادگیری تقویتی
خلاصه
فصل چهارم: برنامهریزی پویا
ارزیابی سیاست
بهبود سیاست
تکرار سیاست
تکرار ارزش
یک مثال کاربردی
کارایی برنامه ریزی پویا
خلاصه
فصل پنجم: روشهای مونت کارلو
ارزیابی سیاست مونت کارلو
تخمین مونت کارلو برای ارزش حالت
تخمین مونت کارلو برای ارزش عمل
کنترل مونت کارلو
کنترل مونت کارلو به روش برسیاست
ارزیابی سیاست برون سیاست (ارزیابی یک سیاست با پیگیری سیاستی دیگر)
کنترل مونت کارلو به روش برون سیاست
پیادهسازی پلکانی
خلاصه
فصل ششم: روش یادگیری تفاضل موقتی
ارزیابی سیاست به روش تفاضل موقتی
مزایای ارزیابی سیاست به روش تفاضل موقتی
هم گرایی روش تفاضل موقتی
کنترل به روش تفاضل موقتی
الگوریتم سارسا
الگوریتم یادگیری کیو
الگوریتم یادگیری - کیو وی
مقایسهی تجربی
شایستگی مسیر
الگوریتم TD
الگوریتم (1) SARSA
الگوریتم (1)
الگوریتم (2)
خلاصه
فصل هفتم: معماری نقاد - تنها
معماری نقاد - تنها
یادگیری کیوی فازی
عمده ضعفهای روش یادگیری کیوی فازی
توسعههایی از یادگیری کیوی فازی
تنظیم بر خط پارامترهای مقدم در روش یادگیری کیوی فازی
تعیین مقدار تالی قواعد فازی از یک فضای پیوسته
یادگیری سارسای فازی
تحلیل ریاضی دو روش یادگیری کیو فازی و سارسای فازی
مثالی از واگرایی یادگیری کیوی پیوسته
وجود همگرایی در یادگیری سارسای فازی
مقایسهی دو روش یادگیری کیو فازی و یادگیری سارسای فازی در نمونههای کاربردی
یادگیری سارسای فازی بهبود یافته
خلاصه
فصل هشتم: معماری عملگر - تنها
ساختار کلی الگوریتمهای عملگر تنها
استراتژیهای کاوش
کاوش در فضای عمل در مقابل کاوش در فضای پارامتر
کاوش گام به گام در مقابل کاوش مرحله به مرحله
استراتژیهای ارزیابی سیاست
ارزیابی سیاست گام به گام
ارزیابی سیاست مرحله به مرحله
استراتژی به روز رسانی سیاست روش گرادیان سیاست
روش تفاضل متناهی
روشهای نسبت احتمال
خلاصه
فصل نهم: معماری عملگر - نقاد
ساختار کلی روشهای عملگر نقاد
سیستم عملگر نقاد بارتو و همکاران
عملگر
نقاد
نتایج پیادهسازی و مقایسه
سیستم یادگیری عملگر نقاد فازی جافی
نقاد
عملگر
شبه کد الگوریتم عملگر نقاد فازی جافی
نتایج پیادهسازی و مقایسه
خلاصه
منابع و مآخذ
فهرست واژگان
مشخصات کتاب الکترونیک
نام کتاب | کتاب یادگیری تقویتی |
نویسنده | ولی درهمی، فریناز اعلمیان هرندی، محمدباقر دولتشاهی |
ناشر چاپی | انتشارات دانشگاه یزد |
سال انتشار | ۱۴۰۳ |
فرمت کتاب | |
تعداد صفحات | 271 |
زبان | فارسی |
شابک | 978-622-8280-68-4 |
موضوع کتاب | کتابهای شبکه عصبی، کتابهای مهندسی کامپیوتر |