معرفی و دانلود کتاب یادگیری تقویتی

نویسنده: ولی درهمی، فریناز اعلمیان هرندی، محمدباقر دولتشاهی
ناشر: انتشارات دانشگاه یزد

قیمت:

۷۰,۰۰۰ تومان

۵۰٪ تخفیف اولین خرید با کد welcome

برای دانلود قانونی کتاب یادگیری تقویتی و دسترسی به هزاران کتاب و کتاب صوتی دیگر، اپلیکیشن کتابراه را رایگان نصب کنید.

معرفی کتاب یادگیری تقویتی

کتاب یادگیری تقویتی نوشته‌ی ولی درهمی، فریناز اعلمیان هرندی و محمدباقر دولتشاهی به یکی از مهم‌ترین روش‌های یادگیری ماشین یعنی یادگیری تقویتی می‌پردازد و نوع کارکرد و روش‌های بهره‌جویی حداکثری از آن را به دانشجویان و فعالان علوم مهندسی و دیگر رشته‌ها از جمله ریاضیات، اقتصاد، علوم اعصاب و روان‌شناسی آموخته است.

درباره‌ی کتاب یادگیری تقویتی

یادگیری تقویتی یک الگوی یادگیری است که یک عامل را در تعامل با یک محیط وارد وضعیت تصمیم متوالی می‌کند. عامل براساس عملکرد خود بازخوردی را در قالب جریمه یا پاداش دریافت می‌کند. کتاب یادگیری تقویتی نوشته‌ی ولی درهمی، فریناز اعلمیان هرندی و محمدباقر دولتشاهی با بررسی عناوینی از جمله، رسمی‌سازی مسئله‌ی یادگیری تقویتی، ویژگی مارکوف، روش‌های انتخاب عمل، تعادل میان کاوش و بهره‌گیری، برنامه‌ریزی پویا، روش‌های مونت کارلو، روش‌های یادگیری تفاضل موقتی، الگوریتم‌ها، معماری نقاد- تنها، معماری عملگر- نقاد، کاوش در فضای عمل و... به آموزش یکی از کاربردی‌ترین روش‌های یادگیری ماشین که یادگیری تقویتی است پرداخته و ابعاد گوناگون آن را مورد بررسی قرار داده است.

این کتاب با ارائه‌ی جداول، تصاویر و فرمول‌های مورد نیاز، توضیحات دقیقی درمورد هر مبحث فراهم کرده و در اختیار دانشجویان علوم مهندسی از جمله مهندسی کامپیوتر، برق، صنایع، مکانیک، مکاترونیک و... قرار داده است. کتاب یادگیری تقویتی در هر فصل به معرفی، تحلیل کاربردی و آموزش فرمول‌های مربوطه پرداخته است. در فصل پنجم کتاب یادگیری تقویتی، روش‌های مونت‌کارلو بررسی شده‌اند؛ روش‌های مونت‌کارلو گونه‌ای از روش‌های یادگیری هستند که راهکارهایی مبتنی بر متوسط‌گیری از بازگشت‌های نمونه را ارائه می‌دهند. همچنین نوع عملکرد و نقش آن در انجام محاسبات شرح داده شده است.

کتاب پیش رو راهنمایی جامع برای دانشجویان و متخصصان علوم مهندسی و دیگر علوم از جمله اقتصاد و علوم اعصاب و روان‌شناسی است که به همت انتشارات دانشگاه یزد در اختیار مخاطبان قرار گرفته است.

کتاب یادگیری تقویتی برای چه کسانی مناسب است؟

این کتاب برای دانشجویان علوم مهندسی از جمله مهندسی کامپیوتر مناسب است.

در بخشی از کتاب یادگیری تقویتی می‌خوانیم

یادگیری تقویتی، به معنای یادگرفتن عمل مناسب از میان مجموعه اَعمال مجاز برای یک موقعیت خاص بر اساس جایزه و جریمه‌های دریافتی است. به عبارت دیگر، در یادگیری تقویتی، موضوع مورد چالش عبارت است از: چگونگی نگاشت موقعیت‌ها به عمل‌ها، به طوری که یک سیگنال پاداش عددی (که سیگنال تقویتی نامیده می‌شود) بیشینه گردد. نکته مهم این است که در این روش برخلاف اکثر روش‌های یادگیری ماشین به یادگیرنده گفته نمی‌شود که در یک موقعیت خاص چه عملی را باید انجام دهد، بلکه یادگیرنده باید "خودش" با امتحان کردن عمل‌های مختلف در آن موقعیت، دریابد امید دریافت پاداش کدام یک از عمل‌هایش برای آن موقعیت بیش‌تر است. در اغلب مواقع، عمل‌ها ممکن است نه تنها پاداش‌های آنی، بلکه موقعیت‌های بعدی و به تبع آن تمام پاداش‌های آینده را تحت‌تأثیر قرار دهند. به عبارت دیگر برای دستیابی به پاداش واقعی باید سلسله‌ای از عمل‌ها انجام شود و این مفهوم، همان پاداش با تأخیر است. این دو مشخصه (یعنی جستجو از طریق آزمون و خطا ،و پاداش با تأخیر) مهم‌ترین ویژگی‌های متمایزکننده‌ی یادگیری تقویتی هستند.

فهرست مطالب کتاب

فصل اول: معرفی مسئله‌ی یادگیری تقویتی
یادگیری تقویتی و جایگاه آن در دنیای یادگیری
نگاهی به مسئله‌ی یادگیری تقویتی در زندگی روزمره
عناصر یادگیری تقویتی
نمونه‌هایی از زمینه‌های کاربردی یادگیری تقویتی
تشریح یک مسئله تعلیم کبوتر
خلاصه
فصل دوم: رسمی سازی مسئله‌ی یادگیری تقویتی
مروری بر مبحث عاملهای هوشمند
مروری بر خصوصیات محیط وظیفه
ویژگی مارکوف
گسسته در مقابل پیوسته
قطعی در مقابل تصادفی
ایستا در مقابل غیر ایستا
انجمنی در مقابل غیر انجمنی
مرحله‌ای در مقابل زنجیره‌ای
چهارچوب مسئله‌ی یادگیری تقویتی
واسط عامل محیط در یادگیری تقویتی
هدف و تابع پاداش
بازگشت.
ویژگی مارکوف در مسائل یادگیری تقویتی
فرآیندهای تصمیم گیری مارکوف
توابع ارزش
تابع ارزش بهینه و سیاست‌های بهینه
دقت در مقابل تقریب کارآمد
خلاصه
فصل سوم: روش‌های انتخاب عمل تعادل میان کاوش و بهره‌گیری
تخمین ارزش عمل
تابع ارزش عمل به عنوان پایگاه دانش عامل
روش‌های کاوش مستقیم
روش‌های کاوش غیر مستقیم
مقایسه‌ی روش‌های کاوش غیر‌مستقیم در چند مثال کاربردی
ترکیب ایده‌های روش‌های کاوش مستقیم با روش بیشینه نرم
روش‌های ارزیابی الگوریتم‌های یادگیری تقویتی
خلاصه
فصل چهارم: برنامه‌ریزی پویا
ارزیابی سیاست
بهبود سیاست
تکرار سیاست
تکرار ارزش
یک مثال کاربردی
کارایی برنامه ریزی پویا
خلاصه
فصل پنجم: روش‌های مونت کارلو
ارزیابی سیاست مونت کارلو
تخمین مونت کارلو برای ارزش حالت
تخمین مونت کارلو برای ارزش عمل
کنترل مونت کارلو
کنترل مونت کارلو به روش برسیاست
ارزیابی سیاست برون سیاست (ارزیابی یک سیاست با پیگیری سیاستی دیگر)
کنترل مونت کارلو به روش برون سیاست
پیاده‌سازی پلکانی
خلاصه
فصل ششم: روش یادگیری تفاضل موقتی
ارزیابی سیاست به روش تفاضل موقتی
مزایای ارزیابی سیاست به روش تفاضل موقتی
هم گرایی روش تفاضل موقتی
کنترل به روش تفاضل موقتی
الگوریتم سارسا
الگوریتم یادگیری کیو
الگوریتم یادگیری - کیو وی
مقایسه‌ی تجربی
شایستگی مسیر
الگوریتم TD
الگوریتم (1) SARSA
الگوریتم (1)
الگوریتم (2)
خلاصه
فصل هفتم: معماری نقاد - تنها
معماری نقاد - تنها
یادگیری کیوی فازی
عمده ضعف‌های روش یادگیری کیوی فازی
توسعه‌هایی از یادگیری کیوی فازی
تنظیم بر خط پارامترهای مقدم در روش یادگیری کیوی فازی
تعیین مقدار تالی قواعد فازی از یک فضای پیوسته
یادگیری سارسای فازی
تحلیل ریاضی دو روش یادگیری کیو فازی و سارسای فازی
مثالی از واگرایی یادگیری کیوی پیوسته
وجود همگرایی در یادگیری سارسای فازی
مقایسه‌ی دو روش یادگیری کیو فازی و یادگیری سارسای فازی در نمونه‌های کاربردی
یادگیری سارسای فازی بهبود یافته
خلاصه
فصل هشتم: معماری عملگر - تنها
ساختار کلی الگوریتم‌های عملگر تنها
استراتژی‌های کاوش
کاوش در فضای عمل در مقابل کاوش در فضای پارامتر
کاوش گام به گام در مقابل کاوش مرحله به مرحله
استراتژی‌های ارزیابی سیاست
ارزیابی سیاست گام به گام
ارزیابی سیاست مرحله به مرحله
استراتژی به روز رسانی سیاست روش گرادیان سیاست
روش تفاضل متناهی
روش‌های نسبت احتمال
خلاصه
فصل نهم: معماری عملگر - نقاد
ساختار کلی روش‌های عملگر نقاد
سیستم عملگر نقاد بارتو و همکاران
عملگر
نقاد
نتایج پیاده‌سازی و مقایسه
سیستم یادگیری عملگر نقاد فازی جافی
نقاد
عملگر
شبه کد الگوریتم عملگر نقاد فازی جافی
نتایج پیاده‌سازی و مقایسه
خلاصه
منابع و مآخذ
فهرست واژگان

مشخصات کتاب الکترونیک

نام کتاب	کتاب یادگیری تقویتی
نویسنده	ولی درهمی، فریناز اعلمیان هرندی، محمدباقر دولتشاهی
ناشر چاپی	انتشارات دانشگاه یزد
سال انتشار	۱۴۰۳
فرمت کتاب	PDF
تعداد صفحات	271
زبان	فارسی
شابک	978-622-8280-68-4
موضوع کتاب	کتاب‌های شبکه عصبی، کتاب‌های مهندسی کامپیوتر