یادگیری تقویتی (RL) یکی از گرایش های یادگیری ماشین است که بطور خاص از روانشناسی رفتار الهام می‌گیرد. این الگوریتم بر رفتارهایی تمرکز دارد که ماشین باید برای بیشینه کردن پاداش خود آنها را انجام دهد. بطور کلی در حوزه یادگیری ماشین (Machine learning) سه دسته الگوریتم موجود است که عبارتند از:

  1. الگوریتم های یادگیری با نظارت (Supervised learning)
  2. الگوریتم های یادگیری بدون نظارت (Unsupervised learning)
  3. الگوریتم های یادگیری تقویتی (Reinforcement learning)

در الگوریتم های یادگیری با نظارت هدف یافتن یک تابع است که داده های ورودی را به برچسب ها نگاشت می‌کند. برای مثال فرض کنید از روی یک تصویر می‌خواهید تشخیص دهید که در آن تصویر پراید وجود دارد یا نه؟

داده های ورودی شما در حالتی که به دنبال آموزش از طریق یادگیری با نظارت باشید عبارت است از عکس و برچسب های آن که پراید یا غیر پراید می‌باشد.

در نوع دوم یادگیری که تحت عنوان یادگیری بدون نظارت مطرح است، داده ها برچسب ندارند و به دنبال یافتن الگو های پنهان در داده ها هستیم. الگوریتم معروفی که همه به نوعی با آن آشنا هستند الگوریتم kmeans می‌باشد که نوعی از الگوریتم بدون نظارت است.

در نوع سوم یادگیری که به یادگیری تقویتی معروف است، این الگوریتم با برچسب ها سر‌وکار ندارد و برخلاف آن با سیگنال های تنبیه و تشویق مواجه است. این نوع از الگوریتم که از یادگیری انسان ها الگو گرفته است مبنا را بر این قرار می‌دهد که در صورتی که الگوریتم به درستی عمل کند باید تشویق شود و برعکس. حال به بررسی بیشتر این الگوریتم می‌پردازیم.

Post Views: 24