Pekiştirmeli öğrenmede içsel motivasyon yoluyla etkili keşif

Loading...
Publication Logo

Date

2026

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Journal Issue

Abstract

Pekiştirmeli öğrenme etmenleri, geri bildirimin sınırlı olduğu ve yalnızca bir dizi doğru eylemden sonra ortaya çıktığı seyrek ödüllü ortamlarda sıklıkla güçlük çekmektedir. Kısmi gözlemlenebilir navigasyon problemlerinde, basit keşif stratejileri genellikle yetersiz kalmaktadır. Bu tez, özellikle nadir ancak etkili eylemleri ödüllendiren 'Önemsiz Olanı Yapma' (DoWhaM) yöntemine odaklanarak içsel motivasyon mekanizmalarını incelemektedir. Bu yöntemin uzamsal görevlerdeki sınırlamalarını ele almak amacıyla, Alan-duyarlı DoWhaM Adaptasyonu (ADA) önerilmektedir. Bu yöntem, görülebilir alanı genişletmeyi teşvik etmek için eylem-yararlılığını uzamsal yenilik bonusları ile genişletir. ADA, çeşitli MiniGrid ortamlarında DoWhaM ve Sayaç-Tabanlı (Count-Based) bir temel yöntem ile karşılaştırmalı olarak değerlendirilmiştir. Sonuçlar, ADA'nın eğitimin erken aşamalarında örneklem verimliliğini artırdığını göstermektedir. Düzenin her bölümde değiştiği dinamik ortamlarda ADA, Sayaç-Tabanlı yöntemi önemli ölçüde geride bırakmakta ve DoWhaM'dan daha hızlı öğrenmektedir. Bu bulgular, eylem-yararlılığının uzamsal yenilik ile birleştirilmesinin, prosedürel olarak oluşturulmuş görevlerde keşif için sağlam bir sezgisel yaklaşım sağladığını ortaya koymaktadır.
Reinforcement learning agents often struggle in sparse-reward environments where feedback is limited and appears only after a sequence of correct actions. In partial-observable navigation tasks, simple exploration strategies are often insufficient. This thesis investigates intrinsic motivation mechanisms, specifically focusing on the 'Don't Do What Doesn't Matter' (DoWhaM) method, which rewards rare but effective actions. To address its limitations in spatial tasks, we propose Area-aware DoWhaM Adaptation (ADA). This method extends action-usefulness with spatial novelty bonuses to encourage expanding the visible area. We evaluate ADA against DoWhaM and a Count-Based baselines in various MiniGrid environments. Results indicate that ADA improves sample efficiency in the early stages of training. In dynamic environments where the layout changes in every episode, ADA significantly outperforms the Count-Based baseline and learns faster than DoWhaM. These findings suggest that combining action-usefulness with spatial novelty provides a robust heuristic for exploration in procedurally generated tasks.

Description

Keywords

Computer Engineering and Computer Science and Control, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

79
Google Scholar Logo
Google Scholar™

Sustainable Development Goals

SDG data could not be loaded because of an error. Please refresh the page or try again later.