Pekiştirmeli öğrenmede içsel motivasyon yoluyla etkili keşif

dc.contributor.advisor Demir, Alper
dc.contributor.author Eren, Berkay
dc.date.accessioned 2026-04-25T10:19:16Z
dc.date.available 2026-04-25T10:19:16Z
dc.date.issued 2026
dc.description.abstract Pekiştirmeli öğrenme etmenleri, geri bildirimin sınırlı olduğu ve yalnızca bir dizi doğru eylemden sonra ortaya çıktığı seyrek ödüllü ortamlarda sıklıkla güçlük çekmektedir. Kısmi gözlemlenebilir navigasyon problemlerinde, basit keşif stratejileri genellikle yetersiz kalmaktadır. Bu tez, özellikle nadir ancak etkili eylemleri ödüllendiren 'Önemsiz Olanı Yapma' (DoWhaM) yöntemine odaklanarak içsel motivasyon mekanizmalarını incelemektedir. Bu yöntemin uzamsal görevlerdeki sınırlamalarını ele almak amacıyla, Alan-duyarlı DoWhaM Adaptasyonu (ADA) önerilmektedir. Bu yöntem, görülebilir alanı genişletmeyi teşvik etmek için eylem-yararlılığını uzamsal yenilik bonusları ile genişletir. ADA, çeşitli MiniGrid ortamlarında DoWhaM ve Sayaç-Tabanlı (Count-Based) bir temel yöntem ile karşılaştırmalı olarak değerlendirilmiştir. Sonuçlar, ADA'nın eğitimin erken aşamalarında örneklem verimliliğini artırdığını göstermektedir. Düzenin her bölümde değiştiği dinamik ortamlarda ADA, Sayaç-Tabanlı yöntemi önemli ölçüde geride bırakmakta ve DoWhaM'dan daha hızlı öğrenmektedir. Bu bulgular, eylem-yararlılığının uzamsal yenilik ile birleştirilmesinin, prosedürel olarak oluşturulmuş görevlerde keşif için sağlam bir sezgisel yaklaşım sağladığını ortaya koymaktadır. tr
dc.description.abstract Reinforcement learning agents often struggle in sparse-reward environments where feedback is limited and appears only after a sequence of correct actions. In partial-observable navigation tasks, simple exploration strategies are often insufficient. This thesis investigates intrinsic motivation mechanisms, specifically focusing on the 'Don't Do What Doesn't Matter' (DoWhaM) method, which rewards rare but effective actions. To address its limitations in spatial tasks, we propose Area-aware DoWhaM Adaptation (ADA). This method extends action-usefulness with spatial novelty bonuses to encourage expanding the visible area. We evaluate ADA against DoWhaM and a Count-Based baselines in various MiniGrid environments. Results indicate that ADA improves sample efficiency in the early stages of training. In dynamic environments where the layout changes in every episode, ADA significantly outperforms the Count-Based baseline and learns faster than DoWhaM. These findings suggest that combining action-usefulness with spatial novelty provides a robust heuristic for exploration in procedurally generated tasks. en_US
dc.identifier.uri https://hdl.handle.net/20.500.14365/9036
dc.identifier.uri https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=KOgdn9H3uVnWeb15j2W4h0ccAHZQcNk_qIRraEZatYU8-lNELApTBMhpeVn5qxox
dc.language.iso en
dc.subject Computer Engineering and Computer Science and Control en_US
dc.subject Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol tr
dc.title Pekiştirmeli öğrenmede içsel motivasyon yoluyla etkili keşif tr
dc.title Effective Exploration via Intrinsic Motivation in Reinforcement Learning en_US
dc.type Master Thesis
dspace.entity.type Publication
gdc.description.department
gdc.description.department LİSANSÜSTÜ EĞİTİM ENSTİTÜSÜ / BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI
gdc.description.endpage 79
gdc.identifier.yoktezid 992941
gdc.virtual.author Demir, Alper
relation.isAuthorOfPublication c9c431c0-6d14-4dac-87af-29d85e10ef21
relation.isAuthorOfPublication.latestForDiscovery c9c431c0-6d14-4dac-87af-29d85e10ef21
relation.isOrgUnitOfPublication b4714bc5-c5ae-478f-b962-b7204c948b70
relation.isOrgUnitOfPublication 26a7372c-1a5e-42d9-90b6-a3f7d14cad44
relation.isOrgUnitOfPublication e9e77e3e-bc94-40a7-9b24-b807b2cd0319
relation.isOrgUnitOfPublication.latestForDiscovery b4714bc5-c5ae-478f-b962-b7204c948b70

Files