Pekiştirmeli öğrenmede içsel motivasyon yoluyla etkili keşif

Eren, Berkay

Pekiştirmeli öğrenmede içsel motivasyon yoluyla etkili keşif

dc.contributor.advisor	Demir, Alper
dc.contributor.author	Eren, Berkay
dc.date.accessioned	2026-04-25T10:19:16Z
dc.date.available	2026-04-25T10:19:16Z
dc.date.issued	2026
dc.description.abstract	Pekiştirmeli öğrenme etmenleri, geri bildirimin sınırlı olduğu ve yalnızca bir dizi doğru eylemden sonra ortaya çıktığı seyrek ödüllü ortamlarda sıklıkla güçlük çekmektedir. Kısmi gözlemlenebilir navigasyon problemlerinde, basit keşif stratejileri genellikle yetersiz kalmaktadır. Bu tez, özellikle nadir ancak etkili eylemleri ödüllendiren 'Önemsiz Olanı Yapma' (DoWhaM) yöntemine odaklanarak içsel motivasyon mekanizmalarını incelemektedir. Bu yöntemin uzamsal görevlerdeki sınırlamalarını ele almak amacıyla, Alan-duyarlı DoWhaM Adaptasyonu (ADA) önerilmektedir. Bu yöntem, görülebilir alanı genişletmeyi teşvik etmek için eylem-yararlılığını uzamsal yenilik bonusları ile genişletir. ADA, çeşitli MiniGrid ortamlarında DoWhaM ve Sayaç-Tabanlı (Count-Based) bir temel yöntem ile karşılaştırmalı olarak değerlendirilmiştir. Sonuçlar, ADA'nın eğitimin erken aşamalarında örneklem verimliliğini artırdığını göstermektedir. Düzenin her bölümde değiştiği dinamik ortamlarda ADA, Sayaç-Tabanlı yöntemi önemli ölçüde geride bırakmakta ve DoWhaM'dan daha hızlı öğrenmektedir. Bu bulgular, eylem-yararlılığının uzamsal yenilik ile birleştirilmesinin, prosedürel olarak oluşturulmuş görevlerde keşif için sağlam bir sezgisel yaklaşım sağladığını ortaya koymaktadır.	tr
dc.description.abstract	Reinforcement learning agents often struggle in sparse-reward environments where feedback is limited and appears only after a sequence of correct actions. In partial-observable navigation tasks, simple exploration strategies are often insufficient. This thesis investigates intrinsic motivation mechanisms, specifically focusing on the 'Don't Do What Doesn't Matter' (DoWhaM) method, which rewards rare but effective actions. To address its limitations in spatial tasks, we propose Area-aware DoWhaM Adaptation (ADA). This method extends action-usefulness with spatial novelty bonuses to encourage expanding the visible area. We evaluate ADA against DoWhaM and a Count-Based baselines in various MiniGrid environments. Results indicate that ADA improves sample efficiency in the early stages of training. In dynamic environments where the layout changes in every episode, ADA significantly outperforms the Count-Based baseline and learns faster than DoWhaM. These findings suggest that combining action-usefulness with spatial novelty provides a robust heuristic for exploration in procedurally generated tasks.	en_US
dc.identifier.uri	https://hdl.handle.net/20.500.14365/9036
dc.identifier.uri	https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=KOgdn9H3uVnWeb15j2W4h0ccAHZQcNk_qIRraEZatYU8-lNELApTBMhpeVn5qxox
dc.language.iso	en
dc.subject	Computer Engineering and Computer Science and Control	en_US
dc.subject	Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol	tr
dc.title	Pekiştirmeli öğrenmede içsel motivasyon yoluyla etkili keşif	tr
dc.title	Effective Exploration via Intrinsic Motivation in Reinforcement Learning	en_US
dc.type	Master Thesis
dspace.entity.type	Publication
gdc.description.department
gdc.description.department	LİSANSÜSTÜ EĞİTİM ENSTİTÜSÜ / BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI
gdc.description.endpage	79
gdc.identifier.yoktezid	992941
gdc.virtual.author	Demir, Alper
relation.isAuthorOfPublication	c9c431c0-6d14-4dac-87af-29d85e10ef21
relation.isAuthorOfPublication.latestForDiscovery	c9c431c0-6d14-4dac-87af-29d85e10ef21
relation.isOrgUnitOfPublication	b4714bc5-c5ae-478f-b962-b7204c948b70
relation.isOrgUnitOfPublication	26a7372c-1a5e-42d9-90b6-a3f7d14cad44
relation.isOrgUnitOfPublication	e9e77e3e-bc94-40a7-9b24-b807b2cd0319
relation.isOrgUnitOfPublication.latestForDiscovery	b4714bc5-c5ae-478f-b962-b7204c948b70

Collections

Yüksek Lisans Tezleri

Pekiştirmeli öğrenmede içsel motivasyon yoluyla etkili keşif

Files

Collections