Edebi Parmak İzleri: Doğal Dil İşleme ve Makine Öğrenmesi Yöntemleriyle Kitap Türü ve Yazar Anlatım Tarzının Belirlenmesi

dc.contributor.advisor Topallı, Ayça
dc.contributor.author Özyurt, Doğukan
dc.date.accessioned 2025-08-25T17:04:08Z
dc.date.available 2025-08-25T17:04:08Z
dc.date.issued 2025
dc.description.abstract Edebi eserlerin içeriklerine dayalı olarak yazar tahmini yapmak, tür sınıflandırması gerçekleştirmek ve öneri sistemi geliştirmek, doğal dil işleme alanında giderek önem kazanan bir araştırma konusudur. Bu tez çalışmasında, kitap metinlerinin vektör uzayında temsil edilmesiyle hem sınıflandırma hem de içerik tabanlı öneri sunabilen bir sistem geliştirilmiştir. Çalışma kapsamında Türkçe ve İngilizce romanlardan oluşan kapsamlı veri kümeleri oluşturulmuştur; metinler küçük harfe dönüştürülmüş, noktalama işaretleri ve özel karakterlerden temizlenerek ön işleme tabi tutulmuştur. Temizlenen metinler, Doc2Vec algoritması ile sabit boyutlu vektör temsillerine dönüştürülmüştür. Modelin genelleme başarımını değerlendirmek amacıyla, her yazarın en az bir kitabının test kümesine dahil edildiği özel bir eğitim/test ayrımı uygulanmıştır. Elde edilen belge vektörleri, Logistic Regression, LinearSVC, Random Forest, Gaussian Naive Bayes ve K-En Yakın Komşu gibi sınıflandırıcılar ile yazar ve tür tahmini için kullanılmıştır. Ayrıca bu tezde, klasik Kosinüs Benzerliği yaklaşımının ötesine geçen, vektör merkezli benzerlik ölçümüne dayalı bir yöntem benimsenmiştir. Her yazar ve kategori için eğitim verisinden bir 'merkez vektör' çıkarılmış, test kitapları bu merkezlere olan açısal yakınlıklarına göre sınıflandırılmıştır. Bu yaklaşım, modelin kavramsal benzerliklere daha duyarlı çalışmasını sağlamış ve yüksek doğruluk oranlarıyla başarısını ortaya koymuştur. Tezin ikinci aşamasında geliştirilen öneri sistemi, kullanıcı davranışına dayalı filtreleme yöntemlerinden farklı olarak metinsel içerik benzerliklerine odaklanmakta; böylece okuyucuya beğendiği yazarlarla benzer anlatım tarzı taşıyan yeni yazarlar önermektedir. Bu yöntem özellikle az tanınan yazarların görünürlüğünü artırma potansiyeli taşımaktadır. Bu çalışma, belge gömme tabanlı yöntemlerin dijital beşeri bilimler, yazar tahmini ve öneri sistemleri gibi alanlarda etkili bir biçimde kullanılabileceğini göstermektedir.
dc.description.abstract Authorship attribution, genre classification, and recommendation systems based on literary content have become increasingly important in natural language processing (NLP). This thesis presents a system capable of both classification and content-based recommendation by representing book texts in a vector space. Comprehensive datasets of Turkish and English novels were compiled. All texts were lowercased and preprocessed to remove punctuation and special characters, then transformed into fixed-length vectors using the Doc2Vec algorithm. To ensure generalization, a custom train/test split was applied, guaranteeing each author was represented in the test set. These document vectors were used for authorship and genre classification with classifiers such as Logistic Regression, LinearSVC, Random Forest, Gaussian Naive Bayes, and K-Nearest Neighbors. This study also adopts a centroid-based similarity approach that extends traditional cosine similarity principles. For each author and genre, a representative vector was computed from the training data, and test books were classified based on their angular proximity to these centroids. This approach improved conceptual sensitivity and yielded high accuracy. In the second phase, a content-based recommendation system was developed that, unlike collaborative filtering, relies solely on textual similarity. It recommends books with similar narrative styles to those already enjoyed by the reader, helping raise the visibility of lesser-known authors. This research shows that document embedding-based methods can be effectively applied in digital humanities, authorship attribution, and recommendation systems. en_US
dc.identifier.uri https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=5NNqZKwwGohPh6_KCcfp-pFe5ucIwTSR753pEVPZDVuy2cpHhq4q_Kch3ucbXtTY
dc.identifier.uri https://hdl.handle.net/20.500.14365/6395
dc.language.iso en
dc.subject Elektrik Ve Elektronik Mühendisliği
dc.subject Electrical And Electronics Engineering en_US
dc.title Edebi Parmak İzleri: Doğal Dil İşleme ve Makine Öğrenmesi Yöntemleriyle Kitap Türü ve Yazar Anlatım Tarzının Belirlenmesi
dc.title Literary Fingerprints: Detection of Book Genre and Author Style Using Natural Language Processing and Machine Learning en_US
dc.type Master Thesis en_US
dspace.entity.type Publication
gdc.coar.type text::thesis::master thesis
gdc.description.department Lisansüstü Eğitim Enstitüsü / Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
gdc.description.endpage 133
gdc.identifier.yoktezid 946942
gdc.virtual.author Kumluca Topallı, Ayça
relation.isAuthorOfPublication b5d0d9d8-5ffe-4526-93b3-de36e89674de
relation.isAuthorOfPublication.latestForDiscovery b5d0d9d8-5ffe-4526-93b3-de36e89674de
relation.isOrgUnitOfPublication b02722f0-7082-4d8a-8189-31f0230f0e2f
relation.isOrgUnitOfPublication 26a7372c-1a5e-42d9-90b6-a3f7d14cad44
relation.isOrgUnitOfPublication e9e77e3e-bc94-40a7-9b24-b807b2cd0319
relation.isOrgUnitOfPublication.latestForDiscovery b02722f0-7082-4d8a-8189-31f0230f0e2f

Files