Please use this identifier to cite or link to this item:
https://hdl.handle.net/20.500.14365/6395| Title: | Edebi Parmak İzleri: Doğal Dil İşleme ve Makine Öğrenmesi Yöntemleriyle Kitap Türü ve Yazar Anlatım Tarzının Belirlenmesi Literary Fingerprints: Detection of Book Genre and Author Style Using Natural Language Processing and Machine Learning |
Authors: | Özyurt, Doğukan | Advisors: | Topallı, Ayça | Keywords: | Elektrik Ve Elektronik Mühendisliği Electrical And Electronics Engineering |
Abstract: | Edebi eserlerin içeriklerine dayalı olarak yazar tahmini yapmak, tür sınıflandırması gerçekleştirmek ve öneri sistemi geliştirmek, doğal dil işleme alanında giderek önem kazanan bir araştırma konusudur. Bu tez çalışmasında, kitap metinlerinin vektör uzayında temsil edilmesiyle hem sınıflandırma hem de içerik tabanlı öneri sunabilen bir sistem geliştirilmiştir. Çalışma kapsamında Türkçe ve İngilizce romanlardan oluşan kapsamlı veri kümeleri oluşturulmuştur; metinler küçük harfe dönüştürülmüş, noktalama işaretleri ve özel karakterlerden temizlenerek ön işleme tabi tutulmuştur. Temizlenen metinler, Doc2Vec algoritması ile sabit boyutlu vektör temsillerine dönüştürülmüştür. Modelin genelleme başarımını değerlendirmek amacıyla, her yazarın en az bir kitabının test kümesine dahil edildiği özel bir eğitim/test ayrımı uygulanmıştır. Elde edilen belge vektörleri, Logistic Regression, LinearSVC, Random Forest, Gaussian Naive Bayes ve K-En Yakın Komşu gibi sınıflandırıcılar ile yazar ve tür tahmini için kullanılmıştır. Ayrıca bu tezde, klasik Kosinüs Benzerliği yaklaşımının ötesine geçen, vektör merkezli benzerlik ölçümüne dayalı bir yöntem benimsenmiştir. Her yazar ve kategori için eğitim verisinden bir 'merkez vektör' çıkarılmış, test kitapları bu merkezlere olan açısal yakınlıklarına göre sınıflandırılmıştır. Bu yaklaşım, modelin kavramsal benzerliklere daha duyarlı çalışmasını sağlamış ve yüksek doğruluk oranlarıyla başarısını ortaya koymuştur. Tezin ikinci aşamasında geliştirilen öneri sistemi, kullanıcı davranışına dayalı filtreleme yöntemlerinden farklı olarak metinsel içerik benzerliklerine odaklanmakta; böylece okuyucuya beğendiği yazarlarla benzer anlatım tarzı taşıyan yeni yazarlar önermektedir. Bu yöntem özellikle az tanınan yazarların görünürlüğünü artırma potansiyeli taşımaktadır. Bu çalışma, belge gömme tabanlı yöntemlerin dijital beşeri bilimler, yazar tahmini ve öneri sistemleri gibi alanlarda etkili bir biçimde kullanılabileceğini göstermektedir. Authorship attribution, genre classification, and recommendation systems based on literary content have become increasingly important in natural language processing (NLP). This thesis presents a system capable of both classification and content-based recommendation by representing book texts in a vector space. Comprehensive datasets of Turkish and English novels were compiled. All texts were lowercased and preprocessed to remove punctuation and special characters, then transformed into fixed-length vectors using the Doc2Vec algorithm. To ensure generalization, a custom train/test split was applied, guaranteeing each author was represented in the test set. These document vectors were used for authorship and genre classification with classifiers such as Logistic Regression, LinearSVC, Random Forest, Gaussian Naive Bayes, and K-Nearest Neighbors. This study also adopts a centroid-based similarity approach that extends traditional cosine similarity principles. For each author and genre, a representative vector was computed from the training data, and test books were classified based on their angular proximity to these centroids. This approach improved conceptual sensitivity and yielded high accuracy. In the second phase, a content-based recommendation system was developed that, unlike collaborative filtering, relies solely on textual similarity. It recommends books with similar narrative styles to those already enjoyed by the reader, helping raise the visibility of lesser-known authors. This research shows that document embedding-based methods can be effectively applied in digital humanities, authorship attribution, and recommendation systems. |
URI: | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=5NNqZKwwGohPh6_KCcfp-pFe5ucIwTSR753pEVPZDVuy2cpHhq4q_Kch3ucbXtTY https://hdl.handle.net/20.500.14365/6395 |
| Appears in Collections: | Lisansüstü Eğitim Enstitüsü Tez Koleksiyonu |
Show full item record
CORE Recommender
Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.