G4ML: DNA G-Quadripleks Tanımlanması için G4-ChIP Dizileme Verileri Kullanılarak Antikora ve Hücre Tipine Özgü Bir Makine Öğrenmesi Yaklaşımı

dc.contributor.advisor Doluca, Osman
dc.contributor.author Ulaş, Polen Nehir
dc.date.accessioned 2026-02-25T15:12:40Z
dc.date.available 2026-02-25T15:12:40Z
dc.date.issued 2026
dc.description.abstract G-quadruplexler (G4s), DNA and RNA'da ortaya çıkabilen sıra dışı ikincil yapılardır. Genomda önemli düzenleyici görevleri olmasına rağmen G4'lerin dinamik and ortama bağlı yapısı, oluşumlarının doğru tahmin edilmesini zorlaştırmaktadır. Bu nedenle, G4 tahmininin doğruluğunu artırmak and iyileştirmek amacıyla, deneysel and hesaplamalı yöntemler geliştirilmeye devam edilmektedir. Bu çalışmada, DNA dizilerindeki G-quadruplex oluşumunu tahmin etmek üzere, biyoloji temelli mimariye sahip bir evrişimsel sinir ağı (CNN) geliştirilmiştir. Model, önceden işlenen büyük ölçekli in vivo (canlı hücre ortamında) BG4-ChIP-seq verileri ve, elde edilen sekansların ikincil yapı olasılıkları birlikte kullanılarak eğitilmiştir. Model mimarisine, G/C dizilim örüntülerini and zincir yönünden bağımsız BG4 bağlanma davranışını yakalamak amacıyla, G4 biyolojisinden ilham alınarak geliştirilen iki yeni evrişim bloğu uygulandı, G4Stack Evrişim and Ters Tamamlayıcı Evrişim. İki yeni evrişim bloğunun da dahil edilmesiyle elde edilen mimari, temel modele kıyasla kayda değer bir gelişme göstererek 0.970 AUC-ROC (ROC eğrisi altında kalan alan) değerine ulaşıp modelin tahmin performansını önemli ölçüde iyileştirmiştir. G4Stack Evrişim bloğunun tek başına kullanıldığında model performansını iyileştirmesi göz ardı edilemezken, G4Stack Evrişim and Ters Tamamlayıcı Evrişim bloklarının sinerjistik etkisinin en yüksek doğruluk değeri ile sonuçlanması özellikle dikkate değerdir. Türler arası değerlendirme sonuçları, insan verisinde güçlü bir performans gösterirken, fare verisinde makul düzeyde bir aktarılabilirlik sağlamakta and pirinç verisinde sınırlı bir performansa işaret etmektedir. Bu bulgular, derin öğrenme mimarilerinin G4-spesifik biyolojik kısıtlamalarla bütünleştirilmesinin in silico (bilgisayar ortamında) G4 tahminlerini iyileştirebileceğini göstermektedir. Bu çalışmada sunulan yapı, genom çapında G-quadruplex analizi için güçlü bir hesaplamalı araç sağlamak ile birlikte, gen düzenlemesi and G4 hedefli terapötik çalışmaların gelecekteki araştırmalarını destekleyebilir.
dc.description.abstract G-quadruplexes are non-canonical secondary structures that can occur in DNA and RNA. Despite having important regulatory roles in genome, dynamic and context-dependent nature of G4s gives rise to challenges in accurate prediction of their formation. Thus, experimental and computational approaches are still developing to improve accurate G4 prediction. In this study, a biologically guided convolutional neural network was developed to predict G-quadruplex formation in DNA sequences. The model was trained using the preprocessed large-scale in vivo BG4-ChIP-seq data together with secondary structure prediction. Two novel biologically inspired convolutional blocks, G4Stack Convolution and Reverse Complement Convolution, were introduced to capture G/C stacking patterns and strand-invariant BG4 binding behavior, respectively. The combined architecture which incorporates both novel blocks significantly improved predictive performance, achieving an AUC-ROC of 0.970, with a remarkable increase over the baseline model. The synergistic effect of the G4StackConv and RCConv resulting in the highest accuracy is highly noteworthy, while the G4StackConv Block alone improving the performance is not negligible. Cross-species evaluation showed strong performance in human data, and moderate transferability to mice, with limited performance in rice. These findings demonstrate that integrating G4-specific biological constraints into deep learning architectures can enhance in silico G4 prediction. The proposed framework provides a robust computational tool for genome-wide G-quadruplex analysis and may support future studies in gene regulation and G4-targeted therapeutics. en_US
dc.identifier.uri https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=CtwiQkYvArAb95Ufpfs_vgfgtpDxV6rkx9h3kEoj-Tsrx9HsqhVtRGJxIyvF2XcO
dc.identifier.uri https://hdl.handle.net/20.500.14365/8746
dc.language.iso en
dc.subject Biyoteknoloji
dc.subject Biotechnology en_US
dc.title G4ML: DNA G-Quadripleks Tanımlanması için G4-ChIP Dizileme Verileri Kullanılarak Antikora ve Hücre Tipine Özgü Bir Makine Öğrenmesi Yaklaşımı
dc.title G4ML: Antibody and Cell-Type Specific Machine Learning Approach for DNA G-Quadruplex Identification Based on G4-ChIP-Seq Data en_US
dc.type Master Thesis en_US
dspace.entity.type Publication
gdc.description.department Lisansüstü Eğitim Enstitüsü / Biyomühendislik Ana Bilim Dalı
gdc.description.endpage 84
gdc.identifier.yoktezid 989146
gdc.virtual.author Doluca, Osman
relation.isAuthorOfPublication e0e93d44-9e5e-460d-ada3-7670007ff025
relation.isAuthorOfPublication.latestForDiscovery e0e93d44-9e5e-460d-ada3-7670007ff025
relation.isOrgUnitOfPublication 26a7372c-1a5e-42d9-90b6-a3f7d14cad44
relation.isOrgUnitOfPublication e9e77e3e-bc94-40a7-9b24-b807b2cd0319
relation.isOrgUnitOfPublication.latestForDiscovery 26a7372c-1a5e-42d9-90b6-a3f7d14cad44

Files