G4ML: DNA G-Quadripleks Tanımlanması için G4-ChIP Dizileme Verileri Kullanılarak Antikora ve Hücre Tipine Özgü Bir Makine Öğrenmesi Yaklaşımı

Loading...
Publication Logo

Date

2026

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Journal Issue

Abstract

G-quadruplexler (G4s), DNA and RNA'da ortaya çıkabilen sıra dışı ikincil yapılardır. Genomda önemli düzenleyici görevleri olmasına rağmen G4'lerin dinamik and ortama bağlı yapısı, oluşumlarının doğru tahmin edilmesini zorlaştırmaktadır. Bu nedenle, G4 tahmininin doğruluğunu artırmak and iyileştirmek amacıyla, deneysel and hesaplamalı yöntemler geliştirilmeye devam edilmektedir. Bu çalışmada, DNA dizilerindeki G-quadruplex oluşumunu tahmin etmek üzere, biyoloji temelli mimariye sahip bir evrişimsel sinir ağı (CNN) geliştirilmiştir. Model, önceden işlenen büyük ölçekli in vivo (canlı hücre ortamında) BG4-ChIP-seq verileri ve, elde edilen sekansların ikincil yapı olasılıkları birlikte kullanılarak eğitilmiştir. Model mimarisine, G/C dizilim örüntülerini and zincir yönünden bağımsız BG4 bağlanma davranışını yakalamak amacıyla, G4 biyolojisinden ilham alınarak geliştirilen iki yeni evrişim bloğu uygulandı, G4Stack Evrişim and Ters Tamamlayıcı Evrişim. İki yeni evrişim bloğunun da dahil edilmesiyle elde edilen mimari, temel modele kıyasla kayda değer bir gelişme göstererek 0.970 AUC-ROC (ROC eğrisi altında kalan alan) değerine ulaşıp modelin tahmin performansını önemli ölçüde iyileştirmiştir. G4Stack Evrişim bloğunun tek başına kullanıldığında model performansını iyileştirmesi göz ardı edilemezken, G4Stack Evrişim and Ters Tamamlayıcı Evrişim bloklarının sinerjistik etkisinin en yüksek doğruluk değeri ile sonuçlanması özellikle dikkate değerdir. Türler arası değerlendirme sonuçları, insan verisinde güçlü bir performans gösterirken, fare verisinde makul düzeyde bir aktarılabilirlik sağlamakta and pirinç verisinde sınırlı bir performansa işaret etmektedir. Bu bulgular, derin öğrenme mimarilerinin G4-spesifik biyolojik kısıtlamalarla bütünleştirilmesinin in silico (bilgisayar ortamında) G4 tahminlerini iyileştirebileceğini göstermektedir. Bu çalışmada sunulan yapı, genom çapında G-quadruplex analizi için güçlü bir hesaplamalı araç sağlamak ile birlikte, gen düzenlemesi and G4 hedefli terapötik çalışmaların gelecekteki araştırmalarını destekleyebilir.
G-quadruplexes are non-canonical secondary structures that can occur in DNA and RNA. Despite having important regulatory roles in genome, dynamic and context-dependent nature of G4s gives rise to challenges in accurate prediction of their formation. Thus, experimental and computational approaches are still developing to improve accurate G4 prediction. In this study, a biologically guided convolutional neural network was developed to predict G-quadruplex formation in DNA sequences. The model was trained using the preprocessed large-scale in vivo BG4-ChIP-seq data together with secondary structure prediction. Two novel biologically inspired convolutional blocks, G4Stack Convolution and Reverse Complement Convolution, were introduced to capture G/C stacking patterns and strand-invariant BG4 binding behavior, respectively. The combined architecture which incorporates both novel blocks significantly improved predictive performance, achieving an AUC-ROC of 0.970, with a remarkable increase over the baseline model. The synergistic effect of the G4StackConv and RCConv resulting in the highest accuracy is highly noteworthy, while the G4StackConv Block alone improving the performance is not negligible. Cross-species evaluation showed strong performance in human data, and moderate transferability to mice, with limited performance in rice. These findings demonstrate that integrating G4-specific biological constraints into deep learning architectures can enhance in silico G4 prediction. The proposed framework provides a robust computational tool for genome-wide G-quadruplex analysis and may support future studies in gene regulation and G4-targeted therapeutics.

Description

Keywords

Biyoteknoloji, Biotechnology

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

84
Google Scholar Logo
Google Scholar™

Sustainable Development Goals

SDG data could not be loaded because of an error. Please refresh the page or try again later.