TR Dizin İndeksli Yayınlar Koleksiyonu / TR Dizin Indexed Publications Collection

Permanent URI for this collectionhttps://hdl.handle.net/20.500.14365/4

Browse

Search Results

Now showing 1 - 6 of 6
  • Article
    Derin Öğrenme ile Türkçede Adıl Çözümleme
    (2024-12-24) Taze, Mehmet; Metin, Senem Kumova
    Dilde, bir sözcüğün/sözcük öbeğinin sürekli tekrar eden kullanımını önlemek için, ilgili öncül sözcüğe/sözcük öbeğine atıfta bulunan adılların kullanımına sık rastlanır. Bir adılın atıfta bulunduğu öncül ile eşleştirilmesi adıl çözümleme olarak adlandırılır. Bu çalışmada Türkçe metinlerde adılların çözümlenmesinde derin öğrenme yöntemlerinin başarımı değerlendirilmiştir. Çalışma kapsamında 10 Türkçe çocuk hikayesi kullanılarak bir veri kümesi derlenmiş, deneylerde kullanılmak üzere 12 öznitelik belirlenmiştir. Çok katmanlı algılayıcı, evrişimsel (konvolüsyonel) ve tekrarlayan sinir ağları nöron ve katman sayılarının değiştiği bir dizi farklı konfigürasyonla uygulanarak F1 ölçüsü ile başarım ölçülmüştür. Sonuçlar, Türkçe adıl çözümlemesinde en yüksek başarımın, çok fazla nöron kullanan orta sayıda katmana sahip çok katmanlı algılayıcı sinir ağı tarafından elde edildiğini göstermiştir.
  • Article
    Türkçe'de Kullanılan İşlev Kelimelerin Zipf 1. Kanunu Esasında Değerlendirilmesi
    (2008) Metin, Senem Kumova
    Bu çalışmada doğal dil içinde gramer yapısının oluşturulması amacıyla kullanılan, içinde bulunduğu metnin taşıdığı enformasyon miktarını değiştirmeyen kelimeler (işlev kelimeler) araştırılmıştır. Araştırmanın temelini Zipf’in 1. Kanunu’nun Türkçe metinler üzerinde sınanması ve yüksek frekanslı kelimelerin işlev kelime olacağı beklentisi oluşturmaktadır. Çalışmada önerilen yöntem ile ilgili testler Türkçe metinler içeren farklı derlemler üzerinde yapılmış, sonuçlar değerlendirilmiştir.
  • Article
    Türkiye Türkçesinde Eşdizimlerin İstatistiksel Yöntemlerle Belirlenmesi
    (2016) Karaoğlan, Bahar; Metin, Senem Kumova
    Eşdizim, sözcüklerin bir anlam bütünlüğü oluşturmak üzere şans eseri olmayacak sıklıkla bir araya geldiği sözcük birliğidir. Eşdizimlerin belirlenmesi, Türkçe metinlerin otomatik olarak işlenmesi ve çevirilerinin yapılması, Türkçe dilinin eğitimi gibi çeşitli alanlardaki faydaları sebebiyle Türkçe doğal dil işleme çalışmalarında önemli bir konudur. Bu çalışmada, Türkçe bir derlemde (corpus) eşdizimlerin otomatik olarak belirlenmesi için çeşitli istatistiksel teknikler, gözlenme sıklığı (occurrence frequency), noktasal karşılıklı bilgi katsayısı (pointwise mutual information) ve hipotez testleri uygulanmıştır. Eşdizimlerin belirlenmesinde gövdelemenin etkisinin araştırılması amacıyla sözcüklerin yanısıra bu sözcüklere ait sözcük gövdeleri üzerinde de çalışılmış, yöntemlerin başarımı F-ölçütü (F-measure) ile değerlendirilmiştir. Ki-kare hipotez testi ve noktasal karşılıklı bilgi katsayısı Türkiye Türkçesinde eşdizimlerin belirlenmesi konusunda diğer yöntemlere göre daha başarılı olmuştur. Ayrıca, gövdelenmiş sözcüklerden oluşan veri kümelerinde başarılı ve başarısız olarak kabul edebileceğimiz yöntemler arasındaki farkın daha net ortaya çıktığı görülmüştür
  • Article
    Stop Word Detection as a Binary Classification Problem
    (2017) Karaoğlan, Bahar; Metin, Senem Kumova
    In a wide group of languages, the stop words, which have only grammatical roles and not contributing to information content, may be simply exposed by their relatively higher occurrence frequencies. But, in agglutinative or inflectional languages, a stop word may be observed in several different surface forms due to the inflection producing noise. In this study, some of the well-known binary classification methods are employed to overcome the inflectional noise problem in stop word detection. The experiments are conducted on corpora of an agglutinative language, Turkish, in which the amount of inflection is high and a non-agglutinative language, English, in which the inflection is lower for stop words. The evaluations demonstrated that in Turkish corpus, the classification methods improve stop word detection with respect to frequency-based method. On the other hand, the classification methods applied on English corpora showed no improvement in the performance of stop word detection.
  • Article
    Certainty Factor Model in Paraphrase Detection
    (Pamukkale Univ, 2021) Metin, Senem Kumova; Karaoglan, Bahar; Kisla, Tarik; Soleymanzadeh, Katira
    In this paper, we address the problem of uncertainty management in identification of paraphrase sentence pairs. Paraphrase sentences are simply sets/pairs of sentences that express the same facts and/or opinions using different words or order of words. We propose the use of certainty factor (CF) model in paraphrase detection. A set of succeeding paraphrase detection features (generic and distance based features) is built by filtering and this set is used as evidences in CF model. The CF model is evaluated by F1 and accuracy measures on Microsoft Research Paraphrase corpus. The results are compared to the well-known Bayesian reasoning. The experimental results showed that CF model is an alternating paraphrase detection method to Bayes model.
  • Article
    Enlarging Multiword Expression Dataset by Co-Training
    (Scientific Technical Research Council Turkey-Tubitak, 2018-09-28) Kumova Metin, Senem; Metin, Senem Kumova
    In multiword expressions (MWEs), multiple words unite to build a new unit in language. When MWE identification is accepted as a binary classification task, one of the most important factors in performance is to train the classifier with enough number of labelled samples. Since manual labelling is a time-consuming task, the performances of MWE recognition studies are limited with the size of the training sets. In this study, we propose the comparison-based and common-decision co-training approaches in order to enlarge the MWE dataset. In the experiments, the performances of the proposed approaches were compared to those of the standard co-training [1] and manual labelling where statistical and linguistic features are employed as two different views of the MWE dataset [2]. A number of tests with different settings were performed on a Turkish MWE dataset. Ten different classifiers were utilized in the experiments and the best performing classifier pair was observed to be the SMO-SMO pair. The experimental results showed that the common-decision co-training approach is an alternative to hand-labeling of large MWE datasets and both newly proposed approaches outperform the standard co-training [2] when the training set is to be enlarged in MWE classification.