Application of Vector Space Models To Detect Semantically Non-Compositional Word Combinations in Turkish
Loading...
Files
Date
2016
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
İzmir Ekonomi Üniversitesi
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Anlamsal birleşimlilik, kelime kombinasyonları ve bunların parçalarının anlamları arasındaki ilişkiyi tanımlamaktadır. Anlamsal birleşimli olmayan ifadelerde kelimeler bir araya gelerek farklı anlamlar meydana getirmektedir. Anlamsal birleşimli olmayan ifadelerin tanımlanması makine çevirisi, kelime anlamını belirginleştirme ve dil üretme gibi birçok dil işleme görevlerini destekleyebilmektedir. Bu tez çalışmasının amacı, Türkçe'de anlamsal birleşimli olmayan ifadelerin tespitinde uzay vektör modellerinin performanslarını araştırmaktır. Bu tezde altı farklı Türkçe derlemden elde edilen 2229 adet ikili kelime kombinasyonu içeren bir veri kümesi kullanılmıştır. Yapılan deneylerde beş farklı vektör uzay modeli içeren üç küme kullanılmıştır. Bu modeller duyarlılık, anma, ve F-ölçümü ölçütleriyle değerlendirilmiştir. Deneylerde tüm test derlemleri için kelime kombinasyonu ve kombinasyonu oluşturan ikinci kelimeye ait vektörler arası benzerliği ölçen modelin daha yüksek F değerleri ürettiği görülmüştür.
The semantic compositionality defines the relation between the meanings of word combinations and their components. In non-compositional expressions, the words combine to generate a different meaning. The identification of non-compositional expressions may support several natural language processing tasks such as machine translation, word sense disambiguation and language generation. The objective of the thesis is exploring the performance of vector space models in detection of non-compositional expressions in Turkish. In this thesis, a data set of 2229 two-word combinations that is built from six different Turkish corpora is utilized. Three sets of five different vector space models are employed in the experiments. The evaluation of models is performed using three metrics: precision, recall and F-measure. The experimental results show that the model that measures the similarity between the vectors of word combination and the second composing word produced higher average F-scores for all testing corpora.
The semantic compositionality defines the relation between the meanings of word combinations and their components. In non-compositional expressions, the words combine to generate a different meaning. The identification of non-compositional expressions may support several natural language processing tasks such as machine translation, word sense disambiguation and language generation. The objective of the thesis is exploring the performance of vector space models in detection of non-compositional expressions in Turkish. In this thesis, a data set of 2229 two-word combinations that is built from six different Turkish corpora is utilized. Three sets of five different vector space models are employed in the experiments. The evaluation of models is performed using three metrics: precision, recall and F-measure. The experimental results show that the model that measures the similarity between the vectors of word combination and the second composing word produced higher average F-scores for all testing corpora.
Description
Keywords
anlamsal birle¸simlilik, vekt¨or uzay modeli, do^gal dil i¸sleme., semantic compositionality, vector space model, natural language processing., Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
N/A
Scopus Q
N/A
Source
Volume
Issue
Start Page
1
End Page
67
