Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.14365/57
Title: Application of vector space models to detect semantically non-compositional word combinations in Turkish
Other Titles: Türkçede anlamsal birleşimi olmayan kelime gruplarının tespitinde vektör uzay modellerinin uygulanması
Authors: Eren, Levent Tolga
Advisors: Metin, Senem Kumova
Keywords: anlamsal birle¸simlilik
vekt¨or uzay modeli
do^gal dil i¸sleme.
semantic compositionality
vector space model
natural language processing.
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
Computer Engineering and Computer Science and Control
Publisher: İzmir Ekonomi Üniversitesi
Abstract: Anlamsal birleşimlilik, kelime kombinasyonları ve bunların parçalarının anlamları arasındaki ilişkiyi tanımlamaktadır. Anlamsal birleşimli olmayan ifadelerde kelimeler bir araya gelerek farklı anlamlar meydana getirmektedir. Anlamsal birleşimli olmayan ifadelerin tanımlanması makine çevirisi, kelime anlamını belirginleştirme ve dil üretme gibi birçok dil işleme görevlerini destekleyebilmektedir. Bu tez çalışmasının amacı, Türkçe'de anlamsal birleşimli olmayan ifadelerin tespitinde uzay vektör modellerinin performanslarını araştırmaktır. Bu tezde altı farklı Türkçe derlemden elde edilen 2229 adet ikili kelime kombinasyonu içeren bir veri kümesi kullanılmıştır. Yapılan deneylerde beş farklı vektör uzay modeli içeren üç küme kullanılmıştır. Bu modeller duyarlılık, anma, ve F-ölçümü ölçütleriyle değerlendirilmiştir. Deneylerde tüm test derlemleri için kelime kombinasyonu ve kombinasyonu oluşturan ikinci kelimeye ait vektörler arası benzerliği ölçen modelin daha yüksek F değerleri ürettiği görülmüştür.
The semantic compositionality defines the relation between the meanings of word combinations and their components. In non-compositional expressions, the words combine to generate a different meaning. The identification of non-compositional expressions may support several natural language processing tasks such as machine translation, word sense disambiguation and language generation. The objective of the thesis is exploring the performance of vector space models in detection of non-compositional expressions in Turkish. In this thesis, a data set of 2229 two-word combinations that is built from six different Turkish corpora is utilized. Three sets of five different vector space models are employed in the experiments. The evaluation of models is performed using three metrics: precision, recall and F-measure. The experimental results show that the model that measures the similarity between the vectors of word combination and the second composing word produced higher average F-scores for all testing corpora.
URI: https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=OykDDeWBWTL9-Wm52sZBrN1LMzGnDtR5tJFxpH3d6YD_Y7DSyhTmJrphyvG8jER7
https://hdl.handle.net/20.500.14365/57
Appears in Collections:Lisansüstü Eğitim Enstitüsü Tez Koleksiyonu

Files in This Item:
File SizeFormat 
57.pdf943.51 kBAdobe PDFView/Open
Show full item record



CORE Recommender

Page view(s)

214
checked on Nov 18, 2024

Download(s)

18
checked on Nov 18, 2024

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.