Multiword Expression Detection Using Word Vector Representations

dc.contributor.advisor Metin, Senem Kumova
dc.contributor.author Taşçıoğlu, Tansu
dc.date.accessioned 2023-06-16T12:27:43Z
dc.date.available 2023-06-16T12:27:43Z
dc.date.issued 2019
dc.description.abstract Çok sözcüklü ifadeler iki ve ya daha fazla sözcüğün geleneksel olarak dilde bir araya geldiği ifadelerdir. Çok sözcüklü ifadelerin çoğunda, kelimeler yeni bir anlam oluşturmak için bir araya gelirken kendi anlamlarını kaybederler. Son yapılan doğal dil işleme çalışmalarında, kelimelerin/kelime kombinasyonlarının anlamı sözcük temsilleri ile ifade edilir. Bu yaklaşımda,komşu sözcüklerin verilen hedef kelime ile ilgili bilgiyi taşıdığı kabul edilir. Bu tez çalışmasının amacı, Türkçe'de çok sözcüklü ifadelerin tespitinde sözcük temsillerinin kullanımını araştırmaktır. Kelimeler çok sözcüklü ifadeler oluşturmak için bir araya geldiğinde vektör temsillerinde anlam değişikliği ya da kaybı olduğu kabul edilir. Bu tezde, çok sözcüklü ifade adaylarının ve adayları oluşturan sözcüklerin sözcük temsil vektörleri (gövde ve yüzeysel form) beş farklı temsil yöntemi ile oluşturulmuştur. Çok sözcüklü ifade adaylarının vektör temsili on farklı sını?andırıcıya girdi olarak verilmiştir. Sını?andırma performansı 5-katlı çapraz doğrulama yöntemiyle F1-skoru kullanılarak ölçülmüştür. Deneylerde gövdelemenin çok sözcüklü ifade çıkarımında performansı geliştirmediği görülmüştür. Bununla beraber, çok sözcüklü ifade tespiti deneylerinde diğer yöntemlerden sürekli olarak üstün olan bir sını?andırma yöntemi olmadığı gözlenmiştir. en_US
dc.description.abstract Multiword expressions (MWE) are statements in which two or more words are combined traditionally in language. In most of multiword expressions, words combine losing/changing their own meanings in order to create a new one. In recent natural language processing studies, the meanings/senses of the words/word combinations are expressed by word vector representations (word embeddings). In vector representation, it is assumed that the neighbouring words hold the information regarding to the given target word in language. The aim of this thesis is to explore the use of word representations in multiword expression detection in Turkish. We assumed that as the words combine to build up an MWE, they modify or lose their meanings resulting with a change in the vector representation. In this thesis, word vectors of MWE candidates (both stemmed and surface forms)and composing words are built up by ?ve di?erent representation methods. The vector representation of MWE candidates are given as inputs to ten di?erent types of classi?ers. The classi?cation performance is measured by F1 score with 5-fold cross validation. The experimental results showed that stemming does not improve the performance of MWE extraction when vector representations are used. In addition, it is observed that there exists no classi?cation method that outperforms the others continuously in MWE detection experiments. en_US
dc.identifier.uri https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=npGs9H39x7G6401x51yqpNZ1WhDUqSQZCkUmNO8WlqoE0Li_FRNgrxbNvfu9vBII
dc.identifier.uri https://hdl.handle.net/20.500.14365/112
dc.language.iso en en_US
dc.publisher İzmir Ekonomi Üniversitesi en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol en_US
dc.subject Computer Engineering and Computer Science and Control en_US
dc.subject Doğal dil işleme en_US
dc.subject Natural language processing en_US
dc.title Multiword Expression Detection Using Word Vector Representations en_US
dc.title.alternative Sözcük Temsilleri Kullanarak Çok Sözcüklü İfade Tespiti en_US
dc.type Master Thesis en_US
dspace.entity.type Publication
gdc.author.institutional Taşçıoğlu, Tansu
gdc.coar.access open access
gdc.coar.type text::thesis::master thesis
gdc.description.department İEÜ, Lisansüstü Eğitim Enstitüsü, Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı en_US
gdc.description.endpage 55 en_US
gdc.description.publicationcategory Tez en_US
gdc.description.scopusquality N/A
gdc.description.startpage 1 en_US
gdc.description.wosquality N/A
gdc.identifier.yoktezid 592158 en_US
gdc.virtual.author Kumova Metin, Senem
relation.isAuthorOfPublication 81d6fcea-c590-42aa-8443-7459c9eab7fa
relation.isAuthorOfPublication.latestForDiscovery 81d6fcea-c590-42aa-8443-7459c9eab7fa
relation.isOrgUnitOfPublication 805c60d5-b806-4645-8214-dd40524c388f
relation.isOrgUnitOfPublication 26a7372c-1a5e-42d9-90b6-a3f7d14cad44
relation.isOrgUnitOfPublication e9e77e3e-bc94-40a7-9b24-b807b2cd0319
relation.isOrgUnitOfPublication.latestForDiscovery 805c60d5-b806-4645-8214-dd40524c388f

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
592158.pdf
Size:
6.99 MB
Format:
Adobe Portable Document Format