Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.14365/34
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorMetin, Senem Kumova-
dc.contributor.authorUymaz, Hande Aka-
dc.date.accessioned2023-06-16T12:27:30Z-
dc.date.available2023-06-16T12:27:30Z-
dc.date.issued2016-
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=cbOXH84ZayrLjc0tI-QXKqX_pVqTMAxcFGcOTPodUi9B1bFq-QhBSpUTVju6wdJk-
dc.identifier.urihttps://hdl.handle.net/20.500.14365/34-
dc.description.abstractÇok sözcüklü ifade, doğal dillerde, sözcüklerin anlam bütünlüğü oluşturmak üzere tekrarlayan kombinasyonlarıdır. Metinlerden çok sözcüklü ifadelerin belirlenmesi bir çok doğal dil işleme uygulamaları ( Doğal dil üretme, hesaplamalı sözlükbilim, makine çevirileri vb.) için çok önemli bir konudur. çok sözcüklü ifadelerin belirlenmesi için gözlenme sıklığı bağımlı yöntemler ( Bileşik olasılık (joint probability), noktasal karşılıklı bilgi katsayısı (pointwise mutual information), karşılıklı bağlılık (mutual dependency) v.b) sıklıkla kullanılır. Bu yöntemlerin en büyük dezavantajı, çok sözcüklü ifadelerin belirlenmesinin performansının frekansın ölçüldüğü veri kaynağının büyüklüğüne bağlı olmasıdır. Bu tezin amacı, küçük veri setlerinin yarattığı problemlerin önüne geçmek için bilinen en büyük veri kaynağı olan web'i kullanarak gözlenme sıklığını elde etmektir. Bu tezde, 2 farklı aday veri seti kullanılarak, Türkçe dili için frekans tabanlı çok sözcüklü ifade belirleme metotlarının performansı araştırılmıştır. Veri setlerindeki adayların gözlenme sıklığı bilgisi popüler bir arama motoru olan Google kullanılarak elde edilmiştir. Aday çok sözcüklü ifadelerin arama motoruna sorgu olarak gönderildiğinde alınan sayfa sayısı (ing. page count) adayın gözlenme sıklığı olarak kabul edilmiştir. Kullanılan 20 yöntemin başarısı anma(recall), duyarlılık(precision) ve F-ölçütü (F-measure) ile değerlendirilmiştir. Web tabanlı frekans bilgisinin çok sözcüklü ifadelerin belirlenmesindeki performansı geleneksel derlem tabanlı frekans ile karşılaştırılmıştır ve çok sözcüklü ifadelerin belirlenmesinde web verilerinin kullanılması umut verici sonuçlar göstermiştir.en_US
dc.description.abstractMultiword expressions (MWEs) are recurrent combinations of words in natural languages. The extraction of MWEs in a text is significant for a number of natural language processing applications (e.g. natural language generation, computational lexicography, machine translation etc.). There are various occurrence frequency based methods (e.g. joint probability, pointwise mutual information and mutual dependency) that are used frequently for MWE extraction ([12],[13]). The major disadvantage of these methods is that extraction performance depends mainly on the size of the data set in which the occurrence frequency is measured. The main goal of this thesis is obtaining the frequency from a massive data source, the World Wide Web, in order to by-pass the negative e ect of small data set. In this thesis, we applied frequency based MWE extraction methods on two Turkish MWE data sets. The occurrence frequencies of MWE candidates in data sets are obtained from popular search engine Google. The retrieved page counts when the candidates are sent as queries to Google are employed as the occurrence frequencies. The evaluation of the 20 frequency based methods is performed by precision, recall and F-measures. The performance of web-based frequencies in identification of MWEs is compared to the traditional corpus based frequencies and it is showed that the use of web data in identification of MWEs reveals promising results.en_US
dc.language.isoenen_US
dc.publisherİzmir Ekonomi Üniversitesien_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectçok sözcüklü ifadeen_US
dc.subjectsıklık tabanlı yöntemleren_US
dc.subjectweb verisi.en_US
dc.subjectMultiword expressionen_US
dc.subjectfrequency based methodsen_US
dc.subjectweb data.en_US
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolen_US
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.subjectBilgisayarlı dil bilimen_US
dc.subjectComputerized linguisticsen_US
dc.subjectDerlem dil bilimen_US
dc.subjectCorpus linguisticsen_US
dc.subjectDoğal dilen_US
dc.subjectNatural languageen_US
dc.subjectMetin dil bilimen_US
dc.subjectText linguisticsen_US
dc.titleIdentification of multiword expressions in Turkish based on web dataen_US
dc.title.alternativeWeb verisi kullanılarak Türkçe çok sözcüklü ifadelerin belirlenmesien_US
dc.typeMaster Thesisen_US
dc.departmentİEÜ, Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.identifier.startpage1en_US
dc.identifier.endpage55en_US
dc.institutionauthorUymaz, Hande Aka-
dc.relation.publicationcategoryTezen_US
dc.identifier.yoktezid434360en_US
item.grantfulltextopen-
item.openairetypeMaster Thesis-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.fulltextWith Fulltext-
item.languageiso639-1en-
item.cerifentitytypePublications-
crisitem.author.dept05.04. Software Engineering-
Appears in Collections:Lisansüstü Eğitim Enstitüsü Tez Koleksiyonu
Files in This Item:
File SizeFormat 
2506.pdf3.56 MBAdobe PDFView/Open
Show simple item record



CORE Recommender

Page view(s)

102
checked on Nov 18, 2024

Download(s)

26
checked on Nov 18, 2024

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.