Please use this identifier to cite or link to this item:
https://hdl.handle.net/20.500.14365/34
Title: | Identification of multiword expressions in Turkish based on web data | Other Titles: | Web verisi kullanılarak Türkçe çok sözcüklü ifadelerin belirlenmesi | Authors: | Uymaz, Hande Aka | Advisors: | Metin, Senem Kumova | Keywords: | çok sözcüklü ifade sıklık tabanlı yöntemler web verisi. Multiword expression frequency based methods web data. Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Computer Engineering and Computer Science and Control Bilgisayarlı dil bilim Computerized linguistics Derlem dil bilim Corpus linguistics Doğal dil Natural language Metin dil bilim Text linguistics |
Publisher: | İzmir Ekonomi Üniversitesi | Abstract: | Çok sözcüklü ifade, doğal dillerde, sözcüklerin anlam bütünlüğü oluşturmak üzere tekrarlayan kombinasyonlarıdır. Metinlerden çok sözcüklü ifadelerin belirlenmesi bir çok doğal dil işleme uygulamaları ( Doğal dil üretme, hesaplamalı sözlükbilim, makine çevirileri vb.) için çok önemli bir konudur. çok sözcüklü ifadelerin belirlenmesi için gözlenme sıklığı bağımlı yöntemler ( Bileşik olasılık (joint probability), noktasal karşılıklı bilgi katsayısı (pointwise mutual information), karşılıklı bağlılık (mutual dependency) v.b) sıklıkla kullanılır. Bu yöntemlerin en büyük dezavantajı, çok sözcüklü ifadelerin belirlenmesinin performansının frekansın ölçüldüğü veri kaynağının büyüklüğüne bağlı olmasıdır. Bu tezin amacı, küçük veri setlerinin yarattığı problemlerin önüne geçmek için bilinen en büyük veri kaynağı olan web'i kullanarak gözlenme sıklığını elde etmektir. Bu tezde, 2 farklı aday veri seti kullanılarak, Türkçe dili için frekans tabanlı çok sözcüklü ifade belirleme metotlarının performansı araştırılmıştır. Veri setlerindeki adayların gözlenme sıklığı bilgisi popüler bir arama motoru olan Google kullanılarak elde edilmiştir. Aday çok sözcüklü ifadelerin arama motoruna sorgu olarak gönderildiğinde alınan sayfa sayısı (ing. page count) adayın gözlenme sıklığı olarak kabul edilmiştir. Kullanılan 20 yöntemin başarısı anma(recall), duyarlılık(precision) ve F-ölçütü (F-measure) ile değerlendirilmiştir. Web tabanlı frekans bilgisinin çok sözcüklü ifadelerin belirlenmesindeki performansı geleneksel derlem tabanlı frekans ile karşılaştırılmıştır ve çok sözcüklü ifadelerin belirlenmesinde web verilerinin kullanılması umut verici sonuçlar göstermiştir. Multiword expressions (MWEs) are recurrent combinations of words in natural languages. The extraction of MWEs in a text is significant for a number of natural language processing applications (e.g. natural language generation, computational lexicography, machine translation etc.). There are various occurrence frequency based methods (e.g. joint probability, pointwise mutual information and mutual dependency) that are used frequently for MWE extraction ([12],[13]). The major disadvantage of these methods is that extraction performance depends mainly on the size of the data set in which the occurrence frequency is measured. The main goal of this thesis is obtaining the frequency from a massive data source, the World Wide Web, in order to by-pass the negative e ect of small data set. In this thesis, we applied frequency based MWE extraction methods on two Turkish MWE data sets. The occurrence frequencies of MWE candidates in data sets are obtained from popular search engine Google. The retrieved page counts when the candidates are sent as queries to Google are employed as the occurrence frequencies. The evaluation of the 20 frequency based methods is performed by precision, recall and F-measures. The performance of web-based frequencies in identification of MWEs is compared to the traditional corpus based frequencies and it is showed that the use of web data in identification of MWEs reveals promising results. |
URI: | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=cbOXH84ZayrLjc0tI-QXKqX_pVqTMAxcFGcOTPodUi9B1bFq-QhBSpUTVju6wdJk https://hdl.handle.net/20.500.14365/34 |
Appears in Collections: | Lisansüstü Eğitim Enstitüsü Tez Koleksiyonu |
Show full item record
CORE Recommender
Page view(s)
102
checked on Nov 18, 2024
Download(s)
26
checked on Nov 18, 2024
Google ScholarTM
Check
Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.