Please use this identifier to cite or link to this item:
https://hdl.handle.net/20.500.14365/6392| Title: | Yükseköğretimde Türkçe Doğal Dil İşleme için Büyük Dil Modellerinin Performans Karşılaştırması Performance Comparison of Large Language Models for Turkish Natural Language Processing in Higher Education |
Authors: | Çetin, Egecan | Advisors: | Topallı, Ayça | Keywords: | Elektrik Ve Elektronik Mühendisliği Doğal Dil Işleme Electrical And Electronics Engineering Natural Language Processing |
Abstract: | Bu tezde, yükseköğrenim öğrencileri için Türkçe destekli bir konuşma botu ortamında, bir geri çağırma artırılmış üretim sisteminde büyük dil modeli, vektör veri tabanı, gömme modeli ve benzerlik yönteminin kapsamlı bir performans karşılaştırması sunulmuştur. Bu alanda birçok dil için çalışmalar olmasına rağmen, Türkçe dilinde ve özellikle eğitim alanında yapılan çalışma sayısı azdır. Bu nedenle, bu tür sistemlerin bileşenleri Türkçe dil kuralları altında kullanıldığında bunlar için en iyi alternatifleri belirleme ihtiyacı vardır. Bu çalışma, bilimsel deneylerle elde edilen ve pratik olarak gerçekleştirilebilir olan bu ihtiyaca cevap vermektedir. En yaygın kullanılan, iyi bilinen ve güvenilir büyük dil modelleri, bunlarla ilişkili gömme algoritmaları, vektör veri tabanları ve benzerlik ölçümleri seçilmiş ve üniversite yönetmeliklerine dayalı çeşitli soru setleri bunların farklı kombinasyonları üzerinde test edilmiştir. Elde edilen sonuçlara ve yapılan analizlere dayanarak en iyi kombinasyon elde edilmiştir. Bu şekilde, öğrencilerin akademik kurallar hakkında merak ettikleri şeylere kolayca ulaşabilmeleri için optimum Türkçe destekli geri çağırma artırılmış üretim tabanlı sanal akademik danışman botu oluşturulmuştur. Ayrıca bu otomasyonla akademisyen ve idari personelin iş yükü hafifletilmiştir. In this thesis, a comprehensive performance comparison is presented on which large language model, vector database, embedding model and similarity method in a retrieval augmented generation system, in the setting of a Turkish supported conversation bot for the students in higher education. Although there are studies in this field for many languages, the number of studies conducted in the Turkish language and especially in the field of education is low. Therefore, there is a need to identify the best alternatives for the components of such systems when they are used under Turkish language rules. This study gives answers to this need which is obtained through scientifical experimentation and is practically realizable. The most commonly used, well known and reliable large language models, embedding algorithms associated with them, vector databases and similarity measures were selected and several question sets based on university regulations were tested on different combinations of them. Based on the achieved results and analysis made, the best combination was obtained. In this way, the optimal Turkish supported retrieval augmented generation based virtual academic advisor bot was created so that students can easily access what they are inquiring about academic rules. Furthermore, the workload of academics and administrative staff was lightened with this automation. |
URI: | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=5NNqZKwwGohPh6_KCcfp-l6GohwUCO6hSEJCL4xNiURrjukseL6UyL0ogK5Je_F9 https://hdl.handle.net/20.500.14365/6392 |
| Appears in Collections: | Lisansüstü Eğitim Enstitüsü Tez Koleksiyonu |
Show full item record
CORE Recommender
Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.