Feature Selection for Language Independent Speech Emotion Recognition
Loading...
Date
2022
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
İzmir Ekonomi Üniversitesi
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Dil, kendimizi ifade etmemizi sağlayan birincil ve en önemli faktördür. Bu iletişim şeklini bilgisayar alanına da uyarlamak arzu edilen bir durumdur. Hızla gelişen bilişim sektöründe bilgisayarlar, makineler hayatımızın içinde oldukça fazla yer almaya başlamıştır. Örneğin, Cortana ve Siri gibi kişisel asistanlar çokça kullanılmakta, bunların kullanımı gitgide yaygınlaşmakta ve biz de bu kolaylıklara alışmaktayız. Bu kişisel asistanların bizim komutlarımızı anlamasını ve onlara göre tepki vermesini isteriz. Sesten duygu analizi, makinelerin insan duygularını anlamasını sağlayan oldukça popüler ve gelişmekte olan bir çalışma alanıdır. Bu sistem, ses sinyallerini çeşitli işlemlere tabi tutarak sesin içerdiği duyguları sınıflandırır. Literatürde sesten duygu analizi çalışmaları genellikle tek dili eğitip tek dilin içerdiği duyguları sınıflandırma üzerine odaklanmakta. Dünya üzerinde konuşulan çok sayıda dil olduğundan dilden bağımsız bir sistem oluşturmak bir ihtiyaç sayılabilir. Bu çalışma, sesin duygu ile ilgili en çok bilgi içeren özelliklerini bulmaya ve onları kullanarak dilden bağımsız bir sistem oluşturmaya odaklanmaktadır. Aynı zamanda bu sistemi oluşturmaya çalışırken dillerin birbiri ile olan yakınlığı ve benzerliğinin duyguları sınıflandırmadaki başarı oranına etkisini incelemektedir. Duyguların sınıflandırılması için Yapay Sinir Ağı ve AdaBoost teknikleri kullanılmıştır. Ayrıca, farklı dillerde veri setleri olarak Berlin (EMO-DB), Toronto (TESS), Italyan (EMOVO), Urdu (URDU) ve Japon (KEIO-ESD) veri setleri kullanılmıştır.
Speech is the primary way of expressing ourselves. It is desired to extend this communication to computers. With the new developments in computer applications, machines are pretty much involved in our daily lives in a way that via personal assistants like Cortana or Siri. We want them to detect our commands and respond accordingly. Speech emotion recognition (SER) is a very popular and ongoing trend that enables machines to detect the human emotions. SER processes and classifies the speech signals and detects the embedded emotions in the speech. In general, the studies of SER focus on individual languages. Since the studies that focus on single and different languages are not very successful yet, and there are problems with the different accents of even English, providing a language independent SER is almost a necessity. This study focuses on finding the most informational features of speech to obtain the best recognition rates in language independent speech emotion recognition by analyzing how much the performance of the system changes according to the relations between the languages. Two classifiers which are Artificial Neural Networks (ANN) and AdaBoost was used to compare their performances. Berlin Database of Emotional Speech (EMO-DB), Toronto Emotional Speech Set (TESS), An Italian Emotional Speech Database (EMOVO), URDU Dataset, and KEIO University Japanese Emotional Speech Database (KEIO-ESD) were used as different language datasets. With the ANN classifier, 90.65 % recognition rate, and with the AdaBoost classifier, 72.60 % was obtained by using all datasets.
Speech is the primary way of expressing ourselves. It is desired to extend this communication to computers. With the new developments in computer applications, machines are pretty much involved in our daily lives in a way that via personal assistants like Cortana or Siri. We want them to detect our commands and respond accordingly. Speech emotion recognition (SER) is a very popular and ongoing trend that enables machines to detect the human emotions. SER processes and classifies the speech signals and detects the embedded emotions in the speech. In general, the studies of SER focus on individual languages. Since the studies that focus on single and different languages are not very successful yet, and there are problems with the different accents of even English, providing a language independent SER is almost a necessity. This study focuses on finding the most informational features of speech to obtain the best recognition rates in language independent speech emotion recognition by analyzing how much the performance of the system changes according to the relations between the languages. Two classifiers which are Artificial Neural Networks (ANN) and AdaBoost was used to compare their performances. Berlin Database of Emotional Speech (EMO-DB), Toronto Emotional Speech Set (TESS), An Italian Emotional Speech Database (EMOVO), URDU Dataset, and KEIO University Japanese Emotional Speech Database (KEIO-ESD) were used as different language datasets. With the ANN classifier, 90.65 % recognition rate, and with the AdaBoost classifier, 72.60 % was obtained by using all datasets.
Description
Keywords
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
N/A
Scopus Q
N/A
Source
Volume
Issue
Start Page
1
End Page
67
Collections
Sustainable Development Goals
9
INDUSTRY, INNOVATION AND INFRASTRUCTURE

