Lemmatizer: Akıllı Türkçe Kök Bulma Yöntemi

Author:

Number of pages:
289-299
Language:
Turkish
Year-Number:
2020-Volume 15 Issue 3

Yakın zamanda Türkçe doğal dil işleme alanında çeşitli çalışmalar yapılmıştır. Bu çalışmalar, üretilen akıllı bir sistemin Türkçe soru cevaplama, yazıyı başka bir dile çevirme, yazıyı özetleme, e-postalara otomatik yanıt gönderme gibi kabiliyetlere sahip olmasını öngörmektedir. Bahsedilen kabiliyetlerin temelinde, Türkçe kelimelerin köklerinin doğru şekilde bulunması gereksinimi yatmaktadır. Literatürde çeşitli Türkçe kök bulma yöntemleri verilmiş olsa da, Türkçe kelimelerin kompleks yapılarından dolayı başarı oranları genelde düşük kalmıştır. Bu çalışmada, Türkçe’nin sondan eklemeli yapısı kullanılarak bir kök bulma sistemi geliştirilmiş (Lemmatizer) ve bu konuda daha önce yapılmış olan Zemberek ve Snowball yöntemleriyle karşılaştırması verilmiştir. Lemmatizer sistemi Python ile yazılmıştır ve Türkçe’de en sık kullanılan 130’dan fazla eki ve TDK sözlüğünü baz almaktadır. Ayrıca Knime platformu kullanılarak istatistiksel analiz yapılmıştır. Bu çalışma için öncelikle Lemmatizer sistemi çok sayıda Türkçe makale ve kitapla eğitilmiş ve Lemmatizer sistemi dağarcığını sürekli geliştirmiştir. Aynı zamanda, Kalbur isimli Türkçe ek ve kök veritabanı kullanılarak alınan geri beslemeler sayesinde, doğruluk oranı sürekli artmıştır. Lemmatizer sistemi sonuçları hem sayı hem doğruluk açısından daha önce yapılmış olan Zemberek ve Snowball yöntemleriyle karşılaştırılmıştır. Karşılaştırmada farklı uzunluklarda Türkçe metinler kullanılmıştır. Lemmatizer yönteminin TDK sözlüğü kullanarak öğrenebilme özelliği sayesinde, Snowball ve Zembere yöntemlerine yakın sonuçlar verdiği ve kullanılan her yeni metinle başarı oranının diğer yöntemlere göre arttığı gösterilmiştir.

Keywords


Recently, various studies have been conducted in the field of Turkish natural language processing. These studies require a smart system that has the capability of answering Turkish questions, translating articles into another language, summarizing the articles, and sending automatic replies to e-mails. The need to find the correct roots of Turkish words is the basis of the aforementioned capabilities. Although various methods of finding Turkish roots have been given in the literature, success rates are generally low due to the complex structures of Turkish words. In this study, a root finding system (Lemmatizer) has been developed using the agglutinating structure of Turkish words and its comparison with the Zemberek and Snowball methods is given. The Lemmatizer system is written in Python and is based on more than 130 most frequently used suffixes and TDK dictionaries in Turkish. In addition, statistical analysis was performed using the Knime platform. For this study, firstly the Lemmatizer system was trained with many Turkish articles and books and it has continuously improved its repertoire. At the same time, thanks to the feedback received using the Turkish suffix and root database called Kalbur, the accuracy rate has increased continuously. The results of the Lemmatizer system were compared with the Zemberek and Snowball methods previously made in terms of both number and accuracy. Turkish texts of different lengths were used for comparison. It has been shown that the Lemmatizer method gives results close to the Snowball and Zembere methods, and the success rate increases with each new text, thanks to its ability to learn using the TDK dictionary.

Keywords

Article Statistics

Number of reads 2,599
Number of downloads 665

Share

Turkish Studies-Information Technologies and Applied Sciences
E-Mail Subscription

By subscribing to E-Newsletter, you can get the latest news to your e-mail.