Göğüs kanseri, dünya çapında kadınlar arasında en yaygın kanser türlerinden biridir ve günümüz toplumunda önemli bir halk sağlığı sorunu haline gelmiştir. Göğüs kanserinin erken teşhisi, hastaların klinik tedaviye zamanında ulaşabilmesini sağlayabileceği için hastaların hayatta kalma şansını önemli ölçüde artırabilmektedir. Makine Öğrenimi teknikleri, göğüs kanserinin erken teşhisi için hekimlerin yararlanabileceği etkili bir mekanizma olarak kullanılabilecek ve hastaların hayatta kalma oranını büyük ölçüde artıracak araçlar geliştirmek için kullanılabilir. Bu çalışmada, göğüs kanseri teşhisi için Destek Vektör Makinesi (SVM), K-En Yakın Komşuluk (KNN), Naive Bayes (NB), Karar Ağacı (DT) ve Rastgele Orman (RF) makine öğrenmesi yöntemlerinin doğruluk yüzdelerine göre performans karşılaştırmaları yapılmıştır. Bireysel sınıflandırıcıların doğruluk oranını arttırmak için bagging, boosting ve voting topluluk makine öğrenmesi yöntemleri uygulanmıştır. Oylama topluluk yöntemi için; çoğunluğa dayalı (hard) oylama ve olasılığa dayalı (soft) oylama yöntemleri kullanılmıştır. Yükseltme topluluk öğrenme yöntemi için; Adaptive Boosting (Adaboost), Gradient Boosting ve XGBoost algoritmaları kullanılmıştır. Kullanılan yöntemlerin performans karşılaştırması, Wisconsin Diagnostic Breast Cancer (WDBC) veri kümesi kullanılarak yapılmıştır. Veri özelliklerin ölçeklerinin farklı olması, bir veri kümesinin modellemesini olumsuz etkilemektedir. Bu nedenle, özelliklerin ölçeklendirilmesi için standardizasyon ön işleme işlemi uygulanmıştır. Topluluk öğrenme yöntemleri; kesinlik, duyarlılık, f-skor ve doğruluk performans kriterlerine göre karşılaştırılmıştır. En yüksek doğruluk yüzdesi; Soft Oylama (Ağırlıklandırılmış), Bagging (SVC), Adaboost (SVC) ve XGBoost topluluk öğrenme yöntemleriyle elde edilmiştir.
Breast cancer is one of the most common types of cancer among women worldwide and has become a major public health problem in today's society. Early diagnosis of breast cancer can significantly increase patients' chances of survival due to enabling patients to reach clinical treatment on time. Machine Learning techniques can be used for developing breast cancer detection tools that can be used as an effective mechanism which physicians can benefit from. In this study, performance comparisons were made according to the accuracy percentages of Support Vector Machine (SVM), K-Nearest Neighbors (KNN), Naive Bayes (NB), Decision Tree (DT) and Random Forest (RF) machine learning methods for breast cancer diagnosis. Bagging, boosting and voting ensemble machine learning methods were applied to increase the accuracy of individual classifiers. Hard voting and soft voting methods were used for the voting ensemble learning method. Adaptive Boosting (Adaboost), Gradient Boosting and XGBoost algorithms were used for the boosting ensemble learning method. The experiments were conducted on Wisconsin Diagnostic Breast Cancer (WDBC) Dataset. Different feature scales of data features negatively affect the modeling of a data set. Therefore, standardization preprocessing has been applied to scale the features. The ensemble learning methods were compared according to precision, recall, f-score, accuracy performance criteria. The highest accuracy percentage was obtained with Soft Voting, Bagging (SVC), Adaboost (SVC) and XGBoost ensemble learning methods.
By subscribing to E-Newsletter, you can get the latest news to your e-mail.