İstatistiksel ve Geometrik İlişkiye Dayalı Yeni Bir Sentetik Veri Üretme Yaklaşımının Geliştirilmesi
Abstract views: 44 / PDF downloads: 54
DOI:
https://doi.org/10.59287/icmar.1270Keywords:
Makine Öğrenmesi, İstatistiksel İlişki, Geometrik Analiz, ANFIS, Sentetik Veri ÜretmeAbstract
Makine öğrenmesi, verileri analiz etmek ve değerlendirmek için kullanılan bir çerçevedir. Bu çerçeve ile belirlenen görevlerin makineler tarafından gerçekleştirilmesi hedeflenir. Bu hususta makine öğrenmesi yaklaşımının sahip olduğu potansiyelin açığa çıkarmak için veri önemli bir kriterdir ve kategoriler arası dengeli, kaliteli ve yeterli veri kümesi vasıtasıyla başarılı çıkarımlar yapmak mümkündür. Ancak yasal sınırlamalar, etik kurallar, maliyet parametresi ve yetersiz veri temini makine öğrenmesinin başarısını olumsuz etkileyen engellerdir. Bu engelleri aşmak için sentetik veri üretme, gerçek dünya problemlerinde bir çözüm noktası sunar. Bununla birlikte sentetik veri üretimine ilişkin standart bir çerçeve yoktur. Bu çalışmada istatistiksel ve geometrik temele dayanan yeni bir sentetik veri üretme yaklaşımı önerilmiştir. Böylece tanımlanabilir, hassas ve kritik bilgilerin kullanılması engellenecek ve gizlilik korunacaktır. Pahalı bir süreç sunabilen veri etiketleme ve veri toplama aşamalarında düşük maliyetli bir çözüm geliştirilecektir. Ek olarak sentetik veri üretme yaklaşımı ile artan veri sayısı ile doğru orantılı olarak eğitim başarısı iyileştirilecektir. Bu doğrultuda sunulan çalışmada yeni bir sentetik veri üretme yaklaşımı önerilmiştir. Dört ayrı kategoriye sahip lenfoma veri kümesine uygulanan sentetik veri üretme yaklaşımı ile veri sayısı iki katına çıkarılmıştır. Ardından yapay zeka ve bulanık mantık yöntemlerinin birlikte kullanıldığı ANFIS yöntemi ile orijinal ve zenginleştirilmiş veri kümeleri sınıflandırılmıştır. Sınıflandırma sonucunda orijinal ve zenginleştirilmiş veri kümeleri için sırasıyla %45 ve %75 doğruluk oranları elde edilmiştir. Çalışma sonucunda orijinal verilerin dinamiğinde üretilen sentetik veriler ile artan veri çeşitliliğinin doğruluk oranında sunduğu başarı, önerilen yaklaşımın gelecekte bir karar destek sistemi olarak kullanılmasına işaret etmektedir.