Makine Öğrenmesinde Performans Metrikleri
Geçmiş verilere dayanarak makine öğrenmesi modelleri geliştiriyoruz, bu geliştirdiğimiz modellerle gelecek veriler için tahminler yapıyoruz ve kararlar alıyoruz. Peki geliştirdiğimiz modellerin ne kadar iyi çalıştığını nasıl anlayacağız? İşte burada performans metrikleri devreye giriyor.
Her bir makine öğrenmesi türü için model performansının değerlendirilmesi, modelin başarısını anlamak ve iyileştirme yapabilmek için kritik öneme sahiptir. Farklı türdeki modeller için farklı metrikler ve yaklaşımlar kullanılır.
Bu yazımda sınıflandırma, regresyon ve kümeleme için performans değerlendirme yöntemlerinden bahsettim, keyifli okumalar.
Regresyon Modelleri için Performans Değerlendirme
Regresyon modelleri, “sürekli (cont)” değerleri tahmin etmek için kullanılan denetimli öğrenme modelleridir. Bu tür modellerin performansını değerlendirmek için kullanılan başlıca metrikler, modelin tahmin ettiği değerler ile gerçek değerler arasındaki farkları ölçer. Bu amaç için kullanılan bazı metrikler:
Ortalama Mutlak Hata (MAE – Mean Absolute Error)
Ortalama Mutlak Hata, tahmin edilen değerler ile gerçek değerler arasındaki mutlak farkların ortalamasını alarak hesaplanır.
Ortalama Karesel Hata (MSE – Mean Squared Error)
Ortalama Karesel Hata, tahmin edilen değerler ile gerçek değerler arasındaki farkların karelerinin ortalaması alınarak hesaplanır. MSE, büyük hatalara daha fazla ağırlık verir, bu nedenle modelin büyük sapmalarını sert bir şekilde cezalandırır. Bu özellik, modelinizin büyük hatalar yapmasını özellikle önlemek istediğiniz durumlarda yararlıdır.
Kök Ortalama Karesel Hata (RMSE – Root Mean Squared Error)
Kök Ortalama Karesel Hata, MSE’nin karekökü alınarak hesaplanır. RMSE, hataların standart sapması gibi düşünülebilir ve hataların ölçeğini gerçek değerlerle aynı ölçekte tutar. RMSE, MSE gibi büyük hatalara yüksek duyarlılık gösterir.
R-kare (R² – Coefficient of Determination)
R-kare, modelin veri setindeki değişkenliği ne kadar iyi açıkladığını ölçen bir metriktir. 0 ile 1 arasında değerler alır; 1’e yakın değerler, modelin verilerdeki varyansı yüksek oranda açıkladığını gösterir. R-kare, modelin genel uyumunun bir göstergesi olarak kullanılır ve genellikle regresyon modellerinin başarısını değerlendirmede referans noktası olarak ele alınır.
Bu metriklerin her biri, regresyon modelinizin farklı yönlerini değerlendirir ve modelin performansını kapsamlı bir şekilde anlamanıza yardımcı olur. Genellikle, bu metriklerin bir kombinasyonu, modelin ne kadar iyi çalıştığını daha doğru bir şekilde anlamak için kullanılır.
Sınıflandırma Modelleri için Performans Değerlendirme
Sınıflandırma modelleri, genellikle sınıflar arasındaki doğru ve yanlış tahminleri ölçen metrikler kullanılarak değerlendirilir.
Bu performans metriklerinin daha iyi anlaşılabilmesi için, karışıklık matrisinin bilinmesi gereklidir. Karışıklık matrisi (confusion matrix), sınıflandırma problemlerinde bir modelin performansını değerlendirmek için kullanılan bir araçtır. Temel olarak, model tahminlerinin gerçek değerler ile nasıl bir ilişki içinde olduğunu gösterir.
Karışıklık matrisinin temel terimleri şunlardır:
- Doğru Pozitif (TP – True Positive): Modelin pozitif olarak doğru tahmin ettiği durumlar.
- Yanlış Pozitif (FP – False Positive): Modelin pozitif olarak yanlış tahmin ettiği durumlar (gerçekte negatif).
- Doğru Negatif (TN – True Negative): Modelin negatif olarak doğru tahmin ettiği durumlar.
- Yanlış Negatif (FN – False Negative): Modelin negatif olarak yanlış tahmin ettiği durumlar (gerçekte pozitif).
Metrikler;
Doğruluk (Accuracy)
Doğruluk, modelin tüm tahminlerinin ne kadarının doğru olduğunu gösterir. Basit ve anlaşılır olması nedeniyle sıkça kullanılır. Ancak, sınıf dengesizlikleri olan durumlarda yanıltıcı olabilir, çünkü azınlık sınıfının performansını göz ardı edebilir.
Hassasiyet (Precision)
Hassasiyet, pozitif olarak tahmin edilen örneklerin ne kadarının gerçekten pozitif olduğunu ölçer. Özellikle yanlış pozitiflerin maliyetli olduğu durumlarda önemlidir.
Duyarlılık (Recall) veya Duyarlık (Sensitivity)
Duyarlılık, gerçekte pozitif olan örneklerin ne kadarının doğru olarak pozitif tahmin edildiğini ölçer. Tıbbi testler gibi, tüm pozitif vakaların yakalanmasının kritik olduğu durumlar için önemlidir.
F1 Skoru
F1 Skoru, hassasiyet ve duyarlılığın harmonik ortalamasıdır ve bu iki metriği dengeler. Dengesiz veri setlerinde veya her iki sınıfın da önemli olduğu durumlarda kullanılır.
ROC Eğrisi ve AUC Skoru
ROC (Receiver Operating Characteristic) eğrisi, farklı eşik değerlerde modelin duyarlılık ve 1-özgüllük değerlerini grafik üzerinde gösterir. AUC (Area Under the Curve) ise ROC eğrisinin altında kalan alanın büyüklüğüdür ve modelin rastgele bir pozitif örneği, rastgele bir negatif örneğe göre daha yüksek sıralamada tutma olasılığını ölçer.
ROC Eğrisi ve AUC Skoru’nu daha detaylı açıklayalım;
ROC Eğrisi (Receiver Operating Characteristic Curve)
ROC Eğrisi, bir sınıflandırma modelinin çeşitli eşik değerlerde performansını değerlendirmek için kullanılan bir araçtır. ROC eğrisi, yatay eksende yer alan 1’den özgüllük (False Positive Rate) ile dikey eksende yer alan duyarlılık (True Positive Rate) arasındaki ilişkiyi gösterir. Modelin farklı sınıflandırma eşiklerinde nasıl performans gösterdiğini görsel olarak sunar.
- Duyarlılık (True Positive Rate – TPR): Gerçekte pozitif olan örneklerin ne kadarının doğru olarak pozitif tahmin edildiğini ifade eder.
- 1’den Özgüllük (False Positive Rate – FPR): Gerçekte negatif olan örneklerin ne kadarının yanlışlıkla pozitif olarak tahmin edildiğini gösterir.
ROC eğrisi, modelin her bir eşik değer için duyarlılık ve 1’den özgüllük değerlerini bir grafik üzerinde çizer. Eğri, sol üst köşeye ne kadar yakınsa, modelin o kadar iyi performans gösterdiği anlamına gelir. İdeal bir model, sol üst köşeden başlar ve yukarı doğru keskin bir şekilde yükselir, bu da modelin yüksek duyarlılık değerlerine çok düşük 1’den özgüllük değerleri ile ulaşabildiğini gösterir.
AUC Skoru (Area Under the Curve)
AUC Skoru, ROC eğrisinin altında kalan alanın büyüklüğünü ölçer ve modelin genel performansını tek bir sayısal değerle ifade eder. AUC değeri, 0.5 ile 1.0 arasında bir değer alır:
- 0.5: Modelin performansı rastgele tahmin seviyesindedir; yani modelin sınıflandırma yeteneği yoktur.
- 1.0: Model mükemmel performans gösterir; yani tüm pozitif örnekleri doğru tahmin ederken hiçbir negatif örneği yanlış pozitif olarak işaretlememiştir.
AUC skoru, modelin farklı sınıflar arasındaki ayrımı ne kadar iyi yaptığını gösterir. Yüksek bir AUC değeri, modelin pozitif ve negatif sınıfları iyi bir şekilde ayırt edebildiğini ve çeşitli eşik değerlerde tutarlı bir performans sergilediğini ifade eder. Bu nedenle, AUC skoru, model karşılaştırmalarında ve farklı modellerin performanslarını ölçmede yaygın olarak kullanılır.
ROC eğrisi ve AUC skoru, özellikle tıbbi tanı testleri gibi duyarlılık ve özgüllüğün önemli olduğu uygulamalarda sıklıkla tercih edilen metriklerdir. Ayrıca, dengesiz veri setlerinde model performansını değerlendirmek için de uygun araçlardır, çünkü bu metrikler sınıf dengesizliklerinden etkilenmezler.
Bu metrikler, bir sınıflandırma modelinin farklı yönlerini değerlendirerek modelin güçlü ve zayıf yönlerini ortaya çıkarır. Genellikle, birden fazla metriğin bir kombinasyonu kullanılarak modelin performansı kapsamlı bir şekilde analiz edilir.
Kümeleme Modelleri için Performans Değerlendirme
Kümeleme modellerinde genellikle etiketli veri olmadığı için, modellerin değerlendirmesi diğerlerine göre çok daha zordur. Bu tarz problemlerde yaygın olarak kullanılan metrikler;
Silhouette Skoru
Silhouette Skoru, bir kümelenme yapılandırmasının ne kadar iyi olduğunu değerlendirmek için kullanılır. Bu skor, her bir veri noktası için, o noktanın kendi kümesindeki diğer noktalara olan benzerliği ile en yakın komşu kümesindeki noktalara olan benzerliği arasındaki farkı ölçer. Silhouette skorları -1 ile 1 arasında değer alır:
- 1’e yakın değerler: Veri noktasının kendi kümesindeki diğer noktalara çok benzer, fakat diğer kümelerdeki noktalardan farklı olduğunu gösterir, yani iyi bir kümelenme.
- 0’a yakın değerler: Veri noktasının kendi kümesindeki noktalar ile diğer küme noktaları arasında belirgin bir fark olmadığını gösterir.
- -1’e yakın değerler: Veri noktasının kendi kümesindeki noktalardan ziyade diğer kümelerdeki noktalara daha yakın olduğunu gösterir, bu da kötü bir kümelenmeyi işaret eder.
Davies-Bouldin İndeksi
Davies-Bouldin İndeksi, küme içi mesafelerin ortalamasını, farklı kümelerin merkezleri arasındaki mesafelere oranı ile değerlendirir. İdeal olarak, küme içi mesafeler küçük (yani kümelenmiş veri noktaları birbirine yakın) ve farklı kümeler arasındaki mesafeler büyük olmalıdır. Bu indeks için daha düşük değerler daha iyi kümelenmeyi gösterir.
Dunn İndeksi
Dunn İndeksi, küme içi mesafenin en büyük değerini küme arası en küçük mesafeye bölerek hesaplanır. Yüksek Dunn İndeksi değerleri, küme içinde sıkı gruplamalar ve kümeler arası iyi ayrımlar olduğunu gösterir. Bu, genellikle istenen bir durumdur çünkü veri noktaları kendi kümeleri içinde birbirine yakınken diğer kümelerden uzaktır.
Not: Küme sayısının (k) seçimi performans sonuçlarını büyük ölçüde etkileyebilir. Optimal k değerini belirlemek için “Elbow Yöntemi” gibi teknikler kullanılabilir.
Sonuç olarak, her bir değerlendirme metriği, modelin güçlü ve zayıf yönlerini ortaya koymak için farklı yönlerden bakar. Bir modeli değerlendirirken genellikle birden fazla metrik kullanmak, daha dengeli ve kapsamlı bir bakış açısı sağlar.