Veri Bilimi

6-Eksik veriler için izlenecek yol

Missing Value

Eksik Veriler ile Karşılaşıldığında Ne Yapmalı?

Eksik verilerin işlenmesi, veri bilimi projelerinde karşılaşılan yaygın ve önemli bir sorundur. Eksik verilerin nasıl ele alınacağına karar verirken, verinin türü, eksikliğin nedeni ve veri setinin genel yapısı göz önünde bulundurulmalıdır.

1. Veri Silme Yöntemleri:

  • Tam Liste Silme: Eksik değerlerin çok az bir kısmı oluşturduğu durumlarda, bu satırları silmek pratik olabilir. Bu yöntem, veri setinin büyük kısmının eksiksiz olduğu durumlarda uygundur, ancak eksik verilerin rastgele olmadığı durumlarda yanıltıcı sonuçlara neden olabilir.
  • Sütun Silme: Bir sütunda çok yüksek oranda eksik veri varsa (örneğin, toplam verilerin %50’sinden fazlası eksikse) ve bu sütun analiz için kritik değilse, sütunu tamamen kaldırmak daha temiz bir veri seti sağlayabilir.

2. Değer Atama Yöntemleri:

  • Ortalama/Medyan/Mod ile Doldurma:
    • Sayısal Veriler: Eksik değerler az olduğunda ve veri normal dağılıma yakınsa, ortalama veya medyan değerlerle doldurmak uygun olabilir. Ancak, bu yöntem veri setindeki varyansı azaltabilir ve verilerin gerçek dağılımını yansıtmayabilir.
    • Kategorik Veriler: En sık görülen kategori olan mod ile doldurma, basit ve yaygın bir yöntemdir. Ancak, bu, nadir kategorilerin etkisini azaltabilir.
  • Tahmini Modelleme: Regresyon, karar ağaçları, K-en yakın komşu (KNN) gibi makine öğrenmesi algoritmaları kullanılarak eksik değerler tahmin edilebilir. Bu yöntem, özellikle eksik verilerin diğer değişkenlerle güçlü bir ilişkisi olduğunda etkilidir. Modelin karmaşıklığı ve veri setinin boyutu, seçilecek algoritmanın türünü etkileyebilir.

3. Çoklu Atama Yöntemleri:

  • Çoklu Atama: Eksik veri noktaları için birden fazla olası değer tahmin edilir ve bu değerlerle birden fazla tamamlanmış veri seti oluşturulur. Her bir tamamlanmış veri seti üzerinde analiz yapıldıktan sonra, sonuçlar birleştirilir. Bu yöntem, eksik verilerin rastgele dağıldığı ve eksiklik mekanizmasının karmaşık olduğu durumlarda daha doğru tahminler sağlayabilir.

Tablo halinde özetleyecek olursak:

Eksik Veri Oranı Veri Türü Uygulanabilecek Yöntemler
Çok Düşük Sürekli/Kategorik Satırları Silme, Ortalama/Medyan/Mod ile Doldurma
Orta Sürekli Ortalama/Medyan ile Doldurma, Tahmini Modelleme
Orta Kategorik Mod ile Doldurma, Tahmini Modelleme
Yüksek Sürekli/Kategorik Tahmini Modelleme, Çoklu Atama, Kritik değilse Sütunu Silme

Bu tablo, veri türüne ve eksik verilerin oranına göre uygun eksik veri işleme stratejilerini önermektedir. Ancak her durumda, eksik verilerin analiz üzerindeki potansiyel etkilerini değerlendirmek ve uygun bir strateji seçmek önemlidir.

Tanıştığımıza memnun oldum.👋

Yeni Eğitim Yazılarından İlk Sen Haberdar Olmak İster Misin?

Yalnızca yeni eğitim yazıları geldikçe sizi haberdar ediyoruz!

Yazar hakkında

Umut CİNDİLOĞLU

Herkese Merhaba;

Gazi Üniversitesi Endüstri Mühendisliği Anabilim Dalında doktora öğrencisiyim, aynı zamanda araştırma görevlisi olarak görev yapmaktayım.

Çalışma alanlarım Yapay Zeka, Bilgisayarlı Görü, Derin Öğrenme ve Optimizasyondur.

Yorum Yap