Veri Bilimi

3- Veri Tipleri

Veri Tipleri

Veri Tipleri

Yapay Zeka projelerinde kullanılan verinin kalitesi, doğru şekilde işlenmesi ve kullanılması, makine öğrenmesi algoritmalarının başarısında kritik bir role sahiptir. Makine öğrenmesi algoritmalarını öğrenmeden önce, veriyi ve veri yapılarını iyi hakim olmalıyız. Bu yazımda veri tiplerinin ne olduğunu örnekler vererek açıkladım. Faydalı olması dileğiyle…

Makine öğrenmesi (ML) projelerinde veri, modellerin eğitilmesi ve doğru tahminlerde bulunabilmesi için temel taşlardan biridir. Verilerin doğru şekilde işlenmesi ve kullanılması, makine öğrenmesi algoritmalarının başarısında kritik bir role sahiptir. Bu yazıda, makine öğrenmesinde karşılaşılan temel veri tipleri ve bu verilerin nasıl kullanıldığına dair detaylı bilgiler sunulacaktır.

1. Sayısal Veri (Numerical Data)

Sayısal veri, ölçülebilir ve sayısal ifade edilebilen veri türüdür. Genel olarak iki alt kategoriye ayrılır:

  • Sürekli Veri (Continuous Data): Sürekli veri, belirli bir aralıkta herhangi bir değeri alabilen ve genellikle ölçümle elde edilen veri türüdür. Herhangi iki değer arasında sonsuz sayıda değerler alabilir. Örnek olarak;
    • Bir bölgenin sıcaklığı derece cinsinden ölçülür ve bu değerler sürekli bir aralıkta değişebilir. Örneğin, 22.5°C, 30.75°C gibi.
    • Bir nesnenin ağırlığı kilogram, gram vb. birimlerde ölçülebilir ve sürekli bir değerdir. Örneğin, bir insanın ağırlığı 70.2 kg, bir meyvenin ağırlığı 150.5 gr olabilir.
  • Kesikli Veri (Discrete Data): Sadece belirli değerler alabilen ve sayılabilir veri türüdür. Örneğin, bir sınıftaki öğrenci sayısı kesikli veriyi ifade eder, küsüratlı değerler alamaz.

2. Kategorik Veri (Categorical Data)

Kategorik veri, verilerin belirli kategorilere veya gruplara ayrıldığı veri türüdür. Genel olarak iki ana türe ayrılır:

  • Nominal Veri: Sıralama veya hiyerarşi olmaksızın, sadece isimlendirme veya etiketleme amacıyla kullanılan veri türüdür. Örnek olarak, cinsiyet, kan grubu, renkler. Bu kategoriler kendi içlerinde herhangi bir hiyerarşi barındırmaz.
  • Ordinal Veri: Sıralama veya derecelendirme içeren kategorik veri türüdür. Örneğin, memnuniyet anketlerindeki”kötü”, “orta”, “iyi” gibi sıralı yanıtlar verilir. Bunlar ordinal veriye örnektir. Bu yanıtlar hiyerarşi barındırır ve “iyi”, “orta”dan daha üstündür.

3. Zaman Serisi Verisi (Time Series Data)

Zaman serisi verisi, zaman içindeki ardışık ölçümleri veya gözlemleri ifade eder. Finans, ekonomi, hava durumu tahmini gibi alanlarda sıkça kullanılır. Örneğin, günlük hisse senedi fiyatları, aylık yağış miktarı.

4. Metin Verisi (Text Data)

Metin verisi, sözcükler, cümleler veya paragraflar şeklindeki doğal dil bilgisidir. Doğal dil işleme (NLP) teknikleri ile analiz edilir. Mesela, müşteri yorumları, haber makaleleri, sosyal medya gönderileri metin veri türüne örnektir.

5. Görüntü Verisi (Image Data)

Görüntü verisi, piksellerin bir matrisi olarak temsil edilen görsel bilgidir. Her bir piksel, genellikle bir renk değerini (örneğin, gri tonlamalı veya RGB) temsil eder. Görüntü işleme ve analizi, bilgisayarlı görü sistemlerinin temelini oluşturur. Uygulama alanları arasında yüz tanıma, tıbbi görüntüleme, nesne tanıma ve sınıflandırma yer alır. Görüntü verileri üzerinde çalışırken, konvolüsyonel sinir ağları (CNN) gibi derin öğrenme modelleri sıklıkla kullanılır.

6. Video Verisi (Video Data)

Video verisi, zaman içindeki ardışık görüntüler (kareler) dizisidir. Her bir video karesi bir görüntü olarak düşünülebilir, ancak video verileri ek olarak zaman boyutunu da içerir. Video veri analizi, hareket tanıma, video sınıflandırma, etkinlik tanıma ve gerçek zamanlı spor analizi gibi alanlarda kullanılır. Video verileri ile çalışırken, hem mekansal (görüntüler arası) hem de zamansal (zaman içindeki değişimler) özellikleri dikkate alan modellemeler yapılır. Çoğunlukla üç boyutlu konvolüsyonel sinir ağları (3D CNN) ve uzun kısa süreli bellek ağları (LSTM) gibi teknikler tercih edilir.

7. Ses Verisi (Audio Data)

Ses verisi, zaman içindeki basınç değişimlerinin dijital bir temsilidir ve genellikle dalga formu olarak gösterilir. Ses tanıma, konuşma tanıma, müzik sınıflandırma ve duygu analizi gibi çeşitli uygulamalar için kullanılır. Ses verileri ile çalışırken, genellikle Mel Frekansı Kapalı Katsayıları (MFCC) gibi özellik çıkarım teknikleri kullanılır.

#datascience # datatypes

Tanıştığımıza memnun oldum.👋

Yeni Eğitim Yazılarından İlk Sen Haberdar Olmak İster Misin?

Yalnızca yeni eğitim yazıları geldikçe sizi haberdar ediyoruz!

Yazar hakkında

Umut CİNDİLOĞLU

Herkese Merhaba;

Gazi Üniversitesi Endüstri Mühendisliği Anabilim Dalında doktora öğrencisiyim, aynı zamanda araştırma görevlisi olarak görev yapmaktayım.

Çalışma alanlarım Yapay Zeka, Bilgisayarlı Görü, Derin Öğrenme ve Optimizasyondur.

Yorum Yap