Büyük verilerde analiz yapılırken önemli bir etken olarak önümüze özetleme çıkar. sum , mean, median, min ve max gibi fonksiyonlarla bunu yapabiliriz. Böylece veri hakkında genel bir kanıya ulaşabiliriz(**)
Aggeration metodları
- count → Tüm elemanların sayısı
- mean → Tüm elemanların ortalamalarını hesaplar
- median → Tüm elemanların median’ı alır
- first, last → İlk ve Son elemanı getirir
- sum → Tüm elemanların toplamlarını alır
- min, max → Tüm elemanların minimum ve maximum değerlerini getirir
- std, var → Tüm elemanların standart sapmasını ve varyansını hesapları
- prod → Tüm elamanların çarpımını hesaplar
Yukarıdaki metodların hepsi aynı şekilde çağırılıyor. O yüzden mean’ i göstereceğim sadece.
Grouping
Senaryo üzerinden gidelim, kullandığımız örnek veri setinde ülkelere(Country kolonu) göre toplam öğrenci(Student kolonu) sayısını görmek isteyelim.
Bu tür durumlarda groupby kullanıyoruz. (SQL’ deki ile aynı)
Pivot Tables
Pivot tablo girdi olarak basit sütun verileri alır ve girdileri çok boyutlu bir özetleme sağlayan iki boyutlu bir tablo halinde gruplandırır.
Data Cutting
Bazı durumlarda verimiz bölmek isteyebiliriz.
Şu şekilde açabilirim → Elimizdeki bir kolonda x tane veri olduğunu düşünelim. Bu verileri belli kriterlere bölerek göstermek istiyoruz.
Yani x tane veri 4'e bölünmüş aralıklar şeklinde ifade ediliyor.
Bir sonraki yazımda önceki yazımda verdiğim dataset’i üzerinde data analizi yapacağız.
İyi Okumalar,