Pandas ile veri analizi-2 (Data selection, Missing values, Concat, Merge)
Bir önceki yazıda verdiğim dataset’i okuyup Dataframe çevirmem gerekiyor üzerinde işlem yapabilmek için. Bunun için elimizdeki veriseti csv uzantılı olduğundan read_csv komutunu kullanacağız.
Sıradaki konumuz Dataframe’de kolonları nasıl seçeceğimizi ve üzerinde nasıl işlem yapacağımızı göstermek olacak.
İlk olarak loc komutuyla başlıyoruz bu komut kolon ve index ismine göre seçim yapmamıza yarıyor.(Çok pratik ve efektif 🤘)
iloc ise integer olarak seçim yapmamızı sağlar.
Eksik verilerin doldurulması
Bazen datasetimizde veriler eksik olabilir ve analiz yaparken sorunlara yol açabilir. Örnek vermek gerekirse tüm verisetinde Student kolonundaki verilen %20' sinde NaN,Null,.. tarzında bir şey olduğunu varsayalım.
Yaptığımız analiz tam olarak doğru sonucu vermeyecektir çünkü eksik veri ile işlem yaptık.
Eksik verileri doldurmadan önce eksik verileri tespit etmemiz lazım 🤓
Verileri doldurmanın iki farklı yolu null olmayan üst sütun yada alt sütunundakini al tarzında. Pandas’ da bu işlemi fillna yapıyor.
Bunların dışında ortalamaları kullanarakta doldurabiliriz. (Numeric veri tipi)
Tüm bunları unutup hayır ya ben boş veri istemiyorum derseniz kolayca bunlardan kurtulabiliriz 🤘
Sıralama ve MultiIndex
Sıralamanın ne olduğunu açıklamaya gerek yok o yüzden direkt olarak kullanımına geçiyorum 😄
MultiIndex
Şimdiye kadar kolonları ve indexleri hep tek olarak gördük, bunlar emultiple şekilde de olabilirler.
Veri kümeleri birleştirme
Elimizde birden fazla Dataframe, Series olabilir ve bunları tek bir Dataframe gibi işlem yapmaki isteyebiliriz burda devreye concat, merge giriyor.
Merge ile performanslı bir şekilde iki dataframe arasında birleştirme yapabiliriz.
Merge komutu ile yapılan işlemleri SQL’de bulunan inner join, outer join … ‘e benzetebiliriz.
Sonraki yazımda Veri toplama ve gruplamayı anlatacağım.
İyi Okumalar.