Pandas ile veri analizi-1

Cem Ayan
2 min readDec 25, 2018

--

Pandas, python programlama dili için yüksek performanslı, kullanımı kolay veri yapıları ve veri analizi araçları sağlayan açık kaynaklı, BSD lisanslı bir kütüphanedir.

Bu yazımda örnek bir veri seti üzerinden nasıl veri analizi yapabileceğimizi anlatacağım.

En son konuları anlattıktan sonra bir örnek üzerinden gerçek hayatta nasıl olduğunu göstermeye çalışacağım.

Pandas‘ın yapabildikleri (Kendi sitesinden):

  • Düz dosyalardan (CSV ve ayrılmış) veri yükleme, Excel dosyaları, veritabanları ve ultra hızlı HDF5 formatındaki verileri kaydetme / yükleme için sağlam IO araçları
  • Verileri birleştirmek ve dönüştürmek için veri kümelerinde bölünmüş uygula-birleştirme işlemlerini gerçekleştiren işlevselliğe göre güçlü, esnek grup
  • Veri setlerinin esnek şekilde yeniden şekillendirilmesi ve döndürülmesi
  • Veri setlerinde yüksek performans birleştirme ve birleştirme
  • Diğer Python ve NumPy veri yapılarındaki düzensiz, farklı indeksli verilerin DataFrame nesnelerine dönüştürülmesini kolaylaştırır
  • Otomatik ve açık veri hizalama: nesneler açıkça bir etiket kümesine hizalanabilir veya kullanıcı etiketleri görmezden gelebilir ve Seri, DataFrame, vb. verileri hesaplamalarda sizin için otomatik olarak hizalayabilir.

Pandas’ı Series, Dataframe olmak üzere iki başlıkta inceleyip bunların sık kullanılan özelliklerini göstereceğim.

Başta Series ile başlayayım.

Series

Bir boyutlu indekslenmiş veri dizisidir. Serilere özelleştirilmiş dictionary diyebiliriz. Tıpkı dictionary yapılarında olduğu gibi key-value şeklinde çalışabilir. Şimdilik bu kadar bahsetmek yeterli Dataframe’ i anlatırken Series konusuna tekrar girebiliriz.

Dataframe

Geldik pandas’ın can damarına 👻

Dataframe şudur demek yerine daha güzel bir şey söylemek istiyorum kafamızda canlanması için. Dataframe’i bir Microsoft Excel, Google Sheets ‘de olan sayfalara benzetebilriz.

Dataframe farklı farklı yollardan oluşturabilir.

1-) Series ile oluşturma
2-) Dictionary list ile oluşturma
3-) Numpy array ile oluşturma

1 ve 2 ‘ de kolon ve index adını series oluştururken verdiğimiz için columns ve index parametresini kullanmadık. 3. örnekte gibi kolon ve index adını verebiliriz.

Buraya kadar olan kısımda pandas ve series’ e giriş yapmış olduk asıl önemli kısım şimdi başlıyor. Örnek veri seti üzerinden anlatmaya devam edeceğim.

İleride anlatacağım konular :

  • Veri seçimi
  • Eksik veri tamamlama
  • Veri kümelerinde sıralama
  • Veri kümelerini birleştirme
  • Veri toplama ve gruplama
  • Pivot tablo
  • Görselleştirme

Örnek veri setiniz 129 kolondan oluşuyor ve çeşitli bilgiler içeriyor. Bunu Dataframe(Data Selection, Operating, …) kısmına geçtiğimizde kullanacağız.

['Respondent', 'Hobby', 'OpenSource', 'Country', 'Student', 'Employment','FormalEducation', 'UndergradMajor', 'CompanySize', 'DevType',...'Exercise', 'Gender', 'SexualOrientation', 'EducationParents','RaceEthnicity', 'Age', 'Dependents', 'MilitaryUS', 'SurveyTooLong','SurveyEasy']

Örnek veri seti olarak kaggle’da lisansı Open Database olan Stack Overflow 2018 Developer Survey’i tercih ettim. Buradan indirebilirsiniz.

2. kısıma buradan ulaşabilirsiniz.

İyi okumalar.

Sign up to discover human stories that deepen your understanding of the world.

--

--

Cem Ayan
Cem Ayan

No responses yet

Write a response