Veriyi Keşfet / İncele

Bu bölümde Veri Çerçevesi (Data Frame) içeriğini görüntülemeye dair komutları öğreneceğiz.

Öncelikle Pandas Kütüphanesini içe aktarıp, kodlama esnasında hızlı olması adına bu kütüphaneye pd adını atayalım;

import pandas as pd

Bu eğitim esnasında, fonksiyon ve metotlardan bahseder, örnek verirken kullanmak üzere, basit bit Veri Çerçevesi (Data Frame) oluşturalım ve oluşturduğumuz Veri Çerçevesinin içeriğini görelim;

sozluk = {"isim" : ["Mustafa", "Halil", "Burak", "Emre", "Ersin", "Sertaç", "Furkan","Murat","Ahmet","Abdülkadir"],
                    "yaş" : [25, 38, 41, 23, 37, 52, 30, 23, 40, 38],
                   "iş-meslek" : ["mühendis", "programcı", "akademisyen", "yönetici","amir","mühendis", "yönetici","müdür","veteriner","yönetici"]}
veri = pd.DataFrame(sozluk)
print(veri)
isim yaş iş-meslek
0 Mustafa 25 mühendis
1 Halil 38 programcı
2 Burak 41 akademisyen
3 Emre 23 yönetici
4 Ersin 37 amir
5 Sertaç 52 mühendis
6 Furkan 30 yönetici
7 Murat 23 müdür
8 Ahmet 40 veteriner
9 Abdülkadir 38 yönetici

TEMEL FONKSİYONLAR

head() Fonksiyonu

Oluşturduğumuz ya da çalışmamıza dahil ettiğimiz (içe aktardığımız) Veri Çerçevelerinin ilk satırlarını görüp, içerik hakkında bilgi edinmek istersek head() fonksiyonunu kullanabiliriz. Head kelimesi Türkçede Baş, Kafa anlamına gelmektedir.

print(veri.head())
isim yaş iş-meslek
0 Mustafa 25 mühendis
1 Halil 38 programcı
2 Burak 41 akademisyen
3 Emre 23 yönetici
4 Ersin 37 amir

head() fonksiyonunda parantez içine parametre olarak bir değer yazmazsak, veri çerçevesinin ilk 5 değeri görüntülenir. Değer belirtirsek belirttiğimiz değer kadar veri görüntülenir.

print(veri.head(3))
isim yaş iş-meslek
0 Mustafa 25 mühendis
1 Halil 38 programcı
2 Burak 41 akademisyen

İndex değerinin 2'de bitmesi sizi şaşırtmasın, pekçok programlama dilindi olduğu gibi Python programlama dilinde de, sayma sayıları sıfırdan başlar. Zaten tabloyu incelerseniz, tabloda 3 kullanıcıya ait veri olduğunu görürsünüz.

tail() Fonksiyonu

head() fonksiyonuna oldukça benzer bir fonksiyondur. Oluşturduğumuz ya da çalışmamıza dahil ettiğimiz Veri Çerçevelerinin son satırlarını görüp içerik hakkında bilgi edinmek istersek tail() fonksiyonunu kullanabiliriz. Tail kelimesi Türkçede, kuyruk, son kısım anlamına gelmektedir.

print(veri.tail())
isim yaş iş-meslek
5 Sertaç 52 mühendis
6 Furkan 30 yönetici
7 Murat 23 müdür
8 Ahmet 40 veteriner
9 Abdülkadir 38 yönetici

tail() fonksiyonunu içine parametre olarak bir değer yazmazsak, veri çerçevesinin son 5 değerini görüntüler. Değer belirtirsek belirttiğimiz değer kadar veri görüntüler.

print(veri.tail(7))
isim yaş iş-meslek
3 Emre 23 yönetici
4 Ersin 37 amir
5 Sertaç 52 mühendis
6 Furkan 30 yönetici
7 Murat 23 müdür
8 Ahmet 40 veteriner
9 Abdülkadir 38 yönetici

columns Fonksiyonu

columns fonksiyonu, oluşturulan ya da içe aktarılan Veri Çerçevelerinin başlık satırını çıktı olarak verir / görüntüler. columns fonksiyonunu kullanırken sonunda parantez işaretleri kullanmadığımıza dikkat edin.

Sütun isimlerini değiştirmek ya da veri çerçevesine filtreleme işlemi uygulamak istediğimiz zaman, bu fonksiyon çok işimize yarar.

print(veri.columns)
Index(['isim', 'yaş', 'iş-meslek'], dtype='object')

len() Fonksiyonu

len() foknsiyonu, Veri Çerçevesinin kaç satırdan oluştuğunu bildirir.

print(len(veri))
10

Çıktıdan anladığımız kadarıyla, veri isimli veri çerçevesi, 10 satırlık bir yapıdan oluşuyor.

info() Fonksiyonu

info() fonksiyonu, Veri Çerçevesinin satır ve sütun sayısı, başlık tipleri (sayı, metin, ...vb) ve doluluk oranı (boş olmayan hücre sayısı) hakkında bilgi görüntüler.

print(veri.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   isim       10 non-null     object
 1   yaş        10 non-null     int64 
 2   iş-meslek  10 non-null     object
dtypes: int64(1), object(2)
memory usage: 368.0+ bytes

Çıktıyı incelersek;
class 'pandas.core.frame.DataFrame : veri'nin Pandas sınıfına ait bir DataFrame yapısı olduğunu,
RangeIndex: 10 entries, 0 to 9 : Veri Çerçevesinin 0 ile 9 arasında, toplam 10 satırlık yapı olduğunu,
Data columns (total 3 columns) : Veri Çerçevesinin 3 sütundan oluştuğunu,
Column : Sütun isimlerini,
Non-Null Count : Boş olmayan veri sayısını,
Dtype : Veri biçimini tanımlar.
int34 ya da int64 ibaresi, tamsayı (integer) olduğunu, object ibaresi, verinin metin (string) ifadesi olduğunu,
dtypes: int64(1), object(2) : Veri Çerçevesinin 1 adet tamsayı (int64(1)), 2 adet metinsel (string / object(2)) başlık/sütun içerdiğini temsil eder.

dtypes Fonksiyonu

dtypes fonksiyonu, veri çerçevesinin başlık tiplerini görüntüler. dtypes fonksiyonunu kullanırken sonunda parantez işaretleri kullanmadığımıza dikkat edin.

print(veri.dtypes)
isim         object
yaş           int64
iş-meslek    object
dtype: object

describe() Fonksiyonu

describe() fonksiyonu, sayısal veri barındıran sütunlar hakkında detaylı matematiksel bilgiler verir.

print(veri.describe())
yaş
count 10.000000
mean 34.700000
std 9.333929
min 23.000000
25% 26.250000
50% 37.500000
75% 39.500000
max 52.000000

Çıktıyı incelersek;
count : yaş isimli sütunda kaç adet veri olduğunu,
mean : yaş isimli sütudaki verilerin ortalamasını,
std : yaş isimli sütudaki verilerin standart sapmasını,
min: yaş isimli sütudaki verilerin en küçük değerini
%25 : yaş isimli sütundaki verilerin medyanın alt çeyreğini (dörttebirliğini),
%50 : yaş isimli sütundaki verilerin Ortanca medyanını,
%75 : yaş isimli sütundaki verilerin medyanın üst çeyreğini (dörttebirliğini),
max : yaş isimli sütudaki verilerin en büyük değerini, tanımlar

shape Metodu

Veri Çerçevesinin yapısını yani satır ve sütun bilgisini öğrenmek için shape metodunu kullanabiliriz.

print(veri.shape)
(10, 3)

← Önceki Bölüm Sonraki Bölüm →