Pandas Özet Bilgi Tablosu (CheatSheet)

Pandas Özet Bilgi Tablosu (CheatSheet)

Pandas Veri Çerçevesi (Data Frame) komutlarını (fonksiyon, metot, parametre) bir yerde toplayarak ihtiyaç halinde, farklı konulara ait komutlara daha hızlı ulaşabileceğimiz bir Başvuru Kılavuzu / Özet Bilgi Tablosu (CheatSheet) oluşturmaya çalışıyorum.

Başvuru kılavuzunu / Özet Bilgi Tablosunu (CheatSheet) oluştururken, komutları, Pandas Veri Çerçevesi (Data Frame) Konu Başlıklarına göre kategorize etmeyi planlıyorum.

Sayfaya Yeni Konu başlıkları eklendikçe, Özet Bilgi Tablosunu da güncellemeye gayret edeceğim.
Şuana kadar oluşturduğum Başvuru Kılavuzu / Özet Bilgi Tablosu (CheatSheet) aşağıda istifadenize sunulmuştur.
Başvuru Kılavuzu / Özet Bilgi Tablosunun (CheatSheet) PDF uzantılı halini aşağıdaki bağlantıdan indirebilirsiniz.

Tablonun PNG Uzantılı Hali;

CheatSheet

PANDAS KÜTÜPHANESİNİ İÇE AKTAR

Fonksiyon / Metot / Parametre Açıklama
import pd : Pandas kütüphanesi için atanmış kısaltmayı temsil eder. Ör. import pandas as pd
df Aşağıdaki tablolarda göreceğiniz df ifadesi, Oluşturulan Veri Çerçevesine (Data Frame’e) atanan kısaltmayı temsil eder. Bu kısaltmalar aşağıda kullanılmıştır.
Ör.1. df = pd.DataFrame(Veri_Yapısı)
Ör.2. df = pd.read_excel(“Verilerim.xlsx”)

VERİ ÇERÇEVESİ OLUŞTUR

Fonksiyon / Metot / Parametre Açıklama
DataFrame() Bir Dosyadan, İterable Nesneden ya da Sözlük yapısından Veri Çerçevesi (Data Frame) Oluştur. Ör. pd.DataFrame(dosya, nesne ya da sözlük)
read_clipboard() CTRL + C ile Panoya kopyaladığımız veriden (örneğin bir Excel tablosundan ya da websitesindeki tablodan) Veri Çerçevesine oluştur. Ör. pd.read_clipboard()
read_csv() Bir CSV dosyasının içeriğinden Veri Çerçevesi Oluştur. read_csv kodu ile TXT uzantılı dosya içeriğini de okuyabiliriz. Ör. pd.read_csv(“dosya_adı.csv”)
... read_csv(delimiter=) Veri sütunlarını birbirinden ayırmak için kullanılan karakter. Örneğin, dosya noktalı virgülle ayrılmışsa (name;age;city), delimiter=';' olarak ayarlanır.
... read_csv(dtype) Sütunların veri tipini (örneğin, tam sayı, metin, ondalıklı sayı) belirlemek için kullanılır. Örneğin, {'sutun_adı': str}
... read_csv(encoding=) Dosyanın hangi karakter kodlamasıyla (encoding) yazıldığını belirtir. Türkçe karakter sorunu yaşanıyorsa, encoding='latin1' veya encoding='cp1254' denenebilir.
... read_csv(header=) Sütun isimlerini içeren satırın satır numarası (0'dan başlar). header=0 ilk satırı başlık olarak kullanır. None olarak ayarlanırsa Pandas sütunlara otomatik isimler verir (0, 1, 2...).
...read_csv(index_col=) index_col parametresi ile indeks değerini, istediğimiz sütuna eşitleyebiliriz. Ör. Name Sütununu, veri çerçevemizin indeks sütunu haline getirdik. Ör. nba_csv = pd.read_csv("Veri_Setleri/nba.csv", index_col="Name")
... read_csv(na_values=) Verideki hangi değerlerin eksik veri (NaN) olarak yorumlanacağını belirler. Örneğin, na_values=['N/A', 'eksik']
... read_csv(names=) Sütun başlıkları için kullanılacak isimlerin listesi. Eğer dosyanın başlık satırı yoksa veya var olan başlıkları geçersiz kılmak istiyorsanız kullanılır.
... read_csv(parse_dates=) Hangi sütunların tarih ve saat nesnesi olarak ayrıştırılmaya çalışılacağını belirler. True ise dizin sütununu ayrıştırmaya çalışır.
... read_csv(sep=) Veri sütunlarını birbirinden ayırmak için kullanılan karakter. Örneğin, dosya noktalı virgülle ayrılmışsa (name;age;city), sep=';' olarak ayarlanır.
... read_csv(skiprows=) Okuma sırasında atlanacak satır sayısı veya atlanacak satır numaralarının listesi.
read_excel() Excel, *Calc* dosyalarını içeriğinden Veri Çerçevesi Oluştur. Bu fonksiyon xls, xlsx, xlsm, xlsb, odf, ods ve odt uzantılı dosyaları destekler. Ör.** pd.read_excel(“dosya_adı.uzantı”)
...read_excel(decimal=) Veri çerçevesi oluşturuken ondalık ayırıcı ifadeyi belitrmek için decimal = "," parametresini kullanırız. Ör.pd.read_excel("Veri_Setleri/imdb.xlsx", decimal=",")
...read_excel(header=) Excel / Libre Ofis dosyasındaki ilk satırın başlık olmadığı,  yani sadece verilerden oluşan dosya ile çalıştığımızda, header=None parametresi kullanılmalıdır. Ör. df = pd.read_excel("Veri.ods", header = None)
... read_excel(index_col=) Veri Çerçevesi (Data Frame) oluştururken, sütunlardan birini, indeks değeri olarak ayarlamak, atamak için index_col parametresi kullanılır. Parametreye, değer olarak, indis olarak atanacak Sütunun indis değeri yazılır. Ör. df = pd.read_excel(“dosya_adı.xls” ,index_col=0)
...read_excel(names=) Başlık (sütun adlarını) belirtmek için names parametresi kullanılır. names parametresi, tablo ile eşit sayıda sütundan oluşan liste veri tipi olmalı. Ör. baslık tanımla; baslik = ["Birler", "Onlar", "Yüzler"] ardından; df = pd.read_excel("Veri.ods", header = None, names = baslik)
...read_excel(sheet_name=) Excel dosyasındaki istediğimiz çalışma sayfasına erişebilmek için, sheet_name parametresini kullanmalıyız. Ör. pd.read_excel(“Maliyet.xlsx”, sheet_name="birim fiyat")
...read_excel(skiprows=) Veri Çerçevesi (DataFrame) oluştururken, satırları atlamak / göz ardı etmek Veri Çerçevesine dahil etmemek için, skiprows parametresi kullanırız. df= pd.read_excel(“dosya_adı.xls”, skiprows = [0,5,6]
...read_excel(usecols=) Veri Çerçevesi (DataFrame) oluştururken, sadece istediğimiz sütunları kullanmak istediğimizde usecols parametresini kullanmalıyız. Değer olarak sütun adı da yazılabilir. Ör. df = pd.read_excel(“dosya_adı.xls”, usecols = [“Sütun1”, “Sütun5”, Sütun9”]
read_html() Bir URL (websitesi) ya da yerel html dosyası içeriğinden Veri Çerçevesi Oluştur. Ör. pd.read_html(url)
read_json() JSON biçimindeki dosyayı içe aktararak Veri Çerçevesi Oluştur. Ör. pd.read_json(dosya_adı.json)
read_table() CSV dosya içeriğinden tablo olarak  Veri Çerçevesi Oluştur. Ör. pd.read_table(dosya_adı.csv)
...read_table(delimiter=) delimiter parametresi ile, tablo verilerini sütunlara bölebiliriz. Aksi halde her satırdaki veri bir sütuna yazılır. Ör. pd.read_table(“dosya_adı.csv”, delimiter=”,”)
read_sql() Bir SQL veritabanını okuyarak Veri Çerçevesi Oluştur. Ör. pd.read_sql(query,connection_object)

VERİ ÇERÇEVESİNİ KEŞFET (İNCELE)

Fonksiyon / Metot / Parametre Açıklama
columns Veri Çerçevelerinin başlık satırını çıktı olarak verir, görüntüler. df.columns
describe() Sayısal veri barındıran sütunlar hakkında detaylı matematiksel bilgiler verir. (Kaç adet veri olduğu, ortalamaları, en küçük ve en büyük sayı,...vb) df.describe()
dtypes Veri çerçevesinin başlık tiplerini görüntüler. df.dtypes
head() Veri Çerçevesinin ilk 5 satırını görüntüler. Böylece Veri Çerçevesi hakkında ön bilgi edinmemizi sağlar. df.head()
... head(n) Parantez içerisine sayı yazarsak ilk "n" adet satır görüntülenir. Ör. df.head(11)
info() Veri Çerçevesinin satır ve sütun sayısı, başlık tipleri (sayı, metin, ...vb) ve doluluk oranı (boş olmayan hücre sayısı) hakkında bilgi görüntüler. df.info()
index Veri Çerçevesinin indeks isimlerini döndürür, görüntüler. df.index Aynı zamanda İndeks başlığını atamak için de kullanılır. df.index = "Yeni baslik"
isin() Bir DataFrame içindeki her bir elemanın, belirtilen değerler koleksiyonunda bulunup bulunmadığını kontrol eder.
isnull() Veri çerçevemizde eksik verileri tespit ederiz. isnull ifadesini, boş mu?, kayıp/eksik mi? sorusu olarak düşünebilirsiniz. False Eksik/Kayıp veri YOK, True ise Eksik/Kayıp veri VAR anlamına gelir.
...isnull().any() Veri Çerçevesinin herhangi bir boş değer (eksik veri) içerip içermediğini görüntüler. True eksik veri bulunuyorFalse, eksik veri bulunmuyor demek. df.isnull().any()
len(df) Veri Çerçevesinin kaç satırdan oluştuğu bilgisini döndürür.
median() Bir DataFrame'deki değerlerin, belirtilen eksen (satır veya sütun) üzerindeki medyanını (ortanca değerini) döndürür.
mode() Bir DataFrame'in satırları veya sütunları boyunca en sık tekrar eden (mod) değerleri bulur
nunique() Benzersiz değerlerin miktarını (kaç adet olduğunu) bulmak için bu metodu kullanabiliriz.
shape Veri Çerçevesinin satır ve sütun bilgisini döndürür, görüntüler. df.shape
tail() Veri Çerçevesinin son 5 satırını görüntüler. df.tail()
...tail(n) Parantez içerisine sayı yazarsak son "n"" adet satır görüntülenir. Ör. df.tail(3)
unique() Veri Çerçevesinden benzersiz değerler tespit etmek, kategorik verileri analiz etmek veya yinelenen verileri tanımlamak için kullanılır. Bu metot bir NumPy dizisi döndürür.
value_counts() Veri çerçevemizde bir sütunda aynı verinin kaç kez tekrar ettiğini (kaç adet bulunduğunu) öğrenmek için kullanılır. df.value_counts()

VERİ SEÇİM YÖNTEMLERİ

Fonksiyon / Metot / Parametre Açıklama
at[] Bir satır/sütun etiket çifti belirterek tek bir değeri seçmek için kullanabiliriz. MS Excel ya da Libre Ofis Calc uygulamalarındaki satır ve sütun değerlerinin kesişimindeki hücre değerine ulaşmak ile aynı mantık. loc[] metoduna benzer şekilde kullanılır. yalnız tek bir değer almanız veya ayarlamanız gerekiyorsa at[]metodunu kullanın. Ör. df.at["satır etiketi", "sütun etiketi"]
df.Sütun Sütun başlığını yazarak (eğer sütun başlığı, ismi boşluksuz ise), istediğimiz TEK sütunu seçebiliriz. Ör.1. VeriCervecesiAdı.SütunAdı , Ör.2. df.Puan
df.[["Sütun1",  "Sütun2"]] Sütun başlıklarını liste halinde yazarak, istediğimiz sütunları seçebiliriz. Ör. df[["Yıl", "Puan"]]
iat[] Satır/sütun çiftinde tamsayı belirtilerek tek bir değeri seçmek için kullanılır.  iloc[] metoduna benzerdir, her iki metot ta tamsayı tabanlı aramalar sağlar. at[] metodunda etiket kullanırkeniat[] metodunda indeks değeri olan tamsayı kullanılır. Ör.1. df.iat[1, 2] Ör.2. df.loc[0].iat[1]
iloc[] Veri Çerçevesinde istenilen  indeks değerlerine göre satır ve sütunu seçmek/görüntülemek için kullanılır. Ör.1. Satır ve sütunun kesişim değeri için;df.iloc[Satir_Numarası, Sütun_Numarası] Ör.2. Bir aralık için; df.iloc[[satır_listesi], [sütun_listesi]]
Index() Veri çerçevesindeki index isimlerine göre Sıralama ve satır seçimi yapmamızı sağlar. Ör. df.loc[pd.Index(["viper", "cobra"], name="Baslik")]
lambda() lambda() fonksiyonu ile, belirteceğimiz koşulu sağlayan satırı seçmek için aşağıdaki kod mantığını kullanabiliriz. Ör. shield satırında 8'e eşit değer barındıran satırları seçelim. df.loc[lambda df: df['shield'] == 8]
loc[] Etiketlere veya mantık (boole) dizisine göre bir satır ve sütun seçmek için kullanılır. Ör.1. Satır ve sütunun kesişim değeri için; df.loc["Star Wars", "Puan"] Ör.2. Bir aralık için; df.loc["Star Wars"] UYARI: loc[]metodu ile dilimleme işlemi yapılırken: karakterinin sağındaki bitiş değeri, standart python dilimleme işlemlerinin aksine, seçime DAHİL EDİLİR, unutmayın.

EKSİK - KAYIP VERİ YÖNTEMLERİ

Fonksiyon / Metot / Parametre Açıklama
dropna() Veri Çerçevelerinde eksik veri bulunan satır ve sütunları otomatik olarak silmek için kullanırız. Ör. df.dropna(axis = 0) Bu metodu parametresiz olarak kullandığımızda ( df.dropna() ), sadece eksik veri tespit edilen satırlar silinir. df.dropna()
...dropna(axis=) axis, eksenleri tanımlayan parametredir. Sıfır (0) Satırları, Bir (1) Sütunları temsil eder. Varsayılan değer Sıfır(0) yani Satırlardır. Ör. df.dropna(axis = 1)
...dropna(inplace=) inplace gerçekleştirilen silme işleminin veri çerçevesinde kalıcı ya da geçici olmasını ayarladığımız parametredir. inplace = True yazılırsa, yapılan işlem kalıcı hale gelecektir. Ör. df.dropna(axis = 0, inplace = True
...dropna(thresh=) thresh parametresi, veri çerçevesinde en az kaç adet veri varsa satır ya da sütunun silinmemesi gerektiğini belirtir. Ör.1. df.dropna(thresh=3) Bu kod,en az 3 sağlam veri barındıran satırları silme demek oluyor. Ör.2.df.dropna(axis=1, thresh=4)
fillna() Eksik verilerin yerine, yeni değer atamak istersek kullanırız. df.fillna()
...fillna(value=) Eksik verilerin yerine yazdırmak istediğimiz değeri value parametresi ile belirtiriz. value parametresine sayısal değer yazacağımız zaman doğrudan değerin kendisini, metinsel (string) ifadeler de yazacağımız zaman ise tırnak işareti kullanmamız gerektiğini unutmamalıyız. Ör.1. df.fillna(value=65 Ör.2.df.fillna(value="mhalil")
...fillna(method=) Veri çerçevesinde boş hücreleri doldurmak için method parametresi kullanılabilir. method parametresinin alabileceği değerler; backfill, bfill, pad, ffill ve None'dır. Varsayılan (öntanımlı) değer None'dır.
...fillna(method= "backfill") backfill seçeneği sayesinde boş  hücreler, kendinden sonraki (altında bulunan) son geçerli hücrenin değer ile doldurulur.
... fillna(method= "bfill") bfill seçeneği sayesinde boş  hücreler, kendinden sonraki (altında bulunan) son geçerli hücrenin değer ile doldurulur.
...fillna(method= "pad") pad seçeneği ile boş hücreler, kendinden önceki (üstünde bulunan) son geçerli hücrenin değeri ile doldurulur.
...fillna(method= "ffill") ffill seçeneği ile  boş hücreler, kendinden önceki (üstünde bulunan) son geçerli hücrenin değeri ile doldurulur.
isna() Bu fonksiyonun tek bir görevi vardır: "Bu verinin içi boş mu yoksa dolu mu?" sorusuna cevap vermek.
 Eğer veri yoksa (boşsa, tanımsızsa), True, veri varsa, False sonucunu verir.
isna metodu NaNNone ve NaT bunların hepsini yakalar.
isnull() Veri çerçevemizde eksik verileri tespit ederiz. isnull ifadesini, boş mu?, geçersiz mi?, kayıp/eksik mi? sorusu olarak düşünebilirsiniz. False (Yanlış) Eksik/Kayıp veri YOK, True (Doğru) ise Eksik/Kayıp veri VAR anlamına gelir. df.isnull()
...isnull().sum() Veri çerçecevesinde kaç adet eksik, kayıp  veri olduğunu belirtir. Çıktı olarak Sütun isimlerinde eksik veri değerlerini verir. df.isnull().sum()
...isnull().any() Veri Çerçevesinin herhangi bir boş değer (eksik veri) içerip içermediğini görüntüler. True eksik veri bulunuyorFalse, eksik veri bulunmuyor demek. df.isnull().any()
notna() Bir dizi benzeri nesne için eksik olmayan (geçerli) değerleri tespit etmek amacıyla kullanılır.
NaN, None veya NaT gibi eksik değerler içerip içermediğini kontrol eder. Kontrol sonucunda, geçerli olması durumunda True, eksik olması durumunda ise False değerini döndür.

VERİ ÇERÇEVESİ DÜZENLEME YÖNTEMLERİ

Fonksiyon / Metot / Parametre Açıklama
add() DataFrame ile başka bir nesneyi öğe bazında toplamak için kullanılan bir metottur. df.add(other, axis='columns', level=None, fill_value=None)
apply() Bir Fonksiyonu, veri çerçevemize uygulamak istersek, apply() fonksiyonu kullanmamız gerekir. Ör. df.["İsim"].apply(buyuk_harf)
assign() Bir veri tablosu üzerinde çalışırken, tablonun orijinal halini bozmadan (değiştirilmezlik ilkesi) yeni bir sütun eklemek istediğinizde kullanılır. df.assign(**kwargs)
astype() Veri çerçevelerinin (DataFrame) veya serilerin (Series) veri tiplerini / türlerini (dtype) değiştirmek için kullanılır. df.astype(dtype, copy=True, errors='raise') ya da df['StokAdedi'] = df['StokAdedi'].astype('int64')
convert_dtypes() Veri setini otomatik olarak temizleyen ve düzenleyen "akıllı bir veri tipi (türü) dönüştürücüsü" gibi düşünebilirsin.
DataFrame.convert_dtypes(infer_objects=True, convert_string=True, <br/>convert_integer=True, convert_boolean=True, convert_floating=True, <br/>dtype_backend='numpy_nullable')
drop() Veri Çerçevesinden Satır ya da Sütun Silmek istediğimizde drop() metodunu kullanabiliriz. Ör. df.drop("Satır ya da Sütun Adı", axis= 0 / 1, inplace= True / False)
...drop(axis=) axis parametresi, satırın mı? sütunun mu? silinmesi gerektiğini belirtir.axis = 0 Satırları, axis = 1 Sütunları temsil eder. Ör. df.drop("Yıl", axis=1)
...drop(inplace=) inplace parametresi, gerçekleştirilen silme işleminin kalıcı ya da geçici olmasını ayarladığımız kısımdır. inplace = True yazılırsa, yapılan işlem kalıcı hale gelecektir. Ör. df.drop("Ortalama", axis=0 inplace = True)
drop_duplicates() Veri çerçevemizde çift kayıt varsa, yani tüm veriler aynı olan birden fazla satır verisi varsa, bunlardan biri kalacak şekilde diğerlerinin silmek için df.drop_duplicates() metodunu kullanırız.
...drop_duplicates(subset=) Tüm satır verisi aynı olmasa da, sadece belirtilen sütunda aynı değere sahip verilerden birinin kalıp diğerlerinin silinmesini istersek subset parametresini kullanırız.  Ör. df.drop_duplicates(subset=["iş-meslek"])
...drop_duplicates(keep=) Çift verilerden İlki mi? sonuncu mu kalacak, buna karar vermek için keep parametresini kullanmamız gerekecek.  Ör.df.drop_duplicates(subset=["iş-meslek"], keep="last")
df["Yeni_Sütun_Adı"] = Atanacak_Değerler Veri Çerçevesi (DataFrame) Yeni Sütun eklemek ve bu sütuna Değer Atamak için bu yapıyı kullanabiliriz. Atanacak_Değerler, Liste yapısında olabileceği gibi, Diğer sütunların kopyası, matematik, mantık ya da karşılaştırma operatörleri ile belirlenmiş halleri de olabilir. Ör. df[“Toplam”] = df[“Sütun1”] + df[“Sütun2”]
pop() Veri çerçevemizdeki belirli bir sütunu hem kaldırır hem de kaldırdığı bu sütunu bir Series olarak size geri verir.  Orijinal Veri çerçevemizde artık o sütun olmaz
 pop() metodu ile doğrudan satır silinemez.
replace() Bir DataFrame içindeki belirli değerleri bulup, onları istediğiniz yeni değerlerle değiştirmenizi sağlar. Kısaca "Bul ve Değiştir" işlevidir.
 DataFrame.replace(to_replace=None, value=<no_default>, *, <br/>inplace=False, limit=None, regex=False, method=<no_default>)
resample() Zaman serisi verilerinin frekansını dönüştürmek ve yeniden örneklemek için kullanılır.
 DataFrame.resample(rule, axis=<no_default>, closed=None, label=None, <br/>convention='start', kind=<no_default>, on=None, level=None, <br/>origin='start_day', offset=None, group_keys=False)
set_index() Veri Çerçevesi oluşturduktan sonra, istediğimiz zaman indeks değerlerini değiştiremek / atamak için set_index() parametresi kullanılır. Ör. df.set_index(“Sütun_adı”)
to_frame() Serileri DataFrame'e dönüştürür. Ör: df.to_frame()
to_numpy() DataFrame'i bir NumPy dizisine dönüştürür. Ör: df.to_numpy()
transpose() Satırları sütuna, sütunları satıra çevirme işlemini transpose() fonksiyonu yardımıyla gerçekleştirebiliriz. Ör. df.transpose()

VERİ ÇERÇEVESİ BİRLEŞTİRME YÖNTEMLERİ

Fonksiyon / Metot / Parametre Açıklama
concat() Veri çerçeveleri alt alta ya da yan yana birleştirir. Varsayılan değer satır bazlı yani alt alta birleşimdir. Ör.pd.concat([df1, df2])
...concat(axis=) axis parametresi, 0 ve 1 değerlerini alır, 0 satırları, 1 ise sütunları temsil eder . Ör.pd.concat([df1, df2], axis=1)
join() join() metodu, Veri çerçevelerini matematik dersinteki Kümeler konusu mantığıyla birleştirirjoin() metodu, parametresiz kullanıldığında, varsayılan olarak left join (how = "left") değerini alır. Ör. df1.join(df4)
...join(how=) Veri çerçevelerinin, sağdaki ya da soldaki veri çerçevesine göre dahil edilme seçeneğini ayarlayabilir, veri çerçevelerinin birleşimini ya da kesişimini de alabiliriz. how parametresi, left, right, inner ve outer değerlerini alır. Varsayılan değer left'tir. (left join)
...join(how="left") Sol tarafta yazılan veri çerçevesi temel alınır, (sağ tarafta yazılan veri çerçevesinde varsa), bu değerlerle birleştirilirÖr. df1.join(df4, how="left")
...join(how="right") Sağ tarafta yazılan veri çerçevesi temel alınır, (sol tarafta yazılan veri çerçevesinde varsa), bu değerlerle birleştirilirÖr. df1.join(df4, how="right")
...join(how="outer") Birleşik küme mantığı ile birleştirme işlemi gerçekleşir. Her iki veri çerçevesi TÜM İÇERİK alınıp, yanyana birleştirilir**.  Ör.df1.join(df4, how="outer")
...join(how="inner") Kesişim kümesi mantığı ile birleştirme işlemi gerçekleşir. İki veri çerçevesinde ORTAK İNDEKS DEĞERLERİNE sahip satırlar alınır, yanyana birleştirilir. Ör. df1.join(df4, how="inner")
merge() join() fonksiyonuna benzer ancak bazı farklı özellikleri vardır. Veri Çerçevesi veya adlandırılmış Seri nesneleri veritabanı stili birleştirme yöntemi ile (SQL’de bulunan inner join, outer join … ‘e benzer) birleştirmek için merge() fonksiyonunu kullanılabilir. Ör. DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)
...merge(how=) how parametresi, veri çerçevelerini birleştirirken matematikteki Kümeler konusuna benzer seçenekler sunar. merge()fonksiyonunda how parametresi kullanılmadığı taktirde varsayılan olarak inner seçeneği belirtilmiş olur ve birleştirilecek veri çerçevelerinin sadece ortak değerleri alınarak birleştirme işlemi gerçekleştirilir. Ör. pd.merge(vize, final, on = "Ogrenci", how = "inner")
how Parametresi için kullanılabilecek seçenekler:

inner (varsayılan)
outer
left
right
cross
...... merge(how="inner") İki veri çerçevesinde de bulunan ortak değerleri birleştirir. how = "inner" ibaresini yazsak ta yazmasak ta aynı sonucu elde ederiz. Ör. pd.merge(vize, final, on = "Ogrenci", how = "inner")
......merge(how="outer") İki veri çerçevesinde bulunan tüm değerler birleştirilir. Sol tarafta yazılan veri çerçevesindeki değerler temel alınır. İki veri çerçevesinde bulunan ortak değerler korunur, aksi halde eksik değerler için NaN değeri atanır. Ör. pd.merge(vize, final, on = "Ogrenci", how = "outer")
...... merge(how="left") Yapılan birleştirme işleminde, sol tarafta yazılan veri çerçevesinin tüm değerlerini alır ve sağ tarafta yazılan veri çerçevesindeki ortak değerleri tabloya ekler. Solda yazılan veri çerçevesindeki değerlerin, sağda yazılan veri çerçevesinde karşılığı yoksa, ilgili sütuna NaN değeri atanır. Sağ tarafta yazılan veri çerçevesinin, sol tarafta yazılan veri çerçevesinde karşılığı yoksa, bu değerler yok sayılır, birleştirme işlemine dahil edilmez. Ör. pd.merge(vize, final, on = "Ogrenci", how = "left")
...... merge(how="right") Yapılan birleştirme işleminde, sağ tarafta yazılan veri çerçevesinin tüm değerlerini alır ve sol tarafta yazılan veri çerçevesindeki ortak değerleri tabloya ekler. Sağda yazılan veri çerçevesindeki değerlerin, solda yazılan veri çerçevesinde karşılığı yoksa, ilgili sütuna NaN değeri atanır. Sol tarafta yazılan veri çerçevesinin, sağ tarafta yazılan veri çerçevesinde karşılığı yoksa, bu değerler yok sayılır, birleştirme işlemine dahil edilmez. Ör. pd.merge(vize, final, on = "Ogrenci", how = "right")
...... merge(how="cross") cross seçeneği sonucunda, kartezyen çarpımı yöntemi ile birleştirme yapılır. Ör. pd.merge(veri1, veri2, how="cross")
...... merge(left_on=) Soldaki Veri Çerçevesi üzerinde birleştirmenin hangi düzeyde yapılacağını belirtmek için kullanılır. Sütun başlıklarının sonuna varsayılan _x ve _y sonekleri eklenir.
left_on parametresi, etiket veya liste ya da dizi benzeri veri alır. Ör. df1.merge(df2, left_on='Manav_1', right_on='Manav_2')
...merge(on=) onparametresi, Veri Çerçevelerinin hangi sütun baz alınarak birleştirileceğini belirteceğimiz parametredir. Ör. pd.merge(vize, final, on = "Ogrenci")
...... merge(right_on=) Sağdaki Veri Çerçevesi üzerinde birleştirmenin hangi düzeyde yapılacağını belirtmek için kullanılır. Sütun başlıklarının sonuna varsayılan _x ve _y sonekleri eklenir.
right_on parametresi, etiket veya liste ya da dizi benzeri veri alır. Ör. df1.merge(df2, right_on='Manav_1', left_on='Manav_2')
...... merge(suffixes=) merge()fonksiyonu ile birleştirme işlemi sonucunda, sütun başlıklarının sonuna eklenen _x ve _y değerini değiştirmek ve sütun başlıklarının sonuna, istediğimiz değeri eklemek için suffixes parametresini kullanırız. Ör. df1.merge(df2, left_on='Manav_1', right_on='Manav_2', suffixes=("_bir", "_iki"))

VERİ SIRALAMA YÖNTEMLERİ

Fonksiyon / Metot / Parametre Açıklama
reindex() reindex(), Pandas'ta temel veri sıralama (hizalama) yöntemlerinden biridir. Bir veri çerçevesinin satır ya da sütunlarını yeniden sıralamak için kullanılan en yaygın yöntemdir. Bu fonksiyon, hem seçim hem de sıralama (Dilimleme ve Filtreleme) mantığıyla çalışır. df.reindex(["Fight Club ", "Pulp Fiction", "Inception", "The Godfather ", "The Dark Knight ", "Seven Samurai "])
... columns Sütun isimlerinin sırasını reindex() fonksiyonu yardımı ile değiştirmek istersek, columns parametresini kullanabiliriz. df.reindex(columns=["Puan", "Yıl", "Oylayan_Kişi"])
... axis Veri çerçevenizin indeks değerlerini (satırlar) ya da sütun isimlerini reindex() fonksiyonun, axis parametresi ile de sıralayabilirsiniz. Bu parametre index ya da columns seçeneğini alır;
...... index Belirtilen bir index değerine göre sıralama yapmak için axis parametresine index seçeneğini yazmalıyız. df.reindex([2,1,0], axis="index" bu kod ile index'i 2,1,0 şeklinde sıralamış olduk.
...... columns Belirtilen bir Sütun ismine göre sıralama yapmak için axis parametresine columns seçeneğini yazmalıyız. df.reindex(["S2","S1","S0"], axis="columns")
sort_index() Veri çerçevesini indeks (dizin) değerine göre alfabetik olarak sıralamak için kullanılır. df.sort_index()
... ascending Sıralamayı ters çevirmek için ascending=False parametresi kullanılabilir. df.sort_index(ascending=False)
... axis Sütunlarda (sütun isimlerini) sıralama yapmak istersek axis=1 parametresini kullanmamız gerekir. axis parametresinin varsayılan değeri 0 (sıfır) yani satırlardır. df.sort_index(axis=1) yazarak sütun isimlerinin alfabetik olarak sıralamış oluruz.
sort_values() Veri çerçevesini istenilen sütun(lar)a göre sıralamak istersek, sort_values() fonksiyonunu kullanmalıyız. df.sort_values(by="Yıl") bu kod ile Yıl sütununa göre sıralama yapmış olduk. Sıralama işlemini birden fazla sütuna göre yapmak istersek, sütun isimlerini köşeli parantez içinde yani bir liste olarak belirtmemiz gerekir. df.sort_values(by=["Puan", "Yıl"])
... ascending Sıralamayı ters çevirmek için ascending=False parametresi kullanılabilir. df.sort_values(by="Yıl", ascending=False)
... na_position sort_values() fonksiyonu, na_position parametresi aracılığıyla NA (yani kayıp / eksik veri) değerlerini özel işleme tabi tutarak sıralayabilir. df2.sort_values(by= "Sütun_4", na_position="first") bu kod ile Sütun_4'e göre yapılacak sıralama işleminde, NaN değerlerini en üstte yer alır. Tersi istenirse na_position parametresine "last" seçeneğini vermemiz gerekir.

VERİ FİLTRELEME YÖNTEMLERİ

Fonksiyon / Metot / Parametre Açıklama
between() metodu Bir sayısal aralık belirterek filtreleme yapmak istersek between() metodunu kullanabiliriz. Örneği 1960 ile 1980 yılları arasındaki filmleri filtrelemeye çalışalım. df[df["Yıl"].between(1960,1980)]
== operatörü Veri çerçevesinin Yıl sütunu 2010'a eşit olan verileri filtrelemek istersek; df[df["Yıl"] == 2010]
!= operatörü Veri çerçevesinin Yıl sütunu 20210'a eşit olmayan verileri filtrelemek istersek; df[df["Yıl"] != 2010]
> operatörü Veri çerçevesinin Yıl sütunu 2015'ten büyük olan verileri filtrelemek istersek; df[df["Yıl"] > 2015]
< operatörü Veri çerçevesinin Yıl sütunu 2015'ten küçük olan verileri filtrelemek istersek; df[df["Yıl"] < 2015]
>= operaörü Veri çerçevesinin Puan sütununda 8.8 ve üzeri değere sahip verileri filtrelemek istersek; df[df["Puan"] >= 8.8]
<= operatörü Veri çerçevesinin Puan sütununda 8.8 ve küçük değere sahip verileri filtrelemek istersek; df[df["Puan"] <= 8.8]
& operatörü Birden fazla kriter içeren filtreleme işlemi uygulamak istersek,  İki kriteri bir arada kullanmak istediğimizde VE simgesi olan & kullanılmalı;
filtre1 = df["MİKTAR"] > 80 
filtre2 = df["deger"] < 100
df[filtre1 & filtre2]
ǀ operatörü Birden fazla kriter içeren filtreleme işlemi uygulamak istersek,  İki kriterden biri sağlandığında filtrelemek istediğimizde YA DA / VEYA simgesi olan ǀ kullanılmalı;
filtre1 = df["MİKTAR"] > 80 
filtre2 = df["deger"] < 100
df[filtre1 ǀ filtre2]

VERİ GRUPLAMA YÖNTEMLERİ

Fonksiyon / Metot / Parametre Açıklama
groupby() Metodu Verileri gruplayarak, grupların toplam değerleri, ortalama değerleri, grupta kaç adet veri bulunduğu, gruptaki verilerden en küçük ya da en büyük verinin hangisi olduğu gibi pek çok bilgi edinmek için, groupby() metodund
... grouper() Nesnesi Grouper metodu, kullanıcının bir nesne için groupby() komutunu belirlemesine olanak tanır. Bu belirleme, anahtar parametresi aracılığıyla bir sütunu veya seviye ve/veya eksen parametreleri verilmişse, hedef nesnenin dizin seviyesini seçer. Eksen ve/veya seviye, hem Grouper hem de groupby'ye anahtar kelime olarak aktarılırsa, Grouper'a aktarılan değerler öncelikli olur.

STRİNG METOTLARI

Fonksiyon / Metot / Parametre Açıklama
str Metotları Filtreleme esnasında String Metotlarını kullanmak için str kelimesinden yararlanıyoruz.
... str.capitalize() "Film Adı" sütunundaki tüm metinsel ifadelerin sadece baş harflerini büyük harf çevirir. 
df["Film Adı"] = df[“Film Adı”].str.capitalize()
... str.contains() String metotlarından biri olan contains ile metin içerisinde içeren kelime ya da kelimeleri aratabiliyoruz df[df["Film Adı"].str.contains("star wars")]
... str.endswith() endswith() metodu ile bir karakter dizisinin hangi karakter veya karakterlerle bittiğini denetleyebiliriz. Örneğin Ü harfi ile biten malzemeleri filtreleyelim; df[df["MALZEME"].str.endswith("Ü")]
... str.get() Bir string'in istediğimiz karakterini elde edebiliriz. df["Sütun_adı"].str.get(0) -> Sütunlardaki ilk Karakteri döndürür.
... str.lower() "Film Adı" sütunundaki tüm metinsel ifadeleri küçük harfe dönüştürmek istersek lower() metodunu kullanmalıyız;
df["Film Adı"] = df["Film Adı"].str.lower()
... str.slice() bir string'in istediğimiz karakter aralığını elde edebiliriz.
df["Sütun_adı"].str.slice(0,3) -> Sütunlardaki ilk cüç karakteri döndürür.
... str.startswith() startswith() metodu ile bir karakter dizisinin hangi karakter veya karakterlerle başladığını denetleyebiliriz. Örneğin E harfi ile başlayan malzemeleri filtreleyelim; df[df["MALZEME"].str.startswith("E")]
... str.upper() "Film Adı" sütunundaki tüm metinsel ifadeleri büyük harfe dönüştürmek istersek upper() metodunu kullanmalıyız;
df["Film Adı"] = df["Film Adı"].str.upper()

VERİYİ DIŞA AKTAR / FARKLI BİÇİMDE KAYDET

Fonksiyon / Metot / Parametre Açıklama
to_csv() Veri Çerçevesini CSV dosyası olarak Dışa Aktar/Kaydet. df.to_csv(“dosya_adı.csv”)
to_excel() Veri Çerçevesini Excel / Calc olarak Dışa Aktar/Kaydet xls, xlsx, xlsm, xlsb, odf, ods ve odt uzantılı dosyalar desteklenir. df.to_excel(“dosya_adı.xlsx”)
to_json() Veri Çerçevesini JSON dosyası olarak Dışa Aktar/Kaydet. df.to_json(“dosya_adı.json”)
to_sql() Veri Çerçevesini SQL Veri Tabanı olarak Dışa Aktar/Kaydet. df.to_sql(tablo_adı,baglantı_nesnesi)