Veri Görselleştirme : Matplotlib & Seaborn
Merhabalar, Python ile veri analizi konusunun son yazısına hoş geldiniz! Diğer 3 yazıyı incelemediyseniz Veri Bilimi İçin Python , Python ile Veri Analizi, Gelişmiş Fonksiyonel Keşifçi Veri Analiz yazılarını sırasıyla incelemenizi öneririm.
Veri Görselleştirme Nedir?
Veri görselleştirme, veriyi grafik, şema, grafikler veya tablolar gibi görsel öğeler kullanarak temsil etme sürecidir. Veri görselleştirme, anlayış kazanma, karar verme ve veriyi başkalarına etkili bir şekilde iletmek için yaygın olarak kullanılan bir araçtır.
Matplotlib
Düşük seviyede veri görselleştirme kütüphanesidir.
Kategorik Değişken Görselleştirme
Kategorik değişkenleri görselleştirmek için sütun grafik, countplot ve bar grafikleri kullanılır.
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt # veri görselleştirme kütüphanesini olan matplotlib kütüphanesini plt olarak import ediyoruz.
pd.set_option(‘display.max_columns’, None)
pd.set_option(‘display.width’, 500)
df = sns.load_dataset(“titanic”)
df.head()
df[‘sex’].value_counts().plot(kind=’bar’) #kind ile grafik türünü belirliyoruz.
plt.show() #show() metodu ile grafiği ekrana bastırıyoruz.
Sayısal Değişken Görselleştirme
Sayısal değişkenleri görselleştirmek için hist ve boxplot grafikleri kullanılır.
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
pd.set_option(‘display.max_columns’, None)
pd.set_option(‘display.width’, 500)
df = sns.load_dataset(“titanic”)
df.head()
plt.hist(df[“age”])
plt.show()
plt.boxplot(df[“fare”])
plt.show()
# Matplotlib’in Özellikleri
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option(‘display.max_columns’, None)
pd.set_option(‘display.width’, 500)
# plot
x = np.array([1, 8])
y = np.array([0, 150])
plt.plot(x, y)
plt.show()
plt.plot(x, y, ‘o’)
plt.show()
x = np.array([2, 4, 6, 8, 10])
y = np.array([1, 3, 5, 7, 9])
marker
y = np.array([13, 28, 11, 100, ] # x ekseninde y’nin index’leri yer alır.
plt.plot(y, marker=’o’)
plt.show()
plt.plot(y, marker=’*’)
plt.show()
markers = [‘o’, ‘*’, ‘.’, ‘,’, ‘x’, ‘X’, ‘+’, ‘P’, ‘s’, ‘D’, ‘d’, ‘p’, ‘H’, ‘h’]
line
y = np.array([13, 28, 11, 100])
plt.plot(y, linestyle=”dashdot”, color=”r”)
plt.show()
Multiple Lines
x = np.array([23, 18, 31, 10])
y = np.array([13, 28, 11, 100])
plt.plot(x)
plt.plot(y)
plt.show()
Labels
x = np.array([80, 85, 90, 95, 100, 105, 110, 115, 120, 125])
y = np.array([240, 250, 260, 270, 280, 290, 300, 310, 320, 330])
plt.plot(x, y)
# Başlık
plt.title(“Bu ana başlık”)
# X eksenini isimlendirme
plt.xlabel(“X ekseni isimlendirmesi”)
plt.ylabel(“Y ekseni isimlendirmesi”)
plt.grid()
plt.show()
Subplots
# plot 1
x = np.array([80, 85, 90, 95, 100, 105, 110, 115, 120, 125])
y = np.array([240, 250, 260, 270, 280, 290, 300, 310, 320, 330])
plt.subplot(1, 2, 1) # 1 satırlık 2 sütunluk grafiğimiziz 1. sütunu
plt.title(“1”)
plt.plot(x, y)
plt.show()
# plot 2
x = np.array([8, 8, 9, 9, 10, 15, 11, 15, 12, 15])
y = np.array([24, 20, 26, 27, 280, 29, 30, 30, 30, 30])
plt.subplot(1, 2, 2) # 1 satırlık 2 sütunluk bir grafiğin 2. sütununu ekrana bastırıyoruz. Aynı anda her iki grafiğinde yan yana gelmesini istiyorsak diğer grafiği kapatmıyoruz.
plt.title(“2”)
plt.plot(x, y)
plt.show()
SEABORN
Veri görselleştirme kütüphanesidir. Yüksek seviye bir kütüphane, daha az çabayla daha kolay bir şekilde grafik oluşturma imkanı sağlar.
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
df = sns.load_dataset(“tips”)
df.head()
df[“sex”].value_counts()
sns.countplot(x=df[“sex”], data=df) # x eksenindeki değeri ve y eksenindeki değerleri belirliyoruz.
plt.show()
Sayısal Değişken Görselleştirme
sns.boxplot(x=df[“total_bill”])
plt.show()
df[“total_bill”].hist()
plt.show()
Python ile Veri Analizi konularının sonuna geldik. Gerçek projelere hazır mısınız? Cevabınız evet ise takipte kalın!
Kaynak olarak katılımcısı olduğum Data Scientist Bootcamp kurs içeriği kullanılmıştır. Vahit Keskin’e teşekkürü borç bilirim.
Linkedin’de daha yakından tanışabiliriz :) yaseminderyadilli