Python’da Veri Analizi ve Görselleştirme: Detaylı Bir Rehber

Python, veri analizi ve görselleştirme için en popüler programlama dillerinden biridir. Güçlü kütüphaneleri sayesinde verileri kolayca işleyebilir, analiz edebilir ve görselleştirebilirsiniz. Bu yazıda, Python’da veri analizi ve görselleştirme için kullanılan temel araçları ve teknikleri öğreneceksiniz.
1. Giriş
Veri analizi, verilerin anlamlı bilgiye dönüştürülmesi sürecidir. Bu süreçte verilerin toplanması, temizlenmesi, işlenmesi ve analiz edilmesi yer alır. Python, bu süreçleri kolaylaştırmak için çeşitli kütüphaneler sunar.
1.1. Gerekli Kütüphaneler
Veri analizi ve görselleştirme için yaygın olarak kullanılan kütüphaneler şunlardır:
- NumPy: Sayısal hesaplamalar için temel bir kütüphane.
- Pandas: Veri işleme ve analiz için güçlü araçlar sunan kütüphane.
- Matplotlib: Verilerin görselleştirilmesi için temel kütüphane.
- Seaborn: Matplotlib üzerine kurulu, istatistiksel verilerin görselleştirilmesini kolaylaştıran kütüphane.
Bu kütüphaneleri yüklemek için şu komutu kullanabilirsiniz:
pip install numpy pandas matplotlib seaborn
2. NumPy ile Sayısal Hesaplamalar
NumPy, büyük çok boyutlu diziler ve matrislerle çalışmayı kolaylaştırır. Ayrıca bu diziler üzerinde yüksek performanslı matematiksel işlemler yapmanızı sağlar.
2.1. NumPy Dizileri
NumPy dizisi oluşturmak için numpy
kütüphanesini kullanabilirsiniz:
import numpy as np
# Tek boyutlu dizi
dizi = np.array([1, 2, 3, 4, 5])
print(dizi)
# İki boyutlu dizi (matris)
matris = np.array([[1, 2, 3], [4, 5, 6]])
print(matris)
2.2. NumPy Fonksiyonları
NumPy, çeşitli matematiksel işlemler için yerleşik fonksiyonlar sağlar:
# Rastgele dizi oluşturma
rastgele_dizi = np.random.rand(3, 3)
print(rastgele_dizi)
# Dizinin ortalamasını hesaplama
ortalama = np.mean(dizi)
print(ortalama)
# Matris çarpımı
matris_carpimi = np.dot(matris, matris.T)
print(matris_carpimi)
3. Pandas ile Veri İşleme ve Analiz
Pandas, verileri kolayca manipüle etmenize ve analiz etmenize olanak tanır. İki temel veri yapısı vardır: Series
ve DataFrame
.
3.1. Pandas Series
Series
, etiketlenmiş bir veri yapısıdır:
import pandas as pd
# Basit bir Series oluşturma
veriler = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(veriler)
3.2. Pandas DataFrame
DataFrame
, iki boyutlu, etiketlenmiş bir veri yapısıdır:
# DataFrame oluşturma
data = {
"isim": ["Ahmet", "Ayşe", "Mehmet", "Fatma"],
"yas": [23, 45, 34, 42],
"sehir": ["İstanbul", "Ankara", "İzmir", "Bursa"]
}
df = pd.DataFrame(data)
print(df)
3.3. Veri Okuma ve Yazma
Pandas, çeşitli veri formatlarını okuma ve yazma yeteneğine sahiptir:
# CSV dosyasını okuma
df = pd.read_csv("ornek.csv")
# Excel dosyasını okuma
df = pd.read_excel("ornek.xlsx")
# Veriyi CSV dosyasına yazma
df.to_csv("cikti.csv", index=False)
3.4. Veri Manipülasyonu
Pandas ile verileri manipüle etmek çok kolaydır:
# Verilerin özet istatistikleri
print(df.describe())
# Belirli bir sütunu seçme
print(df["isim"])
# Filtreleme
print(df[df["yas"] > 30])
# Yeni sütun ekleme
df["yas_grubu"] = ["Genç" if yas < 30 else "Orta" for yas in df["yas"]]
print(df)
4. Matplotlib ile Veri Görselleştirme
Matplotlib, verileri görselleştirmek için kullanılan temel kütüphanedir.
4.1. Basit Grafikler
Matplotlib ile basit grafikler oluşturabilirsiniz:
import matplotlib.pyplot as plt
# Çizgi grafiği
plt.plot(df["isim"], df["yas"])
plt.xlabel("İsim")
plt.ylabel("Yaş")
plt.title("Yaş Dağılımı")
plt.show()
# Çubuk grafiği
plt.bar(df["isim"], df["yas"])
plt.xlabel("İsim")
plt.ylabel("Yaş")
plt.title("Yaş Dağılımı")
plt.show()
5. Seaborn ile Gelişmiş Görselleştirme
Seaborn, Matplotlib üzerine kurulu olup, daha çekici ve bilgilendirici grafikler oluşturmanızı sağlar.
5.1. Seaborn Grafikleri
Seaborn ile çeşitli grafikler oluşturabilirsiniz:
import seaborn as sns
# Dağılım grafiği
sns.scatterplot(x="isim", y="yas", data=df)
plt.title("Yaş Dağılımı")
plt.show()
# Kutu grafiği
sns.boxplot(x="sehir", y="yas", data=df)
plt.title("Şehirlere Göre Yaş Dağılımı")
plt.show()
6. Sonuç
Bu yazıda, Python’da veri analizi ve görselleştirme konularını detaylı bir şekilde ele aldık. NumPy ile sayısal hesaplamalar yapmayı, Pandas ile verileri işlemeyi ve analiz etmeyi, Matplotlib ve Seaborn ile verileri görselleştirmeyi öğrendik. Bu araçlar ve teknikler, veri analizi projelerinizde size büyük avantaj sağlayacaktır.
Daha Fazlası İçin
ChatGPT ile Python Eğitimi sayfamızı ziyaret ederek daha fazla kaynağa ulaşabilirsiniz.