Veri Bilimi yolculuğumuzda hepimiz Pandas’la karşılaşmış olmalıyız. Verileri ayrıştırma, veri görselleştirmeleri oluşturma, istatistiksel işlemleri gerçekleştirme gibi çeşitli işlemlerin gerçekleştirilmesine yardımcı olan en çok kullanılan Python kitaplıklarından biridir.
Ancak büyük veri kümeleriyle uğraşıyorsak Pandas biraz yavaş olabilir, bu verileri yüklemek ve üzerinde işlem yapmak zaman alır. Peki, büyük veri kümeleri için nasıl daha hızlı hale getirebiliriz? Pandas kütüphanesini hızlandırmak için açık kaynaklı bir Python kütüphanesi olan Modin’i kullanabiliriz.
Bu yazıda Modin’in nasıl kullanılacağını keşfedeceğiz ve ayrıca Pandas ile karşılaştıracağız.
Gerekli Kütüphaneyi Yükleme
Pip kullanıp bir Modin kurarak başlayacağız. Aşağıda verilen komut bunu yapacaktır.
!pip install modin[dask]
Gerekli Kütüphaneyi İçe Aktarma
Bu adımda, gerekli kitaplıkları, Pandas ve Modin’i içe aktaracağız, çünkü her ikisinin de bir veri kümesini yüklemek için harcadıkları zamanı karşılaştıracağız.
import modin.pandas as mpd
import pandas as pd
Pandas ve Modin’i Karşılaştırmak
Bu adımda, her ikisi tarafından harcanan zamanı karşılaştırmak için hem Pandas’ı hem de Modin’i kullanarak veri setini yükleyeceğiz. Bunun için herhangi bir veri setini kullanabilirsiniz. Biz ünlü Diyabet veri setini kullanıyoruz.
%%time
df1 = pd.read_csv(“/content/Diabetes.csv”)
%%time
df2 = mpd.read_csv(“/content/Diabetes.csv”)
Modin’in veri setini yüklemek için nasıl daha az zaman aldığını görüyorsunuz, benzer şekilde diğer tüm işlemleri yaparken de zaman kazandıracak.
Bunu farklı veri kümeleriyle deneyin ve Modin kullanarak Pandas işlemleri yapın ve zamandan tasarruf edin.